Програмируем роботов
По сути robots.txt никогда не был официальным стандартом, и не гарантирует, что все пауки в обязательном порядке будут придерживаться его в дальнейшем. Тем не менее, неофициальный статус документа не уменьшает его важности. Большинство роботов, первым делом попав на сайт, ищут именно этот файлик, дабы узнать, что им позволено индексировать. Структура файла выглядит следующим образом: User-agent содержит название робота User-agent: googlebot Если нужно обратиться ко всем роботам, то строка будет выглядеть User-agent: * Следующая часть документа содержит в себе записи Disallow, запрещающие доступ к тем, или иным страницам Disallow: admin.php Или папкам Disallow: /cgi-bin/ Запись Disallow: /user запретит поисковикам индексировать и директорию site.com/user и страницу user.htm Disallow: - позволит анализировать все содержимое сайта Disallow: / - запрещает роботам доступ ко все страницам и папкам
Вместе с простыми обращениями к поисковикам в robots.txt возможно вставлять и комментарии, которые должны начинаться с символа # и идти с новой строки Помимо стандартных команд каждый робот может использовать и свои отдельные записи. Так Google использует Allow, чтобы обозначить файлы, к которым разрешен доступ, Яндекс, благодаря директиве Host определяет главное зеркало сайта и т.п.
Пример
В выше описанном примере запрещается доступ Гуглу ко всем фалам, кроме папки content, разрешается неограниченный анализ страниц Яндексу и запрещается индексирование папок nodte, vision и файла history.htm всем остальными поисковикам. Правила Существует несколько правил написания и размещения документа: 1. Находиться файл должен в корне сайта (http://site.com/robots.txt) 2. Имя должно бить robots.txt, а не Robots.txt или rObOTs.txt 3. Хост следует писать без слеша в конце и без http:// (правильно - Host: site.com) 4. Документ должен создаваться в текстовом формате Unix 5. Если нужно оставить открытым доступ ко всем файлам, оставьте поле Disallow пустым, но не упускайте его Роботы Яндекс – Yandex Рамблер – StackRambler Google – googlebot, Googlebot-Image (бот поиска картинок) Yahoo - Yahoo! Slurp (одно название) MSN – msnbot (главный), есть также msnbot-products, msnbot-news, msnbot-MM Апорт– Aport Webalta – Webalta Webcrawler - Webcrawler Lycra - Lycra Запретить индексировать страницы поисковикам можно не только используя файл robots.txt, для этого подойдет также Мета-тег Robots. NOFOLLOW/FOLLOW – запрещает/позволяет роботу переходить по внешним ссылкам NOINDEX/INDEX – запрещает/позволяет индексировать страницу Пример <META NAME=”ROBOTS” CONTENT=”NOFOLLOW”> - тег запрещает всем поисковикам переходить по внешним ссылкам <META NAME=”GOOGLEBOT” CONTENT=”INDEX, FOLLOW”> - тег позволяет гуглу индексировать страницу и переходить по внешним ссылкам Чтобы запретить всем роботам переходить по внешним ссылкам на странице в шапку сайта нужно вставить мета-тег <META NAME=”ROBOTS” CONTENT=”NOFOLLOW”>, чтобы запретить индексировать страницу поисковику Гугла нужно прописать <META NAME=”GOOGLEBOT” CONTENT=”NOINDEX, NOFOLLOW”>
Пример robots.txt с сайта CNN.com
Как видим в документе, для улучшения анализа, можно также указать путь к карте сайта P.S. Интересно почему CNN закрыло индексацию каталога NOKIA)) А вот сюда не кликать! |
![]()
|