Что такое robots.txt?
Зачем нужен robots.txt?
Правила для robots.txt?
Примеры корректного robots.txt
И пришел паук…
И как вы думаете что в первую очередь он будет искать у вас на сайте? Если паук (робот, поисковый бот) правильный, и его прислала авторитетная поисковая система, то робот, посетивший вас, попытается найти для себя «распоряжения», которые вы для него предусмотрительно оставили. А если не оставляли то очень плохо. Распоряжения вы должны были внести в текстовый документ с именем robots.txt. Если этот документ отсутствует вот по такому адресу http://vashsait.ru/robots.txt то бот начнет совать свой нос, куда не следует. Насобирает лишнего и отправится восвояси, а нам это вовсе не к чему поэтому давайте разбираться с тем, что нужно вписать в этот документ и как правильно это сделать.
Зачем нужен robots.txt
Нам уже в принципе ясно. Кстати не вздумайте назвать его к примеру Robots.txt, robot.txt, или что то в этом духе, это будет грубейшей ошибкой. Все знаки в имени файла должны быть на латинице, и непременно в нижнем регистре, имя этого файла должно быть таким: robots.txt и ни как иначе. Этот файл создается только с одной целью, управление действиями робота на вашем сайте, ну конечно гопака вы бота танцевать не заставите, а вот запретить посещать служебные разделы, или запретить индексировать какие-то страницы на сайте вы можете.
Что писать в robots.txt
Первая строка (поле) не что иное как имя робота, к примеру, робот Яндекса:
Последующие поля это инструкции или комментарии для ботов, в одном документе можно прописать инструкции сразу для нескольких роботов, по очереди, или же обратиться ко всем роботам сразу, если написать вот такую строку:
Это будет значить что нижеследующие инструкции будут верны для всех ботов посещающих ваш сайт.
В следующем поле пишется директива (инструкция) для роботов – Disallow, такая директива запрещает паукам индексировать какой либо файл или каталог, например, так:
Disallow: vasya.htm
Данная запись означает, что боту Яндекса не следует индексировать файл vasya.htm.
Если вы хотите запретить к индексации, допустим служебный каталог admin, со всеми находящимися в нем подкаталогами и файлами, то запись будет такой:
Disallow: /admin
Если вы вписали директиву Disallow, а после двоеточия ни чего не написали, то это значит, что сайт полностью открыт к индексации:
Disallow:
Следующий документ разрешает индексировать весь сайт, и всем роботам:
Disallow:
Нужно сказать, что последний пример лучше не использовать, так как это будет то же самое, как если бы у вас совсем не было robots.txt, страшного конечно в этом ни чего нет, скорее это считается «правилом плохого тона».
Для Google можно еще писать регулярные выражения, начинающиеся со знака * (звездочка заменяет в выражении имя файла или же любую последовательность символов), и завершает выражение знак $, который скажет роботу о том что строка завершена.
В следующем примере роботу Google запрещено индексировать все файлы, находящиеся на сайте, с расширением gif и rar
Disallow: * .gif$
Disallow: * .rar$
Как вы уже видите запретить роботам индексировать какие-то каталоги вашего сайта или файлы не так уж сложно, принцип тут простой все, что мы явно указываем, запрещается к индексации, а все остальное можно индексировать. Но директива Disallow не единственная, есть еще директива Host.
Зачем нужна директива Host?
Эта запись действует для Яндекса. Выглядеть будет так:
Disallow: /admin
Host: http://www.vashsait.ru
Скажет роботу Яндекса, что сайт http://www.vashsait.ru является основным зеркалом. Зеркало, это, как правило, частичная или полная копия какого то сайта. Копии сайтов делаются, как правило, если вы владелец большого и посещаемого ресурса, и вам нужно снять нагрузку с сайта и повысить его надежность и работоспособность. Этой записью мы сообщаем Яндексу, что нужно индексировать основной сайт, а его дубли являются неосновными зеркалами (копиями) и они не будут проиндексированы. Если вы имеете зеркала то вам обязательно нужно прописывать директиву Host, иначе Яндекс выберет зеркало на свое усмотрение, и будет проиндексировано не то зеркало что вам нужно.
Составляя robots.txt будьте предельно внимательны и перепроверьте свою работу, лишний раз, так как одна ошибка и о вашем сайте будут знать только ваши друзья.
Оптимизация 0 коммент.