Хотите продать новые картрижи? Компания Kart-Center занимается скупкой новых картриджей от принтеров, копиров и МФУ по выгодным ценам.
Если вы занимаетесь, либо только собираетесь заняться, созданием сайтов, то наверняка просматривали образцы уде готовых проектов и обращали внимание на присутствие в них файлов напрямую не относящихся к контенту, выводимому пользователям. Такие как .htaccess, sitemaps.xml, robots.txt и др.
Давайте сегодня рассмотрим, что же представляет собой файл robots.txt, и для чего он нужен. Начнем с того, что данный файл предназначен для поисковых роботов индексирующих страницы вашего сайта. И с помощью директив, прописываемых в этом файле, мы можем разрешить, запретить или ограничить индексацию, как отдельных файлов, так и целых директорий.
В общем-то, можно вообще запретить индексацию сайта, только случаев для применения таких крайних мер очень мало. А вот запреты и ограничения используются очень широк. Вот некоторые случаи необходимости запрета индексации:
Прежде всего, это касается директории администрирования — зачем индексировать папку admin если в ней нет контента?
Папки с изображениями и другими медиа файлами также нет смысла индексировать. Если вы конечно не ярый фанат яндекс- и гугл-картинок, и просто мечтаете, чтобы ваши фотографии там оказались. Только, к примеру, робот YandexImages ходит довольно редко и у него до ужаса жесткие критерии индексации. К тому же для него можно прописать отдельные директивы.
Конечно же, неуникальный (мягко говоря, ворованный) контент. Поисковики очень не любят плагиат, и если ваш сайт в нем уличат, то на продвижение в ТОП можете не рассчитывать.
И, что немаловажно для успешного продвижения, удаление дублей индексации с самого сайта. Здесь имеют место дублированные запросы домена с www и без, непродуманная перелинковка страниц сайта, чем особо грешат различные системы управления контентом и некорректная структура самого сайта.
Давайте рассмотрим основные директивы файла.
- User-Agent. Указывает какому роботу предназначаются нижестоящие директивы, написанные без пустых строк (пустая строка определяется роботом как конец блока директив и после нее обязательно должна быть срока User-Agent. Иначе файл будет считаться ошибочным и не будет учитываться поисковыми роботами).
- Disallow. Запрещает роботу индексировать определенный каталог или файл. В значении можно прописать название каталога, подкаталога или файла с обязательным указанием пути. Допускается применение регулярных выражений. Например знак $ означает конец строки. Если написать директиву Disallow: /*.php$, то все файлы с таким расширением индексироваться не будут. Или так: Disallow: /catalog$. Директория catalog индексироваться не будет, а вот, к примеру, файл catalog.html будет проиндексирован.
- Allow. Разрешает индексировать каталоги или файлы. Значения те же, что и у Disallow.
- Sitemap. Указываем полный путь к файлу карты сайта с разрешением .xml. Карта сайта с разрешением .html роботами не учитывается и нужна только пользователям. В чем я лично сильно сомневаюсь.
- Host. Данная директива учитывается только поисковыми роботами Яндекса и в ней прописывается основной адрес сайта. С www или без. Для остальных роботов данная директива прописывается в файле .htaccess.
Мы рассмотрели, конечно же, не полный список возможностей файла robots.txt, но рассмотренных директив будет вполне достаточно, чтобы составить грамотный robots. |