SEO: Что такое правильный Robots.txt?
Robots.txt — это стандартизированный в соответствии с плановыми протоколами текстовый файл, который находится в корневом каталоге продвигаемого сайта. В нем содержатся инструкции для роботов-аналитиков поисковых систем. Именно с помощью Robots.txt ботам можно запретить индексацию тех страниц и разделов сайта, индексация которых нежелательна, указать зеркало сайта, ну и, конечно же, указать путь к файлу sitemap. Необходимость наличия robots.txt можно отследить на примере запрета индексации техразделов сайта. Если техстраницы открыты для индексации, то робот-аналитик постарается устранить их из индекса, заодно отфильтровав полезные и нужные для индексации страницы.
Смотрите полный видеокурс на iTunes
Как создать robots.txt?
Как и все системные файлы правильный Robots.txt создается очень просто. Достаточно в плане базы использовать обычный Блокнот. Заполнив документ в Блокноте его нужно поместить в корневой каталог сайта. И естественно первое, что сделает робот-аналитик поисковой системы, когда займется индексацией вашего файла, это «прочтет» файл с инструкциями. Поскольку роботы-аналитики довольно избирательны, то нужно делать только правильный Robots.txt, без ошибок и неточностей.
Как настроить robots.txt?
Для того, чтобы настроить именно правильный robots.txt, нужно использовать директивы User-agent и Disallow. Первая из директив определяет, какой робот будет осуществлять запрет на индексацию (указанных во второй директиве страниц). Например: User-agent:* Disallow:/ - так выглядит запрет на индексацию для абсолютно всех роботов-аналитиков. Если после слова Disallow прописать точный путь к каталогу или странице, поисковый робот перестанет их индексировать. Запрещается прописывать сразу несколько путей в одной строке, строка попросту не будет работать и читаться. Если же вы хотите открыть файл или какую-либо директорию к индексированию, то для этого существует команда Allow.
Дополнительные директивы robots.txt:
Директива Host используется, если сайта имеет несколько зеркал. Директива указывает роботу-аналитику на основное зеркало сайта. Благодаря этой директиве поисковая система видит и фиксирует в выдаче нужное зеркало.
Директива Sitemap —директива, которая «ведет» поискового робота к файлу с картой сайта.
Директива Crawl-delay упрощает загрузку страниц и облегчает работу поисковому роботу. Необходима, если сайт содержит много страниц. Используя эту директиву, можно выставить нужное время для загрузки, например, давая команду Crawl-delay: 5 — вы зафиксируете, что пауза между загрузками будет 5 секунд.
Директива Request-rate в ответе за периодику загрузки страниц роботом-аналитиком. Пример: дана команда Request-rate: 1/10 —робот загружает одну страницу раз в 10 секунд.
Директива Visit-time создана для определения промежутка времени, в котором роботу разрешено «грузить» страницы. Время рекомендуется выставлять по Гринвичу, например, Visit-time: 0400-0600. Как видите система простая, достаточно сделать правильный Robots.txt и проблем стане гораздо меньше.
К чему приведет неправильная настройка robots.txt?
Некорректная настройка robots.txt грозит информированием всей Интернет-общественности о «глубоко-личной» конфиденциальной информации, которая содержится на некоторых страницах вашего сайта (например, страница с личными данными зарегистрированных покупателей и т.д.) и наоборот, запрет на ознакомление с предназначенными для этого страницами, содержащими данные о контенте, ссылочном облаке и т.д.
Как проверить правильность настройки robots.txt?
Чтобы проверить правильность robots.txt, нужно воспользоваться сервисом Яндекс.Вебмастер, который носит называние Анализ robots.txt. Для проверки впишите в поисковое поле имя проверяемого домена и через несколько минут увидите результат.