Файл robots.txt: создание, установка, применение

Правильная настройка файла robots.txt позволит исключить возможные проблемы, возникающие при индексации.

В частности, у владельца сайта имеется возможность ограничить индексирование служебных и личных разделов ресурса. Как создать файл и настроить его под разные поисковые системы, а также популярные CMS — поговорим в этой публикации.

Для чего нужен файл robots.txt

Как не трудно догадаться, этот файл содержит инструкции, предназначенные для поисковых ботов. Размещается он обязательно в корневой директории, благодаря чему индексацию страницы боты начнут именно с чтения условий, изложенных в robots.txt.

Таким образом, файл указывает поисковым роботам, какие директории сайта разрешены для индексирования, и какие этому процессу не подлежат.

Учитывая, что на процесс ранжирования наличие файла не влияет, много сайтов не содержат robots.txt. Но это не совсем верный путь. Рассмотрим преимущества robots.txt, которые он дает ресурсу.

Можно запретить индексирование ресурса целиком или частично, ограничить круг поисковых роботов, которые будут иметь право на проведение индексирования. Можно вовсе оградить ресурс от этого процесса (например, при создании или реконструкции сайта).

91-454x500 Файл robots.txt: создание, установка, применениеКроме того, файл роботс ограничивает доступ на ресурс всевозможных спам-роботов, цель которых — сканирование сайта на наличие электронных адресов, которые потом будут использоваться для рассылки спама. Не будем останавливаться на том, к чему это может привести — и так понятно.

От индексирования можно скрыть разделы сайта, предназначенные не для поисковых машин, а для определенного круга пользователей, разделы, содержащие приватную и прочую подобную информацию.

Как создать правильный robots.txt

Правильный robots легко написать вручную, не прибегая к помощи различных конструкторов. Процесс сводится к прописыванию нужных директив в обычном файле блокнота, который потом нужно сохранить под названием «robots» и закачать в корневую директорию собственного ресурса. Для одного сайта нужен один такой файл. В нем можно прописать инструкции для поисковых ботов всех нужных поисковых систем. То есть, делать отдельный файл под каждый поисковик не понадобится.

Что нужно прописывать в файле? Обязательно употребление двух директив: User-agent и Disallow. Первая определяет, какому боту адресовано данное послание, вторая показывает, какую страницу или директорию ресурса запрещено индексировать.

Чтобы задать одинаковые правила для всех ботов, можно в директиве User-agent вместо названия прописать символ «звездочку».
Файл robots.txt в таком случае будет выглядеть таким образом:

115 Файл robots.txt: создание, установка, применениеКак можно догадаться, /file.html — это название конкретного файла, индексация которого запрещена, а /papka/ — название директории. В таком случае индексация не будет распространяться на все файлы, содержащиеся в ней.

Если нужно снять ограничения и разрешить индексацию всех страниц, файл будет выглядеть так:

26 Файл robots.txt: создание, установка, применение Особенности настройки robots.txt для Яндекс и Google

Файл robots.txt для Яндекса должен содержать обязательную директиву host. Это позволит избежать проблем с индексированием зеркала ресурса или иных дублей его страниц.

38 Файл robots.txt: создание, установка, применениеHost — директива, которую понимают только боты Яндекса. Поэтому при создании файла robots.txt одновременно для Яндекса, Гугла и других поисковых систем, следует разделить директивы.

48 Файл robots.txt: создание, установка, применениеСоздание файла robots.txt для Google ничем не отличается от описанной выше технологии. В директиве User-agent нужно прописать название бота поисковика: Googlebot, Googlebot-Image (для ограничения индексаций изображений),Googlebot-Mobile (для версий сайтов, рассчитанных на мобильные приложения) и т.п.

Желательно указать в файле путь к карте сайта — (директива sitemap). Благодаря этому робот будет быстрее ориентироваться на страницах ресурса, что значительно ускорит процесс индексации.
гугл Файл robots.txt: создание, установка, применение

Кстати, разработчики Гугл неоднократно напоминали веб-мастерам, что файл robots.txt не должен превышать по размерам 500 Кб. Это непременно приведет к ошибкам при индексации. Если создавать файл вручную, то «достичь» такого размера, конечно, нереально. Но вот некоторые CMS, автоматически формирующие содержание robots.txt, могут значительно его «утяжелить».

Простое создание файла для любого поисковика

Если страшно наделать ошибок при написании файла (или просто лень этим заниматься), можно поручить создание нужных директив конструктору. Он прост, как дважды два, но небольшое объяснение по работе с ним все же приведем.

В первом поле прописывается адрес ресурса. Только после этого пользователю представится возможность выбрать поисковую систему, для которой устанавливаются данные правила (можно последовательно выбрать несколько поисковиков). Далее нужно указать папки и файлы, доступ к которым будет запрещен, прописать адрес зеркала сайта, указать расположение карты ресурса.

По мере заполнения полей в нижнем поле будут прописываться нужные директории. Все, что нужно в итоге — скопировать их в txt-файл и присвоить ему название robots.

105-500x291 Файл robots.txt: создание, установка, применение

Как проверить эффективность файла robots.txt

Для того, чтобы проанализировать действие файла в Яндексе, следует перейти на соответствующую страницу в разделе Яндекс.Вебмастер. В диалоговом окне следует указать имя сайта и нажать кнопку «загрузить».

84-500x221 Файл robots.txt: создание, установка, применение

Система проанализирует файл robots.txt и укажет, будет ли поисковый робот обходить страницы, запрещенные к индексации. Если возникли проблемы, директивы можно отредактировать и проверить прямо в диалоговом окне, после чего скопировать отредактированный текст и вставить в свой файл robots.txt в корневом каталоге.

Аналогичную услугу предоставляет сервис «Инструменты для веб-мастеров» от поисковика Google

111-500x370 Файл robots.txt: создание, установка, применение

Создание robots.txt для WordPress , Joomla и Ucoz

Различные CMS, получившие широкую популярность на наших просторах, предлагают пользователям свои версии файлов robots.txt (или же не имеют их вовсе). Зачастую эти файлы либо чересчур универсальны и не учитывают особенностей ресурса пользователя, либо имеют ряд существенных недостатков.

Можно пытаться внести изменения в них вручную (что при недостатке знаний не очень-то эффективно), а можно воспользоваться опытом более профессиональных коллег. Как говорится, все уже сделано до нас. Например, robots.txt для WordPress может выглядеть таким образом:

58-500x206 Файл robots.txt: создание, установка, применениеСтроку www.site.ru, само собой, следует заменить на адрес сайта пользователя.

Файл robots.txt для Ucoz предоставляется автоматически. Он имеет оптимальные настройки, но единственный его недостаток — система создаст его спустя примерно месяц после создания ресурса. Если неохота ждать, можно написать файл самостоятельно. Выглядеть он будет так:

67-500x279 Файл robots.txt: создание, установка, применениеJoomla! позволяет нескольким URL ссылаться на одну и ту же страницу, создавая для поисковых систем эффект дублирования контента. Избежать этого поможет установка robots.txt для Joomla такого содержания:

74-364x500 Файл robots.txt: создание, установка, применение

В последних двух строчках, как несложно догадаться, нужно прописать данные собственного ресурса.

wordpress-and-robots Файл robots.txt: создание, установка, применение

Комментировать

КОММЕНТАРИИ

24.10.13 Ответить
Кос:

а для доменов рф как прописывать домен ? в пуникод или нет?

30.12.14 Ответить
елена:

Robots можно создавать через всякие онлайн сервисы типа http://mediasova.com/create-robots-txt/

11.01.15 Ответить
Виталий:

Толково написано, спасибо.

У меня вопрос:
Почему при проверке файла robots.txt веб-инструментом Гугл, самостоятельно добавляется строчка: Crawl-delay: 10, а потом пишет предупреждение, указывая на эту запись?

Как это исправить?

Спасибо за помощь!

19.02.15 Ответить
Лика:

Зачем коды картинками вставлять? Для пущего удобства юзеров?

15.03.15 Ответить
Жанна:

@Лика,

для большей уникальности текста, ясно же.

03.05.15 Ответить
3JIoi_Hy6:

Блондинки сохранят картинки с названием robots.txt, а потом будут недовольны, что их «роботс тэхэтэ не работает» XD

17.10.15 Ответить
Вячек:

@3JIoi_Hy6, Ник у тебя соответствует если лень писать, картинки можно ABBYY FineReader сканировать.

06.05.16 Ответить
Ментол:

Evil noob, не все блондинки такие) Спасибо за статью, но действительно лучше бы текстом примеры показали

01.08.16 Ответить
Лм:

Как это снять или убрать?