Блог Яндекса для вебмастеров

Новые правила обработки директивы Allow файла robots.txt

Пост в архиве.

Одним из методов управления поведения поисковым роботом на вашем сайте является текстовый файл robots.txt. В нем можно указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используется директива 'Allow'.

Пример:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'


Сейчас для корректной обработки этой директивы ее необходимо использовать с учетом порядка: если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке.

Примеры:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'
   
    User-agent: Yandex
    Disallow: /
    Allow: /catalog
    # запрещает скачивать весь сайт

Через несколько недель мы планируем внедрить изменение в обработке поисковым роботом директивы allow и отказаться от учета порядка. Директивы будут сортироваться по длине префикса URL’а (от меньшего к большему) и применяться последовательно. Такое изменение позволит нам соответствовать международным принципам применения директивы, чтобы и у российских, и у зарубежных вебмастеров не возникало трудностей при составлении файла robots.txt для разных поисковых систем.

Если на вашем сайте в robots.txt используются директивы allow и disallow, пожалуйста, проверьте их на соответствие новым стандартам.


Команда Поиска

28 комментариев

Хм, незнаю на сколько это будет удобно, но будем пробывать, однозначно.

теперь главное не париться в порядке следования...

Хотелость бы еще увидеть страницы, которые загружает робот Яндекса, а не только их количество. Тогда будет проще составлять правильный robots.txt.

В помощь онлайн проверка Яндекса. В поиске найдете.

Тимофей Соловейчик
19 января 2016, 11:24

   В Яндекс.Вебмастере есть и загруженные страницы, и страницы в поиске, а также есть проверка роботов (Настройка индексирования - Анализ robots.txt).

Там только указано общее количество загруженных страниц (не путайте с проиндексируемыми). Самих ссылок нет.
Тимофей Соловейчик
19 января 2016, 11:24

   У меня в "Мастере":

- первая колонка - адрес моего сайта;

- вторая - ТИЦ;

- третья - "Загружено роботом" (циферки);

- четвёртая - "Страниц в поиске" - циферки - при нажатии на них, выдаёт список проиндексированных страниц - название станицы и ссылка на неё.

   Имеется в виду это?

Житель Земли, третий пункт.

- третья - "Загружено роботом" (циферки);

ТОЛЬКО ЦИФРЫ, А ССЫЛОК НА СТРАНИЦЫ НЕТ.

Тимофей Соловейчик
19 января 2016, 11:24

   Правильнее было бы проверять в "Настройка индексирования" - "Анализ robots.txt", там можно проверить на "доступность" каждый раздел, каждую ссылку и вообще любую комбинацию, а не ждать результатов роботв.

А Вы про дубли ссылок (страниц) на движках слышали? Что-бы закрывать ссылки в роботе, нужно знать от куда они берутся и какие загружает ПС.

Тимофей Соловейчик
19 января 2016, 11:24

   Нет, о таких не знаю.

А где можно почитать международные принципы обработки Allow?

http://www.robotstxt.org/norobots-rfc.txt - здесь обработка директив прописана прописана в зависимости от их порядка в секции:

 

   To evaluate if access to a URL is allowed, a robot must attempt to
   match the paths in Allow and Disallow lines against the URL, in the
   order they occur in the record. The first match found is used.

(+1) Действительно, непонятно.

P.S. С короной! :-)

Илья Мингалиев
19 января 2016, 11:24
google обрабатывает в соответствии с "международные принципы". Я недавно с этим столкнулся. Добавил правило запрета: в google  не индексировал, а яндекс индексировал.

Отлично! Теперь есть возможность спрятать лишнее и оставить только нужное! :) 

 

согласен, отлично работает яндекс!
Дмитрий Голованов
19 января 2016, 11:25

:-) видимо после выхода в Турцию, Яндекс сильно озаботился соответствием международным стандартам. Ну чтож вполне прогнозируемо, google.com - в помощь... ;-) Но я патриот...

Тимофей Соловейчик
19 января 2016, 11:25

Т.е. "новое" будет "Через несколько недель"?

Получается, оба приведенных примера приведут к запрету индексации всего сайта, поскольку директивы отсортируются от меньшего к большему и выполнятся последовательно?

Как в таком случае разрешить /catalog, если он длиннее?

Тоже интересует это вопрос

Яндекс не индексирует фотки на доменах .рф

Хотелось бы узнать когда эта проблема будет устранена? Уже год прошел - не понятна ваша позиция!

 

все здорово,только ничего не понятно. может кто-то глянуть мой сайт!? ВЫЗДОРОВЛЕНИЕ.РФ

непонятно

User-agent: Yandex
    Allow: /catalog
    Disallow: /

catalog -   это что?

Поное не понема.... :(

catalog -   это папка на вашем сайте с таким названием которую вы хотите открыть для скачивания или индексирования...

А может кто-нибудь объяснить - кому и в каком месте стало проще с внедрением новых правил индекссации? В каком месте у российских, и у зарубежных вебмастеров возникали трудности при последовательном учете директив?

извините, если мой вопрос не по теме топика.
я разместила давно рассказ на сайте проза.ру. Этот рассказ можно было найти через яндекс по ключевым словам. Сегодня я его удалила с сайта, но яндекс сохранил html копию. вопрос такой: как долго эта копия будет висеть в поиске, она (копия) вообще удалиться автоматически ? А можно как-то форсировать удаление этой копии? я уже написала в саппорт яндекса, это поможет? Спасибо зарание

где нужно создать папку catalog и что в нее кидать?

Константин Левашов
19 января 2016, 11:25

1) А может уже пора поменять текст в справке:

http://help.yandex.ru/webmaster/?id=996567#996571 ? Там по-прежнему написано:

"Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке."

2) И как же теперь разрешить индексацию одной папки, а все остальное запретить?