Блог Яндекса для вебмастеров

Новые правила обработки директивы Allow файла robots.txt

Пост в архиве.

Одним из методов управления поведения поисковым роботом на вашем сайте является текстовый файл robots.txt. В нем можно указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используется директива 'Allow'.

Пример:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'


Сейчас для корректной обработки этой директивы ее необходимо использовать с учетом порядка: если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке.

Примеры:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'
   
    User-agent: Yandex
    Disallow: /
    Allow: /catalog
    # запрещает скачивать весь сайт

Через несколько недель мы планируем внедрить изменение в обработке поисковым роботом директивы allow и отказаться от учета порядка. Директивы будут сортироваться по длине префикса URL’а (от меньшего к большему) и применяться последовательно. Такое изменение позволит нам соответствовать международным принципам применения директивы, чтобы и у российских, и у зарубежных вебмастеров не возникало трудностей при составлении файла robots.txt для разных поисковых систем.

Если на вашем сайте в robots.txt используются директивы allow и disallow, пожалуйста, проверьте их на соответствие новым стандартам.


Команда Поиска

28 комментариев

Хм, незнаю на сколько это будет удобно, но будем пробывать, однозначно.

теперь главное не париться в порядке следования...

Хотелость бы еще увидеть страницы, которые загружает робот Яндекса, а не только их количество. Тогда будет проще составлять правильный robots.txt.

В помощь онлайн проверка Яндекса. В поиске найдете.

Тимофей Соловейчик
19 января 2016, 11:24

   В Яндекс.Вебмастере есть и загруженные страницы, и страницы в поиске, а также есть проверка роботов (Настройка индексирования - Анализ robots.txt).

Там только указано общее количество загруженных страниц (не путайте с проиндексируемыми). Самих ссылок нет.
Тимофей Соловейчик
19 января 2016, 11:24

   У меня в "Мастере":

- первая колонка - адрес моего сайта;

- вторая - ТИЦ;

- третья - "Загружено роботом" (циферки);

- четвёртая - "Страниц в поиске" - циферки - при нажатии на них, выдаёт список проиндексированных страниц - название станицы и ссылка на неё.

   Имеется в виду это?

Житель Земли, третий пункт.

- третья - "Загружено роботом" (циферки);

ТОЛЬКО ЦИФРЫ, А ССЫЛОК НА СТРАНИЦЫ НЕТ.

Тимофей Соловейчик
19 января 2016, 11:24

   Правильнее было бы проверять в "Настройка индексирования" - "Анализ robots.txt", там можно проверить на "доступность" каждый раздел, каждую ссылку и вообще любую комбинацию, а не ждать результатов роботв.

А Вы про дубли ссылок (страниц) на движках слышали? Что-бы закрывать ссылки в роботе, нужно знать от куда они берутся и какие загружает ПС.

Тимофей Соловейчик
19 января 2016, 11:24

   Нет, о таких не знаю.

А где можно почитать международные принципы обработки Allow?

http://www.robotstxt.org/norobots-rfc.txt - здесь обработка директив прописана прописана в зависимости от их порядка в секции:

 

   To evaluate if access to a URL is allowed, a robot must attempt to
   match the paths in Allow and Disallow lines against the URL, in the
   order they occur in the record. The first match found is used.
Удалённый пользователь
19 января 2016, 11:24

(+1) Действительно, непонятно.

P.S. С короной! :-)

Илья Мингалиев
19 января 2016, 11:24
google обрабатывает в соответствии с "международные принципы". Я недавно с этим столкнулся. Добавил правило запрета: в google  не индексировал, а яндекс индексировал.

Отлично! Теперь есть возможность спрятать лишнее и оставить только нужное! :) 

 

согласен, отлично работает яндекс!
Дмитрий Голованов
19 января 2016, 11:25

:-) видимо после выхода в Турцию, Яндекс сильно озаботился соответствием международным стандартам. Ну чтож вполне прогнозируемо, google.com - в помощь... ;-) Но я патриот...

Тимофей Соловейчик
19 января 2016, 11:25

Т.е. "новое" будет "Через несколько недель"?

Получается, оба приведенных примера приведут к запрету индексации всего сайта, поскольку директивы отсортируются от меньшего к большему и выполнятся последовательно?

Как в таком случае разрешить /catalog, если он длиннее?

Тоже интересует это вопрос

Яндекс не индексирует фотки на доменах .рф

Хотелось бы узнать когда эта проблема будет устранена? Уже год прошел - не понятна ваша позиция!

 

АНДРЕЙ КОВАЛЕВ
19 января 2016, 11:25

все здорово,только ничего не понятно. может кто-то глянуть мой сайт!? ВЫЗДОРОВЛЕНИЕ.РФ

непонятно

User-agent: Yandex
    Allow: /catalog
    Disallow: /

catalog -   это что?

Поное не понема.... :(

catalog -   это папка на вашем сайте с таким названием которую вы хотите открыть для скачивания или индексирования...

А может кто-нибудь объяснить - кому и в каком месте стало проще с внедрением новых правил индекссации? В каком месте у российских, и у зарубежных вебмастеров возникали трудности при последовательном учете директив?

извините, если мой вопрос не по теме топика.
я разместила давно рассказ на сайте проза.ру. Этот рассказ можно было найти через яндекс по ключевым словам. Сегодня я его удалила с сайта, но яндекс сохранил html копию. вопрос такой: как долго эта копия будет висеть в поиске, она (копия) вообще удалиться автоматически ? А можно как-то форсировать удаление этой копии? я уже написала в саппорт яндекса, это поможет? Спасибо зарание

где нужно создать папку catalog и что в нее кидать?

Константин Левашов
19 января 2016, 11:25

1) А может уже пора поменять текст в справке:

http://help.yandex.ru/webmaster/?id=996567#996571 ? Там по-прежнему написано:

"Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке."

2) И как же теперь разрешить индексацию одной папки, а все остальное запретить?