Новые правила обработки директивы Allow файла robots.txt

Пост в архиве.

27 сентября 2011, 11:45

Одним из методов управления поведения поисковым роботом на вашем сайте является текстовый файл robots.txt. В нем можно указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используется директива 'Allow'.

Пример:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'

Сейчас для корректной обработки этой директивы ее необходимо использовать с учетом порядка: если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке.

Примеры:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'

User-agent: Yandex
    Disallow: /
    Allow: /catalog
    # запрещает скачивать весь сайт

Через несколько недель мы планируем внедрить изменение в обработке поисковым роботом директивы allow и отказаться от учета порядка. Директивы будут сортироваться по длине префикса URL’а (от меньшего к большему) и применяться последовательно. Такое изменение позволит нам соответствовать международным принципам применения директивы, чтобы и у российских, и у зарубежных вебмастеров не возникало трудностей при составлении файла robots.txt для разных поисковых систем.

Если на вашем сайте в robots.txt используются директивы allow и disallow, пожалуйста, проверьте их на соответствие новым стандартам.

Команда Поиска

28 комментариев

Авторизуйтесь, чтобы оставить комментарий

SAUZ

19 января 2016, 11:24

Хм, незнаю на сколько это будет удобно, но будем пробывать, однозначно.

petr-vsv

19 января 2016, 11:24

теперь главное не париться в порядке следования...

kovka-istra

19 января 2016, 11:24

Хотелость бы еще увидеть страницы, которые загружает робот Яндекса, а не только их количество. Тогда будет проще составлять правильный robots.txt.

topmarketingby

19 января 2016, 11:24

В помощь онлайн проверка Яндекса. В поиске найдете.

Тимофей Соловейчик

19 января 2016, 11:24

В Яндекс.Вебмастере есть и загруженные страницы, и страницы в поиске, а также есть проверка роботов (Настройка индексирования - Анализ robots.txt).

kovka-istra

19 января 2016, 11:24

Там только указано общее количество загруженных страниц (не путайте с проиндексируемыми). Самих ссылок нет.

Тимофей Соловейчик

19 января 2016, 11:24

У меня в "Мастере":

- первая колонка - адрес моего сайта;

- вторая - ТИЦ;

- третья - "Загружено роботом" (циферки);

- четвёртая - "Страниц в поиске" - циферки - при нажатии на них, выдаёт список проиндексированных страниц - название станицы и ссылка на неё.

Имеется в виду это?

kovka-istra

19 января 2016, 11:24

Житель Земли, третий пункт.

- третья - "Загружено роботом" (циферки);

ТОЛЬКО ЦИФРЫ, А ССЫЛОК НА СТРАНИЦЫ НЕТ.

Тимофей Соловейчик

19 января 2016, 11:24

Правильнее было бы проверять в "Настройка индексирования" - "Анализ robots.txt", там можно проверить на "доступность" каждый раздел, каждую ссылку и вообще любую комбинацию, а не ждать результатов роботв.

kovka-istra

19 января 2016, 11:24

А Вы про дубли ссылок (страниц) на движках слышали? Что-бы закрывать ссылки в роботе, нужно знать от куда они берутся и какие загружает ПС.

Тимофей Соловейчик

19 января 2016, 11:24

Нет, о таких не знаю.

cherny

19 января 2016, 11:24

А где можно почитать международные принципы обработки Allow?

http://www.robotstxt.org/norobots-rfc.txt - здесь обработка директив прописана прописана в зависимости от их порядка в секции:

   To evaluate if access to a URL is allowed, a robot must attempt to
   match the paths in Allow and Disallow lines against the URL, in the
   order they occur in the record. The first match found is used.

super.tolstyak

19 января 2016, 11:24

(+1) Действительно, непонятно.

P.S. С короной! :-)

Илья Мингалиев

19 января 2016, 11:24

google обрабатывает в соответствии с "международные принципы". Я недавно с этим столкнулся. Добавил правило запрета: в google не индексировал, а яндекс индексировал.

Maksym Ganistrat

19 января 2016, 11:24

Отлично! Теперь есть возможность спрятать лишнее и оставить только нужное! :)

sashka-killerone

19 января 2016, 11:25

согласен, отлично работает яндекс!

Дмитрий Голованов

19 января 2016, 11:25

:-) видимо после выхода в Турцию, Яндекс сильно озаботился соответствием международным стандартам. Ну чтож вполне прогнозируемо, google.com - в помощь... ;-) Но я патриот...

Тимофей Соловейчик

19 января 2016, 11:25

Т.е. "новое" будет "Через несколько недель"?

LouUnlimited

19 января 2016, 11:25

Получается, оба приведенных примера приведут к запрету индексации всего сайта, поскольку директивы отсортируются от меньшего к большему и выполнятся последовательно?

Как в таком случае разрешить /catalog, если он длиннее?

Original Works

19 января 2016, 11:25

Тоже интересует это вопрос

c100bit

19 января 2016, 11:25

Яндекс не индексирует фотки на доменах .рф

Хотелось бы узнать когда эта проблема будет устранена? Уже год прошел - не понятна ваша позиция!

HATTAB24

19 января 2016, 11:25

все здорово,только ничего не понятно. может кто-то глянуть мой сайт!? ВЫЗДОРОВЛЕНИЕ.РФ

SEOKOROLEV

19 января 2016, 11:25

непонятно

User-agent: Yandex
Allow: /catalog
Disallow: /

catalog - это что?

Поное не понема.... :(

Sipth

19 января 2016, 11:25

catalog - это папка на вашем сайте с таким названием которую вы хотите открыть для скачивания или индексирования...

webprofiters

19 января 2016, 11:25

А может кто-нибудь объяснить - кому и в каком месте стало проще с внедрением новых правил индекссации? В каком месте у российских, и у зарубежных вебмастеров возникали трудности при последовательном учете директив?

annlioness

19 января 2016, 11:25

извините, если мой вопрос не по теме топика.
я разместила давно рассказ на сайте проза.ру. Этот рассказ можно было найти через яндекс по ключевым словам. Сегодня я его удалила с сайта, но яндекс сохранил html копию. вопрос такой: как долго эта копия будет висеть в поиске, она (копия) вообще удалиться автоматически ? А можно как-то форсировать удаление этой копии? я уже написала в саппорт яндекса, это поможет? Спасибо зарание

Марк

19 января 2016, 11:25

где нужно создать папку catalog и что в нее кидать?

Константин Левашов

19 января 2016, 11:25

1) А может уже пора поменять текст в справке:

http://help.yandex.ru/webmaster/?id=996567#996571 ? Там по-прежнему написано:

"Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке."

2) И как же теперь разрешить индексацию одной папки, а все остальное запретить?