Блог Яндекса для вебмастеров

Изменения в обработке robots.txt

Пост в архиве.

Поисковые роботы Яндекса перестают учитывать пустую директиву Allow как запрещающий сигнал в robots.txt.

Часто индексирующий робот не может получить доступ к сайтам из-за установленного по ошибке в robots.txt запрета на посещение всех страниц. Часть этих ошибок связана с использованием пустой директивы Allow:

User-agent: *
Allow:

Ранее робот интерпретировал это правило как полностью запрещающее, что делало сайт недоступным для посещения роботов, и такие сайты не могли показываться в результатах поиска. Когда же владельцы сайтов намеренно хотели запретить посещение сайтов, они обычно четко прописывали команду запрета.

Поэтому мы решили изменить обработку роботом такой директивы - сейчас она игнорируется при обнаружении в robots.txt. Если на вашем сайте намеренно используются пустое правило Allow в robots.txt, то для того, чтобы робот корректно учитывал запрет, правило нужно изменить на директиву Disallow:

Disallow: *

Или

Disallow: /

Проверить, что разрешено, а что запрещено в robots.txt можно в Яндекс.Вебмастере. Рекомендуем обратить особое внимание на пустые значения для Allow - если нужно запретить индексирование, то их быть не должно.


Теперь ограничения в robots.txt работают еще надёжнее
Команда Поиска

47 комментариев
Комментарий удалён
Елена Першина
10 июня 2016, 15:03
ym00,
Ну, мы работаем и с учётом ошибок новичков тоже, так что тема важная.   Для быстрой склейки зеркал тоже очень много сделано и еще больше будет сделано, так что и эту тему без внимания мы не оставляем. 
ym00,
Насколько я помню, с месяц назад, в ФБ группах проскакивала информация с рекомендацией указывать
Allow: / 
ym00,
это ничего не говорит о проекте. Есть, например, CMS у которых директория с картинками лежит в папках с модулями, которые, естественно, не должны попасть в индекс. Как в этом случае действовать без Allow (я имею в виду без шаманских танцев)?
ym00,
"Параметр Allow указывают только новички или непрофессионалы"


С х... хрена ли?


support.google.com:

Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]
Хотелось бы спросить у первоисточника...
Раньше было модно дублировать для "User-agent: Yandex" - всё, что написано для "User-agent: *" без изменений.
Сейчас можно писать только User-agent: * ? Или нужно дублировать для роботов Яндекса отдельно?
Ольга,
Отдельно нужно писать, если есть отдельные правила. Если правила одинаковые - зачем писать?
Проверьте в вебмастере, если правила распознаются - значит все ок
Елена Першина
22 июня 2016, 20:10
Ольга,
Да, специально дублировать не нужно, если отличий нет.
80% сайтов вообще не используют Роботс:) 
credo120,
Да, я например пользуюсь мета-тегами роботс
Наконец то.
Павел Лукин
12 июня 2016, 16:36
По-моему, это изменение нарушает логику обработки директив. Т.е, пустой Disallow: у вас работает, а пустой Allow: нет.
Может, кто-то намеренно так запретил сайт для индексации, а теперь, будет удивляться, почему у него страницы в индекс полезли... Не все ведь ваш блог читают.


Павел Лукин,
с логикой проблемы у того, кто вместо "Запретить всё" даёт директиву "Разрешить ничего" :)
Вот это новость у меня же 15 тестовых поддоменов, с директивой Allow, от 3 нету фтп доступа, как быть?
К примеру у сайта по строительство домов из оцилиндрованного бревна http://www.ecodom98.ru есть тестовый поддомен, нету доступов, как поменять Allow на Dissalow? 
А подскажите, если запретить в robots.txt индексацию страниц с изображениями, сами изображения с неё будут индексироваться .→ stroygefest.com
Masel Music,
Самый простой способ:
Создайте 2 папки.
Одну закройте в robots.txt Dissalow: /images/ - та, которую не нужно индексировать.
Вторую /images2/ - та, которую нужно индексировать.
Если закрываете просто статьи, то картинки индексируются.
Смотрите пример реализации на сайте www.novrek.ru
IT,
так мне как раз и нужно чтобы все картинки индексировались, у меня на сайте june-design.ru все картинки уникальные. Я просто не понимаю, индексируются они или нет. Есть смысл добавлять в robots.txt строку Allow: /images/ якобы принудительно указывая на индексацию всех файлов изображений или в таком случае они будут заходить в индекс как url страницы вида site.ru/imges/kartinka.jpg ? (что не особо хорошо, насколько мне известно)
Кстати, у меня на моём блоге о боксе, есть файл robots.txt, по соответствующему адресу, но яндекс.вебмастер пишет, что на запрос https://puncher-blog.blogspot.com/robots.txt мой сайт отвечает редиректом, хотя можете посмотреть никакого редиректа там на моём блоге нет.
Здравствуйте.
Мне нужно заблокировать индексирование страницы http://www.blood47.ru/wp-content/uploads/2016/04/sotrudniki_cklo.pdf, чтобы она не выдавалась в поиске, а попасть на неё можно было только непосредственно со страницы, кликнув на ссылку.
Вопрос:
достаточно ли в robots.txt написать Disallow: /*/uploads/2016/*.pdf$
или лучше Disallow: /wp-content/uploads/2016/04/sotrudniki_cklo.pdf ?
У меня показывает в вебмастере что сайт закрыт для индексации в robots.txt, хотя на самом деле все открыто, другие поисковики не видят ошибок, вот собственно и сам сайт http://newkinogo.club/ - в чем может быть проблема?
info@proekt-stroy.com
18 января 2017, 19:27
Здравствуйте. Помогите разобраться с robots.txt
У меня в кабинете для веб мастера пишет ошибку, что   Найдено несколько правил вида User-agent: * показано что на 31 строке, где это находиться понятно, вопрос в том как это исправить: может удалить совсем, может что то подкорректировать?
Спасибо за ответ.

Ниже, полностью  скопирован мой robots.txt


1.# Added by SEO Ultimate's Link Mask Generator module
2.User-agent: *
3.Disallow: /go/
4.# End Link Mask Generator output
5.
6.User-agent: Yandex
7.Disallow: /cgi-bin
8.Disallow: /wp-admin
9.Disallow: /wp-includes
10.Allow: /wp-includes/js
11.Allow: /wp-content/plugins
12.Allow: /wp-content/themes
13.Allow: /wp-content/uploads
14.Disallow: /wp-content/cache
15.Disallow: /wp-trackback
16.Disallow: /wp-feed
17.Disallow: */trackback
18.Disallow: /*?replytocom
19.Disallow: /files/
20.Disallow: /date/
21.Disallow: /page/
22.Disallow: /catalog/
23.Disallow: /netcat_files/
24.Disallow: /services/
25.Disallow: *comment-page-*
26.Disallow: /go/
27.Disallow: /project/portfolio-8-2/
28.Allow: /
29.Host: https://proekt-stroy.com
30.
31.User-agent: *
32.Disallow: /cgi-bin
33.Disallow: /wp-admin
34.Disallow: /wp-includes
35.Allow: /wp-includes/js
36.Allow: /wp-content/plugins
37.Allow: /wp-content/themes
38.Allow: /wp-content/uploads
39.Disallow: /wp-content/cache
40.Disallow: /wp-trackback
41.Disallow: /wp-feed
42.Disallow: */trackback
43.Disallow: /*?replytocom
44.Disallow: /files/
45.Disallow: /date/
46.Disallow: /page/
47.Disallow: /catalog/
48.Disallow: /netcat_files/
49.Disallow: /services/
50.Disallow: *comment-page-*
51.Disallow: /project/portfolio-8-2/
52.Allow: /
53.Sitemap: https://proekt-stroy.com/sitemap.xml
Вопрос:Яндекс дает нагрузку на сайт (ло логам accesslog смотрел, долбит через пару секунд целый день) . Исправил robots.txt (добавил Crawl-delay:30), проверил в Вебмастере, ок. Нагрузка сохраняется.. сколько ждать реакции Яндекса обычно ?
Обновлено 19 января 2017, 08:41
Лукъянов Д.
27 апреля 2017, 20:56
jkeks1,
Присоединяюсь к вопросу, очень насущный. Уже стал отдавать 502 - яндекс.боту, лишь бы дождаться, когда он перечитает и перестанет ходить на некоторые url. - Сколько должно пройти времени с момента изменения robots.txt и вступления его в силу? Или задания распределенные и единожды попавший бот на сайт - перечитает robots.txt через год, когда дойдет до конца сайта?
Юрий Маслов
8 февраля 2017, 11:26
На сайте 129 страниц, а робот загружает 463,например,
 https://autoelectric.org/index.php/images/images/images/uploads/images/images/images/uploads/images/goldline.gif

Папка index.php не существует.
Такую ссылку ни один шизофреник не напишет.
Куды бечь?
Елена Першина
9 февраля 2017, 14:52
Юрий Маслов,
В поддержку Вебмастера можно написать (ссылка внизу страницы сервиса) - это явно вопрос об индексировании. Наша поддержка сможет сказать, откуда взялась эта ссылка в поиске.
Юрий Маслов
9 февраля 2017, 17:00
Елена Першина,
Речь о загруженных страницах с сайта. При чём здесь любые ссылки?
Обновлено 9 февраля 2017, 17:02
Елена Першина
9 февраля 2017, 20:46
Юрий Маслов,
Робот их тоже не сам придумал, нужно понять, где он нашел такие ссылки - и в этом может постараться помочь поддержка Вебмастера. 
Юрий Маслов
9 февраля 2017, 21:03
Елена Першина,
Речь о загруженных страницах с сайта. При чём здесь любые ссылки?
На этом сайте https://reputocracy.gr/ роботс самой менять нельзя, это тильда. Если кто в курсе, подскажите, пожалуйста, тот роботс, который сформирован там автоматически, с ним всё в порядке или он сформирован не корректно и могут быть проблемы с индексированием и ранжированием? Заранее большое спасибо всем ответившим
Здравствуйте. Закрыл сайт от индексации, методом тыка вот разбираюсь. После этого сайт вылетел из поиска вообще. Даже если вбить "покровбогородицы.рф". Заменяю роботс, но он не меняется в покровбогородицы.рф/robots.txt. Что делать? Это значит, что сайт больше не появится в поиске?
Елена Першина
Сотрудник Яндекса1 ноября 2017, 11:05
mak2make,
У вас сейчас в robots.txt стоит запрет на индексирование всего сайта, пока запрет не будет снят, робот не может индексировать сайт и добавлять его в поиск. Вам нужно на вашей стороне поменять robots.txt, это настройка именно на стороне вашего сайта, поиск тут ни чем, к сожалению, помочь не можем. В чем именно проблема с тем, чтобы обновить robots? 
Елена Першина,
Я поменял роботс, загрузил на хостинг, но ничего не меняется почему то
Елена Першина
Сотрудник Яндекса1 ноября 2017, 22:35
mak2make,
Это вопрос к хостингу тогда, нам тут сложно сказать, в чем проблема на стороне хостинга. 
Возник такой вопрос. Недавно приобрел домен, запустил сайт... Как вскоре выяснилось этот домен раньше кому то принадлежал и о его репутации мне ничего не известно. А вдруг на нем какие то фильтры, или еще какой нибудь негатив со стороны яндекса. Что то странички сайта как то неохотно в поиск попадают. Вот и хотелось бы как то узнать нет ли каких то фильтров со стороны яндекса. Что мне делать кто подскажет? Спасибо.
Елена Першина
Сотрудник Яндекса4 декабря 2017, 16:39
vas.dlinny,
зайдите в Вебмастер и посмотрите в разделе Диагностика, есть ли проблемы или нет. 
Елена Першина,
 Фатальных и критичных нет. Значит все хорошо?!
Елена Першина
Сотрудник Яндекса4 декабря 2017, 17:55
vas.dlinny,
Это значит, что на сайте нет нарушений.
Даже если бы они были - это не страшно, их можно снять. Но вам и этого делать не нужно. 
Регион-М (RuSpray)
27 декабря 2017, 22:58
Подскажите почему я перешёл на новый движок и мой сайт запрещён к индаксированию в роботокс? Пишите на электронку плиз.. Очень нужен ответ regionfox@yandex.ru
Елена Першина
Сотрудник Яндекса28 декабря 2017, 15:06
Регион-М (RuSpray),
Видимо, такая настройка стоит у вашего движка по умолчанию. зайдите в настройки и измените это.
Алексей Б.
4 апреля 2018, 11:07
Здравствуйте.
Сегодня в вебмастере в разделе Страницы в поиске увидел, что поисковый робот начал индексировать страницы сайта, которые в robots.txt закрыты от индексации посредством Disallow.
Скажите с чем это связано???
Елена Першина
Сотрудник Яндекса4 апреля 2018, 15:23
Алексей Б.,
такие вопросы стоит уточнять через поддержку.  Напишите в форму обратной связи Вебмастера - раздел индексирование. Проверим: https://yandex.ru/support/webmaster-troubleshooting-info/site-indexing/noindex_robotstxt.html​​​​​​​
Перед этим рекомендую проверить страницу тут: https://webmaster.yandex.ru/tools/robotstxt/

Так вы сами сможете понять, правда ли мы считаем, что она запрещена к индексированию. 
Обновлено 4 апреля 2018, 15:29
Есть мой сайт, у которого все страницы в индексе. Нужно удалить их из индекса. больше двух недель назад прописал в роботсе:
User-agent: *
Disallow: /
И ЯВМ пишет "Сайт закрыт к индексации в файле robots.txt". Но проблема в том, что все страницы по-прежнему в индексе! Когда ждать выпадения?
Елена Першина
Сотрудник Яндекса7 мая 2018, 18:06
Роман,
если не сложно, продублируйте в поддержку Вебмастера - обязательно проверим.  Пока по комментарию из блога сложно сказать что-то конкретное - в чем причина. 
Елена Першина,
уже выпал. Всё в порядке. Прошло ~2-3 недели.
Елена Першина
Сотрудник Яндекса10 мая 2018, 10:30
Роман,
рада, что теперь все хорошо. Да, иногда на это требуется какое-то время, к сожалению ( 
не могу найти, как проделать переиндексацию всего ресурса, после смены cms....
platon
Сотрудник Яндекса2 сентября 2019, 09:11
Friedrich Frei,
в случае, если в результате смены CMS на сайте изменились адреса страниц, рекомендуем настроить редирект 301 со страниц по старым адресам на соответствующие новые ссылки. Перенаправление поможет указать роботу, по какому адресу страницы должны индексироваться. Рекомендации при смене структуры мы описали в разделе: https://yandex.ru/support/webmaster/recommendations/changing-site-structure.html
Если вы столкнулись с какими-то проблемами в процессе индексирования новых страниц, напишите об этом, пожалуйста, через форму обратной связи: https://yandex.ru/support/webmaster-troubleshooting/site-indexing/bad-indexing/new-pages.html . Коллеги смогут изучить и прокомментировать ситуацию в подробностях.