Блог Яндекса для вебмастеров

Блог Яндекса для вебмастеров

Расширенный формат robots.txt

Пост в архиве.

21 декабря 2007, 20:49

Файл robots.txt используется веб-мастерами, чтобы объяснить роботу поисковой системы, какие страницы и разделы сайта нельзя индексировать, а какие можно. Стандарт предусматривает небольшой набор директив, поэтому написание правил индексации для крупных сайтов является сложной задачей. Мы решили упростить эту работу и с сегодняшнего дня поддерживаем в robots.txt директиву Allow, спецсимволы "*" и "$".

В Помощи рассказано , как интерпретируются все директивы robots.txt, приведены примеры. Надеемся, что теперь найти общий язык с роботом Яндекса будет легче.

Александр Садовский, дрессировщик роботов

38 комментариев

Авторизуйтесь, чтобы оставить комментарий

nickspring

19 января 2016, 11:49

Спасибо! Сделали бы еще поддержку rel="nofollow" (или rel="noindex" чтобы плагиаторами не называли), вообще бы отлично было... т.к. я несуществующий ни в одном стандарте W3C тэг noindex принципиально не использую :)

Д. И.

19 января 2016, 11:49

Коля, ты ханжа. 8)

nickspring

19 января 2016, 11:49

Я просто скромно стараюсь придерживаться стандартов.

Д. И.

19 января 2016, 11:49

Ок, думаю, не стоит продолжать сугубо религиозный спор. 8)

nickspring

19 января 2016, 11:49

Э не, про это я вообще даже спорить не буду, наспорился уже когда-то.

Д. И.

19 января 2016, 11:49

О, это просто отлично. Наконец-то избавлюсь от ошибок из-за RSSок и трекбеков на блоге!

seoinua

19 января 2016, 11:49

УРАА!!!

Д. И.

19 января 2016, 11:49

И сразу вопрос: эти расширения касаются только робота-индексатора, или роботы Я,блогов и Я.Директа тоже все это умеют?

longfello

19 января 2016, 11:49

А следующим шагом (чтобы обогнать Google) - будет, надо полагать, создание отдельные юзер-агентов для каждого типа робота. Есть же Google_Image... Особо обсчественность ждет отдельный юзер-агент Yandex-Mirror. Не помню, что он делает ;)

Д. И.

19 января 2016, 11:49

Ага, типа не пускать зеркальщика на свой сайт? 8)

longfello

19 января 2016, 11:49

А то ;) тогда сквозняки будут работать вечно :))))

Д. И.

19 января 2016, 11:49

А ты считаешь, что щас они не работают вечно?

longfello

19 января 2016, 11:49

Ну вот, опять лекции к курсам переписывать :) Несколько дней назад посылал же специальный запрос на разъяснение - поддерживаете ли Allow. Ответили - не поддерживаем. Могли уж сказать, что скоро начнете. Чего прятаться-то - все свои ;)

longfello

19 января 2016, 11:49

Кстати, о помощи. Комментарии в robots.txt неплохо бы писать в отдельной строке. А вообще - молодцы, что говорить. Итак, Google поддерживает Allow, вы тоже. Стандарт устарел?

longfello

19 января 2016, 11:49

Саша, а как будет реагировать Яндекс на: User-Agent: Yandex Disallow: / Allow: / То есть в случае противоречия инструкций. У вас в примерах описаны корректные противоречия :)

Константин Ермаков

19 января 2016, 11:49

По-моему, фразой "Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке" даётся исчерпывающий ответ на твой вопрос :)

Александр Садовский

19 января 2016, 11:49

Анализатор robots.txt в Яндекс.Вебмастере уже поддерживает новые директивы и спецсимволы, поэтому можно скопировать этот код и проверить, какие страницы запрещены, какие нет. Ниже Константин дал правильный ответ в общем виде.

ProLabs

19 января 2016, 11:49

Александр, вопрос по теме - почему анализатор robots.txt перестал реагировать на директиву Host?

Илья Владимирович

19 января 2016, 11:49

Тоже хорошо! :-)

arbuse

19 января 2016, 11:49

Ваша запись особенно актуальна сегодня, когда каталог DMOZ (ODP) исчез из индекса Яндекса. Исчез потому, что был неправильно "склеен". Так как довольно сложно объяснить AOL'у, что им надо вносить в dmoz.org/robots.txt нестандартные директивы специально для Яндекса.

Геннадий

19 января 2016, 11:49

Гуд будим тренироваться...

Алехандро

19 января 2016, 11:49

>При написании robots.txt необходимо помнить, что в роботе есть разумное ограничение на его размер. Слишком большие robots.txt считаются полностью запрещающими... Разумное ограничение - это сколько?

labirintshop

19 января 2016, 11:49

Вот ещё бы поддержку директивы Sitemap: ... .... sitemap.xml

Александр Садовский

19 января 2016, 11:49

Обязательно сделаем.

labirintshop

19 января 2016, 11:49

Директива в robots.txt Disallow: /*p= при этом Анализ robots.txt в сервисе говорит следующее /news/?pp=1&slovo=... разрешен /news/?p=1&slovo=2 запрещен правилом /*p=* /?pp=1&slovo разрешен /?p=1 запрещен правилом /*p=* если я все правильно понимаю должны быть запрещены все 4

Комментарий удалён

Александр Садовский

19 января 2016, 11:49

Исправили.

ProLabs

19 января 2016, 11:49

Анализатор синтаксиса Yandex выдает, что он не знает что такое Disallow: и Allow: хотя в помощи явно сказано, что Цитата: Отсутствие параметров у директивы трактуется следующим образом: User-agent: Yandex Disallow: # тоже что и Allow: / User-agent: Yandex Allow: # тоже что и Disallow: /

adamov-boris

19 января 2016, 11:49

Тоже обнаружил эту ошибку. Хотелось бы разъяснения =) Доколе?! +1

Maxime3

19 января 2016, 11:49

А поддежка директивы Crawl-Delay - непосильная задача для Яндекса, или есть какие-то предрасудки против неё ?

slava-konashkov

19 января 2016, 11:49

Очень важный вопрос! Подписываюсь!!!

Сергей Колесник

19 января 2016, 11:49

Где-то год назад столкнулся с проблемой под названием "вылет морды". Пока разобрался и нашел на форумах, что нужно сделать, две недели просидел почти без выдачи. С тех пор и по сей день - Disallow: /index.html. Скажите почему об этом нет в Помощи, если проблема присутствует? Или эта ситуация уже не актуальна?

HaJLer

19 января 2016, 11:49

Александр, а в планах Яндекса сделать такую же штуку, как гугла (не в целях скопировать, а просто это удобно) - вводишь запрос, а он предлагает возможные варианты (10 штук) с количеством результатов. Такая знатная штука ведь :) Пару букв ввел, стрелочку вниз и enter. Патриотизм патриотизмом, а искать хочется быстро и удобно...

Александр А.

19 января 2016, 11:49

Такая возможность есть, но пока только в Яндекс.Баре (http://bar.yandex.ru/). Думаю, со временем появится и в большом поиске.

HaJLer

19 января 2016, 11:49

Бар - это не интересно. Меня именно самая строка интересует, хоть опционально.

Александр А.

19 января 2016, 11:49

Тогда будем ждать ;)

billia

19 января 2016, 11:49

Подскажите, пожалуйста, по такому robots.txt: User-agent: * Disallow: /cgi-bin User-agent: Yandex Disallow: /modules/cat/ Disallow: /links/ Вопросы конкретно такие: 1. как правильно указать Yandex или yandex или это не имеет значения? 2. чтобы закрыть от индексации Яндексом две директории: _http://сайт /modules/1/ и _http://сайт /2/ как правильно написать? Потому как на сайтах где я хотел закрыть лишь одну директорию в виде: User-agent: Yandex Disallow: /1/ сработало, ошибки ушли в ноль, а на сайте с необходимостью закрыть 2 папки ошибки остались (robots.txt выше приведен оттуда). Думаю в нем какая-то ошибка, но не могу понять какая. Факи где мог уже прочитал...

ww1943

19 января 2016, 11:49

Весьма познавательно ! :-)

Вадим К.

24 августа 2017, 17:37

Есть, использовал на своем сайте ))) http://z-gm.ru