Файл robots.txt используется веб-мастерами, чтобы объяснить роботу поисковой системы, какие страницы и разделы сайта нельзя индексировать, а какие можно. Стандарт предусматривает небольшой набор директив, поэтому написание правил индексации для крупных сайтов является сложной задачей. Мы решили упростить эту работу и с сегодняшнего дня поддерживаем в robots.txt директиву Allow, спецсимволы "*" и "$".
В Помощи рассказано , как интерпретируются все директивы robots.txt, приведены примеры. Надеемся, что теперь найти общий язык с роботом Яндекса будет легче.
Спасибо! Сделали бы еще поддержку rel="nofollow" (или rel="noindex" чтобы плагиаторами не называли), вообще бы отлично было... т.к. я несуществующий ни в одном стандарте W3C тэг noindex принципиально не использую :)
А следующим шагом (чтобы обогнать Google) - будет, надо полагать, создание отдельные юзер-агентов для каждого типа робота. Есть же Google_Image... Особо обсчественность ждет отдельный юзер-агент Yandex-Mirror. Не помню, что он делает ;)
Ну вот, опять лекции к курсам переписывать :)
Несколько дней назад посылал же специальный запрос на разъяснение - поддерживаете ли Allow. Ответили - не поддерживаем. Могли уж сказать, что скоро начнете. Чего прятаться-то - все свои ;)
Кстати, о помощи. Комментарии в robots.txt неплохо бы писать в отдельной строке. А вообще - молодцы, что говорить.
Итак, Google поддерживает Allow, вы тоже. Стандарт устарел?
Саша, а как будет реагировать Яндекс на:
User-Agent: Yandex
Disallow: /
Allow: /
То есть в случае противоречия инструкций. У вас в примерах описаны корректные противоречия :)
По-моему, фразой "Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке" даётся исчерпывающий ответ на твой вопрос :)
Анализатор robots.txt в Яндекс.Вебмастере уже поддерживает новые директивы и спецсимволы, поэтому можно скопировать этот код и проверить, какие страницы запрещены, какие нет.
Ниже Константин дал правильный ответ в общем виде.
Ваша запись особенно актуальна сегодня, когда каталог DMOZ (ODP) исчез из индекса Яндекса.
Исчез потому, что был неправильно "склеен". Так как довольно сложно объяснить AOL'у, что им надо вносить в dmoz.org/robots.txt нестандартные директивы специально для Яндекса.
>При написании robots.txt необходимо помнить, что в роботе есть разумное ограничение на его размер. Слишком большие robots.txt считаются полностью запрещающими...
Разумное ограничение - это сколько?
Директива в robots.txt
Disallow: /*p=
при этом Анализ robots.txt в сервисе говорит следующее
/news/?pp=1&slovo=... разрешен
/news/?p=1&slovo=2 запрещен правилом /*p=*
/?pp=1&slovo разрешен
/?p=1 запрещен правилом /*p=*
если я все правильно понимаю должны быть запрещены все 4
Анализатор синтаксиса Yandex выдает, что он не знает что такое
Disallow:
и
Allow:
хотя в помощи явно сказано, что
Цитата:
Отсутствие параметров у директивы трактуется следующим образом:
User-agent: Yandex
Disallow: # тоже что и Allow: /
User-agent: Yandex
Allow: # тоже что и Disallow: /
Где-то год назад столкнулся с проблемой под названием "вылет морды". Пока разобрался и нашел на форумах, что нужно сделать, две недели просидел почти без выдачи. С тех пор и по сей день - Disallow: /index.html.
Скажите почему об этом нет в Помощи, если проблема присутствует? Или эта ситуация уже не актуальна?
Александр, а в планах Яндекса сделать такую же штуку, как гугла (не в целях скопировать, а просто это удобно) - вводишь запрос, а он предлагает возможные варианты (10 штук) с количеством результатов.
Такая знатная штука ведь :) Пару букв ввел, стрелочку вниз и enter. Патриотизм патриотизмом, а искать хочется быстро и удобно...
Подскажите, пожалуйста, по такому robots.txt:
User-agent: *
Disallow: /cgi-bin
User-agent: Yandex
Disallow: /modules/cat/
Disallow: /links/
Вопросы конкретно такие:
1. как правильно указать Yandex или yandex или это не имеет значения?
2. чтобы закрыть от индексации Яндексом две директории: _http://сайт /modules/1/ и _http://сайт /2/ как правильно написать? Потому как на сайтах где я хотел закрыть лишь одну директорию в виде:
User-agent: Yandex
Disallow: /1/
сработало, ошибки ушли в ноль, а на сайте с необходимостью закрыть 2 папки ошибки остались (robots.txt выше приведен оттуда). Думаю в нем какая-то ошибка, но не могу понять какая. Факи где мог уже прочитал...