Блог Яндекса для вебмастеров

«Скорость обхода» или об изменениях в учёте директивы Crawl-delay

Пост в архиве.

В Яндекс.Вебмастере появился новый инструмент — «Скорость обхода», который находится в разделе «Индексирование». Этот инструмент позволяет регулировать, как часто Яндекс может делать запросы к вашему сайту, то есть регулировать скорость обхода вашего сайта со стороны поисковых роботов. По умолчанию мы будем подбирать максимальную скорость для конкретного сайта, учитывая допустимые нагрузки для вашего сервера.

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt. Владельцы сайтов часто не задумываются о ней и её значении, и просто ставят такие же значения, как «у других», — как у старых сайтов, серверами которых служили еще «домашние» компьютеры, а не мощные стойки в дата-центрах. Так, порой встречались такие значения, как 20, 50, а порой и 100. И это при том, что если этот показатель был больше 2, скорость обхода сайта сильно снижалась — ведь именно эта директива отвечает за то, как часто робот может обращаться к сайту. В результате ошибочно установленной директивы страницы сайта длительное время не могли проиндексироваться роботом.

Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay. Если же вы все-таки хотите по какой-то причине ограничить скорость обхода сайта, вы можете воспользоваться новым инструментом — «Скорость обхода». Он заменит собой рекомендации из директивы, его настройки можно выставить уже сейчас: они начнут учитываться через неделю, с 22 февраля.

Если вы не знаете, какое именно значение Crawl-delay нужно было устанавливать для вашего сайта или какое теперь значение необходимо установить в настройках инструмента, — просто оставьте значение «Доверять Яндексу». Робот сам выберет наиболее оптимальную частоту индексирования вашего сайта.

Теперь сайты смогут индексироваться еще быстрее!
Команда Поиска

P. S. Подписывайтесь на наши каналы
Блог Яндекса для Вебмастеров
YouTube
Канал для владельцев сайтов в Яндекс.Дзене

137 комментариев
Ну такое
Это Весьма Круто)) Благодарю!)
Артур Османов
15 февраля 2018, 18:31
Что то мне подсказывает, что это к лучшему...
30 запросов в секунду поставить и что будет?
kymap-ha-kymape,
сайт ляжет)) но вообще это же разрешение, а не руководство к действия для роботов
я вот роботов по 2 недели жду на двух сайтах и по приходу они 1-2 страницы добавляют вместо 400-500, так что все это очередное пустотрепство имхо.
Так же не понятно почему есть ограничение на удаление 500 страниц в сутки мне нужно 3000 несуществующих страниц на одном сайте и 700 на другом сайте удалить, так каждый день на протяжении недели надо этим заниматься, почему?
Тоже самое переиндексирование с лимитом в 20 страниц, что это, почему 20, если я изменил описание на 700 страницах, а робот их не обходит, хотя и карта есть и сайт мап и прямые ссылки со страниц, но как 700 страниц по 20, 2 месяца ежедневно по 20 загонять, это норма?
Обновлено 15 февраля 2018, 20:12
Dmitry,
поддерживаю)
Илья Никитин
16 февраля 2018, 20:54
Dmitry,
Есть сайты, где лимит гораздо больше, чем 20 страниц на переобход. Но конечно и не 300-700....
Илья Никитин,
я тоже слышал, что на Марсе есть жизнь, но живу я - на земле...
Илья Никитин
16 февраля 2018, 23:12
Dmitry,
Я не слышал, у меня есть такие проекты... Хотя логика лимитов не ясна, на сайте миллионике в сутки - лимит 180 страниц, на сайте в 500 уников - 120 страниц
Владимир Я.
18 февраля 2018, 19:36
Илья Никитин,

У меня 120 страниц
Елена Першина
Сотрудник Яндекса18 февраля 2018, 20:40
Dmitry,
Давайте по очереди на каждый из вопросов постараюсь ответить: 
- Почему роботы ходят не так быстро, как хочется.
Тут, увы, ответ банальный для общего вопроса - от неправильных настроек той же директивы до банального плана обхода робота - если сайт по какой-либо причине не очень востребован пользователями, то и нам закачивать его сотнями страниц не имеет смысла;
- Ограничение на удаление страниц.
Есть много инструментов для удаления страниц -  robots.txt, noindex. Сам инструмент "Удаление" - это про срочное удаление из базы по какой-то причине. 
- Почему есть такие лимиты на переобход?
На переобход для каждого сайта лимиты высчитываются автоматически. Так что тут скорее вопрос, почему для вашего проекта высчитался таким образом. 

Обновлено 18 февраля 2018, 20:40
Елена Першина,
Так увеличте лимит, роботс, сайтмап, и тд все давно сделано, месяцами назад, а толку нет, я не могу ни удалить не закачать новые страницы, посещаемость упала до 10 это смех, нет возможности сделать абсолютно ничего, а ваша служба отвечает мне письмами типо сам дурак работай дальше, бред полный, как?
Елена Першина
Сотрудник Яндекса21 февраля 2018, 18:12
Dmitry,
Лимит рассчитывается автоматически - исходя из потенциальной полезности. Он перерасчитывается постоянно, так что может поменяться.
Елена Першина,
после введения этого алгоритма в вебмастере стали появляться непонятно откуда взявшиеся страницы такого типа: мойсайт/раздел/?C=S;O=A  Откуда робот их берет? Пробовал уменьшить количество запросов до абсолютного минимума - не помогает. Сайт находится на вполне себе нормальном хостинге от РегРу. И до введения нового алгоритма такого не было.
Елена Першина
Сотрудник Яндекса28 марта 2018, 18:37
fotostar-pro,
лучше этот вопрос уточнить у поддержки Вебмастера. С обновлением алгоритма это никак не связано. С большой вероятностью - робот приходит на страницы, которые нашел где-то в интернете или которая была создана на вашем сайте по какой-то причине (например, автоматически, из-за какого-то плагина). 
Елена Першина,
Елена, а не дадите точную ссылочку на страницу с формой обратной связи, а то там только заумные пояснения, совершенно не относящиеся к проблеме, а формы обратной связи обнаружить не удается.
Елена Першина
Сотрудник Яндекса30 марта 2018, 18:13
fotostar-pro,
вот тут: https://yandex.ru/support/webmaster-troubleshooting/site-indexing.html 
Елена Першина,
вообще то я просил ссылочку на форму обратной связи с техподдержкой, а не на страницу с заумными рекомендациями, которые не дают результата. А вот форма обратной связи находится здесь  https://yandex.ru/support/webmaster-troubleshooting/site-indexing/highload.html А вам видимо лишь бы отписаться... Жаль, что у вас такое наплевательское отношение...
Елена Першина
Сотрудник Яндекса31 марта 2018, 16:07
fotostar-pro,
Вообще-то от того, за каким логином вы находитесь, форма обратной связи может меняться (подтвержден сайт или нет, например). Более того, с этой разводящей страницы можно попасть сразу на несколько форм дополнительной обратной связи -  уточнив свой вопрос. Именно поэтому я дала именно её. Так что не рекомендую судить, не разобравшись. Кстати, форма обратной связи, через которую вы можете попасть на нужную вам страницу, остается на неизменном месте - внизу страницы сайта в Вебмастере. И именно так выглядит стандартный ответ на этот вопрос. 
Теперь "сайты" смогут баниться еще быстрее!
Команда Поиска
)))
Очень хорошая новость. Однако, я ставил 1 в Crawl-delay
И скорость была хорошей.
Но, вот 30 запросов в секунду - это круто!
По выше написанному, кто-то указал, что сайт ляжет --- НЕ ЛЯЖЕТ, если ты не лох.
Если у тебя безпонтовая Джумла или подобное гамницо, то конечно все плохо.


Но, если ты реальный кодер и пишешь сам с нуля все движки и держишь на отдельном сервере и при этом еще умеешь тюнинговать Nginx + PHP-fpm и создавать собственные вариации кэширования, а еще и работа с оперативной памятью - тогда тебе даже DDOS не страшен.
Еще учтите само железо - модели жестких дисков, скорость оперативки.


Так что - 30 в секунду - это еще мелочь.
stokzzx,
>безпонтовая Джумла
Чисто ради любопытства интересуюсь, а что сейчас понтовое в тренде?
wwwwmaster,
Тренда нет. В данном случае безпонтовое - это когда человек поставил джумлу или иной готовый движок, а потом не знает как его разгонять и сидит мучается с ерундой, типа скорость обращения поисковика к страницам. А такие движки, если начинаешь разгонять - заканчивается тем, что в итоге получается ты его переписал на 90%
А у нас мало самописцев, в основном ставят готовый движок и модули к нему - после этого он считает себя кодером. А я получается безумец :)))
А еще сайт можно держать в оперативке и тогда скорость отклика будет равна скорости оперативки + доставки пакета по http --- на данный момент это максимальная быстрая скорость , что можно получить.
Такую фишку можно сделать даже на VDS (не путать с VPS)
Юрий Жигалов
16 февраля 2018, 10:03
stokzzx,
где можно почитать про загрузку сайта из оперативки или вы это сами делаете и инфы об этом нет?
Юрий Жигалов,
Делаю сам. Под каждый проект делается свой вариант. По поводу почитать - нужно изучать оперативку на уровне железа и операционки. Конкретно инфы о том, как это делать нет. Я раньше сам искал и готовых вариантов не нашел. Тут много от самого проекта зависит. Сайт можно выгружать частями или весь. Например, картинки не все можно выгружать в оперативку, достаточно на отдельный сервер под чистым Nginx кинуть. У каждого проекта вычисляются самые нагрузочные места и они уже закидываются в оперативку. Так же очень важно создать механизм синхронизации и проверки целостности данных, я для этого пишу маленьких роботов которые все это контролируют. При этом синхронизация не должна влиять на скорость работы сайта. Еще можно прикручивать разные HDD и если есть несколько плашек оперативке на сервере, то разделить физические плашки на то что отдается работе самой OS и ее софту и отдельно плашка для выгрузки сайта. Сейчас безумно огромные сервера есть с оперативкой по 100 Гб, 500 Гб. У иностранных провайдеров встречал уже и по 1 Тб. На физическом уровне это разные плашки, вот с этим и можно играть, а с таким объемом можно любой проект запихнуть.
На сколько я изучал сам Яндекс, то по мимо того, что они бьют базу саму на кучу маленьких таблиц, типа как у распределенной базы PostgresSQL, так же они тоже играют с оперативкой.
Потому-что при реально миллиардных запросах на сервера жесткие все равно не будут успевать как бы не распределена была база.
Оперативка в миллион раз быстрей.
Я делал тесты - обошел все главные страницы сайтов в ru зоне, потом сделал ранжирование по словарям и делал Полноконтекстный поиск с учетом всех глаголов, окончаний и т.д. (ну типа как яндекс, только не они эту фишку придумали)
Поиск проводился с жесткого, то у меня искалось около 2-3 минут. А когда загнал в оперативку, то искалось за 0,3-0,5 секунды. От таких тестов я был сам в шоке изначально.
Потом и начал придумывать, что еще можно сделать с оперативкой - так и докатился до сайтов.
stokzzx,
ты реально крут. Серьезно
Антон Ануфриев
15 февраля 2018, 22:25
Интересно... с одной стороны короче роботс теперь станет, а с другой стороны не отпускает мысль, а все ли нормально будет?
Если я все правильно понял, то Crawl-delay уже можно удалять из роботс?
Елена Першина
Сотрудник Яндекса18 февраля 2018, 21:04
Антон Ануфриев,
Да, все так. Мы тут даже при "максимальной нагрузке" сайт будем обходить с наращиванием интенсивности, чтобы понять, реально ли он может так, как владелец хочет. Так что про "уронить" не переживайте, пожалуйста. 
Антон Ануфриев
18 февраля 2018, 22:13
Елена Першина,
хорошо, доверимся нововведению.
В качестве пожелания трудящихся:)
Можно ли при выборе опции "Доверять Яндексу" где-нибудь в сторонке увидеть какую скорость уважаемый Яндекс выбрал.

Как говорится - доверяй, но проверяй.
Обновлено 16 февраля 2018, 05:12
АБСОЛЮТ-Сити
16 февраля 2018, 11:22
naminid,
Поддерживаю)
Елена Першина
Сотрудник Яндекса18 февраля 2018, 21:06
naminid,
Пожелание обдумаем, спасибо. Но "фишка" тут в том, что выбранная нагрузка может меняться в данном случае - то есть если мы видим, что сайт крут, хорошо держит нагрузку и при этом востребован - то параметр в "Доверяй" будет меняться в большую сторону. Плавно, конечно, проверяя, что сайт спокойно держит нагрузку. 
Елена Першина,
т.е роботы не будут "во все тяжкие" кидаться, а будут исходить из скорости отдачи страницы\контента? Бояться не стоит? 
И все таки к "знанию" - какие секунды будут для робота "нормальные" и до какого момента\числа запросов нарастит обороты робот? 
Хочется знать. Спасибо.
Елена Першина
Сотрудник Яндекса21 февраля 2018, 19:16
dead.fox.rider,
Нет, бояться не стоит.  Что касается "нормальные" - то нагрузка роботов рассчитывается автоматически для каждого сайта. 
naminid,
+++
это поможет в принятии решения: оставить как выбрал Яндекс или изменить в какую-либо сторону
Удалённый пользователь
16 февраля 2018, 07:41
Естественно вам виднее, мы не такие асы. Будем доверять Яндексу.
Удалённый пользователь
16 февраля 2018, 07:56
Отлично! Жду кнопки "Поднять себе ТИЦ за усердие", "Поднять себе ТИЦ за честное продвижение" и "Поднять себе ТИЦ за долготерпение" ☺
Накой он нужен? Ради зрительного умеления? Вот только клиентам плевать на 'пузомерки'.
Кирилл Бадаев
16 февраля 2018, 13:33
Mr. Edyan,
Скоро и ТИЦа то не будет. Полезен для блога, и то так себе.
Кирилл Бадаев,
 Как он полезен? Для продажи ссылок? Но ведь это противоречит Минусинску и АГС. На ранжирование это явно не влияет, так что, да, ждёт его та же участь, что и PR Гугловский, хотя этого и следовало ожидать )

Это круто, верное решение. Спасибо за труды.
sergej.kirilenko2018
16 февраля 2018, 09:00
Круто, очень полезная фича:).
Опция для 1990 года.
Не думаю, что скорость обхода повлияет на кол-во страниц в индексе. А поэтому и опция не имеет смысла.
hackmysite,
у меня один сайт прирастает новой статьей 3-4 раза в год, а робот Яндекса почему-то его атаковал постоянно, прилично нагружая, пришлось ограничивать.
Елена Першина
Сотрудник Яндекса21 февраля 2018, 05:39
hackmysite,
При нормальный настройках - да. Поэтому и просим "не трогать". Но вот увы, часто из-за ошибочных ограничений многие хорошие сайты не прокачивались. 
Раньше, директива Crawl-delay была допустим 2, какое значение выставлять в настройках опции "Скорость обхода" с учетом этой новости?
Обновлено 16 февраля 2018, 09:35
Елена Першина
Сотрудник Яндекса21 февраля 2018, 15:33
s4,
Думаю, лучше всего будет оставить статус - "Доверять Яндексу". При этом статусе нагрузка на сайт высчитывается автоматически - исходя из возможностей самого сайта. 
Антон Дьяков
16 февраля 2018, 09:54
После установки фильтра, роботы за 5 сек положили сайт ) я весь фильтр перековырял думал это он пока не посмотрел логирование запросов ) оказалось что роботы яши и гугла с ожесточением накинулись на сайт крутя всяко разно настройки фильтра и загоняя тысячи страниц в вебмастер )
Елена Першина
Сотрудник Яндекса21 февраля 2018, 15:37
Антон Дьяков,
Вы вообще о чем? Во-первых, настройка скорости обхода в Вебмастере касается только Яндекса. Во-вторых, она начинает работать только через неделю после публикации поста, как и сказано в описании. То есть ваш комментарий точно никак не связан с настройками этого инструмента. А если вдруг роботы смогли положить ваш сайт (что очень мало вероятно), то это скорее вопрос к вашему хостингу, даже бесплатный хостинг обычно хорошо держит нагрузку поисковых система. Но, вероятнее всего, проблема вашего сайта вообще была связана с чем-то другим.
Что-то намудрили. На мой взгляд, бесполезный инструмент.
MR. Andrey,
Полезный инструмент, если у тебя сайт от 100.000 страниц  И эти страницы раз в месяц обновляются.
Обновлено 16 февраля 2018, 11:35
stokzzx,
 Да-да! Все верно...
Елена Першина
Сотрудник Яндекса21 февраля 2018, 15:41
MR. Andrey,
Эх, если бы только он правда был не нужен. А то смотришь на сайты с их ужасным обходом из-за ошибок в настройке - и плакать хочется. 
Роман Лазарев
16 февраля 2018, 13:03
Вопрос, это коснется каким ни будь образом для /sitemap.xml какие там приоритеты стоят?
Роман Лазарев,
Сначала приоритет отдается настройкам вебмастера, далее xml или robots, смотря что-где поставлено.
Роман Лазарев
16 февраля 2018, 13:49
stokzzx,
ну в robots.txt у меня не чего не стоит, а в sitemap.xml есть настройки, они CMS управляются. Я в .htaccess закрыл доступ не нужным роботам и нагрузка упала процентов 70-80. Яндексу и Google дал зеленый свет! 
Роман Лазарев,
Закрывать роботов через htaccess - это какая-то дикость, мне кажется. Для роботов есть robots.txt с директивой User-agent.
Через htaccess можно закрывать других граберов-парсеров.
Если Вы работаете через htaccess - значит у вас стоит веб-сервер Apache - первая версия была медленной, но ела 5 мегов оперативки. 
А сейчас у всех Апач второй версии, а он жрет 20 мегов.
Не удивительно, что зайдя одновременно робот поисковой и настоящий человек - появлялась нагрузка. 
Лучше уйти с Апача. Тогда на маленький VDS/VPS можно держать нормальные нагрузки.
А еще уходите на PHP 7 версии - его написали заново с нуля и он очень быстро работает.
А если, у вас старый движок и вынуждены сидеть на Апаче - то докупайте процессорное время и оперативку.
Вы сказали, что закрыли не нужных роботов, интересно каких? Случайно не mail.ru или bing?
С них тоже хороший траф идет, хотя mail.ru в последний год очень медленно стал работать, так как у компании нет денег на увеличение дата-центра, а при этом объемы данных растут - каждый день открывается по 1000 ГавноСайтов. Богатый, но за**авшийся яндекс должен все это гамницо индексировать.
Роман Лазарев
16 февраля 2018, 19:53
stokzzx,
Роботов закрыл, когда хостинг начал ругаться, что сайт дает большие нагрузки, покопавшись в логах, нашел виновников, я не думаю, что ниже перечисленные товарищи мне нужны!


ahrefsbot
baiduspider
slurp
mj12bot
MJ12bot
semrushbot
MegaIndex.ru
HaosouSpider
cfnetwork


Половина китайских товарищей, половина различные СЕО сервисы! Заблокировав их нагрузка упала на 70-80% и с этими товарищами robots.txt вряд ли поможет!


Движок у меня последней версии MODx, все настроено работает быстро + PHP 7.1 
Елена Першина
Сотрудник Яндекса21 февраля 2018, 16:24
stokzzx,
Добрый день, а можете уточнить, откуда у вас вообще такие сведения? "Перестает учитывать" именно это и означает - директива  Crawl-delay перестает учитываться. 
Елена Першина
Сотрудник Яндекса21 февраля 2018, 16:38
Роман Лазарев,
Если есть реальные примеры, когда поиск обходит слишком быстро для вашего сайта, то лучше такие примеры нас сразу в поддержку слать. Несколько раз убеждались в подобных случаях, что это вообще был не наш робот, а парсер чей-то, который под нас маскировался. Но если это вдруг и правда наш робот - обязательно разберемся и наведем порядок. 
Елена Першина,
Я написал о Приоритете, а не о том, что вообще перестает учитываться.
Сведения от логики, опыта работы с яндексом  и от того, что развлекаюсь писаниной поисковых движков, потом делаю ранжирование (эмулирую яндекс, гугл).
В Вашем случае - если сделали в вебмастере возможность выбирать ускорение индексирования, при этом есть Crawl-delay, то робот отдаст приоритет настройке вебмастеру.
Так же есть нюанс в том, что в вебмастере можно поставить 30 запросов в секунду, а в Crawl-delay только 0.1 секунды.
Следовательно от Crawl-delay можно получить 10 запросов в секунду. 
Получаем, что робот выберет тот параметр которые более быстр.
А если в вебмастере поставить 1 запрос в секунду, то будет выбран Crawl-delay.
Если поставить 2 секунды в секунду, то робот вообще перейдет на свой выбор скорости.
Так как, если сайт не может держать хотя бы 2 секунды в секунду, то поисковику нет смысла показывать такой сайт в выдаче, так как он будет долго грузиться у пользователя на компьютере, а на мобильном может и еще дольше.
Следовательно пользователь подумает, что поисковик плохой и не показывает хорошие сайты. Не зря сервис Вебмастер рассылает оповещения, если сайт тормозит. Точнее, если робот долго получает ответ самой html страницы.
По скоростям это рекомендованные настройки роботу, но не факт, что так и будет. Потому, что если качество контента на сайте паганое, то робот медленней будет ходить.
Если на сайте хороший контент, но страницы очень редко обновляются, то робот тоже будет медленней.
Если на сайте было все тихо и вдруг появилось много страниц из ссылок или sitemap, то робот наоборот быстро начнет ходить.
Если на сайте страницы обновляются раз в месяц, при этом их 100.000, при этом они первоначально одобряются как полезные для поиска, то робот будет шарахать постоянно на больших скоростях.
Еще есть быстро-робот который не всегда делает индексирование, а в основном проверки.
Елена Першина
Сотрудник Яндекса22 февраля 2018, 15:56
stokzzx,
Я вам сейчас как сотрудник Яндекса отвечаю, цитируя текст поста - "мы решили отказаться от учёта директивы Crawl-delay". И да, робот может ходить медленнее, чем указано в настройках, но не может ходить быстрее. Почему? Потому что эта настройка существует для слабых серверов, чтобы защитить их от нагрузки со стороны поисковых систем. 
Обновлено 22 февраля 2018, 16:55
Елена Першина
Сотрудник Яндекса21 февраля 2018, 16:23
Роман Лазарев,
Скорость обхода влияет на скачивание - не важно, откуда робот узнал о страницах (из карты сайта или из иных источников). Или вы о другом?
Обновлено 21 февраля 2018, 16:25
Не могу скрин приложить, а что это значит?


10.02.       -/robots.txt            недостаточно качественная


ошибок нет. файл как файл , без изысков и не перегружен... Первый раз такое. Я не могу прибавить качества на эту страницу )  
tneckina,
у меня тоже в вебмастере такая ерунда обнаружилась 12.02). Странно, почему представитель Яндекса проигнорировала ваш вопрос.
Елена Першина
Сотрудник Яндекса21 февраля 2018, 16:44
tneckina,
Это всего лишь значит, что в результатах поиска эта страница - ваш robots.txt - не будет искаться. Но он там и не нужен, так это служебный файл, а не для обычных пользователей. Так что тут все ок, переживать не нужно. 
Обновлено 22 февраля 2018, 16:59
Эачастую для одного из наших сайтот в силу некоторых технологих особенностей как раз таки нужно ограничить а не увеличиаатьскорость обхожода. Предлагается ли двучсторонняя регугулировка этого процесса?
Alex,
увеличить скорость обхожода очень просто – закажи директ.
Елена Першина
Сотрудник Яндекса21 февраля 2018, 16:50
Alex,
В настройках можно двигать рычаг в обе стороны - так что да, можно. 
Вообще Crawl-delay вполне достаточно. Зачем эти дубли фич. Главное чтобы робот следовал этим указаниям и этого достаточно. Лично меня вполне устраивает
Елена Першина
Сотрудник Яндекса21 февраля 2018, 17:05
Alex,
Увы, не все такие специалисты настроек этой директивы, как вы. 
Вот за что я люблю Яндекс! Молодцы, всегда думают о пользователях и не забывают про вебмастеров!
Елена Першина
Сотрудник Яндекса21 февраля 2018, 17:05
comunicom,
Стараемся. 
Спасибо что стараетесь улучшить Вебмастер. В отличии от G у вас панель управления гораздо приятнее, функциональнее и информативнее.
Елена Першина
Сотрудник Яндекса21 февраля 2018, 17:09
uzhurav,
Спасибо! Всегда рады обратной связи! 
Куда жаловаться на сетку дорвеев на копипасте с агрессивной тизерной рекламой? Почему это генеренное гуано имеет десятки тысяч страниц в индексе?

http://sovetylechenija.ru
http://borehole.ru
http://etwa.ru
http://fixiklandfan.ru
http://obdar.ru
http://artfstudio.ru
http://tip-horest.ru
Обновлено 18 февраля 2018, 09:34
Елена Першина
Сотрудник Яндекса21 февраля 2018, 17:14
vzik2012,
Вот сюда можно: https://yandex.ru/support/search/troubleshooting/feedback.html 
Елена, посмотрите пожалуйста тикет 11041317352775851.
 Я задал вполне конкретный вопрос, а тех. поддежка ответила на него вот это: "Спасибо за письмо, мы проверим, корректно ли сработали наши алгоритмы. В случае, если была допущена ошибка, мы скорректируем их работу."
Это явно не ответ на вопрос, который я задал.
Обновлено 19 февраля 2018, 13:01
Комментарий удалён
yndx.firstlena,
Я перезадал вопрос тех. поддержке. Со второго раза я таки получил ответ.
Елена Першина
Сотрудник Яндекса22 февраля 2018, 17:09
termitkin,
Рада, что в итоге смогли вам помочь! 
Игорь Калинин
19 февраля 2018, 13:24
Это все превосхдно, но вот 2-ю неделю стучу в поддержку и мне говорят, что с сайтом все нормально. Но за 2 года существования сайта с 14 02 2018 трафик упал в 5 раз http://joxi.ru/v29R11ZCGyYZzA. Вот скриншот общий, в начале низкий трафик был при склейке http://joxi.ru/5md1EE8Ivzp3L2 потом пошел рост и все, теперь 2500 переходов с Яндекса, а было стабильно 10000 тыс и более. Я нашел страницы, где стояла реклама и делала редирект, показал поддержке и тишина. Прошу обратить на мой сайт внимание и очень буду благодарен, если Вы пересмотрите мой сайт и укажите пример страниц, которые нарушают Ваши правила, готов все мигом исправить.
Игорь Калинин
19 февраля 2018, 13:27
Игорь Калинин,
 Вот сегодняшний скриншот, трафик и дальше падает http://joxi.ru/DrlKeenH4geX9A
Игорь Калинин
19 февраля 2018, 13:27
Игорь Калинин,
Ticket#18021318380324894
Елена Першина
Сотрудник Яндекса21 февраля 2018, 18:40
Игорь Калинин,
Я проверю, спасибо. 
Яндекс, я не пробовал эту новую опцию, но хочу сообщить о проблемах с crawl-delay в robots.txt. При установленной задержке проблемы с чтением турбо-страниц, особенно если лент несколько, он читать даже не пытается, возвращает ошибку. Как-нибудь подружите своего робота с crawl-delay!
Обновлено 19 февраля 2018, 23:37
Елена Першина
Сотрудник Яндекса21 февраля 2018, 17:08
kamchatka,
Мы просто перестаем учитывать crawl-delay, так что можете считать, что подружили! 
у нас легли все сайты...
и очень ругается хостинг на нагрузку
бот посещает волнами, и реагирует на 500 ошибку сервера
Но хостинг выдает 5xx ошибку, когда очень сильно уже вышли за нагрузку тарифа
поэтому идет волновой перегруз
Дайте возможность руками ограничить посещение на более большой отрезок времени
У нас просто 300 сайтов поддоменов, и на каждом сайте более 100 000 страниц.
Нормальная задержка была в 200 секунд. Мы могли это контролировать. А теперь ужас какой-то. Пожалуйста, посоветуйте что-нибудь
Елена Першина
Сотрудник Яндекса26 февраля 2018, 17:37
megalamps,
Если хостинг не выдерживает стандартную нагрузку от поискового робота, возможно, это повод проверить качество работы хостинга. Вы можете ограничить настройку обхода в Вебмастере, впрочем, при таких проблемах с хостингом робот и сам скоро должен нагрузку сильно снизить, только вот не уверена, что это лучшее решение для вашего сайта. 
Елена Першина,
у нас уже хостинг лёг.
Задержка стояла 200 секунд, а в вебмастере минимальное значение 0.6 в секунду, это тоже очень много.
Короче пока не знаем что делать, будем как то боту ошибку показывать.
Елена Першина
Сотрудник Яндекса26 февраля 2018, 18:32
megalamps,
Если напрямую в поддержку Вебмастера напишите, то мы постараемся посмотреть, почему до сих пор так обходим, а не снизили нагрузку. Если тут правда есть какая-то ошибка на стороне нашего бота - мы её исправим.  
Нда....
Давайте откажемся от стандартного механизма и придумаем свой. При этом не оставим данных по этому поводу в документации и никого не предупредим. Пусть ваши сайты лягут из-за того, что нам вдруг внезапно стало пофигу на ваши настройки....
Наши сайты легли
Елена Першина
Сотрудник Яндекса8 марта 2018, 22:33
AGHigay,
Тут уже несколько раз писали про то, что сайты легли, еще даже когда нововведение не заработало - только анонс дали. Если есть проблемы - напишите в поддержку, проверим, правда ли проблема могла быть связана с нашим обходом. В случаях ранее причины были другие. 
Елена Першина,
куда писать?


Если что - вот скрин того, что внезапно случилось https://yadi.sk/i/0SxmFd2Y3TBkVa
Елена Першина
Сотрудник Яндекса9 марта 2018, 22:08
AGHigay,
В поддержку Вебмастера - в раздел индексирование. Ссылка внизу страницы самого Вебмастера. 
Ну "спасибо",  вам, че. Есть стандартный иснтрумент, нет же, давайте посторим свой велосипед, да причем такой, чтоб у всех, кто его брать не захочет, ноги поотваливались сами.  А если я не хочу регистрироваться вашем вебмастере? А боты ваши мне накручивают нагрузку так, что провайдер начинает предлагать навязчиво перейти на выделенный сервер и это для сайта с очень скромным количеством постетителей.


Елена Першина
Сотрудник Яндекса8 марта 2018, 23:19
rksr,
продублирую то, что писала выше:
тут уже несколько раз писали про то, что сайты легли, еще даже когда нововведение не заработало - только анонс дали. Если есть проблемы - напишите в поддержку, проверим, правда ли проблема могла быть связана с нашим обходом. В случаях ранее причины были другие. 
Мой сайт для отображения контента использует API стороннего сайта, а там есть ограничение на количество запросов в сутки. По истечению количества вызовов API тот сайт прекращает доступ к API и мой сайт перестает работать.


Раз в 2 секунды это 43200 запросов API в сутки, с каждого сайта. А сайтов у меня несколько. Все они перестают работать.


Мои клиенты видят нерабочий сайт и уходят. А я плачу за их привлечение деньги. Я уже почти неделю как без работы из-за неработающего сайта.


Спасибо.
Елена Першина
Сотрудник Яндекса9 марта 2018, 00:37
vladimir.hu,
Если вы хотите, чтобы ваш сайт не индексировался - закройте его от индексирования. Если хотите, чтобы робот не пытался ходить за таким контентом через апи - сделайте статическую копию контента - и отдавайте статическую копию роботу, как и полагается в подобных случаях. 
Обновлено 9 марта 2018, 00:37
Елена Першина,
Да, мне пришлось закрыть бОльшую часть сайта для индексирования. Пока я понял почему продаж мало - мой бизнес простаивал, получая убыток.


Отдавать роботу контент, отличный от того что пользователям - не хорошо.


Кэшировать страницы или вызовы API не вариант, там очень много контента и он не статичен.
Елена Першина,
Мне-то хочется чтобы страницы были в индексе и я получал поисковый трафик. Но теперь их уже невозможно будет открыть для индексирования т.к. робот опять перегрузит API. Раньше можно было проиндексировать с большой задержкой. А теперь ваш робот создает нагрузку как десятки тысяч обычных пользователей ежесуточно.
Спиздили инструмент у google - позор. Еще спиздили форму подтверждения с картинками - верхушка тупости.
Как наказать яндекс за воровство?
К сожалению, YandexBot/3.0 перегружает сайт. Где-то с 1 марта. Придётся запрещать индексацию полезных страниц. Очень жаль
Елена Першина
Сотрудник Яндекса14 марта 2018, 14:38
otshelnik,
Я бы рекомендовала сперва в поддержку обратиться напрямую (как владелец сайта - через обратную связь - раздел индексирование). Давайте проверим вместе, в чем проблема. Но через блог мы этого сделать не сможем. 
Елена Першина,
Лена, спасибо за участие. Я не думаю, что поддержка сделает исключение для меня. Лена, вот смотрите, есть две хорошие поисковые системы, Яндекс и Google. Я не говорю об алгоритмах ранжирования, я говорю, что и Яндекс и Google обходят сайты, однако именно Яндекс создаёт критическую нагрузку на сервер. По поводу моих сайтов, я уже запретил роботу Яндекс часть страниц, на которые по результатам поиска приходили пользователи. Такова селява
otshelnik,
так это здОрово, что Яндекс чаще чем Гугл индексирует и переиндексирует, а вы выставляете это как недостаток.
ivan@parts-soft.ru
15 марта 2018, 12:16
Вот мы разрабатываем сайты автозапчастей, у нас сотни клиентов и все подключены к нам по API для получения данных о фото товаров и их характеристиках. По умолчанию у всех стоял Crawl-Delay: 30  всех все устраивало. Теперь вы решаете - давайте игнорить настройки robots.txt, ведь их просто так сделали и начинаете долбить клиентские сайты по 1 запросу в 2 секунды, параллельно приходят ваши коллеги из Google, а если звезды сойдутся и из Bing в результате сайт клиента перегружен и не успевает отрабатывать запросы целевых клиентов.
В результате приходится ограничивать количество запросов с одного IP в nginx что бы хоть как то приглушить ваш энтузиазм, после чего Яндекс начинает писать владельцу сайта - Ваш сайт отвечает медленно. Вот да ладно, догадался, так может не стоит его так активно нагружать когда и настройки стоят и сайт явно сопротивляется. 
Вопрос - зачем ломать, то что работало, откуда святая уверенность, что вы знаете как лучше? 
Елена Першина
Сотрудник Яндекса17 марта 2018, 18:29
ivan@parts-soft.ru,
Начать можете с настроек в Вебмастере, которые заменили  Crawl-Delay.
ivan@parts-soft.ru
17 марта 2018, 18:47
Елена Першина,
Это все понятно, но о том и речь - ваше минимальное значение 0.6 запрос в секунду, это в нашем случаем много и мы ничего не можем сделать. Пожалуйста, рассмотрите возможность поставить лимит хотя бы 1 запрос в 10 секунд. 
На днях хостер заблочил сайты потому что был превышен лимит потребления CPU, в логах видно что яндекс и гугл положили сайт, сразу скажу что страниц примерно по 400тыс. на двух сайтах, гугл срывается каждые три месяца потом в вебмастере выставляю 1 запрос в 10 сек. но в яндекс вебмастере ограничить можно только 0.6 секунды, в роботс Crawl-delay 10, теперь яндекс слишком часто заходит на сайт. Можно ли сделать хотябы до 1 запроса в 5 секунд? Потому что при наличии такого большого числа страниц и если еще и гугл срывается каждые три месяца то и средний сервак положить так можно.
Сайты мешду прочим оптимизированы и страницы быстро грузятся, 90-95% в google speed.
ivan@parts-soft.ru
15 марта 2018, 18:14
Sergey Agafonov,
Что интересно, ходит один бот с одного IP адреса, ставим лимит на количество обращений с IP он начинает ломится с 5 разных адресов. Как специально завалить пытается :)
Елена Першина
Сотрудник Яндекса17 марта 2018, 18:43
Sergey Agafonov,
если через форму обратной связи напишите - проверим и постараемся помочь. Через блог, к сожалению, такие вопросы не решаем. 
Я писал в техподдержку по поводу того, что очень сильно выросла нагрузка на сайт из-за нововведения. И что? Мне ответили - сам дурак, убирай де, "технические" страницы с сайта, чтобы бот их не обходил. Это что - такое решение проблемы?!!! Так ничего больше и не предложили. Пришлось в nginx ограничивать яндекс ботов. Кому это нужно? Сколько можно издеваться над веб-мастерами и ставить их раком? 
Елена Першина
Сотрудник Яндекса17 марта 2018, 18:52
HA-CEHE,
А в чем проблема убрать технические страницы? Вам говорят - в поиске они не нужны, не нужно их отдавать поисковику Но вы говорите, что отдавать их Яндексу все равно будете. Не очень понятно тогда,  почему претензии к поиску. Вы считаете допустимым отдавать поиску "мусор". При подобном подходе поиск и правда скоро начнет меньше индексировать, а ранжирование сайта может ухудшиться - как раз из-за технического мусора.
Елена Першина,
Google bot нормально индексирует все, и не нагружает сервер. Вопрос лишь в том, почему в Яндексе решили, что отсечка 0,6 оптимальная. Мне нужна 0,06. Или верните Crowl Delay. 
Елена, добрый день.
Подскажите по скорости обхода.

У меня Crawl-delay стоит 0.3, робот Яндекса честно делал 3 запроса в секунду.
При появлении настройки "Скорость обхода", я сразу поставил 20 запросов/сек, но Яндекс так до сих пор делает 3 запроса/сек. Он не доверяет серверу, что он выдержит? Он выдержит гораздо больше, проверенно нагрузочными тестами. Сейчас изменил на 30 запросов/сек.
И еще вопрос, если можете, то ответьте, пожалуйста, по тикету 14041816150695441. Голову сломал, не понимаю что произошло, несколько лет нормально, а тут такое. Или временный сбой и всё вернется (было в 2015 году), или из за проблем с сервером на несколько часов, или ... . Если можете, помогите понять.
Спасибо
Обновлено 20 марта 2018, 19:57
Елена Першина
Сотрудник Яндекса20 марта 2018, 20:55
pautina,
По тикету ответим в рамках переписки. По нагрузке - в Вебмастере выставляется вами максимально возможная, но если мы понимаем, что нет смысла так часто переобходить сайт, мы можем не обходить. 
Елена Першина,
спасибо за оперативный ответ!
Продвижение сайтов в Бресте https://seoclick.by/
Планируете ли вы повышать лимит по частое, скорости обхода ?
Елена Першина
Сотрудник Яндекса12 апреля 2018, 19:15
SeoClick.by,
Деликатный спам ) Лимиты рассчитываются исходя из качества ресурса. 
Елена Першина,
здесь (https://yandex.ru/support/webmaster/robot-workings/crawl-delay.html) статья которая советует прописать директиву "Crawl-delay" для снижения нагрузки на сервер (Если сервер сильно нагружен и не успевает отрабатывать запросы робота, воспользуйтесь директивой Crawl-delay).
В этой же статье говориться что "мы решили отказаться от учёта директивы Crawl-delay"
Кому верить?
То есть прописывать директиву "Crawl-delay" в robots для яндекса бессмысленно?
Елена Першина
Сотрудник Яндекса4 декабря 2018, 19:43
Сергей Д.,
мы её более не поддерживаем, нагрузка задается через Вебмастер. 
Пишу статьи сама, так, что больше одной не напишешь. Подбор материала, картинки, уникальность, поверка на орфографию. Проходит много времени, пока статья готова. Абсолютно не волнуюсь по поводу обхода, нужно придет и проиндексирует.
А вообще как быстро могут измениться позиции сайта? Может ли быть так, что зашел в выдачу через 10 секунд, минуту или час  а позиция изменилась ?
platon
Сотрудник Яндекса15 сентября 2020, 17:16
konvertrafru,
результаты поиска действительно могут изменяться. Первая и самая вероятная причина подобных изменений - это персонализация. Если вы будете проверять позиции вашего сайта в режиме "Инкогнито" вашего браузера с отключенными расширениями, то они вряд ли будут так различаться.
Вторая возможна причина - это корректировки наших алгоритмов. Это постоянный процесс, который влияет на всю выдачу.
почему боты пишут что аккаунт заблокирован в тите https://a-eda.ru/ хотя титл совсем другой
Здравствуйте!
Настраиваю Nginx чтобы избежать примитивных DDoS-атак, но при этом не хочу случайно заблокировать поисковых роботов. Сейчас настроено так:


http {
    limit_req_zone $binary_remote_addr zone=one:10m rate=10r/s;
    # ...
    server {
        location / {
            limit_req zone=one burst=20 nodelay;
            # ...
        }
    }
}


При текущей конфигурации с 1 ip адреса может быть до 10 запросов в секунду с интвервалом в 100мс на каждый запрос. При этом, может быть единовременный "всплеск" до 20 одномоментных запросов, после чего каждый новый запрос так же будет обрабатываться с интервалом в 100мс.


Достаточно ли такой конфигурации, чтобы не забанить поисковых роботов Яндекса?
platon
Сотрудник Яндекса27 марта 2022, 17:56
Борис,
не зная сам сайт, несколько сложно сказать, поскольку в случаях, когда на сайте сотни тысяч страниц, поисковой робот может делать более 10 запросов в секунду. В Яндекс.Вебмастере сайта есть инструмент "Скорость обхода", его можно использовать, чтобы ограничить число обращений в секунду. Тогда число обращений роботов должно в любом случае соответствовать заданным параметрам.
Можно также дополнительно определять наших роботов, чтобы не заблокировать их. Подробнее об этом написано тут: https://yandex.ru/support/webmaster/robot-workings/check-yandex-robots.html .
--
Пожалуйста, оцените наш ответ 
platon,
Благодарю за ответ. Если, к примеру, взять самый быстрый сайт какой только можно представить, то с какой максимальной скоростью робот Яндекса сможет обходить страницы?
platon
Сотрудник Яндекса28 марта 2022, 17:08
Борис,
какое-то точное число назвать очень сложно. На разных сайтах скорость индексирования может быть от нескольких тысяч запросов в сутки до нескольких десятков обращений в секунды, если сайт очень большой. Количество обращений зависит не только от скорости ответа, но и размеров сайта, частоты обновления страниц и многих других факторов. Поэтому подобных замеров у нас нет, и они бы не дали общей картины.
Обновлено 13 ноября 2022, 11:00
Александр К
13 ноября 2022, 09:18
У кого то проблема с тем, что Яндекс не посещает сайт. У нас же проблема была из-за того, что Яндекс превысил нагрузки на наш сайт. Снизили по минимум скорость обхода, посмотрим что будет дальше.
platon
Сотрудник Яндекса13 ноября 2022, 10:59
Александр К,
если нагрузка будет все еще велика, пожалуйста, напишите в нашу службу техподдержки, посмотрим со своей стороны.