Блог Яндекса для вебмастеров

Как быстро удалить из Поиска группу страниц?

Пост в архиве.

Порой возникают ситуации, когда из Поиска нужно быстро удалить большой объем данных: весь сайт, целый раздел или страницы с параметром. Теперь сделать это стало легко, так как сегодня мы доработали функциональность «Удалить URL»: в инструменте появилась возможность удалять страницы сайта по префиксу при условии, что этот запрет реализован и в robots.txt.

Так, если ввести в поле адрес сайта

http://example.com/

то это будет означать, что весь сайт нужно удалить из поиска.

А если ввести только раздел, например, вот так:

http://example.com/catalogue/

то из поиска нужно удалить все страницы этого раздела.

Наконец, если вам мешают страницы с параметрами в URL, например, после символа?, то  укажите 

http://example.com/page?

чтобы они пропали из поиска. При этом, конечно, не забудьте продублировать запрет в robots.txt, иначе команда не сработает.  Указывать можно как абсолютные, так и относительные пути, как и в robots.txt. 

Через несколько часов после использования инструмента указанные страницы должны будут пропасть из поиска. Чтобы вернуть раздел обратно в Поиск, его нужно будет снова разрешить к индексированию в robots.txt, и отправить на переобход.

Читатели нашего блога, скорее всего, не раз встречали пожелания о таком инструменте в комментариях, и мы рады, что смогли воплотить эти пожелания в реальный инструмент. 

Команда Вебмастера

P. S. Подписывайтесь на наши каналы
Блог Яндекса для Вебмастеров
Канал Яндекса о продвижении сайтов на YouTube
Канал для владельцев сайтов в Яндекс.Дзен

100 комментариев
Семен Семёныч
3 августа 2018, 00:30
Здорово конечно, были ситуации пару раз когда пригодилась бы эта возможность. Но все таки, вот бы загонять страницы в индекс поскорее, а не выгонять:) Переобход, что-то совсем долго работать стал
Обновлено 2 августа 2018, 23:31
Семен Семёныч,
тоже это заметила и решила проверить... поставила новые страницы (по одной) на переобход: написано, что в очереди, но она уже в поиске (смотрела ручками)... и так 7 раз подряд с интервалом в час-полтора, а восьмую не стала ставить на переобход и она в поиске не появилась. То есть у меня получилось, что все прекрасно и быстро работает, просто не отображается до обхода основным роботом и апа. Не знаю... может, только у меня так...
Хачатурова Надежда
4 августа 2018, 13:27
Арина,
не только у Вас. Отображение информации в вебмастере запаздывает. Случается, в метрике видно, что пришли на страницу из поиска Яндекса, а в проиндексированных ее нет. Однажды даже попыталась отправить url на переобход и получила ответ на запрос, что страница известна роботу, находится в поиске. Не совсем синхронно работают все инструменты. Но нам главное, чтобы она фактически присутствовала в выдаче. ))
Хачатурова Надежда,
точно :) главное — индекс :)
Елена Першина
Сотрудник Яндекса6 августа 2018, 11:57
Арина,
Проверим, спасибо!
Елена Першина
Сотрудник Яндекса6 августа 2018, 11:59
Арина,
да, проблему нашли, исправим максимально быстро! Простите, пожалуйста, за задержку с отображением данных ( 
Елена Першина,
ничего страшного, ведь все работает :) Просто не показывает, но это такое... Блинчик обычный, и тот комом бывает, а уж махина, как поиск... тут главное — вовремя и правильно донести до вас, что именно сбоит. И самим не ругать сразу, а проверить. Так меня Вы научили, Елена :) Не конкретно меня, конечно... но научили :)
Молодцы. Спасибо!
Вы лучше скажите, если 410 вместо 404 отдавать - Яндекс быстрее забудет о несуществующих уже страницах, или так и будет годами заходить и перепроверять?
ya.tim,

Идею с 410 я предлагаю Яндексоидам уже пару лет (на конференциях в кулуарах - говорил с разными сотрудниками, писал в техподдержку), но пока они не торопятся реализовать 410. На одном из сайтов у меня даже сделан тест по проверке 410 - толку пока никакого.
Oleg,
легче по маске отдавать 410, чем по маске строить robots.txt и потом еще изголяться в вебморде
ya.tim,
это если ждать, пока Яндекс сам примет решение, а если в «Удалить URL» отнести, моментально удаляется (когда отдает 404) и больше не проверяется. У вас не так?

Елена Першина
Сотрудник Яндекса6 августа 2018, 12:49
ya.tim,
нет, лучше от 410 не станет. Обработаем как 404. 
Елена Першина,
Спасибо, значит будем пользоваться нововведением как-то...
Денис Демидов
3 августа 2018, 04:02
Хорошая штука но поздно искал это решение лет 5 назад , Спасибо что сделали сейчас хоть уже хорошо 
Как удалить такое:
/?id=страница&utm_source=fact,
но это удалять нельзя - /?id=страница.

stam2010,
Проставь canonical на эти страницы
Sansk,
он уже давно стоит
stam2010,
и доолго не пропадают после установки каноникал? 
trustttt,
после установки каноникал такие страницы наоборот периодически появляются в поиске или в статистике обхода. Иногда появляется 301 Moved Permanently. Но страница с этим окончанием открывается, перенаправление сделать не получается.
Если нужно запретить страницы, урлы которых содержат ?x=1
то как правильно прописать это в роботс, так:
disallow: /?x=1
или так
disallow: /x=1?
Обновлено 3 августа 2018, 08:38
hivemed,

disallow: *?x=1
Обновлено 3 августа 2018, 08:58
hivemed,

disallow: /*?x=1
hivemed,
 или еще лучше
disallow: /*?x=1*
Если я добавлю в robots.txt директиву, к примеру:
"Disallow: /catalog/"
а в инструмент отправлю:
"/"
Инструкция будет проигнорирована, или из индекса удалят только /catalog/* ?
stalker-crew,
Думаю удалят всё, а повторно робот когда придет проверять, проиндексирует все кроме каталога.
Добавил в robot.txt, но все равно ругается что не может удалить, так как в роботах нет. Пробовал обновлять в разделе работы с этим файлом, бесполезно. Вебмастер видит эти строчки в роботах, я проверял, но удалять через префикс не даёт.
Елена Першина
Сотрудник Яндекса6 августа 2018, 12:51
rakshasik80,
можете в поддержку продублировать, проверим. Но по описанию в блоге гадать не хочется ( 
Елена Першина,
Прошло некоторое время, что-то где-то у вас обновилось и больше не ругается, если честно лень дальше этим заниматься.
Елена Першина
Сотрудник Яндекса6 августа 2018, 16:30
rakshasik80,
поняла, спасибо. 
Спасибо, Яндекс, опять полезнота! Можете немного подробнее рассказать про инструмент:
1) Как быстро отрабатывает инструмент и зависит ли это от объема страниц удаляемой по префиксу выборки?
2) Будет ли пометка какая-то, что страницы удалены (как в инструменте переобхода, что робот обошел)? (не было еще возможности протестировать на реальном проекте)
Елена Першина
Сотрудник Яндекса6 августа 2018, 16:37
anton.shaban,
1. От объема не зависит, несколько часов.
2. Будет в страницах в поиске, но через некоторое время после удаления страниц. 
АльбертычЪ
3 августа 2018, 12:48
Есть страницы пользователей /pm_profile?uid=Pumpkin
В роботсе как прописать? "Pumpkin" - имена пользователей.
И какой префикс ставить на удаление всех пользователей?
platon
Сотрудник Яндекса6 августа 2018, 10:22
АльбертычЪ,
чтобы запретить все страницы данного раздела, можно использовать директиву вида:
Disallow: /pm_profile?uid=
А на удаление при этом добавить страницы таким образом:
/pm_profile?
АльбертычЪ
6 августа 2018, 10:55
platon,
Благодарю
где тут кнопка лайк?)))), -лет 5 жду эту функцию) улучшить бы как-то общение Яндекса с веб оптимизаторами и веб мастерами))) раздел что ли сделайте?)
Обновлено 3 августа 2018, 13:12
Полезно, спору нет)
Сделайте возможность выгружать информацию по внутренним ссылкам (например 404-е)
Николай Егоров
3 августа 2018, 15:18
Класс!!!
Ремонт Своими Руками
4 августа 2018, 05:07
Функция "удалить урл" существует давно, а пишите об этом только сейчас. Как же матюкался, когда урл не хотел удаляться, писалось что-то про роботс. 
platon
Сотрудник Яндекса4 августа 2018, 17:31
Ремонт Своими Руками,
для удаления страницы через инструмент, она должна отвечать http-кодом 403/404, либо быть запрещена в файле robots.txt сайта или при помощи мета-тега noindex. Проверьте, пожалуйста, что страница соответствует данным требованиям, перед добавлением ее в инструмент. Если же страница недоступна, но добавить ее не удается, напишите нам об этом через форму обратной связи, мы посмотрим, в чем может быть дело: https://yandex.ru/support/webmaster-troubleshooting/site-indexing/noindex-robotstxt.html .
Работает это так же как и раньше, вчера поставили на удаление 4 сайта, ни один не ушел из поиска за несколько часов, до сих пор все в поиске сидят.
Хачатурова Надежда
4 августа 2018, 13:38
Спасибо за полезный инструмент! Не перестает Яндекса радовать. ))
Здравствуйте. Такой вопрос. Как удалить отдельную страницу сайта из поиска, если сайт сделан на конструкторе (Jimdo). В поиске отображаются и карта сайта, и вход в панель управления сайтом, и раздел "О компании Jimdo".
platon
Сотрудник Яндекса6 августа 2018, 14:33
ONFFKGS,
напишите нам в поддержку, пожалуйста: https://yandex.ru/support/webmaster-troubleshooting/site-indexing/noindex-robotstxt.html . 
Не прошло и двадцати лет....
Подождите, но ведь параметры лучше ставить в Clean-param ... 
Но тогда не сработает "Удалить урл"...
*мем с грустным человеком, уронившим голову на руки*
Обновлено 7 августа 2018, 13:04
platon
Сотрудник Яндекса9 августа 2018, 10:08
girl-without,
инструмент удаления URL предназначен для исключения из поиска недоступных и удаленных страниц. Директива Clean-param не запрещает индексирование страниц, он только указывает, что страницы должны участвовать в поиске по "чистому" адресу, при этом они остаются доступными для посещения, поэтому добавить их в инструмент действительно не получится. В соответствии с директивой Clean-param ссылки с get-параметрами смогут выпасть из поиска автоматически в течение 2-3 недель.
girl-without,
спасибо!
И ещё вопрос.
Вот такая конструкция сработает /catalogue/*/images/ - если мне нужно удалить не корневой раздел, а все страницы с элементом /images/ в урле?
platon
Сотрудник Яндекса9 августа 2018, 14:08
girl-without,
к сожалению, таким образом удалить страницы не получится. Возможно только удалить, например, все страницы раздела /catalogue/ по схеме, описанной в блоге.
platon,
спасибо за ответ!
platon,
Если я добавлю в robots.txt директиву, к примеру:
"Disallow: /catalog/"
а в инструмент отправлю:
"/"
Инструкция будет проигнорирована, или из индекса удалят только /catalog/*, или из индекса удалится весь сайт?
То есть, к примеру, если я внес 20 новых директив в robots.txt, но отправлю в инструмент только "/", добьюсь ли я эффекта, что робот сам определит, что запрещено от индексации и удалит, а что разрешено - оставит?
Экотерм Buderus-Центр
9 августа 2018, 14:59
Ластик-пейдж 0_У)
Экотерм Buderus-Центр
9 августа 2018, 15:00
Теперь пароль от кабинетов надо хронить пуще прежнего. 
Подскажите пожалуйста, если у меня на сайте проиндексированно 3млн дублей вида 
/post12345678.html
то чтобы удалить их все (3 миллиона разных номеров после слова post)
надо сделать так?
/*post?



В роботс прописано так 
User-agent: *
Disallow: /*post
Обновлено 13 сентября 2018, 01:53
Подскажите, как массово удалить страницы вида:
https://www.biosalon.ru/shop/akvariumy-i-tumby/by,created_on/results,503-503

Попробовал так: https://www.biosalon.ru/*/*created_on*

Написано, что URL добавился в список на удаление.

В роботс есть запись: Disallow: */*created_on*

Все правильно сделал?
Обновлено 18 ноября 2018, 00:30
funny-traffic-light
28 марта 2019, 18:06
Здравствуйте, друзья и коллеги!
Подскажите пожалуйста. Мне необходимо произвести переадресацию (URL в браузере поменять) каждой страницы сайта. При этом нужно, чтобы заходы были по новому адресу, а введя старый адрес сайт выдавал отсутствие страницы. Я удалил эти страницы из поиска, прописав как надо в robots.txt. Теперь у меня загруженных - 98 страниц, в поиске - 0. Как я понимаю, загруженные (т.е. старый вариант страниц) будут висеть очень долго. Можно ли как-нибудь ускорить их выгрузку?
platon
Сотрудник Яндекса29 марта 2019, 22:57
funny-traffic-light,
ускорить их удаление нет возможности, при этом они ни на что не влияют и отображаются просто для вашего знания о них. В будущем при смене структуры советую не удалять старые страницы, а настроить 301 редирект на новые, это поможет роботу быстрее проиндексировать сайт. Подробнее о наших рекомендациях при смене структуры сайта вы можете прочитать в следующем разделе Помощи: https://yandex.ru/support/webmaster/recommendations/changing-site-structure.xml .
Tabhub - Google таблицы для новичков и профессионалов
4 июня 2019, 09:28
Пожскажите.
Больше полугода бьюсь с проблемой:
Удалил страницу через функцию вебмастера Яндекс. Прошла пометка о том, что страница удалена.
Спустя полгода - получаю переходы на удаленную страницу.
почему так происходит?
platon
Сотрудник Яндекса4 июня 2019, 15:31
Tabhub - Google таблицы для новичков и профессионалов,
пожалуйста, напишите нам через форму https://yandex.ru/support/webmaster-troubleshooting/site-indexing/delete-site.html . Постараемся проверить.
Tripadline - авиабилеты куда угодно
21 июня 2019, 07:34
Это все отлично, но когда указываешь страницу которой уже нет, и ставишь ее на удаление то в вебматестере пишет что не корректный адрес страницы что за ??? и как удалить????
platon
Сотрудник Яндекса21 июня 2019, 14:46
Tripadline - авиабилеты куда угодно,
через инструмент можно отправить на удаление страницы, которые отвечают http-кодом 403/404 или 410, либо их индексирование запрещено в файле robots.txt/мета-тегом noindex. Проверьте, пожалуйста, что страница подходит под одно из этих условий. Это можно сделать, например, при помощи "Проверки ответа сервера":
https://webmaster.yandex.ru/tools/server-response/
Если страница подходит под условия, но все равно не удается отправить ее на удаление, напишите, пожалуйста, обращение по этому вопросу через форму обратной связи: https://yandex.ru/support/webmaster-troubleshooting/site-indexing/delete-site.html . Так будет проще изучить ситуацию.
Почему при запросе на удаление страниц из поиска в статусе указано "Отклонено" 
Почему я не могу удалить ненужные страницы?
platon
Сотрудник Яндекса27 июня 2019, 08:14
willso.ru,
проверьте, пожалуйста, что страницы недоступны, то есть отвечают http-кодом 403, 404 или 410, либо запрещены к индексированию: в файле robots.txt или мета-тегом noindex, так как удалить через инструмент можно именно такие ссылки. Если все условия выполнены, пришлите, пожалуйста, примеры страниц, которые не удается удалить, в обращении через форму обратной связи:
https://yandex.ru/support/webmaster-troubleshooting/site-indexing/delete-site.html
platon,
Досчтаточно ли условия, что страница отвечает 404?  А-то вы пишите, что если все условия будут выполнены, а выше - что или 403, или 404, или запрещено  в robotse.
У меня 404, но стоит статус Отклонено.
Обновлено 29 февраля 2020, 11:19
platon
Сотрудник Яндекса1 марта 2020, 04:34
cremp,
да, http-кода 404 должно быть достаточно для удаления страниц из поиска через инструмент удаления. Если по каким-то причинам добавить ссылки не удается, напишите, пожалуйста, обращение через форму обратной связи: https://yandex.ru/support/webmaster-troubleshooting/site-indexing/delete-site.html .
Так мы сможем проанализировать ситуацию подробнее.
Александр Петров
27 июля 2019, 02:30
Super!
ПМЖ Израиль - Нацерет Илит
4 августа 2019, 12:40
Добрый день. подскажите как справится с вопросом. 
у меня нет доступа к файлу robots.txt , 
в поиск попали страницы предварительного просмотра, и яндекс упорно продолжает индексировать их вместо настоящих. 
например, индексируется https://www.pmjisrael.com/83/?preview=d5ew6s16a41w15 вместо https://www.pmjisrael.com/zelenyj-gorod/
внести изменения в код неверных страниц я тоже не могу - я их не вижу
уже год я пытаюсь удалить их через инструмент "удаление страниц" , потому что никакой другой способ мне недоступен, но безрезультатно. 
Что делать?
Обновлено 4 августа 2019, 12:42
platon
Сотрудник Яндекса5 августа 2019, 08:31
ПМЖ Израиль - Нацерет Илит,
напишите, пожалуйста, моим коллегам в поддержку: https://yandex.ru/support/webmaster-troubleshooting/site-indexing/delete-site.html
Соловьев Алексей Юрьевич
25 августа 2019, 10:56
Здравствуйте.


Заметил ошибку в работе этой полезной функции: 
все работает только при условии наличия в файле robots.txt директивы
 Disallow: /manifest.json/  именно в таком виде. В то время как рабочая директива выглядит так:
Disallow: */manifest.json/. 


Заодно предостерегаю всех начинающих веб-мастеров от размещения файла манифеста в корневой каталог сайта.
platon
Сотрудник Яндекса26 августа 2019, 07:56
Соловьев Алексей Юрьевич,
когда необходимо удалить целую директорию сайта из поиска, то эта директория и должна быть полностью запрещена к индексированию в robots.txt. В случае директивы вида "Disallow: */manifest.json/. " возможны случаи, когда часть страниц раздела не попадет под запрет, так как не содержит точки в адресе, поэтому воспользоваться инструментом в такой ситуации действительно получится только при использовании директивы "Disallow: */manifest.json/".
Соловьев Алексей Юрьевич
26 августа 2019, 22:45
platon,
Дело кончилось еще смешнее: сейчас эта директива выглядит так Disallow: */manifest.json, только в этом случае анализ файла robots.txt отражает запрет индексирования. Но для работы сервиса "Удаление страниц" требуется, чтобы в  robots.txt эта директива была без звездочки, т.е. в ее нерабочем состоянии. 


Кстати manifest.json это и не каталог вовсе, а файл. Но сервис работает и в этом случае. Спасибо Вам за него.
platon
Сотрудник Яндекса27 августа 2019, 11:00
Соловьев Алексей Юрьевич,
если удалить требуется только один файл, то проблем с добавлением в инструмент именно одной ссылки, запрещенной директивой "Disallow: */manifest.json" возникнуть не должно. С другой стороны, директива запрещает не раздел сайта, а только группу страниц, адрес которых начинается с manifest.json, поэтому удалить такой раздел целиком и правда не получится. Чтобы массовое удаление ссылок сработало, нужно запретить именно раздел. Например, если файлы находятся по адресу вида site.ru/directory/manifest.json , запретить нужно директорию:
Disallow: /directory/
Соловьев Алексей Юрьевич
27 августа 2019, 11:25
platon,
Вот теперь я полностью осознал что произошло. Но сначала все по порядку: я ошибочно разместил файл манифеста в каталоге pablic.html. После этого стали появляться страницы следующего вида - https://site/shop(blog)/товар(статья)/manifest.json. То есть ко всем существующим страницам сайта дописался перфикс manifest.json естествено с ответом 404. 


Так как Ваш алгоритм заточен под каталог, я временно убирал звездочку директиве */manifest.json файла  robots.txt. Алгоритм оценивая эти изменения и внесенный перфикс воспринимал manifest.json как раздел и удалял ненужные страницы из поиска. 


Затем я снова возвратил звездочку на место. Все
Соловьев Алексей Юрьевич
27 августа 2019, 11:33
platon,
Полностью запретить директорию, в моем случае не представляется возможным. Вообще когда может возникнуть такая потребность закрыть от индексирования целый раздел сайта? Когда я захочу оставить один блог? Или убрать блог, оставить магазин?
platon
Сотрудник Яндекса27 августа 2019, 17:16
Соловьев Алексей Юрьевич,
иногда может возникнуть необходимость запретить к индексированию весь сайт или разделы вида /search/ с результатами поиска по сайту или /bin/ - корзину покупателей на сайте. Возможны случаи, когда на сайте, к примеру, больше нет продукции того или иного раздела, и в таком случае для скорейшего исключения страниц можно использовать запрет всего раздела.
Если возможности запретить весь раздел нет, вполне можно запретить отдельные группы страниц, которые не должны индексироваться, после чего дождаться их автоматического удаления: это, как правило, занимает до двух недель.
хороший пример! но у меня динамические страницы и я хочу удалить по 500 штук в день, потому что сменил cms, А мне отказывает яндекс в удалении старых адресов... Что делать и не знаю? Да и сделать переиндексацию вообще сложно, совсем по 5 страниц добавляет в день... Не ужели смена cms, так плохо влияет на яндекс
platon
Сотрудник Яндекса2 сентября 2019, 09:12
Friedrich Frei,
пожалуйста, напишите моим коллегам в поддержку https://yandex.ru/support/webmaster-troubleshooting/site-indexing/delete-site.html 
А что означает статус "Ошибка", который появляется при удалении страницы, отсутствующей на сайте и возвращающей 404 ошибку?
Обновлено 28 февраля 2020, 15:15
Добрый день!
Посдкажите, пожалуйста у меня страницы имеют вид как:
/realty/?searchType=1
Так и:
/realty/irkutskaya-oblast/gorod-angarsk/?searchType=1
Т.е. фунция searchType может находится везде и в начале и в конце. Т.е. надо удалить все URL где встречается эта функция.
В robots.txt прописал так:
Disallow: /*?searchType*
Как правильно теперь удалить из https://webmaster.yandex.ru/site/https:1bis.ru:443/tools/del-url/?tab=prefix
Т.к. она просит команду в конце / или ?
Заранее Благодарен! 
platon
Сотрудник Яндекса30 июля 2020, 14:41
Первый,
страницы указанного вида, к сожалению, удалить массово с помощью инструмента "Удалить URL" не представляется возможным. С помощью инструмента могут быть удалены только страницы вида /realty/?* или /realty/irkutskaya-oblast/gorod-angarsk/?* , что не совсем подходит в вашем случае. В данной ситуации мы рекомендуем дождаться автоматического удаления необходимых вам страниц в связи с запретом в robots.txt. Это произойдет ориентировочно в течение 1-2 недель, подождите, пожалуйста.
Подскажите, у меня куча дублей вида - /news/pogoda_na_segodnya/?nw=1607632735000
В роботс я закрыл таким образом:
Disallow: /*?nw=*



Пытаюсь отправить на удаление, пишет, что закройте в роботс директиву. 


Как правильно закрыть и удалить данный мусор?
platon
Сотрудник Яндекса15 декабря 2020, 14:52
lenin.technology,
пожалуйста, продублируйте ваше сообщение в службу поддержки: https://yandex.ru/support/webmaster/troubleshooting/site-indexing.html
Здравствуйте, скажите на сайте была страница, ее удалил, в карте сайте ее нет, но робот постоянно на нее приходит отмечает сначала как дубль, потом переходит редиректом на страницу 404... Как роботу объяснить, что скучать по этой странице не стоит и она не вернется. Через удаление страниц через вебмастер не удается... Говорит - отклонено. Как быть?
platon
Сотрудник Яндекса20 января 2022, 15:26
Centeres124,
в инструмент удаления страниц из поиска можно добавлять только недоступные роботу страницы, такие страницы могут быть запрещены метатегом noindex, либо запрещены к индексированию в файле robots.txt, либо быть вовсе уже недоступными и отвечать кодом 403/404/410. Это является обязательным основанием для использования данного инструмента, удалить доступные страницы или страницы с редиректом через него не получится.
Если робот когда-либо обнаружил ссылку на страницу, он может периодически обращаться к ней, проверяя ее на доступность, даже если такая ссылка уже отсутствует в источнике.
Если вы не хотите, чтобы робот обращался к этой странице, вы можете запретить ее индексирование в файле robots.txt. В этом случае робот будет знать, что индексировать ее не нужно, и не будет к ней обращаться. А если на страницу не ведут внешние ссылки, со временем информация о ней будет удалена из Яндекс.Вебмастера.
Подробнее о файле robots.txt вы можете прочитать в нашей Справке: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
Рекомендую вам также воспользоваться инструментом проверки файла robots.txt ( https://webmaster.yandex.ru/tools/robotstxt/ ). Непосредственно в инструменте вы можете корректировать указания и проверять, запрещены или разрешены необходимые вам страницы к индексированию.
--
Пожалуйста, оцените наш ответ
После обхода робот присвоил страницам статус 404 Not Found. Отправляю их на удаление, однако вместо статуса "Удалено", как это обычно бывает, присваивается статус "Ошибка". Что это означает, с чем это связано и с чьей стороны ошибка - не понятно. Что делать в этой ситуации? 
Tripadline - авиабилеты куда угодно
10 мая 2022, 21:43
Катя,
3 года будете ждать пока удалят, у меня поддомены висят который просто уже нет года 2 как, и ни чего по сей день в поиске... У Яндекса робот своей жизнью живет, все отсылки на робота ни чего нового не услышите
Tripadline - авиабилеты куда угодно,
Прикольно. Страниц тоже давно нет, пытаюсь вычистить от них поиск. Ну суть ясна. У Яндекса везде робот виноват. Спасибо за ответ)) 
Я, конечно, странный, но знаете почему в войсках на самых критичных точках дефицит аварийности? Потому, что инструкции написаны для дебилов.
Мне надо удалить страницы с параметрами.
Допустим у меня есть проиндексированные:
http://example.com/index.php/catalogue/item2.html

http://example.com/index.php/catalogue/items/item2.html

http://example.com

http://example.com/other-item php

и они же с разметкой от директа:
http://example.com/index.php/catalogue/item2.html?...
http://example.com/index.php/catalogue/items/item2.html?...
http://example.com?...
http://example.com/other-item php?.....
Если я пропишу  в robots.txt Disallow: /page? страницы с моей адресацией (см. выше) без параметров не вывялятся из индекса вместе со страницами с параметрами?



dpts,
Upd: если пропишу Disallow: /page? не вывалятся -ли страницы без параметров вместе со страницами с параметрами.
Обновлено 11 июля 2022, 16:04
platon
Сотрудник Яндекса11 июля 2022, 16:27
dpts,
в случае использования директивы Disallow: /page? из поиска будут исключены страницы, адреса которых начинаются с http://example.com/page? . Страницы же, которые не попадают под действие запрета, например, http://example.com/page , смогут продолжать индексироваться и участвовать в поиске в обычном режиме.

Замечу, что вместо запрета Disallow мы рекомендуем использовать для ссылок с параметрами именно директиву Clean-param, поскольку она не только укажет роботу, что подобные ссылки не должны участвовать в поиске, но и позволит сохранить показатели ссылок с параметрами для страниц по "чистым" адресам.

О директиве Clean-param информацию можно найти в нашей Справке.
Обновлено 11 июля 2022, 16:29
platon,
Я вас правильно понял, что page в примере из поста = это фактически все содержимое адреса страницы до знака вопроса? 
То есть если мне надо исключить из поиска страницу с параметрами мне надо прописать Disallow: http://example.com/index.php/catalogue/item2.html?


и так для каждой страницы?

platon,
Справка по директиве Сlean-param - такая же мутная, как и подсказка про Disallow: /page? в вебмастере. Более того, судя по той справке, надо каждый параметр исключить. А если реклама не только Директ, а еще и гугловая, А если разные рекламщики и у каждого свои какие-то разметки, на каждый их чих подкидывать новое правило?

Проще сразу отпилить все параметры, поскольку сайту они не нужны.


Ну или предложите вариант написания Clean-param отсекающий все параметры.
Обновлено 11 июля 2022, 16:53
platon
Сотрудник Яндекса11 июля 2022, 23:00
dpts,
вы можете либо устанавливать запреты для отдельных страниц при необходимости, либо подобрать более общие директивы, например, используя символ *, который в контексте директив Disallow означает любое количество любых символов в адресе. Рекомендую вам воспользоваться инструментом анализа robots.txt, в нем вы можете редактировать директивы и проверять их работу: https://webmaster.yandex.ru/tools/robotstxt/
Если вы затрудняетесь в составлении директив, можете написать нам через форму внизу страницы https://yandex.ru/support/webmaster/robot-workings/allow-disallow.html с примерами страниц, которые хотите запретить и оставить доступными. Мы поможем подобрать конкретные подходящие директивы.
Обновлено 11 июля 2022, 23:01
platon,
"То есть если мне надо исключить из поиска страницу с параметрами мне надо прописать Disallow: http://example.com/index.php/catalogue/item2.html?
и так для каждой страницы?", - Да или Нет?
По Clean-param, правильно ли я понимаю, что vожно указать одной строкой: Clean-param:" перечень параметров, через &" без указания адресов страниц и это будет работать для всех страниц независимо от того есть параметр или нет
platon
Сотрудник Яндекса12 июля 2022, 09:52
dpts,
если вы хотите запретить индексирование всех страниц, например, с параметром "param1", вы можете использовать следующую директиву:
Disallow:*param1=
Однако для ограничения индексирования страниц с параметрами мы рекомендуем использовать именно директиву Clean-param. В ней вы действительно можете указать несколько параметров через символ "&", при этом все страницы с указанными параметрами будут индексироваться по "чистому" адресу без этих параметров.
Сергей
5 мая, 13:21
Добрый день! У меня сайт был взломан и на него было добавлено более 1000 страниц html. Пришлось снести сайт полностью и начать на этом домене все сначала. Но на вебмастере появилось критичная проблема - Некоторые страницы сайта отвечают HTTP-кодом 4xx. Удалить из поиска более 1000 страниц в ручную я естественно не могу. Пропадет ли эта проблема со временем? Или можно прощаться с доменом и забыть о нем.