Как найти дубли страниц с незначащими GET-параметрами

Пост в архиве.

18 августа 2021, 13:36

Дубли страниц на сайте могут появиться в поиске вместо ценных страниц сайта или замедлить их обход и индексирование.

Вообще, дубли — это страницы сайта, содержание текста в которых полностью или практически совпадает. Страницы с GET-параметрами в URL тоже могут быть дублями. Если GET-параметр влияет на содержание страницы — это не дубль. А если GET-параметр не меняет контент страницы, то этот параметр называют незначащим и страницу стоит скрыть от поиска.

Расскажем подробнее, что такое незначащие GET-параметры, как найти дубли с такими параметрами и убрать их.

Что такое дубли страниц с незначащими GET-параметрами

GET-параметр — это параметр, который передается серверу в URL страницы. Он начинается с вопросительного знака. Если URL содержит более одного параметра, то эти параметры разделяются знаком «&». Самый частый случай появления дублей из-за незначащих параметров — метки для задач веб-аналитики. Например, utm_source, utm_medium, from. Такими метками владельцы сайтов привыкли помечать трафик. Фактически эти URL одинаковые, на них опубликован одинаковый контент. Но формально адреса разные, так как различаются GET-параметрами в URL. Соответственно, и поиск тоже может посчитать их разными. Такие страницы и называются дублями с незначащими GET-параметрами.

Наличие дублей страниц с незначащими GET-параметрами не приносит пользы и может негативно сказаться на взаимодействии сайта с поисковой системой.

Зачем отслеживать дубли

1) Скорость обхода. Когда на сайте много дублей, роботы тратят больше времени и ресурсов на их обход, вместо того, чтобы обходить ценный контент. А значит, ценные страницы вашего сайта будут медленнее попадать в поиск.

2) Неуправляемость. Так как поисковой робот произвольно выбирает, какой из дублей показывать в поиске, то на поиск могут попасть не те страницы, которые вам нужны.

3) Влияние на поиск. Если незначащие параметры не добавлены в clean-param, робот может обходить эти страницы и считать их разными, не объединяя их в поиске. Тогда поисковый робот будет получать разные неагрегируемые сигналы по каждой из них. Если бы все сигналы получала одна страница, то она имела бы шансы показываться выше в поиске.

4) Нагрузка на сайт. Лишний обход роботом также дает нагрузку на сайт.

Например, на сайте по продаже билетов есть форма заявки на обратный звонок. При ее заполнении в url передается GET-параметр?form=show1, — он сообщает информацию о том, какой спектакль с этой страницы выбрал пользователь в заявке, хотя контент самой страницы никак не меняется. Таким образом, поисковой робот будет тратить время на обход множества одинаковых страниц, различающихся только GET-параметрами в URL, а до ценных страниц сайта доберется значительно позже.

Для интернет-магазинов типичный пример — страницы с фильтрами. Например, если пользователь выбирает товары в дорогом ценовом диапазоне, изменяя значения в фильтре «Цена», то в большинстве случаев ему будет показана страница с одними и теми же товарами. Таким образом, поиск будет получать сигналы о множестве одинаковых страниц, отличающихся только GET-параметром price= в URL.

Как обнаружить дубли

Теперь находить одинаковые страницы стало проще: в разделе «Диагностика» появилось специальное уведомление, которое расскажет про дубли из-за GET-параметров. Алерт появляется с небольшой задержкой в 2-3 дня, поэтому если вы увидели в нем исправленные страницы, не пугайтесь — это может быть связано с задержкой обработки данных. Дубли с параметром amp, даже если они у вас есть, мы не сможем показать в алерте.

Подписываться на оповещения не нужно, уведомление появится само.

Как оставить в поиске нужную страницу

1. Добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал незначащие GET-параметры в URL. Робот Яндекса, используя эту директиву, не будет много раз обходить повторяющийся контент. Значит, эффективность обхода повысится, а нагрузка на сайт снизится.

2. Если вы не можете добавить директиву Clean-param, укажите канонический адрес страницы, который будет участвовать в поиске. Это не уменьшит нагрузку на сайт: роботу Яндекса всё равно придётся обойти страницу, чтобы узнать о rel=canonical. Поэтому мы рекомендуем использовать Сlean-param как основной способ.

3. Если по каким-то причинам предыдущие пункты вам не подходят, закройте дубли от индексации при помощи директивы Disallow. Но в таком случае поиск Яндекса не будет получать никаких сигналов с запрещенных страниц. Поэтому мы рекомендуем использовать Сlean-param как основной способ.

Директива Clean-param — межсекционная, это означает, что она будет обрабатываться в любом месте файла robots.txt. Указывать ее для роботов Яндекса при помощи User-Agent: Yandex не требуется. Но если вы хотите указать директивы именно для наших роботов, убедитесь, что для User-Agent: Yandex указаны и все остальные директивы — Disallow и Allow. Если в robots.txt будет указана директива User-Agent: Yandex, наш робот будет следовать указаниям только для этой директивы, а User-Agent: * будет проигнорирован.

Подробнее о работе со страницами-дублями читайте в Справке.

P. S. Подписывайтесь на наши каналы
Блог Яндекса для Вебмастеров
Канал Яндекса о продвижении сайтов на YouTube
Канал для владельцев сайтов в Яндекс.Дзен

127 комментариев

Авторизуйтесь, чтобы оставить комментарий

Алексей П.

18 августа 2021, 13:46

А как же мета-тег Noindex Follow?

platon

Сотрудник Яндекса18 августа 2021, 16:55

Алексей П.,

для страниц с незначащими GET-параметрами мы рекомендуем использовать именно директиву Clean-param, так как она позволяет эффективно передать показатели страниц с незначащими GET-параметрами основным страницам. При этом роботу не потребуется индексировать каждую такую страницу-дубль, что повышает эффективность обхода и индексации сайта роботом.
--
Пожалуйста, оцените наш ответ

Dalai Lama.

23 сентября, 10:02

platon,

уточните пожалуйста. URL с параметром в Clean-param
1. поисковой бот не будет индексировать.
2. а будет обходить такой URL?
Заметил, как крупные сайты вроде mvideo добавляют в clean-param параметр страниц пагинации. Но по идее странциы пагинации - это хаб внутренних ссылок для товаров. Если пагинацию запихать в clean-param будет ли бот также часто обходить эти страницы, чтобы индексировать новые страницы пагинации (если было пополнение товаров). И уже известные страницы пагинации?

platon

Сотрудник Яндекса23 сентября, 12:40

Dalai Lama.,

Здравствуйте!
1. Директива Clean-param не запрещает роботу посещать ссылки с GET-параметрами. Это нужно, чтобы передать их показатели основным страницам.

Со временем робот может реже посещать страницы с Clean-param. Чтобы полностью запретить ему это делать, настройте директиву Disallow в robots.txt. Показатели после этого передаваться не будут.

Подробнее об этом написано в Справке:
— https://ya.cc/t/BdFgRNlx7eUgrr
— https://ya.cc/t/WijDCrxa7eUhQj

2. Если страницы пагинации отличаются от основных и содержат полезный контент, советую оставить их доступными.

Для ссылок, которые точно не пригодятся пользователям, индексирование можно ограничить. Для этого добавьте директиву Clean-param в файл robots.txt. Например, так:
Clean-param: PAGEN_1

Не рекомендую использовать для таких страниц запрет Disallow или метатег noindex — их показатели не будут учитываться для ссылок в поиске.

Обновлено 23 сентября, 12:41

Павел Гречко

18 августа 2021, 14:15

Ребята спасибо это супер новость. Иду удалять дубли.
Скажите когда раздел ссылки будет работать?

platon

Сотрудник Яндекса19 августа 2021, 05:08

Павел Гречко,

сейчас мы работаем над подготовкой данных, поэтому пока не обновляем раздел «Ссылки». Точных сроков окончания работ пока нет возможности назвать.
--
Пожалуйста, оцените наш ответ

Иван

18 августа 2021, 16:02

Хорошая новость, спасибо. Правильно понимаю, что GET-параметры неиндексируемых страниц сортировки и фильтрации товаров на листинге интернет-магазина стоит добавлять в Clean-param?

platon

Сотрудник Яндекса19 августа 2021, 06:33

Иван,

да, ссылки с GET-параметрами мы рекомендуем ограничивать именно при помощи директивы Clean-param.
--
Пожалуйста, оцените наш ответ

strip2seo

19 августа 2021, 00:00

а если я все страницы с GET параметрами закрыл через Disallow: /*?* потому что много разных GET параметров и я устал их выискивать в логах, то мне теперь в Вебмастере вечно наблюдать ошибку "Найдены страницы-дубли с GET-параметрами" или она всё же исчезнет и перестанет мозолить глаза, как критичная?

platon

Сотрудник Яндекса19 августа 2021, 06:36

strip2seo,

если такие ссылки ограничены при помощи директивы Disallow, уведомление в Диагностике не пропадет. Для ссылок с GET-параметрами мы рекомендуем указывать именно директиву Clean-param, поскольку с ее помощью можно передать показатели ссылок с параметрами нужным страницам, чего нельзя достичь при помощи директивы Disallow. Если же перечислить все параметры возможности нет, по желанию, вы можете оставить полный запрет на обход таких страниц.
--
Пожалуйста, оцените наш ответ

strip2seo

19 августа 2021, 11:17

platon,

так я поэтому и спрашиваю, почему это должно висеть как критическая ошибка, если я сам принял решение что мне эти параметры передавать не нужно? Получается что у Вебмастера есть свобода выбора, но Яндекс навязывает своё мнение и только оно для него верное. Тогда это не свобода выбора вовсе

Олегович

19 августа 2021, 13:17

strip2seo,

все мы обижены на Яндекс и его монополизацию органической выдачи :) но здесь вы перегибаете.

gryadkaomsk

20 августа 2021, 13:21

platon,

если страница запрещена для индексации с помощью директивы Disallow, то она не должна существовать для поисковой системы и уж тем более робот не может оценить ее содержание и счесть дублем другой страницы.
Поясните, пожалуйста, логику, как запрещенные к индексации страницы могут попадать в отчеты об ошибках?

platon

Сотрудник Яндекса20 августа 2021, 17:40

gryadkaomsk,

если на страницы были найдены ссылки, данные о них могут какое-то время храниться в базе поиска. При этом посещаться такие страницы не будут и какого-либо контента с этих страниц в базе поиска действительно нет. Для них отображается уведомление, т.к. с точки зрения сохранения показателей ссылок лучше использовать директиву Clean-param.
--
Пожалуйста, оцените наш ответ

Анна Свиридова

30 сентября 2021, 01:47

Олегович,

Так а чего спутником не пользовались?))

Олегович

19 августа 2021, 13:19

Подскажите:
1. Если в URL два get-параметра, один который закрыт, а второй - нет. В этом случае все равно будет запрет на индексацию?
2. Можно ли закрыть все URL с get-параметрами, используя такую строку?
Clean-param: /*?*

Чтоб не искать все get, а просто массово все одним условием.

platon

Сотрудник Яндекса19 августа 2021, 20:58

Олегович,

1. Запрет на индексирование распространяется только на указанные в директиве Clean-param параметры. Например, если есть ссылка https://site.ru/?order=asc&item=food и ограничен только order, то такая ссылка сможет индексироваться по адресу https://site.ru/?item=food .
2. Такой возможности в настоящий момент нет.
--
Пожалуйста, оцените наш ответ

Bruce W.

7 февраля 2022, 21:09

platon,

Полагаю, убрать из индексирования все URL с GET-параметрами до сих пор не представляется возможным? Есть успехи в решении этого насущного вопроса?

Обновлено 7 февраля 2022, 21:09

platon

Сотрудник Яндекса7 февраля 2022, 22:57

Bruce W.,

в данный момент синтаксис директивы Clean-param предполагает указание конкретных параметров, которые вы хотите ограничить. Директива для ограничения сразу всех возможных параметров отсутствует, вы можете самостоятельно указывать, какие параметры не должны учитываться. Следите за новостями, если что-то подобное будет реализовано, мы оповестим вебмастеров.
--
Пожалуйста, оцените наш ответ

Андрей Ставский

19 августа 2021, 18:25

Привет! А правда что когда у сайта >50% дублей тайтлов/дескрипшнов/заголовков то сайт начинает ранжироваться хуже?

platon

Сотрудник Яндекса19 августа 2021, 23:13

Андрей Ставский,

подобная ситуация не должна негативно сказаться на ранжировании сайта. Но необходимо при этом учитывать, что если у страниц одинаковые заголовки и описания, поисковой системе будет сложнее показать именно нужную страницу из всего каталога товаров или услуг. Если заголовки и описания будут более конкретно описывать ту или иную страницу, а также товары/услуги на странице, это поможет пользователю, ищущему этот материал, проще найти ее по своему запросу.
--
Пожалуйста, оцените наш ответ

Игорь Б.

19 августа 2021, 22:20

Добрый день!
Я избавлялся от дублей через указание канонической страницы.
Почему робот игнорирует это правило и обходит дубли?
<link rel="canonical" href="https://estore-online.ru/catalog/mobilnye_telefony/honor/471/">
У меня миллион страниц, все их запихивать в robots.txt ?

platon

Сотрудник Яндекса20 августа 2021, 01:03

Игорь Б.,

напишите нам, пожалуйста, через форму на странице: https://yandex.ru/support/webmaster/robot-workings/double.html . Мы обязательно проверим, в чем дело, и поможем вам разобраться.
--
Пожалуйста, оцените наш ответ

konstantin-melnikov1982

20 августа 2021, 08:52

Сделал все, как здесь написано:
Открыл раздел "Страницы в поиске", скачивал и Все страницы и Исключенные. Страниц со статусом "DUPLICATE" - не нашел. Их просто нет.

Не понимаю тогда... Почему критическая ошибка и примеры страниц в Яндекс вебмастере?

Get параметр: ?from=webmaster

Обновлено 20 августа 2021, 08:54

platon

Сотрудник Яндекса20 августа 2021, 17:06

konstantin-melnikov1982,

дело в том, что такие страницы не обязательно признаны дублирующими в базе поиска. Например, если контент страниц немного менялся, а поисковой робот посетил их в разное время, то такие страницы будут включаться в поиск независимо друг от друга. И в такой ситуации мы также рекомендуем ограничить ссылки с незначащими параметрами, ведь такие страницы могут конкурировать между собой в поиске.
--
Пожалуйста, оцените наш ответ

TRUE

20 августа 2021, 10:46

Доброго дня!
ПОдскажите пожалуйста как правильно использовать clean param
В таком случае

* /12/jeep-predstavil-novyj-grand-cherokee-dlya-rossii.html?source=post_page-----b1ce9daa0735----------------------
* /20/ehlektrokar-porsche-proverili-na-vynoslivost.html?source=post_page-----5692e762699e----------------------
* /23/toyota-prezentovala-rav4-dlya-rossii.html?source=post_page-----4e42368a9a33----------------------

platon

Сотрудник Яндекса20 августа 2021, 17:07

TRUE,

для таких ссылок можно использовать директиву:
Clean-param: source
--
Пожалуйста, оцените наш ответ

Антон Симакин

20 августа 2021, 11:23

Какая реальная причина заставлять всех использовать Clean param, когда есть Canonical? Почему просто нельзя на не канонических страницах увеличить время обхода роботом и все, если есть прямая ссылка на канонический адрес?

Вот мне в вебмастере пишут:
Get параметр: games_prices_order, страницы с get-параметрами: ?games_prices_order=item_price_desc&pg=1, Страницы без get-параметров: ?pg=1

Яндекс посчитал, что страница без Get параметров будет такого определённого вида, но эта страница также является дублем и на ней в любом случае опять стоит каноникал на /, получается, что сначала очистили от get параметра, потом дубли хвостов с ? все равно будут обходиться роботом с указанием на канонический адрес и где в этом логика? Или вы предлагаете делать цепочки clean param и засерать ими весь robots? Может тогда лучше вынести такую обработку непосредственно в вебмастер? в раздел обхода роботом, добавить группы параметров в исключения и все, если уж на то пошло.

И переведите критичную проблему в рекомендации. Такое навязывание использования только вызывает подозрение.

a.avdeev.ru

20 августа 2021, 13:16

Антон Симакин,

Полностью поддерживаю мысль

platon

Сотрудник Яндекса20 августа 2021, 17:10

Антон Симакин,

для того, чтобы узнать об атрибуте rel="canonical" на странице, поисковому роботу необходимо сначала проиндексировать саму такую страницу и обработать ее содержимое. В случае, например, с UTM-метками или другими параметрами, которые служат для подсчета статистик, подобных страниц может быть огромное количество, и обход всех таких ссылок займет значительное время. Обработка только нескольких директив в robots.txt, которые сообщат, что обходить ссылки не обязательно, гораздо практичнее.
Что касается дублей, в целом мы рекомендуем ограничивать все незначащие параметры, которые приводят к дублированию. Если, помимо рекомендованного, есть и другие параметры, которые приводят к дублированию, рекомендуем указывать в директиве и их тоже.
--
Пожалуйста, оцените наш ответ

litcult

1 сентября 2021, 12:23

Антон Симакин,

тоже удивился таким жёстким требованиям со стороны Яндекса. нельзя новые правила с необязательными тех. условиями делать в таком грубом формате...

Павел

9 февраля 2022, 15:39

Антон Симакин,

поддерживаю, Яндекс перекладывает свои проблемы на бизнес.
А что делать с многочисленными параметрами из рекламных кампаний, которые генерятся постоянно в огромных количествах? Это глупость.

Обновлено 9 февраля 2022, 15:41

servicerating.ru

20 августа 2021, 13:03

Подскажите, насколько корректно использовать clean param и canonical одновременно?

platon

Сотрудник Яндекса20 августа 2021, 17:11

servicerating.ru,

вполне можно использовать и директиву Clean-param, и rel="canonical" одновременно. Эти два указания друг другу не противоречат и никак не помешают. При этом страницы не будут индексироваться именно в соответствии с директивой Clean-param.
--
Пожалуйста, оцените наш ответ

a.avdeev.ru

20 августа 2021, 13:14

Добрый день у нас ссылки на товары с гет запросами дублируются на "ссылка на товар/?" как убрать ? без всего на конце с помощью Clean-param

gryadkaomsk

20 августа 2021, 15:57

Здравствуйте!
У вас в статье написано: "Если по каким-то причинам предыдущие пункты вам не подходят, закройте дубли от индексации при помощи директивы Disallow. Но в таком случае поиск Яндекса не будет получать никаких сигналов с запрещенных страниц."
О каких сигналах идет речь, поясните, пожалуйста.
Спасибо)

platon

Сотрудник Яндекса20 августа 2021, 19:08

gryadkaomsk,

какие именно факторы учитывает поисковая система, мы не комментируем. Вместе с тем, если это страницы, на которых происходит активность, в том числе пользовательская, индексирующему роботу будет полезно иметь доступ к таким ссылкам.
--
Пожалуйста, оцените наш ответ

strip2seo

25 августа 2021, 19:06

gryadkaomsk,

поведенческие факторы

mbizunov

20 августа 2021, 21:00

Упали уведомления о страницах с параметрами, которые были на сайте несколько лет назад, после чего были настроены 301-й редирект на чпу версию.
Зачем вводить в заблуждение и показывать неактуальную информацию?

Обновлено 20 августа 2021, 21:01

platon

Сотрудник Яндекса21 августа 2021, 02:30

mbizunov,

поисковой робот может периодически обращаться к таким ссылкам, проверяя их на доступность. Чтобы этого не происходило, мы рекомендуем именно директиву Clean-param, чтобы поисковая система знала, что посещать их все не обязательно.
--
Пожалуйста, оцените наш ответ

Termomir

22 августа 2021, 20:25

mbizunov,

аналогично как бот определил контент если все 301.

ROMAN M.

21 августа 2021, 22:11

Мудрецы херовы!!! Ковыряют свой гоуно-яндекс в своих интересах обваливая искусственно позиции в органике, а потом не знают как отбрехаться. Именно 18 августа у всех упали позиции в органике на 10-40 позиции, затем нагнали ботов на сайты чтоб прикрыть свою ж0пу всё свалив на Get-параметры. Умная контора монополистов на которую нет управы. Хоть в гугле пока ещё всё прозрачно и никто не брешит!!!

Termomir

22 августа 2021, 20:02

Страницы с 301 редиректом показывает как одинаковый контент с гет параметрами.
Страница с параметрами и без параметров с 301 на 3 страницу.
/catalog/manufacturers.php?ID=351659

/catalog/manufacturers.php?

____________________________________________
Алгоритм или ясновидящий или с косячком.

platon

Сотрудник Яндекса23 августа 2021, 04:59

Termomir,

пожалуйста, напишите нам через форму на странице https://yandex.ru/support/webmaster/robot-workings/clean-param.html . Попробуем разобраться.
--
Пожалуйста, оцените наш ответ

kventz

24 августа 2021, 19:18

platon,

Та же история с 301-редиректами, описал её в своём комментарии: https://webmaster.yandex.ru/blog/kak-nayti-dubli-stranits-s-neznachaschimi-get-parametrami#6124e6d190a6ec0017786447

Airshop

24 августа 2021, 00:45

Скажите для страниц пагинации интернет-магазина, которые попали в индекс, можно применять Clean-param ?

proferum

24 августа 2021, 01:10

Airshop,

Лучше применяйте канонический URL. Так вы будете индексировать содержимое пагинации, т.е. товары на всех страницах.

platon

Сотрудник Яндекса24 августа 2021, 20:37

Airshop,

по желанию, вы можете ограничить страницы пагинации директивой Clean-param, если они добавляются при помощи get-параметра, они будут исключены, как любые ссылки с параметрами. Однако заметим, что контент исключенных страниц в базу поиска не попадет. Если страницы пагинации содержат каталоги товаров, которые могут быть интересны пользователям именно как список товаров, то их стоит оставить доступными для индексирования.
--
Пожалуйста, оцените наш ответ

servicerating.ru

25 августа 2021, 10:11

platon,

Можете ли вы дать рекомендации, по настройке пагинации в новых реалиях для Интернет магазина/Каталога объектов? Если прописать только rel canonical это не срабатывает, поэтому использовали clean param, но из ответа выше стало ясно, что не оптимально. Спасибо

alexgubski87

25 августа 2021, 18:23

platon,

так если страницы пагинации ИМ оставлять в индексе (т.е. оставлять их доступными для индексации) - то они потом валятся в малополезные и выпадают из индекса. Или вы имели в виду canonical на пагинации?

platon

Сотрудник Яндекса25 августа 2021, 22:37

servicerating.ru,

если страницы пагинации содержат каталоги товаров, которые могут быть полезны и интересны пользователям, то мы не рекомендуем ограничивать такие страницы совсем, ведь пользователи могут найти на них полезную им информацию, именно в виде каталога товаров.
Если же вы уверены, что такие страницы не должны индексироваться, можно использовать Clean-param, либо Disallow, но нужно учитывать, что в таком случае никакие показатели таких страниц учитываться не смогут.
--
Пожалуйста, оцените наш ответ

platon

Сотрудник Яндекса25 августа 2021, 22:38

alexgubski87,

если страницы исключаются алгоритмом, это никак не влияет на проиндексированные страницы в поиске. Это означает, что на данный момент эти страницы не смогут появиться в поиске по запросам пользователей, а не ограничением для сайта. В таком случае запрещать ссылки не обязательно, а можно работать над ними, развивая для удобство для пользователей. Мы постарались собрать наши рекомендации на странице: https://yandex.ru/support/webmaster/site-indexing/low-demand.html
--
Пожалуйста, оцените наш ответ

Андрей Рыжов (СУРОВЫЙ ОБЗОРЩИК)

2 сентября 2021, 17:50

platon,

Так а что тогда порекомендуете делать со страницами пагинаций интернет магазинов? Каноникал на первую страницу категории, meta robots noindex follow или вообще не трогать?

platon

Сотрудник Яндекса2 сентября 2021, 22:29

Андрей Рыжов (СУРОВЫЙ ОБЗОРЩИК),

страницы с каталогами товаров мы рекомендуем оставлять доступными для индексирования. Использовать мета-тег noindex мы не рекомендуем, так как ссылки при этом смогут посещаться, но показатели их не смогут учитываться для сайта.
--
Пожалуйста, оцените наш ответ

Александр Большаков

24 августа 2021, 08:57

Если в robots.txt указать директиву Clean-param, то Гугл видит такую запись как ошибку.

Трафик с Яндекса с каждым днем становится все меньше и меньше. А есть ли вообще смысл писать эту директиву под Яндекс и получить ошибки в Гугле?

Татьяна Ягутьева

24 августа 2021, 09:14

Добавляю гет-параметры в Clean-param всю жизнь. Но директива работает не так хорошо, как хотелось бы - почему-то далеко не всегда страница с гет параметром сразу исключается по клин-парам.

demaun

24 августа 2021, 15:32

Татьяна Ягутьева,

Поддерживаю! Не то, что не сразу, а месяцами висят...

platon

Сотрудник Яндекса24 августа 2021, 20:43

Татьяна Ягутьева,

исключение страниц по директиве, как правило, занимает до 1-2 недель. Если какие-то ссылки исключаются дольше, можно написать нам в службу поддержки с примерами таких страниц для дополнительного изучения. Это очень поможет.
Написать обращение можно через форму обратной связи, например, на странице: https://yandex.ru/support/webmaster/robot-workings/clean-param.html
--
Пожалуйста, оцените наш ответ

kventz

24 августа 2021, 15:32

Давно получаю такие уведомления и успешно закрываю через Clean-param, всё замечательно. Вот только как объяснить роботу, что страницы, которые он принимает за дубли на самом деле дублями не являются?

Например, робот считает, что страницы 301-редиректы:
https://www.nashtransport.ru/index.php?app=forums&module=forums&controller=forums&id=192

https://www.nashtransport.ru/index.php?app=forums&module=forums&controller=forums&id=249

— это всё дубли одной страницы без id (которой вовсе не существует — 404):
https://www.nashtransport.ru/index.php?app=forums&module=forums&controller=forums

Похоже, робот видит имя параметра, похожее на наиболее часто встречающиеся незначащие и автоматом добавляет это в ошибки. Проверить и убедиться, что по этим адресам совершенно разное содержимое и даже http-код ответа совершенно другой, робота, видимо, не научили. :(

И это робот считает критической (!) ошибкой сайта. То есть, в соответствии с документацией, «Могут вести к исключению отдельных страниц или всего сайта из результатов поиска». Мне явным текстом сказали, что если я не исправлю эту ошибку, мой сайт выкинут из поиска. И что я должен «исправлять их в кратчайшие сроки». При этом нет никаких механизмов сообщить, что это не дубли одной страницы…

platon

Сотрудник Яндекса24 августа 2021, 20:45

kventz,

уведомление должно показывать параметры, ссылки с которыми содержат контент, дублирующий контент ссылок без параметров. Если в уведомлении появились страницы с очень разным контентом, напишите, пожалуйста, в службу поддержки с примерами таких страниц, чтобы коллеги могли изучить ситуацию поподробнее. Написать обращение можно написать через форму на странице: https://yandex.ru/support/webmaster/robot-workings/clean-param.html
--
Пожалуйста, оцените наш ответ

Борисыч

25 августа 2021, 09:59

Добрый день! Три вопроса.

1. Стандартная ситуация. Есть категория товаров и пагинация вида ?PAGEN_1=2.
Старицам вида ?PAGEN_1=*
1. добавлен тег content="noindex, follow"
2. в robots.txt запрещен вообще любой GET параметр через Disallow: /*?*
3. На всех страницах пагинаций проставлен canonical на основную (1-ую) страницу категории
Вопрос. Зачем еще добавлять PAGEN_1=* в директиву Clean-param? Ведь на страницах пагинаций есть ссылки на карточки товаров, которые интересны роботу. Если добавить в Clean-param PAGEN_1=*, то робот не будет ходить по таким страницам и не увидит ссылки на карточки товаров. Так?

2. Clean-param не очищает параметр ?yclid=*********

Постоянно в уведомлениях сменяется каноникл у важной страницы с нормального urla на url + &yclid=********

Clean-param в robots.txt указано очищать ?yclid, но это не работает. Вебмастер шлет уведомления, что меняется канонкил.

Вот пример:

Каноникл страницы сменился с site.ru/primer/ на site.ru/primer/?yclid=*********

Потом через обновление опять обратно

Каноникл страницы сменился с site.ru/primer/?yclid=********* на site.ru/primer/

Тех.поддержка Вебмастер не может дать никаких комментариев. Посылает к администратору сервера....

3. И как быть если Google не распознает директиву Clean-param?

platon

Сотрудник Яндекса25 августа 2021, 22:36

Борисыч,

здравствуйте!

1. Если ссылки пагинации уже запрещены мета-тегом noindex, то робот также не сможет загрузить в базу их содержимое, при этом какие-либо показатели таких страниц учитываться не смогут. Директива Clean-param также ограничит обход ссылок, при этом показатели таких ссылок смогут учитываться для страниц без параметров.
Если вы считаете, что контент страниц пагинации важен для индексирования, то лучше страницы пагинации не ограничивать совсем, а оставить их доступными для индексирования.
2. Директива yclid должна ограничиваться так же, как и все остальные. Возможно, что директива была установлена недавно, и правило не успело примениться. Если же прошло уже более двух недель, а ссылки по-прежнему в поиске, напишите, пожалуйста, в службу поддержки с примерами таких ссылок: https://yandex.ru/support/webmaster/robot-workings/clean-param.html . Наши коллеги проверят ситуацию.
3. По вопросу других поисковых систем прокомментировать не можем, к сожалению.
--
Пожалуйста, оцените наш ответ

Борисыч

26 августа 2021, 09:35

platon,

1. В итоге, по страницам пагинаций. Их нужно открыть для индексации, но прописать canonical на первую страницу категории? Так делали год-полтора назад, но Яндекс как-то странно воспринимал каноникл и пихал страницы пагинаций в индекс..Поэтому и закрыли...Что-то изменилось?

Если же страницы пагинаций закрыты от индексации (noindex, follow), то они не передают показатели на карточки товаров?

2. Проблема со сменной canonicla с yclid и без него для нас давнишняя. Clean-param установлен давно и не помогает. Правило уже должно было давно примениться. Писали в ТП - ответ всегда один: пишите своим администраторам сервера...Так и живем...

Обновлено 26 августа 2021, 09:36

platon

Сотрудник Яндекса30 августа 2021, 14:54

Борисыч,

1. Мы не рекомендуем ограничивать страницы пагинации к индексированию, если они могут содержать достаточно уникальный контент (каталоги товаров), которые могут быть интересны пользователям, но окончательно решение принимать вам. Если вы абсолютно уверены, что страницы пагинации не нужны, и сами страницы пагинации создаются при помощи get-параметров, то лучше всего использовать директиву Clean-param. Для иных случаев вы можете, по желанию, использовать мета-тег noindex.
2. Уточните, пожалуйста, номер обращения в поддержку, если у вас сохранились эти данные. Такую рекомендацию могли дать в случае, если директива была настроена не совсем верно. Проверим этот момент дополнительно.
--
Пожалуйста, оцените наш ответ

Борисыч

30 августа 2021, 15:39

platon,

1. Понятно.
2. К сожалению, удаляю все письма с такими "отписками", поэтому номера обращен я нет. Как появится новое уведомление в такой проблемой. напишем сюда номер обращения.

Александр

27 августа 2021, 16:42

Какого дотошного робота изобрели в Яндексе. Все страницы с GET-параметрами на сайте редиректят на канонические(без get-параметров) , а он всё равно рвётся их проиндексировать и загнать в поиск, что-бы потом навесить красный треугольник в явм и скинуть сайт на задворки поиска. Видимо гугл ещё так не умеет и упускает шикарную возможность опускать сайты на 5 страниц вниз.

kventz

30 августа 2021, 07:44

Александр,

👍

platon

Сотрудник Яндекса30 августа 2021, 18:17

Александр,

для ссылок с get-параметрами мы рекомендуем использовать именно директиву Clean-param, а не атрибут rel="canonical". Директива удобнее тем, что поисковому роботу не придется посещать каждую ссылку, а будет достаточно только обработать robots.txt сайта, чтобы узнать об указаниях и не индексировать такие страницы.
--
Пожалуйста, оцените наш ответ

Александр

30 августа 2021, 19:38

platon,

Я только не пойму: каким образом робот умудряется посещать такие страницы, если при проверке ответа сервера на Вашем же ЯВМ , страницы отдают "Код статуса HTTP 301 Moved Permanently"

platon

Сотрудник Яндекса31 августа 2021, 00:05

Александр,

чтобы отследить редирект, поисковому роботу нужно обращаться к каждой странице в отдельности, и такие ссылки поисковый робот будет периодически посещать повторно, чтобы убедиться, что код ответа не изменился. Поэтому в Вебмастере для них и появляется рекомендация об использовании директивы Clean-param.
--
Пожалуйста, оцените наш ответ

SKB21 – Чебоксарский Стройкомбинат

1 сентября 2021, 08:49

У нас сайт на Тильде, и нет возможности редактировать robots.txt. Канонический адрес на страницах с GET-параметрами указан, но в вебмастере висит критичная ошибка из-за них((

platon

Сотрудник Яндекса1 сентября 2021, 16:07

SKB21 – Чебоксарский Стройкомбинат,

если нет возможности добавить директиву Clean-param, то можно просто игнорировать это уведомление. Само по себе уведомление не повлияет на индексирование и участие страниц в поиске, можно не переживать по этому поводу.
--
Пожалуйста, оцените наш ответ

Дмитрий

12 сентября 2021, 11:00

platon,

А как объяснить тот факт, что после появления такого вот вашего сообщения, посещаемость сайта упала в 5 РАЗ!!! Хотя действительно, робот не должен был видеть этих страниц. Поставили еще и директиву Clean-param в день прихода уведомления, перезапустили проверку, а она снова выдала ошибку! В поддержке написали, что в robot.txt все верно указано, но роботу надо 1-2 недели что это "переварить" , но ведь проверка уже была пройдена, и запрета он НЕ ЗАМЕТИЛ! После этого складывается впечатление, что ваши нововведения либо с большими косяками, либо это способ дискриминации отдельных ресурсов.

platon

Сотрудник Яндекса13 сентября 2021, 01:46

Дмитрий,

данное уведомление само по себе ничего не изменило на сайте, оно только указано на один момент на сайте, который, как мы считаем, можно улучшить. Если позиции вашего сайта по каким-то запросам понизились, данный вопрос необходимо разбирать отдельно. Напишите, пожалуйста, отдельное обращение в поддержку с примерами запросов и релевантных им страниц, это поможет нам изучить вопрос подробнее.
--
Пожалуйста, оцените наш ответ

Обновлено 13 сентября 2021, 01:47

priemplategei

1 сентября 2021, 09:06

Мы выполнили все рекомендации. Но пошла неделя и уведомление в вебмастере не пропало. Подскажите пожалуйста, как быстро робот совершает обход и воспринимает исправления? Или мы что то сделали не так?

platon

Сотрудник Яндекса1 сентября 2021, 16:10

priemplategei,

чтобы мы могли проверить ваш сайт более детально, напишите, пожалуйста, через форму на странице https://yandex.ru/support/webmaster/robot-workings/clean-param.html
--
Пожалуйста, оцените наш ответ

Maria Carey

7 сентября 2021, 15:05

Хорошая новость, спасибо. - Fuyeor (фуиэор)

Дмитрий Х.

7 сентября 2021, 16:45

Как быть с динамическими GET параметрами, например: param_0001, param_0002 и т.д.?
Т.к. перечисление всех 9999 параметров не позволит уложиться в 32 КБ.

platon

Сотрудник Яндекса8 сентября 2021, 06:20

Дмитрий Х.,

в синтаксисе директивы Clean-param указывать параметры, которые вы хотите ограничить, нужно полностью. Но можно указать несколько параметров в одной директиве, перечисляя через & , чтобы сэкономить место и уменьшить размер файла. Использовать директиву стоит только для незначительных параметров, которые не влияют на содержимое страниц. Отмечу также, что лимит на размер файла robots.txt оставляет 500КБ, также для его корректной обработки убедитесь, что использовано не больше 500 строк.
Я передал ваше пожелание коллегам, подумаем над подобными изменениями в будущих обновлениях.
--
Пожалуйста, оцените наш ответ

Артём Сосновский

8 сентября 2021, 21:05

Добрый день! Ситуация такая: есть шесть категорий товаров, при этом шестая категория, в отличие от других в силу рынка не обладает уникальным контентом (практически дубли) и их более 70 000 (90% сайта). В связи с вышесказанным, ранее было принято решение ограничить шестую категорию в роботсе методом Disallow: /primer?r=6*. Однако, хотелось бы передавать поведенческие с этих страниц. Подскажите, можно ли с clean param ограничить конкретное значение параметра? Что делать в этой ситуации?

platon

Сотрудник Яндекса9 сентября 2021, 18:38

Артём Сосновский,

ограничить параметр с определенным значением при помощи Clean-param, увы, не получится. Наилучшим решением в данном случае действительно будет использовать Disallow, если вы хотите быть уверены, что такие страницы не попадут в поиск. Для передачи показателей подобных страниц можно использовать атрибут rel="canonical": https://yandex.ru/support/webmaster/robot-workings/canonical.html
--
Пожалуйста, оцените наш ответ

merry.toys

19 сентября 2021, 10:04

platon,

Здравствуйте! У меня проблема с тем, что на моём сайте или не работает Clean-param или робот Вебмастера даёт сбой в определении проблемы. Яндекс.Вебмастер 20 августа сообщил о том, что найдены дубли и показал примеры. Для этих примеров 23 августа были настроены директивы Clean-param и сайт отправлен на повторную проверку. Повторная проверка прошла 25 августа с такими же результатами. Через несколько дней, 3 сентября прошла ещё одна повторная проверка. Яндекс.Вебмастер сообщил о тех же дублях. Я написал в тех.поддержку Яндекс.Вебмастера 3 сентября, мне пришёл ответ, что директива Clean-param настроена верно, нужно подождать одну-две недели. 9 сентября ничего не изменилось в Вебмастере, я написал повторно на webmaster@support.yandex.ru и получил такой же ответ, что всё настроено верно и нужно подождать одну-две недели (хотя с момента настройки Clean-param на этот момент прошло больше двух недель). Сейчас 19 сентября и проблема на том же месте. Помогите, пожалуйста, направьте к кому обратиться за помощью?

platon

Сотрудник Яндекса20 сентября 2021, 00:47

merry.toys,

пожалуйста, напишите нам в поддержку еще раз, можно в тот же тикет, где вы задавали этот вопрос ранее. Проверим, с чем может быть связана ситуация.
--
Пожалуйста, оцените наш ответ

merry.toys

20 сентября 2021, 10:33

platon,

Извините, я тупой и не понимаю как написать в тот же тикет. Я вёл переписку по электронной почте. Когда я отвечаю на письмо от support.yandex.ru, то в теме письма указан номер тикета, который был присвоен. Но ответ на это письмо приходит с номером другого тикета, либо приходит оповещение от робота, что создан тикет с новым номером, не смотря на то, что в теме письма указан номер другого тикета. Или может где-то есть сервис Яндекс тикетов, чтобы можно было писать прямо в нужный тикет, без создания дублей?
У меня есть подозрение, что я запутался и что-то делаю не так :)

platon

Сотрудник Яндекса20 сентября 2021, 16:39

merry.toys,

это нормально, не переживайте, ваше обращение в любом случае попадет к нам.
--
Пожалуйста, оцените наш ответ

Владимир

22 сентября 2021, 10:45

Здравствуйте!
Когда заработают отчеты по внутренним и внешним ссылкам ?

k.sarancev

22 сентября 2021, 12:31

Сlean-param использую давно. Интересно просто вот что:
Теоретически можно создать бесконечное множество страниц с get-параметрами. Можно сделать это из вне, разместив где-нибудь ссылки на чужой сайт,.
В чем идеология? Как можно бесконечное количество параметров записать в robots.txt?
А их ведь все больше и больше.

platon

Сотрудник Яндекса22 сентября 2021, 18:20

k.sarancev,

если вы опасаетесь, что на сайте могут быть созданы страницы с ненужными параметрами, мы рекомендуем решать такую ситуацию системно: настроить http-код ответа 403/404/410 со ссылок с параметрами, которые не существуют и не нужны на вашем сайте. Тогда поисковая система будет знать, что индексироваться они не должны. В этом случае и в уведомлении в Диагностике такие ссылки показываться тоже не будут.
--
Пожалуйста, оцените наш ответ

Обновлено 23 сентября 2021, 15:15

k.sarancev

23 сентября 2021, 09:19

platon,

на сайте настроить 404 по каким именно get-параметрам?
Например появился параметр fbclid - что всем кто перешел по таким ссылкам показывать 404?

Обновлено 23 сентября 2021, 08:19

platon

Сотрудник Яндекса23 сентября 2021, 19:14

k.sarancev,

если на сайте появляются параметры, связанные, например, с переходом из других социальных сетей, то такие ссылки рекомендуется ограничивать при помощи Clean-param, чтобы передать их показатели ссылкам без параметров. Именно для таких случаев было подключено уведомление.
В сообщении же выше вы говорили про потенциальные бесконечные параметры, которые могут создаваться без переходов живых пользователей на них. Вот для таких ссылок вы можете настраивать http-код 404. Если же это get-параметры, которые создаются для подсчета статистик, и они появляются при переходе живых пользователей, стоит использовать именно Clean-param.
--
Пожалуйста, оцените наш ответ

nuts.seo

22 сентября 2021, 11:45

Вопрос на логику - если ваш робот понимает, что это дубли, то для чего он их индексирует? Неужели нельзя в вебмастер добавить галочку "не индексировать/не обходить" страницы с параметрами в адресе? Зачем все усложнять клин-парамами и т.п.? Когда уже вы сами начнете следовать своей рекомендации и делать "для людей"?

platon

Сотрудник Яндекса22 сентября 2021, 18:43

nuts.seo,

спасибо за отзыв, в будущем обязательно подумаем над тем, как упростить систему.
Что касается ограничения ссылок, далеко не все get-параметры являются незначимыми, поэтому ограничивать сразу все параметры может привести к тому, что выпадут действительно ценные страницы, у которых существенно меняется содержимое при добавлении параметра. В связи с этим мы предлагаем владельцам сайтов посмотреть, какие есть на сайте страницы с параметрами и принять решение об их ограничении.
--
Пожалуйста, оцените наш ответ

nuts.seo

23 сентября 2021, 08:57

platon,

Спасибо за ответ. Но чаще всего, любая страница с параметром, либо закрыта директивой disallow, либо содержит тег каноникал, с указанием ссылки на другую страницу. Случай описанный вами конечно бывает, но это скорее исключение, чем правило (к примеру за 5 лет практики, из сотен сайтов, таких как вы пишете, я встречал всего 2-3 сайта). И вопрос в принципе по методологии расчета: вчера пришло письмо о том что на сайте содержатся дубли с GET-параметрами. При проверке - все указанные в сообщении страницы, либо редиректят на страницы без параметров, либо возвращают код ответа сервера 404. То есть по факту - страниц указанных в письме, просто нет. Дата последней проверки указана 20.09. Судя по всему, ваш робот совершает обход не по сайту, а по тем страницам, которые содержатся в вашей кешированной базе, поскольку этих страниц нет на сайте уже месяца два (был перенос на другую систему управления).

platon

Сотрудник Яндекса23 сентября 2021, 19:43

nuts.seo,

напишите, пожалуйста, отдельное обращение нам в поддержку с примерами таких ссылок, это поможет изучить ситуацию подробнее.
--
Пожалуйста, оцените наш ответ

snaleksey

22 сентября 2021, 13:04

Здравствуйте! Я так себе вебмастер, может у меня не получается, но подозреваю, что разработчики директивы не всё предусмотрели.
Синтаксис директивы - Clean-param: [имена_get] [путь]
CMS OpenCart 3 - в нём нужная страница определяется get-параметром "route".
- Категории - www.сайт.ру/index.php?route=product/category&path=123
- Товары - www.сайт.ру/index.php?route=product/product&path=123&product_id=12345

В категориях path=123 важный параметр, а в товарах вредный.
Синтаксис не позволяет дополнить [путь] текстом "?route=product/product" чтобы исключить параметр path для страниц товаров, но оставить для страниц категорий.
Иными словами - надо исключить вредный get_1 только на страницах, содержащих важный get_2, а остальное не трогать.
Или я что делаю не так?

platon

Сотрудник Яндекса22 сентября 2021, 18:45

snaleksey,

к сожалению, массивы в директиве Clean-param действительно в данный момент не поддерживаются, каждый параметр необходимо указывать отдельно.
--
Пожалуйста, оцените наш ответ

Обновлено 22 сентября 2021, 18:45

snaleksey

23 сентября 2021, 10:14

platon,

Вы меня не поняли, про массивы я не говорил.
Clean-param: cat *product/product*

Сейчас у вас clean-param ждёт страницу www.сайт/.../product/product/.../index.php?cat=... которой нет вовсе.
То есть, анализирует физический путь до файла сайта.
Чтобы новшество нормально работало, надо анализировать не путь до файла, а полное содержимое строки урл. Если встретил в ней ....*product/product*.... , (и не важно в какой части), то указанный в директиве cat незначащий и роботу туда не надо. А пока наоборот - новшество на миллионах сайтов бесполезно и людям мозг выносит.

platon

Сотрудник Яндекса23 сентября 2021, 19:55

snaleksey,

простите за недопонимание. Я передал ваше предложение разработчикам. Постараемся учесть в дальнейшей работе.
--
Пожалуйста, оцените наш ответ

kemister

22 сентября 2021, 16:44

Это нововведение работает пока некорректно. У нас есть важный GET параметр, от которого мы не можем почистить. На всех страницах прописана каноническая страница с полным адресом, включая этот GET параметр. С адресов без этого GET параметра стоит переадресация на адреса с ним. Т.е. фактически страниц без этого GET параметра нет. Сделали всё как рекомендовано. Но новый вебмастер Яндекса упорно отбрасывает этот GET параметр, и считает эти адреса дублями страниц с полным адресом, выставляя критичную ошибку. Поддержка соглашается с тем, что мы всё предприняли корректно, и только разводит руками. ( Поправьте уже алгоритм.

Анна Свиридова

30 сентября 2021, 01:57

Отличная штука с июня ее тестирую, много плюсов в отличие от Disallow

Один только минус. Если Яндекс правильно обрабатывает. тогда в GSC появляется ошибка форматирования robots.txt и Гугл сходит с ума и начинает все подряд индексировать.

super.s909

9 октября 2021, 01:04

Если запретить GET-параметр одновременно с помощью Clean-param и Disallow, то что тогда учитывается первым? В проверке "Разрешены ли URL?" выводится Disallow, а не Clean-param.
Поэтому не понятно исчезнет ли ошибка "Найдены страницы-дубли с GET-параметрами"?
Или нужно оставить только один Clean-param?

platon

Сотрудник Яндекса9 октября 2021, 19:56

super.s909,

если указать и директиву Disallow, и Clean-param, приоритет будет у запрещающей директивы Disallow, а Clean-param учитываться не будет. В случае с get-параметрами мы рекомендуем указывать только директиву Clean-param, тогда уведомление сможет пропасть из Яндекс.Вебмастера.
--
Пожалуйста, оцените наш ответ

KitInCity

11 октября 2021, 13:26

Здравствуйте, на днях обратила внимание, что появилось сообщение о дублях страниц в get параметром. Но данных страниц уже нет, при переходе на них - 404. Как быть в таком случае? Закрыть данные страницы в robots? И удалить из поиска?

platon

Сотрудник Яндекса12 октября 2021, 00:01

KitInCity,

такая ситуация может возникать, если ранее страницы были доступны и отвечали кодом 200 ОК, и поисковой робот еще не успел отследить их недоступность. В этом случае данные обновятся после того, как робот повторно проиндексирует страницы и узнает об http-коде 404. Но вы также вполне можете использовать Clean-param в такой ситуации: ограниченные ссылки также выпадут из базы поиска в течение 1-2 недель.
--
Пожалуйста, оцените наш ответ

Иван Иванов

17 октября 2021, 12:28

Здравствуйте, вебмастер уведомил о наличии критичной проблемы:"Найдены страницы-дубли с GET-параметрами, посмотрите примеры таких страниц".

Посмотрел, вебмастер показал страницы с гет-параметром, который я в глаза у себя на сайте не видел. Непонятно откуда Яндекс его взял. Мой сайт сам не генерит такого параметра. Нет таких ссылкок на сайте. Однако вебмастер утверждает, что их 5.

Параметр такой:

epik=dj0yJnU9b1BFSXg2NXZ0aXM1LXlWdFNDcXlmWE9NaWJFVG5WMXUmcD0wJm49QUY5UEJrNE1YZ1ZnRkczek9hY19lZyZ0PUFBQUFBR0FYcm5j

На всякий случай скачал с сервера код темы (wordpress), всех установленных плагинов. Поискал по коду ключевое слово epik. Ничего не нашел.

Отсюда вопрос. Не ошибка ли это?

platon

Сотрудник Яндекса18 октября 2021, 16:55

Иван Иванов,

чтобы мы могли разобраться, в чем дело, нам нужно детальнее рассмотреть ситуацию с вашим сайтом. Для этого напишите нам, пожалуйста, через форму на этой странице.
--
Пожалуйста, оцените наш ответ

Иван Иванов

18 октября 2021, 17:06

platon,

Написал.

Skillsaibot

20 октября 2021, 07:37

Спасибо за статью. все перепробовал, но не как не получается убрать. Подскажите, что написать в robot.txt если дубли выглядят следующим образом.
/zhenskoe/odezhda/?_=1632543884009

/zhenskoe/odezhda/?

Как убрать GET параметр "_"?

platon

Сотрудник Яндекса20 октября 2021, 20:35

Skillsaibot,

для ограничения первой ссылки можно использовать директиву вида:
Clean_Param: _

Однако ограничить один знак вопроса во второй ссылке с её помощью не получится, так как он не является параметром. Для этой цели можем посоветовать использовать директиву Disallow.
--
Пожалуйста, оцените наш ответ

Обновлено 20 октября 2021, 20:35

Сергей

1 декабря 2021, 15:24

Здравствуйте. Правильно я понимаю, что через амперсант можно указывать параметры для любых страниц "скопом". Т.е. сейчас у меня
Clean-param: amp
Clean-param: clid
и т.д.
это можно объединить в Clean-param:amp&clid даже если эти параметры фигурируют в разных get параметрах и разных страницах. Например,
на одной странице
/?amp=1&sort=2
на другой
/?clid=1&sort=2
Робот будет их учитывать каждый по отдельности, а не в контексте amp+clid на каждой странице?

platon

Сотрудник Яндекса1 декабря 2021, 18:28

Сергей,

да, все именно так. Разницы между написанием правила в две строки или перечислением параметров через знак & нет. Единственное, что стоит учитывать – это действующее ограничение на длину правила, которое составляет 500 символов.
--
Пожалуйста, оцените наш ответ

Андрей

6 декабря 2021, 21:13

Как с помощью директивы clean-param на сайте убрать из индекса все страницы, содержащие вопросительный знак?
Сейчас в robots.txt прописано
Disallow: /*?

но хочется использовать именно clean-param

mzungo

7 февраля 2022, 18:50

Андрей,

Никак

Centeres124

13 января 2022, 13:02

Здравствуйте, подскажите, у меня такая ситуация... Сайт постоянно показывал положительную динамику в плане роста трафика (добавляли страницы и тд), далее в какой-то момент позиции стали резко падать (Вебмастер никаких ошибок/нарушений не выдавал). Далее стал разбираться, в исключенных страницах, мониторинге важных страниц обнаружил большое количество дублей страниц (важных страниц), указал канонические страницы, поставил 301 редирект с url/ на url... После этого новая песня...((( увидел, что до момента просадки сайта внешние ссылки были типа url/ (на мой сайт), потом видимо cms автоматом стала выдавать url главным и потому у роботов произошла путаница. Так вот вопрос, сейчас пока рано делать выводы, прошло в районе 3х недель, но нужно ли что -то сделать или просто ждать обновления пв, где сайт будет с каноническими url и снова можно будет заняться развитием сайта, а не решением этой ситуации? Сейчас url в важных страницах еще подсвечиваются. спасибо, за внимание и очень надеюсь на какой-либо намек или ответ, может кто сталкивался.

Владимир Александрович Песин

13 января 2022, 13:35

Centeres124,

Не обязательно ждать, нужно отправить страницы на переобход принудительно

kristina.vl95

25 апреля 2022, 09:45

Здравствуйте, а как задать clean-param для подобных адресов: https://generalimport.ru/stati/chto-takoe-tamozhennyy-sklad/?
https://generalimport.ru/stati/chto-takoe-gtd-obrazec-zapolneniya/?

https://generalimport.ru/stati/kak-stat-uchastnikom-vehd/?

platon

Сотрудник Яндекса25 апреля 2022, 16:32

kristina.vl95,

в случае с подобными страницами директива Clean-param не подойдет, поскольку они не содержат параметров. Вы можете использовать для них запрет Disallow. Спасибо за пример, мы подумаем, что тут можно сделать для подобных ссылок.
Рекомендуем также проверить природу появления таких ссылок. Если на сайте создаются такого вида ссылки, возможно, не совсем корректно работает какой-либо скрипт, что приводит к их появлению.
--
Пожалуйста, оцените наш ответ

kristina.vl95

26 апреля 2022, 03:29

platon,

они то есть появляются не как критическая ошибка, а как возможная, и вебмастер пишет: "Некоторые страницы сайта содержат одинаковый контент. Из-за их обхода информация о важных страницах может медленнее передаваться в поисковую базу, что может влиять на состояние сайта в поиске.
Посмотрите примеры. Чтобы в поиске участвовала только нужная из повторяющихся страниц, используйте директиву Clean-param в robots.txt или атрибут rel="canonical". Подробно смотрите в Справке"

platon

Сотрудник Яндекса26 апреля 2022, 16:48

kristina.vl95,

это общая рекомендация: директиву Clean-param мы рекомендуем использовать для ссылок с параметрами, а атрибут rel="canonical" вы можете использовать для других страниц. Если вы хотите быть уверены, что подобные ссылки не попадут в поиск, стоит использовать запрет в файле robots.txt в виде директивы Disallow.
--
Пожалуйста, оцените наш ответ

Андрей Викторович Филатов

21 февраля 2023, 17:30

как сделать чтобы страницы не формировались?

Владимир Александрович Песин

21 февраля 2023, 17:49

Андрей Викторович Филатов,

Не формировать их)

Андрей Викторович Филатов

26 февраля 2023, 16:47

Владимир Александрович Песин,

спасибо!!!!

Владимир Александрович Песин

26 февраля 2023, 17:53

Владимир Александрович Песин,

Какой вопрос - такой ответ) Нужно понимать какая у вас CMS, какие именно это страницы и так далее.

antimaxi456

21 июля 2023, 14:16

Добрый день Подскажите пожалуйста решение данной проблемы. У меня сайт автотоваров (фильтры, масла и так далее). Некоторые позиции отличаются только наименованием. Описание и заголовок у них одинаковый.
Например:
Первый товар
Масляный фильтр SCT SF 501 (для MERCEDES и других авто)
https://sctshop.kz/filters/maslyanyy-filtr-sct-sf-501-dlya-mercedes-i-drugih-avto

Второй товар:
Масляный фильтр SCT SF 502 (для MERCEDES и других авто)
https://sctshop.kz/filters/maslyanyy-filtr-sct-sf-502-dlya-mercedes-i-drugih-avto

В автомаслах существует аналогичная проблема. Там отличается только литраж канистры. А описание одинаковое:
https://sctshop.kz/motornoe-maslo/motornoe-sinteticheskoe-maslo-mannol-oem-energy-formula-fr-5w30-sn-7707-1l

https://sctshop.kz/motornoe-maslo/motornoe-sinteticheskoe-maslo-mannol-oem-energy-formula-fr-5w30-sn-7707-5l

И таких моментов на сайте очень много. Как быть в этом случае?

platon

Сотрудник Яндекса25 июля 2023, 19:35

antimaxi456,

чтобы мы могли детально изучить ситуацию, напишите нам, пожалуйста, через форму обратной связи, так мы сможем быстрее разобраться с вопросом и помочь вам. Важно заполнить форму с того аккаунта, на котором у вас есть права на сайт в Вебмастере.

Dartrein59

28 сентября 2023, 17:16

Здравствуйте, подскажите, пожалуйста, озадачил конструктор сайтов добавив перед GET-запросом "amp;", Как мне изменить Clean-param?
Было: /?tfc_storepartuid[514858989]=SALE&tfc_div=
Стало: /?amp;tfc_storepartuid[514858989]=SALE&tfc_div=
Текущий параметр:
Clean-param: editionuid&tfc_sort[514858989]&tfc_quantity[514858989]&tfc_storepartuid[514858989]&tfc_div&tfc_query[514858989]&tfc_option:1341241[514858989]&fbclid&gclid&utm_source&utm_medium&utm_campaign&utm_content&utm_term

platon

Сотрудник Яндекса28 сентября 2023, 23:27

Dartrein59,

подобные ссылки могут попадать в базу робота как в закодированном виде, так и нет. В зависимости от этого для их ограничения могут использоваться разные директивы. Чтобы мы могли проверить, в каком виде в базу робота ссылки попали в вашем случае, пожалуйста, авторизуйтесь с аккаунта, на котором подтвердили права на сайт. После этого перейдите по ссылке «Обратная связь» в нижней части любой страницы Вебмастера с информацией о сайте и напишите в службу поддержки.