Блог Яндекса для вебмастеров

Выгрузка данных из «Страниц в поиске»

Пост в архиве.

Данные из инструмента «Страницы в поиске» теперь доступны для скачивания. 
Выгрузка доступна из обоих разделов инструмента. В данных из раздела «Все страницы» содержится информация о всех страницах сайта, известных поиску: их URL, дата последнего посещения страницы роботом и title.

Таблица с данными из раздела «Последние изменения» включает в себя информацию только по страницам, статус которых был изменен — например, они были добавлены в поиск или, наоборот, выпали из него. При этом информации по каждой такой изменившейся странице представлено больше, чем в предыдущей выгрузке, а именно: 

updateDate — дата обновления поисковой базы;
url — адрес страницы;
httpCode — HTTP-код, полученный роботом во время последнего обхода;
status — статус страницы;
target — адрес страницы, на которую происходит перенаправление со страницы, указанной в поле url, или страница, дублем которой является текущая;
lastAccess — дата последнего посещения страницы роботом;
title — заголовок страницы (HTML-элемент title);
event — действие, произведенное со страницей (добавление или исключение из поиска).

Теперь решать такие задачи, как найти все исключенные или только что добавленные в поиск страницы, страницы с конкретным HTTP-ответом, дубли или все страницы без title, стало еще проще. 

Выгрузка доступна в двух форматах – CSV и XLS, ссылка на скачивание находится внизу страницы инструмента.

Подробнее о статусах можно узнать в нашей Помощи

Теперь анализировать данные
Становится еще удоб
нее
Команда Яндекс Вебмастера

106 комментариев
Отличная новость! Спасибо!
Ура, спасибо!
Ещё бы апи было для этих данных, совсем классно было бы.
Комментарий удалён
Попов Дмитрий
22 февраля 2017, 18:23
credo120,
Рекомендую посмотреть на комментарии выше и ниже, и задуматься над своим мировозрением.
Обновлено 22 февраля 2017, 18:26
Попов Дмитрий,
Отличный ответ, хотя он вряд ли поймет ))
Комментарий удалён
Попов Дмитрий
25 февраля 2017, 19:14
Николай Егорьев,
Я отвечал на конкретную фразу про "Бесполезная фича ТЗ ради ТЗ". И посмотреть по сторонам можно что бы увидеть, что это функция которую люди ждали и хотели. Такие комментарии здесь потому, что в вебмастере последнее время выкатывается очень много однозначно полезных фич, от которых есть объективная польза (да, нескромно, но это так). 


На остальное, позвольте не буду отвечать - т.к. это либо вопросы субъективные (как правильно рассказывать о фичах), либо яндекс.вебмастера напрямую не касаются
Николай Егорьев,
Гораздо интереснее, зачем домен в выдаче теперь жирным шрифтом выделяется, но Яндекс про это молчит. - разбираются чему же обучился Матрикснет) 
Обновлено 26 февраля 2017, 20:03
Николай Егорьев,
, они сделали за последний год больше, чем за 8 лет до этого. Не гони на них, пусть продолжают в том же духе. Щас обидятся и опять болото будет. Вон даже выгрузку внешних ссылок починили.
Елена Першина
27 февраля 2017, 00:29
Часть сообщений в этом диалоге были забанены модератором за неуважение к собеседнику и мат.  
Попов Дмитрий,
 Скажите , тёзка.
Ваш Питерский офис отвечает за панель вм?

Прекрасно.
Дмитрий Севальнев
22 февраля 2017, 17:57
Вот это хорошо, вот это приятненько -) 
Ещё был API к возможности! API что-то совсем медленно развивается по Вебмастеру.
Обновлено 22 февраля 2017, 17:58
Елена Першина
22 февраля 2017, 19:03
Дмитрий Севальнев,
Не все сразу, но все делается :)
Вот просили выгрузки - сделали выгрузки. Про API тоже помним! 
Дмитрий Севальнев
22 февраля 2017, 21:18
Елена Першина,
да, в целом то спасибо =) 
Обновлено 22 февраля 2017, 21:19
Елена Першина,
тоже APIшечку очень хочется, но не только для этой фичи =)
Антон Дзёба
22 февраля 2017, 18:02
Как раз к праздникам интересное обновление выкатили.
Елена Першина
22 февраля 2017, 19:03
Антон Дзёба,
Старались! :) 
Комментарий удалён
Елена Першина
27 февраля 2017, 00:30
Николай Егорьев,
на пиццу нашим разработчикам ? :)
Антон Дзёба,
так себе. У меня страницы выпадают, а потом залетают опять. уже начал дописывать , вникая глубже в суть вопроса. Теперь яндекс лучше ранжирует и не выбрасывает странички с хорошим текстом.
Обновлено 31 марта 2017, 20:50
Мастеровой 66
22 февраля 2017, 18:08
Добавили бы функцию по удалению ссылок  - конкуренты пытаются топить при помощи вот таких сайтов - http://novosti-aes-paksh.ru/index.php?bzm=24097.
Вот такое Г...НО в вебмастере показывает. Позиции сразу в минус пошли после индексации (предположение, а может и истина). Платон, как быть?
Мастеровой 66,
 а может стоит настроить нормально ответ на своем сайте? И вообще вы скинули явно какой то дор или агс.
Обновлено 22 февраля 2017, 18:10
ramsus2008,
 ну типо сайты подобного характера размещают самовольно ссылку на его сайт не СДЛ. Человек за это спрашивал
Мастеровой 66
22 февраля 2017, 18:48
ramsus2008,
Причем тут ответ (с ответом все гуд, метрика стоит, опустилась только эта страница).
Гугл даже не проиндексировал этот ГВ (смотрел последние ссылки за пол года), а Яндекс почему-то закинул в индекс и сразу пошел минус.
Позиции стояли 1-ые, а сейчас где -1, или -2, по самому крутому  ВЧ в -4 позиции.
Конкуренты нихера не делали (я постоянно мониторю). Думаю дело именно в этой ссылке, так как, страница куда он ссылается вышла в топ по ПФ.
В гугле она занимает все ВЧ и НЧ и д.р.
Или Яндекс начал опять учитывать ссылки.
На форумах все мастера начали говорить о росте после ссылочного апдейта.
Мастеровой 66
22 февраля 2017, 18:56
trustttt,
Кто-то же делает такой ГС, топят всех, но ДОМ РУ у них наверно ПЕРВАЯ ЦЕЛЬ.
Елена Першина
22 февраля 2017, 19:06
Мастеровой 66,
Мы этот вопрос комментировали много раз - мы научились хорошо различать подобные ситуации,  и в подавляющем большинстве случае очень хорошо понимаем историю возникновения тех ил иных ссылок. Так что если это правда "конкуренты", можете лишь печалиться, что они столь странным образом решили израсходовать свой бюджет. 
Наша Бригада
23 февраля 2017, 16:57
Елена Першина,
Здравствуйте, скажите пожалуйста это точно не будут проблемы с нашими сайтами если конкуренты ссылаються на наши сайты? А то, каждый день думаю и очень переживаю чтобы не попал под санкции. Спасибо
Елена Першина,
Уточните пожалуйста, правильно ли я понимаю, что ссылки с некачественных сайтов игнорируются яндексом? Или они учитываются и могут негативно повлиять на ранжирование сайта?
Елена Першина
27 февраля 2017, 00:09
Наша Бригада,
Для большей уверенности вы можете еще в поддержку Вебмастера об этом написать, но не думаю, что ответ тут будет сильно от моего отличаться. 
Елена Першина
27 февраля 2017, 00:37
Павел,
Вот тут про это очень хорошо рассказано: https://events.yandex.ru/lib/talks/3093/ 
Наша Бригада
27 февраля 2017, 02:24
Елена Першина,
Я не сомнивался, даже очень благодарен что Вы  это запретили. Спасибо.
Обновлено 27 февраля 2017, 02:25
Елена Першина,
 скажите, а как яндекс относится к таким "сайтам":
http://kamelot-z.ru/12/09/dlya-chego-nuzhen-gaz-na-svarochnom-poluavtomate-awelco-easycraft-100/
вижу и тиц у него есть и его ссылки засчитаны яндексом в вебмастере.
и таких мусорок с десяток нашел... может, вы создадите тему, куда такое можно складывать, а ваши ребята будут отсеивать зерна от плевел.
Елена Першина
5 марта 2017, 19:50
Alex,
Мы любим, когда о подобных подозрительных сайтах нам сообщают через вот такую форму:  https://yandex.ru/support/abuse/troubleshooting/search/main.html
Но качество конкретных ресурсов мы не комментируем. 
А ещё актуальная проблема - это гомнокаталоги которые собирают информацию о сайте, и размещают у себя без нашего ведома, плюс на страницах такого типа может находится контент порнографического содержания или новости аля "Пугачёва не старее потому что..."


Итог: было бы неплохо сделать инструмент удаления ссылок (чтобы яндекс не брал в учёт ссылки ), с того сайта который по моему мнению не является достойным для описания нашего ресурса!
trustttt,
Не надо изобретать велосипед. Надо сделать, как у западного аналога, где ГСссылки просто не учитываются. Тогда не придется удалять весь хлам из панели ВМ.
seoal,
каждый случай уникален. Идеально алгоритма нет, поэтому в каких-то вопросах должен помогать человек. Почему-бы и нет!?
Мастеровой 66
22 февраля 2017, 18:51
trustttt,
Полностью солидарен с Вами!
Здорово, очень полезный инструмент, постепенно кабинет вебмастера все больше полезной информации дает. Раньше все это скриптами надо был вытягивать, неточности и прочее такое. Дашборд удобный тоже. Спасибо
Очень приятная новость,СПАСИБО.
Человеческое спасибо!
Рамазан Миндубаев
22 февраля 2017, 20:36
Просили всем отделом, видимо услышали, спасибо!
Евгений Вайнер
22 февраля 2017, 20:55
Ну наконец-то! Молодцы, ура!
Самат Исабаев
22 февраля 2017, 22:50
Лучи добра разработчикам за новую фичу! =)
Елена Першина
26 февраля 2017, 23:54
Самат Исабаев,
Розовый бентли не обещаем :) Но добрые слова передам! 
Александр Бушин
23 февраля 2017, 09:22
Респект!
Удалённый пользователь
23 февраля 2017, 09:38
О, Спасибо!
Хорошая новость, спасибо!
Спасибо большое! Радует, что скорость прикрутки возможности выгрузок сократилась с года, до нескольких месяцев с последней вебмастерской :)
Елена Першина
27 февраля 2017, 00:00
Максим,
Мы же обещали :) 
Спасибо!...отличная новость
Наша Бригада
23 февраля 2017, 16:53
Спасибо большое, очень круто
Приветствую! А можно сделать функцию, в разделе "Удалить URL" возможность удалять не по одной УРЛ а допустим загрузить файл с УРЛ которые требуется удалить. А то дублеры и не существующие устал удалять по одной странице, тем более если их около ста, было бы очень удобно. Спасибо!
Елена Першина
27 февраля 2017, 00:10
Карнил,
Задача понятно, в планах такого пока нет, но посмотрим, что тут можно сделать. 
Елена Першина,
все просто же, сделайте в API возможность удалять урл, а там кому надо уже понаприкручивают своих приложух как им удобно будет
Удалённый пользователь
23 февраля 2017, 17:18
Попробовал выгрузить XLS. Всё отлично, всё видно, всё понятно.


Спасибо за старания. Ваш труд не напрасен!
Комментарий удалён
Удалённый пользователь
25 февраля 2017, 20:04
Николай Егорьев,
 глубокомысленность ваша восхитила меня :-)
Замечательно, спасибо!
Скажите, а как теперь посмотреть  какие страницы отдают 301? 
Попов Дмитрий
24 февраля 2017, 00:44
AleksandrIvanov3,
старая выгрузка в разделе "статистика обхода", которая содержит информацию о всех известных поиску страницах по прежнему доступна
Попов Дмитрий,
да но там указано только количество страниц с разными http кодами, а меня интересуют конкретно страницы например которые отдают код 301. Делаю выгрузку там ничего такого нет. Спасибо.
Попов Дмитрий
24 февраля 2017, 01:31
AleksandrIvanov3,
не понимаю о чем вы. Раздел "Индексирование - статистика обхода". Снизу страницы кнопка "архив от 20.02.2017". В этом архиве все известные поиску страницы, в том числе с указанием кода
Это конечно хорошо, но страницы то вылетают, то залетают обратно, причем без заголовков, хотя они присутствуют, и до этого были. Это изрядно бесит, так как настроена дата последнего редактирования в микро-разметки, и статья уникальная пишется с головы, а она например 28.01.2017 залетает в индекс в этот же день вылетает, после снова залетает , далее не редактировалась и 16.02.2017 например вылетает из индекса с этой ужасающей надписью" Недостаточно качественная ..." хотя последнее редактирование статьи 27.01.2017 а день добавления. О чем говорится дополнительно в sitemap.xml в разделе lastChange.... Странно это всё не правда ли ?
супер =)
Гиперборея
24 февраля 2017, 10:49
Я не знаю, может не в тему, но если бы у меня был свой поисковик, то он бы приоритетно индексировал страницы, которые правятся. Новые льют и перезаливают ведрами и лоханками, а вот если правиться старая страница - это всегда какой-то особый фактор, никто с больной страницей работать не будет. Для новостей это конечно не подходит, а вот для "вечнозеленного контента" в самый раз.
Отличная новость! Спасибо!!!!
Комментарий удалён
Елена Першина
27 февраля 2017, 00:32
AllCanHappen,
И эта попытка снова засчитана :) 
Мастеровой 66
2 марта 2017, 10:07
Елена Першина,
Сегодняшний адейт выдачи опять, как в Ноябре, поверг в легкий шок! Спасибо Яндекс, что не даете скучать!
Обновлено 2 марта 2017, 10:08
По запросу host:сайт.рф показывает что 0 страниц в индексе и так для всех доменов рф, это будут чинить или так всегда теперь будет для доменов рф?
Елена Першина
27 февраля 2017, 00:41
siemensrars,
попробуйте использовать site:
КРУТО!!!
Подскажите, пожалуйста, где найти список страниц 404 ошибке. Ранее был в разделе исключенные страницы - теперь там просто график. Спасибо
Елена Першина
27 февраля 2017, 20:11
astroplastica,
Эту информацию можно получить несколькими путями. Наиболее быстрый и правильный - статистика обхода - загруженные страницы. Далее выгрузка страниц с нужным ответом. 
Оч крутая штука, выгрузил и зарылся в списке. Нашел кучу бесполезных страниц, которые надо убрать из индекса :)


Только подскажите, пожалуйста, где найти описания статусов. В частности, что такое BAD_QUALITY? Заранее спасибо за ответ.
Елена Першина
27 февраля 2017, 20:14
da-ya,
В помощи: https://yandex.ru/support/webmaster/service/searchable.xml#download-file
BAD_QUALITY - первое из определений в таблице. 


Елена Першина,
Спасибо! Очень полезно, будем пользоваться ))
Официальный дилер Автомир
27 февраля 2017, 18:25
Спасибо!
Алексей Устинов
27 февраля 2017, 21:36
С ума сойти! Где теперь находятся исключенные страницы, т.е я в кабинете вижу что исключенные страницы есть, но я не могу посмотреть что за страницы, все перерыл ни как не найду!
Елена Першина
28 февраля 2017, 14:41
Алексей Устинов,
Так в той же выгрузке можно - там статус под это специальный. 
Алексей Устинов
28 февраля 2017, 17:12
Елена Першина,
Спасибо, большое )
Большое спасибо. Теперь при  продвижении сайта наши новые клиенты могут получить отчет о страницах попавших в поиск.
Обновлено 28 февраля 2017, 17:15
Круто, спасибо ) !
Было бы здорово, если можно в эту таблицу выгружать так же дескрипшен, кейвордс и Н1. 
На данном этапе вынужден просматривать это вручную, что не особо удобно. Спасибо Вам за работу, ценю Ваш профессионализм.
info@dvbmarket.ru
5 марта 2017, 01:21
Ortoway,
однозначно плюсуем
Очень полезная функция! Большое спасибо!
Успел уже оценить для сайта про поисковые системы. Хотя и занят сейчас его переносом на иную cms.
Обновлено 3 марта 2017, 15:19
Видимо мне повезло больше всех, я попросил об этом совсем недавно и как будто на мою личную просьбу такой подарок))) Спасибо! 
Елена Першина
5 марта 2017, 19:45
vlburnos,
Иногда очень сложно отвечать на вопросы, зная, что скоро будет лучший ответ на ваш вопрос :) 
Хорошая идея. А я думаю почему мои страницы попадают в индекс потом теряются. Оказывается кто-то хочет на пакостить и к параметрам моего URL прикрепляются левые тексты и коды. И вот вижу что такие страницы Yandex добавил в индекс (/best_hotel_info_cena.php?id_hotel=275%F1) а оригинальная страница (/best_hotel_info_cena.php?id_hotel=275). Так робот их в неделю по 50 штук находит , индексирует, а потом удаляет как дубликат. Скажете пожалуйста, что  лучше сделать при получении кривой url? Просто везде по разному пишут.   1.Редирект на оригинальную стрницу с возвратом 200. 2. Редирект на стрницу ошибки 404. 3.<link rel="canonical" href="..../best_hotel_info_cena.php?id_hotel=275"> в заголовке. Я думаю такой вопрос не только у меня. Спасибо.
Елена Першина
9 марта 2017, 14:55
Артур В.,
В вашем случае - атрибут rel="canonical" будет самое уместное и простое в настройке.
Елена Першина,
Спасибо большое за ответ, не пойму откуда такие ссылки в индексе.
 Еще такой вопрос.
У вас в сервисе под ссылкой на эту страницу написано "Страница перенаправляет робота на  "мой-URL". Проверьте индексирование цели Редиректа." - Это как ошибка считается? 
Я сделал так: при переходе на страницу, которая была удалена, я поставил в заголовке  простой Редирект на раздел выше.  Скажите пожалуйста, лучше так и оставить, или если страница удалена надо делать Редирект на страницу 404? Чтобы не было проблем с индексацией.
Просто благодаря этому новому сервису много что узнал).
Спасибо. Буду ждать вашего квалифицированного ответа если он конечно уместен)
Елена Першина
9 марта 2017, 21:13
Артур В.,
Вы знаете, боюсь через блог на такие вопросы не очень удобно отвечать - нет инструментов для анализа, да и сайт я не вижу. Можно вас попросить нам в поддержку их продублировать? 
Елена Першина,
Имеете введу через форму обратной связи -  https://yandex.ru/support/blog/index.html?
Елена Першина,


Написал, но на всякий случай и сюда продублирую. 
/opisanie_nomera.php?id_hotel=193&id_room=615 (Редирект)
Страница перенаправляет робота на http://gorod-kurort-anapa.ru/best_hotel_info_cena.php?id_hotel=193. Проверьте индексирование цели редиректа.

Елена Першина
10 марта 2017, 14:11
Артур В.,
Вообще скорее поддержку Вебмастера - это самое релевантное место для проверки таких результатов. Ссылка внизу страницы сервиса. 
Елена Першина,
Все я уже написал и все объяснили. Спасибо)
Елена Першина
10 марта 2017, 14:30
Артур В.,
Отлично! Простите, что через блог на такие вопросы не отвечаем - но правда инструментов не хватает. 
Елена Першина,
Понимаю, все хорошо)
Очень странно работает выгрузка страниц в поиске. Выгружает в 2 раза меньше страниц, чем в индексе.
Елена Першина
14 марта 2017, 12:51
eldarion4ik,
А страницы в поиске вы через что смотрите? 
Елена Першина,
Статистика обхода->Страницы в поиске.  Выгружаю через Страницы в поиске->Все страницы и в итоге получается различие в 2 раза.
Елена Першина
14 марта 2017, 14:57
eldarion4ik,
А можно сайт, для которого так? 
"Страниц в индексе" вы через что смотрите, с чем сравниваете выгрузку из инструмента. 
Елена Першина,
А есть возможность написать в тех. поддержку вебмастера, чтобы я мог скриншоты предоставить? Не нашел такой возможности в обратной связи.
Елена Першина
15 марта 2017, 13:21
eldarion4ik,
Да, конечно. На самом деле даже лучше в техподдержку, так как могут еще данные о сайте потребоваться.
Да, форма обратной связи есть при переходе по соответствующей ссылке внизу Вебмастера, но там небольшой квест - нужно уточнить проблему несколько раз, чтобы она появилась. 
Подскажите. Отчёт в явм «страницы в поиске»
Исключённые в разрезе по датам - показано именно состояние на выбранную дату или изменения в эту дату?
То есть чтобы понять, сколько у нас страниц за месяц со статусом например 404, нужно сложить все значения или это именно вчера ВСЕГО 404 было столько, а сегодня уже - вот столько?
В справке это как-то нечётко описано.
platon
Сотрудник Яндекса13 августа 2019, 12:35
girl-without,
на графике для каждой даты отображается общее количество исключенных страниц сайта. В списке на вкладке "Исключенные страницы" для каждой даты отображаются изменения, которые произошли именно в этот день.