Предполагается, что вебмастер следит за всеми данными, размещенными на своем сайте – например, за тем, чтобы приватные данные были защищены паролем, или за тем, чтобы туда не попадала внутренняя информация о компании. Вся информация, которая размещена в интернете и никак не защищена, может попасть в поисковые системы. Для того, чтобы ограничить доступ к информации для поисковых систем, достаточно задать правила доступа в файле robots.txt протоколом REP.
Однако практика показала, что, несмотря на простоту способов защиты приватной информации, и то, что правила взаимодействия сайтов с поисковыми системами созданы еще в 1994 году, многие вебмастера совершают ошибки. Например, полагаясь на сложность адреса той или иной страницы, никак не защищают информацию на ней. В результате эта информация оказывается открытой и находится в различных поисковых системах, в том числе и в Яндексе.
Как показали события последних дней, это достаточно широко распространено. Поэтому мы посчитали необходимым тщательно рассмотреть ставшие известными за последнее время случаи доступности непубличной информации. Мы изучили ситуацию и выяснили, что адреса страниц с некоторых хостов стали известны Яндексу через установленную на сайтах Метрику. А поскольку в robots.txt этих сайтов запрета на индексацию страниц не содержалось, они стали находиться в Яндексе. Особо хотим отметить, что посещение пользователем страницы с помощью браузера с установленным Яндекс.Баром не приводило и не приводит к ее индексации.
Что такое Метрика? Это система, предназначенная для анализа трафика на сайте. В соответствии с Пользовательским соглашением Метрики, «счетчик собирает анонимные данные о посещениях сайта и в автоматическом режиме передает их Яндексу для получения обобщённой статистической информации, доступной для дальнейшего использования с помощью Сервиса как Пользователю, так и Яндексу».
Мы не могли представить себе, что в функциональность инструмента для анализа сайта нужно добавлять средства управления доступом. Для этого существуют общепринятые инструменты. Однако миф о том, что для защиты приватной информации достаточно сложного адреса страницы, оказался таким распространенным среди вебмастеров, что мы решили добавить в Метрику возможность не передавать в поиск Яндекса адреса страниц, которые стали ей известны. Однако это не означает, что поисковая система никогда не узнает о той или иной странице. Существует огромное количество других путей, которыми страница может оказаться в поиске. Новая опция Метрики влияет только на непосредственную связь между Метрикой и поиском.
Эта опция появилась на сервисе, на страницах с выбором счетчика. Также вы можете добавить в код счетчика на вашем сайте параметр ut=noindex. В результате этого адреса страниц, полученные только через Метрику, не будут индексироваться поиском Яндекса.
Приватные страницы, не защищенные вебмастером, которые по тем или иным причинам оказались в поисковом индексе, можно удалить несколькими способами. Если вы – вебмастер или владелец сайта и видите в поисковой системе те страницы, которые, по вашему мнению, не должны там находиться, вам нужно либо закрыть их паролем, либо запретить индексацию страниц с помощью robots.txt или метатега noindex.
Процесс обновления данных в поиске Яндекса можно ускорить. Для этого воспользуйтесь инструментом для удаления адресов страниц в Яндекс.Вебмастере. Или вы можете обратиться в службу поддержки. После обработки заявки робот Яндекса переобойдет указанные адреса и удалит их или изменит содержимое, сниппет и сохраненную копию - в зависимости от действий вебмастера.
В настоящее время процесс синхронизации содержимого сайта и результатов поиска занимает несколько часов, но мы работаем над тем, чтобы значительно сократить это время.
Владимир Иванов, информационная безопасность Яндекса