В течение последних трех месяцев на части запросов Яндекс тестировал новый подход к определению релевантности документов.
Традиционный подход заключается в использовании заранее имеющейся информации о факторах, извлекаемых непосредственно после индексации документа, а также последующей "корректировке" релевантного топа с учетом пользовательского поведения на сайте.
Однако априорной информации о документе иногда недостаточно для определения потенциальной пользы в решении поисковой задачи. Некоторые полезные или просто новые документы могут из-за этого ранжироваться низко и, следовательно, потребуется много времени для накопления достаточного количества данных об удовлетворенности пользователя.
Поэтому имеет смысл периодически показывать в области видимости документы, по которым пользовательской информации недостаточно для принятия решения о полезности документа; при этом априорная релевантность такого документа может оказаться не самой высокой.
Таким образом, за счет возможного краткосрочного снижения качества удается получить информацию о документах, участвующих в поиске, и выиграть в качестве стратегически.
На практике невозможно для получения обратной связи от пользователей показать на топовых позициях всё множество документов, которое попадает в выдачу. Поэтому мы применяем комбинацию так называемого эксплуатирующего подхода, основанного исключительно на априорной релевантности документа, и экспериментирующего, - целью которого является сбор максимума информации о документах.
Сегодня многие компании проводят исследования в этой актуальной области информационного поиска. На конференции WWW'15 во Флоренции статья наших сотрудников, посвященная онлайн-обучению алгоритма ранжирования в терминах задачи о многоруких бандитах, была номинирована на Best Paper Award - это замечательный успех наших ребят. Мы гордимся их достижением и рекомендуем статью всем заинтересованным специалистам.