"Магадан" окончательно поселился по адресу www.yandex.ru. Мы открываем серию коротких (а иногда длинных) постингов с рассказом о том, что было сделано за это время.
Начнем с рассказа про изменения в обработке русскоязычных текстов.
В новую поисковую программу добавлено множество улучшений, например:
- немного умнее определяется, что такое слово -- например, "C++" и "Европа+" теперь ищутся как единое целое (по ним не находятся слова "C" и "Европа"),
- в поиске, кроме слов из текста страницы, участвуют перевод и транслитерация частей URL. Благодаря этому поиск понимает, что "mail" -- это "почта", а "bmw" -- это "бмв",
- увеличена обучающая выборка для статистического морфологического анализатора, что повысило точность распознавания фамилий и географических названий.
Между прочим,
Яндекс умеет искать тексты с дореволюционной орфографией. Скажем, по запросу [кафедра Ветхого завета] найдется "каѳедра Ветхаго Завѣта", и наоборот. Если необходимо найти только слова со старой орфографией, можно ограничить поиск точной формой, взяв слова в кавычки: ["Бѣлый, блѣдный, бѣдный бѣсъ"]. При этом поиск старается отличить такие слова от украинских. Например, по запросу [мiнiстр] найдется только украинское слово "мiнiстр" и не найдется русское "министр". В то же время, когда нужны старые русские слова с "i", например, по запросу [мiр], находится и русское слово "мир".
Александр Садовский, верил и верю :)