Статьи Новости Контакты

06.05.2008
Игорь Крейн

Найди то, не знаю что

изучение новых технологий, которые разрабатываются командами поисковых систем

Поиск

Не каждый пользователь Интернета умеет грамотно составить поисковый запрос так, чтобы быстро найти интересующую его информацию. Мало кто из тех, кто пользуется поисковыми системами, знает о существовании страниц расширенного поиска и тем более языков запросов, а если и знает, то пользуется ими редко. Пользователю хочется поменьше думать и поменьше делать, но при этом быстрее получить то, что ему нужно.

Современные поисковики помогают пользователям правильно формулировать запросы
По этой причине поисковые системы со временем обрастают дополнительными сервисами разной степени сложности, призванными обнаружить нужную пользователю информацию на основе анализа простого запроса из одного-двух слов. "Яндекс", например, обучился исправлять опечатки и ошибки в словах (запрос "полеклиника" он меняет на запрос "поликлиника"), а Yahoo предлагает ряд уточняющих запросов (выдавая результаты поиска по строке «James Bond», система советует попробовать поискать фразы типа «james bond movies» и «james bond 007»).

Какими еще новшествами собираются порадовать нас в ближайшее время популярные поисковики? Частично на этот вопрос может ответить тщательное изучение экспериментальных версий двух российских систем: «Яндекса» и «Рамблера». Обе тестовые программы отличаются от своих действующих "родственников" в том, что касается обработки запросов и выдачи их результатов; алгоритмы работы "пауков" и индексаторов, формирующих базу интернет-страниц, похоже, остались прежними.

"Магадан"

Бета-версия «Яндекса» («Магадан»)

В середине апреля 2008 года команда разработчиков "Яндекса" предложила всем желающим "пощупать" предварительный вариант новой версии своей поисковой машины, имеющей кодовое название «Магадан». Судя по всему, новый алгоритм будет запущен в рабочем режиме в самое ближайшее время, как только будут исправлены все недочеты, обнаруженные добровольными тестерами.

Как известно, в "Яндексе" в последнее время увлеклись созданием искусственного псевдоинтеллекта, который якобы лучше человека знает, чего тот хочет. Здесь считают, что если человек забил в поисковом поле слово "теливизор", то он почти наверняка опечатался (или не обучен грамоте). Во многих случаях поисковик без спросу корректирует такой запрос на "телевизор", не забывая, к счастью, сообщить о своей инициативности и предлагая пользователю, если ему так уж хочется, еще раз поискать в Сети его "неправильный" "теливизор", но уже без автокоррекции. (Справедливости ради следует отметить, что в большинстве случаев пользователи действительно ошибаются. Ну а меньшинством, по мнению разработчиков "Яндекса", можно пренебречь.)

После прочтения сжатого описания отличительных особенностей "Магадана" становится ясно, что в "Яндексе" продолжают придерживаться этой стратегии. Одно только заявление о том, что программа начала "глубже понимать текст страницы и его качество", заставляет насторожиться. И основания для этих опасений имеются.

"Яндекс" вскоре обучится распознавать аббревиатуры
В частности, "Магадан" умеет распознавать аббревиатуры. Разработчики предлагают убедиться в этом, набрав в поисковом поле слово "МГУ". Получив такой запрос, поисковая машина находит где-то у себя в базе данных расшифровку этой аббревиатуры и наряду со словом "МГУ" фактически ищет в индексированных интернет-страницах еще и "Московский государственный университет".

Казалось бы, все логично. Но без подводных камней не обошлось. Потому что в результатах запроса можно обнаружить ссылки не только на "Московский государственный университет им. М. В. Ломоносова", но и на "Московский государственный университет путей сообщения", "Московский государственный университет экономики, статистики и информатики" и даже "Московский государственный университет леса", что к собственно МГУ не имеет никакого отношения. (В какой-то момент эти ссылки активно появлялись уже в первом десятке результатов, но на другой день то ли проиндексировались нужные интернет-страницы, то ли разработчики подправили алгоритм, но МГУ в результатах запроса все-таки стал доминировать.)

"Яндекс" будет понимать кириллическое написание иностранных названий
Также "Магадан" обучился распознавать "написание транслитом". Здесь под "транслитом" подразумевается написание зарубежных терминов с помощью кириллицы. Как и в случае с аббревиатурами, новый алгоритм определяет иностранные аналоги слов из запроса и ищет как кириллический, так и латинский вариант. В качестве "официального" примера предлагается поискать слово "мазда": программа "транслитерирует" его в термин «mazda» — с целью, конечно же, выдать наиболее релевантные странички.

Здесь тоже имеется своя логика: из-за того, что часть пользователей не знают, как правильно писать иностранные названия (не умеют пользоваться латинской раскладкой, не желают делать этого из принципа, ленятся и т. д.), веб-мастерам приходится проделывать всевозможные ухищрения, чтобы ссылки на их страницы оказывались в первых рядах результатов поисковых запросов. Но, даже принимая во внимание эту логику, трудно объяснить, почему поисковая машина отказывается интересоваться мнением самого пользователя о том, что именно тот хочет найти.

Кроме того, к транслитерации данная процедура имеет весьма косвенное отношение: судя по поведению "Магадана", он не транслитерирует, а пользуется таблицей соответствий. В настоящий момент "транслитерационный словарь" далеко не полон и не всегда корректен. Например, если вы наберете слово "шевролет", произойдет его замена на «chevrolet». Однако по правилам транслитерации такая замена должна была бы происходить, скорее, по слову "чевролет". Если же руководствоваться произношением, то на «chevrolet» следовало бы подменять слово "шевроле". Ни с тем, ни с другим словом магадановский транслитератор не знаком. Иными словами, чтобы этот алгоритм сработал в данном случае, вам следует сделать заведомо неграмотный запрос.

Продолжаем автомобильную тему. "Опел" сперва автоматически исправляется программой на "Опель", а потом уже "транслитерируется" в «Opel». Правильный "Фольксваген" и транслитерационный "Вольксваген" успешно подменяются на «Volkswagen». Зато слов "Феррари" и "Ламборгини" (а также, на всякий случай, "Ламборджини" и даже "Ламборгхини") транслитератор "Магадана" вовсе не знает.

"Яндекс" станет лучше справляться с многословными запросами
Что же касается глубины понимания текста, то здесь как раз имеются положительные сдвиги. Сильной (и одновременно слабой) стороной "Яндекса" является принцип, по которому документ считается релевантным многословному запросу, если все слова из запроса находятся в документе достаточно близко друг от друга. Во многих случаях это действительно позволяет найти нужную информацию, но иногда "Яндекс" отбраковывает зерна, подсовывая человеку одни лишь плевелы.

Многословный поиск в «Яндексе» и «Магадане»
«Магадан» (внизу) ищет лучше, чем «Яндекс»

В "Магадане" с этой проблемой частично сумели справиться, смягчив "фильтрацию отбора документов для ранжирования". Вот несколько примеров. С легким запросом "командор автопробег миллион" и "Яндекс", и "Магадан" справляются без особых трудностей, начав выдавать ссылки на текст романа "Золотой теленок" еще в первом десятке. Однако запрос "командор миллион магистраль" уже поставил "Яндекс" в тупик, в то время как "Магадан" сумел обнаружить несколько нужных текстов — правда, только начиная с третьего десятка. По запросу "мастер бегемот сумасшедший" "Магадан" выдал более двух с половиной тысяч сайтов, определив текст романа "Мастер и Маргарита" на седьмую позицию. "Яндекс" показал всего 3 (три!) сайта; текст романа по такому запросу вы не найдете. Наиболее изощренный запрос, который мне удалось придумать, — "диван кот петри" — опять сбивает "Яндекс" с толку: несколько десятков ссылок — и ни одной, по которой можно почитать повесть "Понедельник начинается в субботу". "Магадан" оказался заметно плодовитее, хотя нужная ссылка оказалась только на 24-й позиции.

"Бета-Рамблер"

Бета-Рамблер

При разработке экспериментальной версии своего поисковика рамблеровцы попытались, как они выражаются, "структурировать Интернет". Суть структуризации заключается во введении глобального списка тем вроде "Новости", "Цены", "Афиша", "Википедия" и т. п., благодаря которым пользователь может уточнять свои запросы.

Разработчики "Рамблера" пытаются структурировать Интернет
Например, если человек попробует поискать "монитор Samsung", то поисковая машина не только выдаст ему результаты такого поиска, но и предложит ряд тем, соответствующих этому запросу. Нажав на ссылку с темой "Цены", человек увидит только список со ссылками на описания мониторов корейского бренда в интернет-магазинах. Тема "Обзоры" отфильтрует записи, касающиеся всевозможной полезной информации об этих мониторах, а тема «Top100» — подходящие ссылки из известного рамблеровского рейтинга.

Каждая из тем может быть уточнена дополнительно. Так, можно просмотреть цены только на мониторы Samsung с диагональю того или иного размера, а из обзоров этих товаров отобрать только те, что опубликованы в блогах и форумах, или же, наоборот, выбрать только информацию, предоставляемую производителем.

Поиск в «Бета-Рамблере»
«Бета-Рамблер» предлагает темы для уточнения запросов

Безусловно, реализация такого сервиса невозможна ни без расширения базы данных (определенным словам из запроса должны быть поставлены в соответствие те или иные темы), ни без существенных изменений интерфейса. Отдавая должное благим намерениям разработчиков, отметим, что результаты их усилий пока выглядят сыровато. Список тем представляется довольно ограниченным (правда, в "Рамблере" заверяют, что работают над его расширением). Кроме того, далеко не для всех запросов, которые можно было бы уточнять с помощью существующих тем, программа такие темы предлагает (цен на "Макинтош" вы не увидите, хотя легко обнаружите цены на «Macintosh»... где-то тут явно мог бы пригодиться яндексовский "транслитератор"). Наконец, в интерфейсе тоже еще есть над чем поработать — да вот хотя бы дать на главной странице ссылки на сами темы, а не на готовые запросы.

Выводы

Разработчики обеих поисковых систем прилагают усилия для того, чтобы пользоваться их продуктами мог каждый, кто научился печатать на клавиатуре хотя бы одним пальцем. Но до идеала пока далеко. "Яндексу" явно недостает дополнительных настроек, которые позволили бы пользователю самому определять, должна ли система автоматически корректировать его запросы. Ну а перед программистами "Рамблера" еще лежит весьма приличный объем работы по "структуризации Интернета". Остается только пожелать обеим командам успехов в их нелегком деле.




Скоро на сайте

  • Wordpress

    Серия статей о плагинах к движку WordPrress
  • AJAX

    Проекты и продукты, ориентированные на AJAX
  • Новые сервисы Google

    Обзор новых сервисов Google
 

Copyright © 2003—2018 Все права защищены

При использовании материалов сайта ссылка на hostinfo.ru обязательна

  • хостинг от .masterhost
  • Rambler's Top100