(495) 234-36-61
На главную страницу блога Почта

Блог «Умные мелочи»

В ожидании поиска нового поколения (часть I)

Рубрика: (Компьютер на рабочем столе) | Автор: moderator | Дата: 27-11-2012

Метки: , , ,

Вся жизнь — поиск

Огромная глобальная система коммуникации – Интернет – используется нами постоянно и ежедневно. В Интернете мы читаем газеты, журналы, книги, посредством Интернета учимся, работаем, общаемся с друзьями, знакомимся. Интернет давно стал частью нашей будничной жизни…

Но вот вопрос – как мы используем возможности Интернета? На что тратим большую часть времени, проведённого в Сети? Ответ — на поиск.

Мы ищем не просто новости, а самые свежие новости. И после того, как прочитаем сводку новостей в одном издании, ищем другой источник — чтобы проверить, а точно ли описано то или иное событие. Нужна какая-то книга – снова ищем. Товар – ищем. Компанию, магазин, официальное лицо – ищем и ищем.

Поиск информации – вот основное занятие любого пользователя, активно работающего с ресурсами Глобальной сети. И если внимательно присмотреться, то окажется, что поиск занимает не менее половины нашего рабочего и свободного времени. На службе мы ищем деловую информацию, а дома – музыку, фильмы, анонсы грядущих премьер, отзывы критиков на новые книги. А игры? А кулинарные рецепты? А информация по лекарствам?.. Список можно продолжать бесконечно.

Но как же он несовершенен, этот поиск по просторам Всемирной паутины! Вот один из наглядных примеров. Самая обычная, самая житейская ситуация. Решили мы съездить на неделю-другую к морю. Скажем, в Египет. Хорошая идея! Египет очень популярен у россиян, что вполне объяснимо – учитывая стоимость туров и чудесный климат на побережье Красного моря.

Однако нам нужно не просто купить путёвку, а купить путёвку в хороший (или даже в самый лучший) отель Египта и заплатить при этом небольшие (или даже минимально возможные) деньги. Что в этом предосудительного? Обычное желание немного сэкономить.

Запускаем браузер, заходим на какой-нибудь поисковик… Ну, скажем, на Яндекс или Google. Отличные же поисковики, которые мы используем каждый день. Вносим в строку поиска: «Самый дешёвый тур в Египет». Пока хватит. Посмотрим, что получится хотя бы из этого.

А получится вот что. Google выдаст примерно 286 тысяч (!) ссылок на сайты, на которых в том или ином виде упоминается введённая фраза. Но не стоит обольщаться, точных совпадений всего ничего. Потом в приведённом в браузере списке идут ссылки на сайты, на которых отдельные слова упоминаются в самых различных сочетаниях. Например — «самый дешёвый продукт месяца» и где-то здесь, на той же странице — «Египет чудесная страна». Или «в горах Памира живёт горный тур» и где-нибудь рядом — «мы отправились в путешествие по Египту». И так далее.

Проблема в том, что в существующих сегодня поисковых системах используется метод поиска по образцу. Поисковая машина ищет в Интернете документы, в которых есть введённые в строку поиска слова, не учитывая их смысл. И увеличение слов в тексте запроса нам мало чем помогает. Чем больше слов – тем больше документов, в которых эти слова упоминаются. Добавим к поисковому запросу «отель пять звёзд» и где-то в середине огромного списка получим ссылки на страницы, где описывается песня группы «Иглз» «Отель «Калифорния»» и «армянский коньяк пять звёзд», которые никак не связаны с турами в Египет. В результате поиск теряет смысл и превращается в пустую трату времени.

Время перемен

Нынешняя ситуация с поиском информации не устраивает всех. Она не устраивает крупные корпорации и мелкие компании, деловых людей и частных пользователей. Это напоминает время, когда развитие Интернета ограничивалось низкоскоростным доступом к его ресурсам. Появились «толстые» каналы (ADSL, доступ через сетевые интерфейсы, сети 3G, 4G и так далее), и Глобальная сеть получила ощутимый толчок.

То же самое в ближайшем будущем должно произойти и с системами поиска. Сегодня поиск по образцу годится только для локальных систем. Если на нашем компьютере хранится тысяча, десять тысяч, сто тысяч документов, отыскать нужный по поисковому запросу минутное дело. Но с поиском информации в Интернете существующие механизмы уже не справляются.

Нужны новые идеи, новые разработки. И они уже на подходе.

Что мы ждём от поиска нового поколения?

До сих пор информационное наполнение Интернета представляет собой огромную многомиллирадную базу практически никак не связанных между собой документов. Поиск нужной информации в этом колоссальном массиве дело очень непростое.

Что же нам нужно? Что мы должны получить, введя в строку поиска свой запрос? Ссылки именно на те материалы, которые нам нужны – если дело касается простых запросов (вроде поиска того же тура в Египет). Это первое.

Второе – ссылки на документы, которые дают исчерпывающую информацию о компании или о человеке, которых мы разыскиваем. Если, к примеру, мы ищем информацию о некоем Иване Ивановиче Иванове, то хотелось бы узнать – где и кем он работает, где в данный момент проживает, когда родился (чтобы поздравить человека при случае) и так далее.

Но и это ещё не всё. Вместе с информацией об Иванове нам бы пригодилась информация о его семье, о его родителях, о его прошлых заслугах. А портрет? А его голос? Короче, нам нужна полная информация.

Вместе с тем нужен и некий механизм защиты от получения этой детальной информации людьми, которые господину Иванову не нужны, могут быть каким-либо образом опасны, которые способны воспользоваться этой информацией ему во вред. Такая же защита нужна компаниям от мошенников или скандальных клиентов. А клиентам – от ненадёжных компаний. То есть мощная и вездесущая система поиска не должна негативно отражаться на нашей жизни. Напротив, она должна приносить исключительно пользу.

В результате новая система глобального поиска должна работать, как база досье, но при этом обладать механизмами регулирования доступа к определённым её ресурсам. Быстро и безошибочно находить нужные документы и оберегать от несанкционированного доступа секретные материалы. Наконец, работать быстро и не предъявлять завышенных требований к каналам связи и мощности компьютеров, подключенных к Интернету.

Как работают нынешние системы поиска информации?

Да, полно — выполнима ли эта грандиозная задача в принципе? И почему нынешние поисковые механизмы не соответствуют требованиям поиска нового поколения? Разве в базах современных поисковых систем не содержится информация о миллиардах тщательнейшим образом проиндексированных документов (веб-страниц, сайтов)? Но не в одной индексации дело. Нужны мощные механизмы анализа документов.

То, что интеллектуальный поиск возможен, убеждают успехи в области машинного перевода с одного языка на другой. Любой из нас на своём опыте знает, что перевод текста с минимальным смысловым анализом гораздо более эффективен, чем просто перевод последовательности иностранных слов. И программы такого уровня, способные осуществлять перевод с сохранением смысла, заложенного в текст, уже есть. А это значит, что схожие по действию механизмы смыслового анализа документов могут применяться в системах поиска информации. А сами интеллектуальные поисковые системы очень скоро будут доступны любому пользователю Интернета.

Но как же работают нынешние поисковики? Как они ищут нужную нам информацию?

Первый метод поиска – поиск по образцу. Именно этот метод используется в широкодоступных поисковых системах, таких как уже упомянутые Яндекс и Google. Именно этот механизм сегодня наиболее распространен. И его главный недостаток для всех нас очевиден – поисковик выдаёт крайне замусоренный случайными совпадениями результат, а ссылки на документы не соответствуют контексту запроса.

Другой популярный метод – поиск по досье. В этой системе возможно введение запроса в виде фактов или утверждений. Поиск производится по соответствию запроса содержанию документа. В результате осуществляется контекстный поиск информации, но с ограниченными возможностями. Дело в том, что базы досье не предназначены для широкого круга пользователей. Сами базы имеют ограниченный размер, совокупность внесённых в них данных относительно невелика. Среди доступных ресурсов, использующих поиск по досье – энциклопедии, справочники по составу сотрудников государственных учреждений, адресные справочники и так далее.

Следующий аналитический механизм – поиск в информационных массивах группы связанных данных. Пока этот метод поиска информации должного распространения не получил, хотя является весьма привлекательным и перспективным.

Наконец, четвёртый метод поиска – использование фискально-полицейских систем. Поиск производится по специализированным базам адресной, регистрационной и налоговой информации. Этот метод способен обрабатывать огромные массивы данных, но предназначен исключительно для специалистов-аналитиков.

Пока объединение всех четырёх методов поиска в той или иной степени удалось системам, используемым разведкой и полицией. Но именно этот путь – объединения известных методов поиска – и даст нам давно ожидаемый,  общедоступный, мощный и совершенный поиск нового поколения.

 




Оставить комментарий

 
По всем вопросам, связанным с работой сайта, обращайтесь по адресу: webmaster@elcode.ru