(495) 234-36-61
На главную страницу блога Почта

Блог «Умные мелочи»

Из открытых источников

Рубрика: (Умные вещи в офисе и дома) | Автор: moderator | Дата: 01-03-2013

Метки: , , ,

Вопрос «на засыпку» — можно ли верить Википедии? Насколько, до какой степени? Встречаются ли там непреднамеренные ошибки? А как быть с откровенной дезинформацией? Короче говоря — можно ли пользоваться информацией из таких «открытых источников», как Википедия и родственные информационные порталы?

Скажу сразу — пользоваться можно и нужно. Информационные порталы — онлайновые энциклопедии типа Википедии — одно из великих изобретений нашего времени. Причем, Википедия, вне сомнений, впереди всех. Изумительная идея, великолепная реализация. Очень удобный поиск информации. Огромная информационная база, которая постоянно пополняется. До появления Википедии человечество не знало столь удобного, столь обширного информационного ресурса, который, к тому же, доступен всем — в отличие от  специализированных библиотек.

Но есть и целый набор «но». Этот набор не должен вводить нас в уныние. Разнообразных «но» полно и в академических изданиях самого высокого уровня. Книги пишут люди. Люди же пишут статьи для энциклопедий. А людям свойственно ошибаться. Им свойственно окрашивать события в различные тона сообразно своим личным убеждениям. Люди путают даты, обстоятельства событий — особенно тех, участниками которых они не были.

То же самое касается и Википедии, и всех онлайновых энциклопедий. В русской Википедии, к примеру, широко использованы материалы энциклопедического словаря Брокгауза и Эфрона дореволюционных лет издания. Как вы полагаете, изменились ли оценки тех или иных событий за последние сто лет? И появились ли новые сведения о давно известных событиях? Конечно, изменились. Но в Википедии приводятся именно устаревшие данные. Почему? Это отдельный вопрос.

Именно расчет на энтузиастов, как на авторов онлайновой энциклопедии, вывел Википедию в число самых выдающихся справочных изданий мира. Но этот же расчет вызвал к жизни такой феномен, как «война версий».

Одним автором личность Че Гевары (к примеру) представляется героической. Он и в самом деле герой кубинской революции. Но другой автор добавляет в статью о Геваре раздел о том, что Че лично расстреливал тех, кто революции не принял. И руки революционного героя по локоть в человеческой крови. Какой же он после этого герой, ежели руки в крови? А разве не герой, коли при его непосредственном участии революция на Кубе победила?

Это и есть — война версий. Когда одно мнение противопоставляется другому. И в данном случае, при описании личности явно неоднозначной, иное и невозможно. В отличие от любой «бумажной» энциклопедии, где все материалы причёсываются редактурой с целью достижения наибольшей объективности. Но объективность эта, суть, компромисс. И Че Гевара описывается в этих энциклопедиях так, что никому не обидно — ни тем, кто восхваляет Гевару, ни тем, кто считает его жестоким убийцей.

Это лишь один, самый простой пример. Но в Википедии и в других онлайновых энциклопедиях, устроенных по тому же принципу, подобных противоречий огромное количество. Один автор считает Фишера великим шахматистом, другой — путаником и истериком. Один преклоняется перед гением Эйнштейна, другой считает теорию относительности глупой выдумкой. Один автор замирает перед картинами Босха, другой недоумевает, чем здесь можно восхищаться. И так далее.

Пользоваться Википедией можно и нужно — как защищать её от нелепых нападок и в меру сил способствовать её совершенствованию. Но при этом пользоваться ею нужно осторожно и с умом. Википедия никогда не была и не будет источником исчерпывающей информации о чём бы то ни было. Этим источником не может считаться ни одна энциклопедия на свете, даже знаменитая «Британика». Заглянув в интересующую статью сегодня и вернувшись к ней завтра, мы вполне можем обнаружить, что статья эта полностью или частично переписана. Википедия, в отличие от той же «Британики», находится в состоянии динамического изменения. Она постоянно дописывается и переписывается. В этом её недостаток и в этом её несомненное достоинство. Википедия день ото дня становится лучше. Но опираться лишь на этот источник нельзя. Более того, на Википедию лучше вообще не опираться, принимая её лишь за ориентир, за исходную точку, от которой мы начинаем собирать исчерпывающую информацию о том или ином событии, явлении, исторической личности.

Надо понимать, что Википедия — это школьный и студенческий справочник. Помощник человеку, познающему мир, разыскивающему любопытные подробности. Это вовсе не «учебник жизни». И не учебник в принципе. «Британика», к слову, тоже не учебник. Но без неё (без её существования, без ссылок на это грандиозное издание) невозможно представить какой-либо настоящий учебник.

Как с Википедией работаю, скажем, я? А я с ней работаю очень активно. Прочитав статью на русском языке, я открываю ссылки, приведённые в списке источников. Я держу их в фоне, на соседних вкладках браузера. Потом открываю англоязычный вариант статьи — кликнув по нужной строчке в левом столбце экрана, где приведён список всех представленных языков. Полностью прочитываю англоязычный вариант статьи, убеждаясь, что этот вариант Википедии несравнимо более развит и информативен. Но в нём тоже полно несовпадений, противоречий и, случается, ошибок.

Получается, что перед моими глазами, как минимум, два варианта статьи и куча открытых ссылок, касающихся освещаемого статьёй вопроса. Я могу читать одно, сравнивая его с другим. Параллельно разыскивать альтернативные источники информации. И, наконец, опираться на собственные знания — разыскивая подтверждения и им.

Вот это многообразие возможностей и даёт вполне исчерпывающую картину. И я уже чувствую под ногами твердую почву. И могу перевести дух — материала для книжки (или статьи) достаточно. Надо приступать к работе.

Есть у Википедии ещё одна удивительная особенность. По сути, это «текстовый YouTube», универсальная книга, читать которую можно всю жизнь. От статьи к статье, от темы к теме — возможности в полном смысле неисчерпаемые. Мало информации по какой-то теме? Есть ссылки на тематические ресурсы. Есть, наконец, другие информационные порталы, которые способны раскрыть тему глубже и полней. Но в Википедии, как в идеальном справочнике, всё собрано вместе.

В молодости я увлекался чтением дневников Чуковского. И прочитал в этой книге трогательные признания великого писателя. В какой-то особо тяжкий для него Новый год, не помню точно, в какой именно (мне на память приходит 1924-й, но я могу и ошибаться), в самую новогоднюю ночь, Чуковский сидел над любимой «Британикой», перечитывая её статьи. Представляете? Этой энциклопедией он лечил своё усталое сердце.

Мне любовь Корнея Ивановича к энциклопедии запала в душу. Причём, до такой степени, что я и сам полюбил энциклопедии. Самая любимая — уже упомянутый многотомник Брокгауза и Эфрона. Интереснейшее чтиво — если можно так назвать авторитетное издание, равного которому в нашей истории, пожалуй, нет. Тренировка ума. Услада для глаз. Эта энциклопедия превосходно издана. Её приятно держать в руках. И приятно читать.

Википедию тоже приятно читать. По сравнению с коммерческими мультимедийными изданиями, ей недостаёт украшательств и дополнений — в виде звуковых и видеороликов, репродукций, фотографий, отсканированных документов. Всё это в Википедии есть, но в ограниченном количестве.

В принципе, всё понятно. Википедия — проект бесплатный. За пользование этой онлайновой энциклопедией денег с читателя не берут. И при этом получаешь от Википедии так много, что назвать это можно лишь роскошным, щедрым подарком.

В ожидании поиска нового поколения. (часть II)

Рубрика: (Компьютер на рабочем столе) | Автор: moderator | Дата: 28-11-2012

Метки: ,

Что можно сделать уже сегодня?

Немного переиначим вынесенный в подзаголовок вопрос – не что можно сделать, а что уже делается. Кем? Специалистами, программистами, компаниями, вкладывающими в совершенствование механизмов поиска и исследования в этом направлении серьёзные средства.

Так вот, одно из наиболее существенных улучшений поисковых механизмов – обеспечение выдачи релевантных документов. Релевантность – совпадение. В данном случае имеется в виду соответствие документов смыслу запроса.

Сразу оговоримся – релевантность имеет смысл только с точки зрения конкретного пользователя. В случае с поиском тура в Египет нас, как конкретных пользователей, интересуют именно туры в определённую страну, а не Египет, как страна, в которую наезжают туристы. Релевантным ответом будет ссылка на турфирму, которая продаёт туры, а не ссылка на сайт, на котором описывается история или климат Египта.

Чтобы обеспечить релевантность ответов, поисковые машины используют различные пути. Поисковые порталы (кстати, наглядный пример – Google) пытаются отслеживать запросы пользователей и запоминать их поведение (то есть учитывать частоту запросов по различным темам). Но в результате поиск выдаёт не наиболее релевантные, а модные, популярные или разрекламированные (по-нынешнему «раскрученные») ссылки. Поиск информации о каком-либо музыканте в этом случае становится наиболее эффективным, но для поиска знаний этот метод не годится.

Далее — уже начались опыты по практическому использованию кластерного поиска. Результаты запроса раскладываются по отдельным смысловым группам (или «кучкам») для того, чтобы понять – что же на самом деле нужно пользователю, какую именно информацию он ищет в Интернете.

Уже используется поиск с обратной связью. Этот метод напоминает систему мастеров, шаблонов, которые пользователь преодолевает шаг за шагом. Это очень перспективное направление, которое способно обеспечить максимальную релевантность ответа на любой запрос. Но в конце развития этого метода – система жёстко детерминированных меню, не подразумевающая какой-либо гибкости (то есть поиск сводится к выбору простых ответов типа «да-нет», а не менее определённых «и-или»).

Наконец, для обеспечения релевантности ответов используется добавление синонимов к самим запросам перед их выполнением. То есть перед поиском к запросу добавляются схожие по смыслу и разные по форме слова, которые облегчают релевантный поиск.

Второе важное улучшение поисковых систем, которое можно заметить уже сегодня – грамматический разбор запроса и текстов, в которых производится поиск.

При грамматическом анализе запроса фраза разделяется на взаимосвязанные объекты, а не просто на отдельные слова. В результате основным объектом поиска становится знание, ответ на вопрос, а не просто поиск документов как таковых. То есть ответ на конкретный вопрос становится главной задачей поиска, а вывод ссылок на документы выполняет вспомогательную, иллюстративную функцию.

Но и здесь разработчики столкнулись со множеством проблем… Назовём самые основные.

Для полного грамматического разбора запроса необходимо произвести лингвистический анализ документов, чтобы получить набор элементарных утверждений (или «фактов») о наличии в текстах нужных атрибутов и связей. Это связано с переработкой огромных массивов данных, что и объясняет трудности в реализации этих механизмов.

Ещё одна проблема – формализации запроса. Чтобы точно выполнить запрос, необходимо понять его смысл, его цель. В каком виде должны быть представлены знания, чтобы ответы на поисковые запросы носили универсальный характер? Какого-либо специального языка для представления знаний наука до сих пор не выработала. Поиск в этом направлении ведётся, но перспективы пока остаются туманными.

Пока не решена и проблема визуализации ответов на вопросы. Интерфейс поисковой системы должен быть максимально простым, но и максимально информативным. Требования предъявляются крайне противоречивые. Всё равно, что попытаться построить мощный персональный компьютер, который бы мог быстро понять и освоить пятилетний ребёнок. Задача трудновыполнимая, но всё же… выполнимая. Вспомните, когда-то и дистанционный пульт управления телевизором казался невероятно сложным. Или, скажем, первая в нашей жизни микроволновая печь…

Наконец – проблема идентификации объектов. Это самая сложная проблема, в решении которой особых успехов пока не достигнуто. Как определить  соответствие одного и того же документа (или объекта) к разным группам утверждений? Например, одна и та же веб-страница может содержать информацию о турах, о Египте (как о стране), о гостиницах и так далее. Но при этом поисковые запросы могут касаться только туров, только гостиниц или только информации (скажем, исторической) о стране.

Здесь остановимся, ибо момент того стоит. Дело в том, что успешное решение проблемы идентификации объектов как раз и есть то главное условие, которое отличает существующую систему поиска от поиска нового поколения.

Кто ищет, тот найдёт

Проблема создания поискового механизма нового поколения может быть решена только с применением всех существующих сегодня методов поиска информации. То есть у разработчиков есть один путь – конвергенция, объединение всех известных механизмов в единую сбалансированную систему. Но до сих пор подобных проектов нет, каждая из поисковых систем использует лишь часть описанных мною компонентов.

И всё же работа в этом направлении идёт. Над построением новой системы поиска работают целые компании, которые занимаются разработкой метода пошагового решения поисковой задачи и внедрением механизмов поиска нового типа. Пока можно говорить о начале большого пути – разработчики находятся на стадии изысканий в области лингвистического анализа данных. Но дайте срок, дайте срок.

Новая система поиска – это ещё не завтрашний день, но уже и не отдалённое будущее. И реальностью она станет гораздо раньше, чем мы с вами можем предположить.

Кстати, тот самый случай, когда фантастическое предположение имеет все шансы стать реальным воспоминанием. Ну, да — о состоявшемся будущем.

 
По всем вопросам, связанным с работой сайта, обращайтесь по адресу: webmaster@elcode.ru