Семантический поиск: мифы и реальность

http://www.readwriteweb.com/archives/semantic_search_the_myth_and_reality.php
  • Перевод

О семантическом поиске говорят уже на протяжении нескольких лет. Любая технология, которая сможет сместить Google с вершины, вызывает всеобщий интерес. Особенно если речь идет о долгожданной и часто обсуждаемой возможности семантического поиска. Однако нас ни столько интересует прогресс в этой области, сколько огорчает отсутствие реальных результатов проводимых исследований, ведь итоги поиска не так уж и сильно отличаются от итогов поиска Google. В чем же дело?

Например, при вводе в строку поиска «Столица Франции», оба метода дают один и то же правильный ответ: «Париж». Кроме того, большинство запросов, которые мы вбиваем в строку поиска в виде аббревиатур, дают те же результаты, если вводить термин полностью. Очевидно, что тут что-то не так. Всем известно, что семантические технологии способны на многое, но почему? И как они работают? Ознакомившись с этой статьей, вы узнаете, что на самом деле, мы просто-напросто задаем не те вопросы.

Ошибка заключается в том, что семантические поисковые системы, по сути, обладают аналогичной с Google строкой ввода, которая позволяет нам вводить запросы в свободной форме. Поэтому мы вводим запросы так, как привыкли – в простейшей форме. Мы никогда не будем вводить в строку поиска «Какой актер снимался в фильмах «Криминальное чтиво» и «Лихорадка субботним вечером»? или «Какие два сенатора США брали взятки от иностранных компаний?». Мы всегда вбиваем простые фразы, но сила семантического поиска не в этом. Чтобы понять, как все работает, предлагаем рассмотреть несколько технологий семантического поиска от Google, SearchMonkey, Powerset и Freebase.

Какую проблему мы пытаемся решить?

Первая сложность возникает, когда семантический поиск начинают считать решением всевозможных задач – от современной системы поиска, где доминирует Google, до задач, которые нельзя решить вычислительным путем. Все еще более усложняется тем, что в настоящее время есть лишь несколько областей знания, где семантический поиск действительно справляется лучше — это сложные запросы о выводах и рассуждениях о сложных системах данных.



Как видно из приведенных данных, Google легко справляется с основными видами запросов. К сожалению, автоматическая обработка естественного языка дает в этом лишь небольшое преимущество. Google даст верный ответ на вопрос о годе рождения Леонардо, не предоставляя никаких шансов усовершенствовать процесс поиска пониманием существительных и глаголов, которые вбивает пользователь в строку поиска.

Перед тем, как рассмотреть задачи, с которыми легко справляется семантический поиск, рассмотрим самые сложные задачи. Существуют требующие вычисления задачи, которые не имеют ничего общего с пониманием семантики слова. На ранней стадии существования Семантического Веба бытовало мнение, что с его помощью мы сможем решать даже сверхсложные задачи, но, к сожалению это не так. Есть пределы того, что мы можем вычислить, и есть класс задач с огромным числом возможных решений, и мы не можем волшебным способом решить эти задачи только потому, что представили информацию в RDF.

Но есть также и пласт задач, с которыми семантический веб справляется великолепно. Мы решали их при помощи тематической базы данных. Но не стоит забывать, что семантические технологии помогают нам отыскать тематическую информацию, рассредоточенную по всей сети – потому для нас нет ничего удивительного в том, что семантические поисковые системы превзойдут тематические запросы.

Обзор семантических поисковых систем

Суть семантического поиска не только в вопросах, задаваемых нами. По причине того, что веб – это набор неструктурированных HTML-страниц, в основе семантического поиска лежит еще и базовая информация. Самой четкой и понятной из всех мы нашли Freebase – семантическая база данных. Freebase работает не только через текстовый поиск, а что наиболее важно, и через — MQL (Metaweb Query Language). MQL это почти тот же JSON (текстовый формат обмена данными), но с более широкими возможностями. С его помощью вы можете составить любой запрос в Freebase и ответом будет тот же запрос, но уже со вставленными результатами поиска.



Powerset, по сути, это тематическая база данных, которая работает с определенной структурированной информацией. С другой стороны есть Google, который в первую очередь ориентируется на статистическую частоту запросов и почти не принимает во внимание семантику. Вызывает интерес новая система SearchMonkey от Yahoo! Эта система ничего не добавляет к найденным результатам, но использует семантические аннотации для более полного, интерактивного и полезного пользовательского интерфейса.

Компании Hakia и Powerset явно работают с максимальной отдачей. Они пытаются создать подобные Freebase структуры, а потом по топовым результатам провести поиск на естественном языке. Отличие в том, что Hakia (как и другие) использует технологию для поиска по всей сети, а Powerset замкнул свой поиск на Wikipedia.

Что общего и где различия?

В связи с этим появляется вопрос: «Какие из этих технологий схожи, а какие кардинально отличаются?» Давайте начнем с простого. SearchMonkey ничем не отличается от Google и любой другой поисковой системы, т.к. суть у них одна, а разница присутствует лишь во внешнем виде. Сервис SearchMonkey хорош тем, что позволят издателям представить результаты поиска в наилучшем виде.

Что же касается Hakia, Powerset и Freebase, то тут ситуация иная. На первый взгляд они совершенно разные: Hakia в поиске использует весь веб, Powerset – лишь Wikipedia и Freebase, а Freebase обладает двумя поисковыми интерфейсами: поисковая строка и язык поиска. Но существует одна проблема: естественный язык не имеет ничего общего с репрезентативностью базовой информации.

Дело в том, что все технологии семантического поиска позволяют пользователям вбивать произвольные сложные вопросы, а затем интерпретируют их и применяют к имеющимся базам данных. Hakia, Powerset, Freebase такими базами являются, и все они обладают системой автоматической обработки естественного языка, которая «переводит» вопрос на стандартный запрос, понятный для базы.

Чтобы понять, как это все устроено, представьте Freebase и его язык поиска MQL. В отличие от естественного языка, который позволяет задать вопрос разными способами, MQL двусмысленности не предполагает. Этот JSON-подобный язык позволяет пользователям формулировать четкие запросы для поиска в базе Freebase. То, что Powerset позволяет строить вопросы на естественном языке, еще не значит, что Powerset не является базой данных. Powerset – это база, т.к. в ее основе лежит поисковая строка Freebase. Отличие Freebase от Powerset заключается в подходах к поиску и способам предоставления его результатов.

Назад в будущее: все дело в пользовательском интерфейсе



Возможно, самым важным моментом в семантическом поиске является пользовательский интерфейс. В Powerset поняли, что в нем должна быть отражена семантика. После поиска в Powerset, контекстуальный гаджет, который знаком с семантикой результатов, поможет пользователю завершить весь процесс.

Слабым местом Powerset является интерфейс. Поисковая строка, с которой знакомы все, кто когда-либо что-то искал в сети, устарела. Слишком простой интерфейс Powerset и Hakia не приносит им пользы, но и не слишком отражается на Freebase, который не позиционирует себя, как поисковая система.

Вспомните недавний старт Powerset. Компания предоставила лучший способ для поиска в одном из самых мощных источников информации в сети — в Wikipedia. Но что говорят критики? Можно ли назвать эту систему главным конкурентом Google? Ответ однозначен — нет.

А что если на Powerset наложены некие ограничения по поиску? Что если вместо поисковой строки использовался другой интерфейс или компания сказала пользователям не искать то, что они легко могут найти в Google? Может, новые компании должны улучшить алгоритм поиска, который существует уже более 10 лет? В любом случае, любые идеи должны быть нацелены на то, чтобы решить задачи, которые не может на сегодняшний день решить Google.

Заключение

Семантический поиск – это технология будущего, поставившая перед собой слишком высокие цели. Все мы думали, что он поможет свергнуть Google и предоставить наиболее качественные результаты поиска. Оба эти утверждения оказались ложными. Правда в том, что семантический поиск — явление многофакторное, и он поможет нам решать те задачи, которые мы не можем решить сейчас: сложные, логически обоснованные запросы, которые сплошь и рядом встречаются в сети.

Для того, чтобы технологии семантического поиска заняли свою нишу на рынке, компаниям необходимо пересмотреть поставленные цели и улучшить пользовательский интерфейс. Поисковая строка не актуальна и сулит убытки, т.к. она ассоциируется с простыми вопросами, с которыми легко справляется Google. Разработчикам необходимо предложить совершенно новый интерфейс, чтобы пользователи смогли полностью ощутить всю мощь семантического поиска.
Поделиться публикацией
Похожие публикации
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама
Комментарии 31
  • 0
    Извините, на картинке фраза "Нейролингвистическое программирование" точно правильно использована?
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Чтобы их проще было найти. Чтобы лучше индексироватся.
      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          немного не понял, почему не стоит переходить на оффсайт.
          Вы искали фактически по вики и базе freebase - что хотели. то получили. Не вижу проблем.
          • 0
            наверное за тем же, за чем это делают социальные сети и каталоги типа DMOZ
            На основе данных строят сервисы, а вы провайдер данных. Все просто, права за вами, лицензионные отчисления вам, интересно, что вам еще хочеться?
        • 0
          С точностью до слова это говорили про RSS
          И посмотрите что сейчас.
          • НЛО прилетело и опубликовало эту надпись здесь
            • 0
              Это давно уже вроде. Гугл знает еще и сколько попугаев в удаве :)
            • 0
              Не думаю, что от семантического поиска стоит ожидать революции в ближайшем будущем. Статистические методы имеют слишком низкий потолок возможностей для таких задач. Нейросистемы способны неплохо справляться только с простыми предложениями. Чистая лингвистика... Пожалуй, с использованием AGFL-грамматик можно чего-то добиться, но в России ими занимается не больше десятка человек, так что весь research & development продвигается медленно. Хотя советую припахать Яндекс, у них, вроде, есть работающая на статистике система извлечения фактов :)
              • +1
                я не понял заключение. «рис следует есть палочками, а не вилкой, потому-что все привыкли есть ей макароны».
                при чем здесь интерфейс не понятно.
                • +1
                  Сдается мне, что без искусственного интеллекта семантический поиск будет подпоркой.
                  • 0
                    Да дело не в одном семантическом поиске. Посмотрите на технологии, которые можно уже сейчас успешно использовать. Типа RDFa, или SPARQL. Чтобы не быть голословным, к примеру, я с успехом использую RDF в тестировании, для хранения кусков конфигурации тестируемого продукта.
                    • –1
                      Оригинал статьи здесь http://www.readwriteweb.com/archives/semantic_search_the_myth_and_reality.php
                      • НЛО прилетело и опубликовало эту надпись здесь
                        • 0
                          Вообще-то, прикольно будет лет через десять, если можно будет спросить, куда бы мне съездить отдохнуть с наименьшими проблемами с визой? 128 ядерные компьютеры уже подоспеют, наверное.
                          • 0
                            Чем вам не нравится Диалогус http://dialogus.ru/ и... Стокона (странно, она умерла?)
                            • 0
                              Да тем что оба не работают.
                            • 0
                              Поиск, всегда дающий ответы на вопросы типа "Куда бы мне съездить отдохнуть?", можно организовать на любом сайте, предварительно договорившись с рекламодателями:)
                              • 0
                                Да нет лучше бы что бы всетаки это был человек. Он и знает больше и понимает больше… Как ты комьютеру обьяснишь все… А человеки всякие жесты понимают. И подмигивания. А запрос как ты такой напишешь?
                              • 0
                                вот я тут подумал над этой штукой и придумал концепцию
                                • 0
                                  все это конечно хорошо...
                                  только тут проблема скорее будет у пользователей - ибо не все запросы предполагают четкий и однозначный ответ, а некоторые специально задаются, дабы изучить интернет-публикации из разных противоречивых источников...
                                  а то будет все как в советские времена - учат марскизму-ленинизму, значит и есть правильно...

                                  с точки зрения технологий - здорово
                                  с точки зрения практики - скорее минус...
                                  ИМХО
                                  • 0
                                    Кстати вдогонку к статье - ОЧЕНЬ хотелось бы в поисковике режим "не умничать ваще", то есть искать фразу такой как она введена. Да да, о кавычках я знаю, но они не всегда помогают. Есть проблема с ТОЧНЫМ поиском фраз содержащих цифры, символа процента, знаков препинания и арифметических операций. И ещё - автор пишет "Мы никогда не будем вводить в строку поиска «Какой актер снимался в фильмах «Криминальное чтиво» и «Лихорадка субботним вечером»? или «Какие два сенатора США брали взятки от иностранных компаний?»". Как минимум - отучаемся говорить за всех. Лично я ОЧЕНЬ часто так формулирую запросы, ещё и беру их в кавычки чтобы отключить семантику. Смысл - найти в точности такие фразы, например в комментах или на форумах, а так где и вопрос - будет и ответ. Пример из жизни - я хочу приготовить лазанью. Я не буду вводить стандартный запрос "рецепт лазанья", я введу "как приготовить лазанью" и гарантировано первой ссылкой получу то что я хочу.
                                    • НЛО прилетело и опубликовало эту надпись здесь
                                      • 0
                                        В прицнипе возможен вариант что в случае два человек ищет фразу со знаком вопроса на конце. Случай редкий но теоретически возможный.
                                      • 0
                                        Это только до тех пор пока поиск рецепта лазаньи искали тысячи людей не нашли и один самый умный написал в форуме. А что если нужно найти результат умозаключений. Вот тут-то и булет проблема? Хотя врядли семантические сети смогут выводить сложные и жизненные запросы — все так больше по мелочам… Лазаньи там всякие…
                                      • 0
                                        разные сервисы, разные боты, разные компании предлагают
                                        • хранить инфу о пользователях в FOAF
                                        • описывать паутину в OWL
                                        • как и раньше, для упрощения индексации использовать robots.txt + sitemap.xml + RSS + XML RPC ( WebLogs.Update )
                                        • для глобальной идентификации использовать OpenID (непременно с упрощённой регистрацией) + Pavatar
                                        • для особо одарённых ботов и современных людей/наученных браузеров — внедрять в HTML Микроформатыа ещё есть:
                                          • Atom
                                          • RDF
                                          • DC
                                          • SPARQL
                                          • SHOE
                                          • SOA и WSDL
                                          • ...
                                        я ни когда всё это не впихну в свой маленький мультибложек =(, да и вообще, не могу себе представить подобный семантичный сайтец. Я достойной семантики не обнаруживаю даже в популярных соц.сетях — там, где она сама собой напрашивается.

                                        Для нормального семантичного поиска нужен осемантиченный контент. Википедия — единственное место в сети, где семантика реально присутствует в более или менее удобном для поиска виде. Остальным ресурсам в сети довольно не просто внедрять семантичность. Очень жаль =(

                                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.