Пользователь
0,0
рейтинг
6 июня 2008 в 18:43

Разработка → Семантический поиск: мифы и реальность перевод


О семантическом поиске говорят уже на протяжении нескольких лет. Любая технология, которая сможет сместить Google с вершины, вызывает всеобщий интерес. Особенно если речь идет о долгожданной и часто обсуждаемой возможности семантического поиска. Однако нас ни столько интересует прогресс в этой области, сколько огорчает отсутствие реальных результатов проводимых исследований, ведь итоги поиска не так уж и сильно отличаются от итогов поиска Google. В чем же дело?

Например, при вводе в строку поиска «Столица Франции», оба метода дают один и то же правильный ответ: «Париж». Кроме того, большинство запросов, которые мы вбиваем в строку поиска в виде аббревиатур, дают те же результаты, если вводить термин полностью. Очевидно, что тут что-то не так. Всем известно, что семантические технологии способны на многое, но почему? И как они работают? Ознакомившись с этой статьей, вы узнаете, что на самом деле, мы просто-напросто задаем не те вопросы.

Ошибка заключается в том, что семантические поисковые системы, по сути, обладают аналогичной с Google строкой ввода, которая позволяет нам вводить запросы в свободной форме. Поэтому мы вводим запросы так, как привыкли – в простейшей форме. Мы никогда не будем вводить в строку поиска «Какой актер снимался в фильмах «Криминальное чтиво» и «Лихорадка субботним вечером»? или «Какие два сенатора США брали взятки от иностранных компаний?». Мы всегда вбиваем простые фразы, но сила семантического поиска не в этом. Чтобы понять, как все работает, предлагаем рассмотреть несколько технологий семантического поиска от Google, SearchMonkey, Powerset и Freebase.

Какую проблему мы пытаемся решить?

Первая сложность возникает, когда семантический поиск начинают считать решением всевозможных задач – от современной системы поиска, где доминирует Google, до задач, которые нельзя решить вычислительным путем. Все еще более усложняется тем, что в настоящее время есть лишь несколько областей знания, где семантический поиск действительно справляется лучше — это сложные запросы о выводах и рассуждениях о сложных системах данных.



Как видно из приведенных данных, Google легко справляется с основными видами запросов. К сожалению, автоматическая обработка естественного языка дает в этом лишь небольшое преимущество. Google даст верный ответ на вопрос о годе рождения Леонардо, не предоставляя никаких шансов усовершенствовать процесс поиска пониманием существительных и глаголов, которые вбивает пользователь в строку поиска.

Перед тем, как рассмотреть задачи, с которыми легко справляется семантический поиск, рассмотрим самые сложные задачи. Существуют требующие вычисления задачи, которые не имеют ничего общего с пониманием семантики слова. На ранней стадии существования Семантического Веба бытовало мнение, что с его помощью мы сможем решать даже сверхсложные задачи, но, к сожалению это не так. Есть пределы того, что мы можем вычислить, и есть класс задач с огромным числом возможных решений, и мы не можем волшебным способом решить эти задачи только потому, что представили информацию в RDF.

Но есть также и пласт задач, с которыми семантический веб справляется великолепно. Мы решали их при помощи тематической базы данных. Но не стоит забывать, что семантические технологии помогают нам отыскать тематическую информацию, рассредоточенную по всей сети – потому для нас нет ничего удивительного в том, что семантические поисковые системы превзойдут тематические запросы.

Обзор семантических поисковых систем

Суть семантического поиска не только в вопросах, задаваемых нами. По причине того, что веб – это набор неструктурированных HTML-страниц, в основе семантического поиска лежит еще и базовая информация. Самой четкой и понятной из всех мы нашли Freebase – семантическая база данных. Freebase работает не только через текстовый поиск, а что наиболее важно, и через — MQL (Metaweb Query Language). MQL это почти тот же JSON (текстовый формат обмена данными), но с более широкими возможностями. С его помощью вы можете составить любой запрос в Freebase и ответом будет тот же запрос, но уже со вставленными результатами поиска.



Powerset, по сути, это тематическая база данных, которая работает с определенной структурированной информацией. С другой стороны есть Google, который в первую очередь ориентируется на статистическую частоту запросов и почти не принимает во внимание семантику. Вызывает интерес новая система SearchMonkey от Yahoo! Эта система ничего не добавляет к найденным результатам, но использует семантические аннотации для более полного, интерактивного и полезного пользовательского интерфейса.

Компании Hakia и Powerset явно работают с максимальной отдачей. Они пытаются создать подобные Freebase структуры, а потом по топовым результатам провести поиск на естественном языке. Отличие в том, что Hakia (как и другие) использует технологию для поиска по всей сети, а Powerset замкнул свой поиск на Wikipedia.

Что общего и где различия?

В связи с этим появляется вопрос: «Какие из этих технологий схожи, а какие кардинально отличаются?» Давайте начнем с простого. SearchMonkey ничем не отличается от Google и любой другой поисковой системы, т.к. суть у них одна, а разница присутствует лишь во внешнем виде. Сервис SearchMonkey хорош тем, что позволят издателям представить результаты поиска в наилучшем виде.

Что же касается Hakia, Powerset и Freebase, то тут ситуация иная. На первый взгляд они совершенно разные: Hakia в поиске использует весь веб, Powerset – лишь Wikipedia и Freebase, а Freebase обладает двумя поисковыми интерфейсами: поисковая строка и язык поиска. Но существует одна проблема: естественный язык не имеет ничего общего с репрезентативностью базовой информации.

Дело в том, что все технологии семантического поиска позволяют пользователям вбивать произвольные сложные вопросы, а затем интерпретируют их и применяют к имеющимся базам данных. Hakia, Powerset, Freebase такими базами являются, и все они обладают системой автоматической обработки естественного языка, которая «переводит» вопрос на стандартный запрос, понятный для базы.

Чтобы понять, как это все устроено, представьте Freebase и его язык поиска MQL. В отличие от естественного языка, который позволяет задать вопрос разными способами, MQL двусмысленности не предполагает. Этот JSON-подобный язык позволяет пользователям формулировать четкие запросы для поиска в базе Freebase. То, что Powerset позволяет строить вопросы на естественном языке, еще не значит, что Powerset не является базой данных. Powerset – это база, т.к. в ее основе лежит поисковая строка Freebase. Отличие Freebase от Powerset заключается в подходах к поиску и способам предоставления его результатов.

Назад в будущее: все дело в пользовательском интерфейсе



Возможно, самым важным моментом в семантическом поиске является пользовательский интерфейс. В Powerset поняли, что в нем должна быть отражена семантика. После поиска в Powerset, контекстуальный гаджет, который знаком с семантикой результатов, поможет пользователю завершить весь процесс.

Слабым местом Powerset является интерфейс. Поисковая строка, с которой знакомы все, кто когда-либо что-то искал в сети, устарела. Слишком простой интерфейс Powerset и Hakia не приносит им пользы, но и не слишком отражается на Freebase, который не позиционирует себя, как поисковая система.

Вспомните недавний старт Powerset. Компания предоставила лучший способ для поиска в одном из самых мощных источников информации в сети — в Wikipedia. Но что говорят критики? Можно ли назвать эту систему главным конкурентом Google? Ответ однозначен — нет.

А что если на Powerset наложены некие ограничения по поиску? Что если вместо поисковой строки использовался другой интерфейс или компания сказала пользователям не искать то, что они легко могут найти в Google? Может, новые компании должны улучшить алгоритм поиска, который существует уже более 10 лет? В любом случае, любые идеи должны быть нацелены на то, чтобы решить задачи, которые не может на сегодняшний день решить Google.

Заключение

Семантический поиск – это технология будущего, поставившая перед собой слишком высокие цели. Все мы думали, что он поможет свергнуть Google и предоставить наиболее качественные результаты поиска. Оба эти утверждения оказались ложными. Правда в том, что семантический поиск — явление многофакторное, и он поможет нам решать те задачи, которые мы не можем решить сейчас: сложные, логически обоснованные запросы, которые сплошь и рядом встречаются в сети.

Для того, чтобы технологии семантического поиска заняли свою нишу на рынке, компаниям необходимо пересмотреть поставленные цели и улучшить пользовательский интерфейс. Поисковая строка не актуальна и сулит убытки, т.к. она ассоциируется с простыми вопросами, с которыми легко справляется Google. Разработчикам необходимо предложить совершенно новый интерфейс, чтобы пользователи смогли полностью ощутить всю мощь семантического поиска.
Перевод: Alex Iskold
366 @366
карма
22,8
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (31)

  • 0
    Извините, на картинке фраза "Нейролингвистическое программирование" точно правильно использована?
    • 0
      Не уверен, но как тогда перевести NLP? Оригинал картинки: http://www.readwriteweb.com/images/semse…
      • +7
        Natural Language Processing - Обработка Естественного Языка
        • +1
          Благодарю за помощь, исправил.
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Чтобы их проще было найти. Чтобы лучше индексироватся.
      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          немного не понял, почему не стоит переходить на оффсайт.
          Вы искали фактически по вики и базе freebase - что хотели. то получили. Не вижу проблем.
        • 0
          наверное за тем же, за чем это делают социальные сети и каталоги типа DMOZ
          На основе данных строят сервисы, а вы провайдер данных. Все просто, права за вами, лицензионные отчисления вам, интересно, что вам еще хочеться?
    • 0
      С точностью до слова это говорили про RSS
      И посмотрите что сейчас.
    • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Это давно уже вроде. Гугл знает еще и сколько попугаев в удаве :)
  • 0
    Не думаю, что от семантического поиска стоит ожидать революции в ближайшем будущем. Статистические методы имеют слишком низкий потолок возможностей для таких задач. Нейросистемы способны неплохо справляться только с простыми предложениями. Чистая лингвистика... Пожалуй, с использованием AGFL-грамматик можно чего-то добиться, но в России ими занимается не больше десятка человек, так что весь research & development продвигается медленно. Хотя советую припахать Яндекс, у них, вроде, есть работающая на статистике система извлечения фактов :)
  • +1
    я не понял заключение. «рис следует есть палочками, а не вилкой, потому-что все привыкли есть ей макароны».
    при чем здесь интерфейс не понятно.
  • +1
    Сдается мне, что без искусственного интеллекта семантический поиск будет подпоркой.
  • 0
    Да дело не в одном семантическом поиске. Посмотрите на технологии, которые можно уже сейчас успешно использовать. Типа RDFa, или SPARQL. Чтобы не быть голословным, к примеру, я с успехом использую RDF в тестировании, для хранения кусков конфигурации тестируемого продукта.
  • –1
    Оригинал статьи здесь http://www.readwriteweb.com/archives/semantic_search_the_myth_and_reality.php
  • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    Вообще-то, прикольно будет лет через десять, если можно будет спросить, куда бы мне съездить отдохнуть с наименьшими проблемами с визой? 128 ядерные компьютеры уже подоспеют, наверное.
  • 0
    Чем вам не нравится Диалогус http://dialogus.ru/ и... Стокона (странно, она умерла?)
    • 0
      Да тем что оба не работают.
  • 0
    Поиск, всегда дающий ответы на вопросы типа "Куда бы мне съездить отдохнуть?", можно организовать на любом сайте, предварительно договорившись с рекламодателями:)
    • 0
      Да нет лучше бы что бы всетаки это был человек. Он и знает больше и понимает больше… Как ты комьютеру обьяснишь все… А человеки всякие жесты понимают. И подмигивания. А запрос как ты такой напишешь?
  • 0
    вот я тут подумал над этой штукой и придумал концепцию
  • 0
    все это конечно хорошо...
    только тут проблема скорее будет у пользователей - ибо не все запросы предполагают четкий и однозначный ответ, а некоторые специально задаются, дабы изучить интернет-публикации из разных противоречивых источников...
    а то будет все как в советские времена - учат марскизму-ленинизму, значит и есть правильно...

    с точки зрения технологий - здорово
    с точки зрения практики - скорее минус...
    ИМХО
  • 0
    Кстати вдогонку к статье - ОЧЕНЬ хотелось бы в поисковике режим "не умничать ваще", то есть искать фразу такой как она введена. Да да, о кавычках я знаю, но они не всегда помогают. Есть проблема с ТОЧНЫМ поиском фраз содержащих цифры, символа процента, знаков препинания и арифметических операций. И ещё - автор пишет "Мы никогда не будем вводить в строку поиска «Какой актер снимался в фильмах «Криминальное чтиво» и «Лихорадка субботним вечером»? или «Какие два сенатора США брали взятки от иностранных компаний?»". Как минимум - отучаемся говорить за всех. Лично я ОЧЕНЬ часто так формулирую запросы, ещё и беру их в кавычки чтобы отключить семантику. Смысл - найти в точности такие фразы, например в комментах или на форумах, а так где и вопрос - будет и ответ. Пример из жизни - я хочу приготовить лазанью. Я не буду вводить стандартный запрос "рецепт лазанья", я введу "как приготовить лазанью" и гарантировано первой ссылкой получу то что я хочу.
    • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        В прицнипе возможен вариант что в случае два человек ищет фразу со знаком вопроса на конце. Случай редкий но теоретически возможный.
    • 0
      Это только до тех пор пока поиск рецепта лазаньи искали тысячи людей не нашли и один самый умный написал в форуме. А что если нужно найти результат умозаключений. Вот тут-то и булет проблема? Хотя врядли семантические сети смогут выводить сложные и жизненные запросы — все так больше по мелочам… Лазаньи там всякие…
  • 0
    разные сервисы, разные боты, разные компании предлагают
    • хранить инфу о пользователях в FOAF
    • описывать паутину в OWL
    • как и раньше, для упрощения индексации использовать robots.txt + sitemap.xml + RSS + XML RPC ( WebLogs.Update )
    • для глобальной идентификации использовать OpenID (непременно с упрощённой регистрацией) + Pavatar
    • для особо одарённых ботов и современных людей/наученных браузеров — внедрять в HTML Микроформатыа ещё есть:
      • Atom
      • RDF
      • DC
      • SPARQL
      • SHOE
      • SOA и WSDL
      • ...
    я ни когда всё это не впихну в свой маленький мультибложек =(, да и вообще, не могу себе представить подобный семантичный сайтец. Я достойной семантики не обнаруживаю даже в популярных соц.сетях — там, где она сама собой напрашивается.

    Для нормального семантичного поиска нужен осемантиченный контент. Википедия — единственное место в сети, где семантика реально присутствует в более или менее удобном для поиска виде. Остальным ресурсам в сети довольно не просто внедрять семантичность. Очень жаль =(

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.