Компания
459,86
рейтинг
8 ноября 2013 в 16:43

Разработка → Как Яндекс использует лингвистику в поиске

Яндексу ежедневно приходится отвечать на десятки миллионов запросов. Поисковая система должна уметь быстро и точно их обрабатывать. Без применения лингвистики поисковая система сможет найти только точные совпадения в проиндексированных документах. Чтобы найти релевантные документы, системе необходимо правильно определить язык запроса, исправить опечатки, произвести морфологический разбор каждого слова, расширить запрос синонимами или вообще его переформулировать. В этой лекции Алексей Зобнин постарался дать студентам Малого ШАДа ответы на следующие вопросы:

  • Зачем нужно учитывать морфологию?
  • Как и зачем мы определяем язык запроса и документа?
  • Что такое корпус языка?
  • Что такое языковые модели, и как они применяются в поиске?
  • Как производится морфологический анализ несловарных слов?
  • Как определить правильное значение и морфологическую парадигму омонимов?
  • Какие бывают опечатки, и как мы их исправляем?
  • Что такое расширения запроса и чем они могут быть полезны?



Страница лекции

Изначально лекция рассчитана на старшеклассников, но и взрослые смогут почерпнуть из нее много полезного.
Презентацию можно скачать здесь.

Лекции Малого ШАДа посвящены информатике, математике, лингвистике и смежным областям знаний.

Докладчики — ведущие ученые, специалисты наукоёмких компаний и преподаватели известных вузов. После каждой лекции проходит дискуссия со слушателями и ответы на вопросы.

Мы стараемся сохранить в нашей аудитории неформальную атмосферу выездных школ и конференций. Лекции полностью независимы друг от друга, и слушатели могут свободно выбирать интересные темы. Занятия бесплатные.
Автор: @elcoyot
Яндекс
рейтинг 459,86

Комментарии (8)

  • +1
    Спасибо, очень интересная лекция.

    Скажите, вот Яндекс выложил mystem для некоммерческого использования. Программа выдаёт возможные исходные формы слов:

    мама{мама}мыла{мыло|мыть}раму{рам|рама}

    Я читал в каком-то докладе, по-моему, за авторством Садовского, что у Яндекса с вероятностью 97% получилось точно определять исходное слово в тексте.

    Не планируете выложить эту технологию для использования? :)
    • 0
      Вы не могли бы чуть более точно сформулировать вопрос.
      Вас интересует использование mystem в коммерческом сервисе, или что-то иное?
      • +1
        Нет, пока что использование mystem в коммерческом сервисе меня не интересует.

        Вопрос: смотрите, mystem умеет определять возможные исходные слова мыла{мыло|мыть}

        Т.е. мыла это либо форма существительного мыло, либо форма глагола мыть.

        Яндекс, если не ошибаюсь, умеет определять исходное слово точно, с учетом окружающего текста. Т.е. понимать, что в предложении «Мама мыла раму», «мыла» — форма глагола, а не существительного.
        • +1
          А. Вы про снятие омонимии — так?
        • +3
          Это уже другой уровень, семантический. И более ресурсоёмкий.
          Просто так такие вещи никто не раздаёт.
        • +3
          В ближайшее время открывать эту технологию не планируется.
  • 0
    Скажите, а лекции «большого» ШАД выкладываются в открытый доступ?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка