company_banner

Как Яндекс использует лингвистику в поиске

    Яндексу ежедневно приходится отвечать на десятки миллионов запросов. Поисковая система должна уметь быстро и точно их обрабатывать. Без применения лингвистики поисковая система сможет найти только точные совпадения в проиндексированных документах. Чтобы найти релевантные документы, системе необходимо правильно определить язык запроса, исправить опечатки, произвести морфологический разбор каждого слова, расширить запрос синонимами или вообще его переформулировать. В этой лекции Алексей Зобнин постарался дать студентам Малого ШАДа ответы на следующие вопросы:

    • Зачем нужно учитывать морфологию?
    • Как и зачем мы определяем язык запроса и документа?
    • Что такое корпус языка?
    • Что такое языковые модели, и как они применяются в поиске?
    • Как производится морфологический анализ несловарных слов?
    • Как определить правильное значение и морфологическую парадигму омонимов?
    • Какие бывают опечатки, и как мы их исправляем?
    • Что такое расширения запроса и чем они могут быть полезны?



    Страница лекции

    Изначально лекция рассчитана на старшеклассников, но и взрослые смогут почерпнуть из нее много полезного.
    Презентацию можно скачать здесь.

    Лекции Малого ШАДа посвящены информатике, математике, лингвистике и смежным областям знаний.

    Докладчики — ведущие ученые, специалисты наукоёмких компаний и преподаватели известных вузов. После каждой лекции проходит дискуссия со слушателями и ответы на вопросы.

    Мы стараемся сохранить в нашей аудитории неформальную атмосферу выездных школ и конференций. Лекции полностью независимы друг от друга, и слушатели могут свободно выбирать интересные темы. Занятия бесплатные.
    Метки:
    • +50
    • 15,7k
    • 8
    Яндекс 639,23
    Как мы делаем Яндекс
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 8
    • +1
      Спасибо, очень интересная лекция.

      Скажите, вот Яндекс выложил mystem для некоммерческого использования. Программа выдаёт возможные исходные формы слов:

      мама{мама}мыла{мыло|мыть}раму{рам|рама}

      Я читал в каком-то докладе, по-моему, за авторством Садовского, что у Яндекса с вероятностью 97% получилось точно определять исходное слово в тексте.

      Не планируете выложить эту технологию для использования? :)
      • 0
        Вы не могли бы чуть более точно сформулировать вопрос.
        Вас интересует использование mystem в коммерческом сервисе, или что-то иное?
        • +1
          Нет, пока что использование mystem в коммерческом сервисе меня не интересует.

          Вопрос: смотрите, mystem умеет определять возможные исходные слова мыла{мыло|мыть}

          Т.е. мыла это либо форма существительного мыло, либо форма глагола мыть.

          Яндекс, если не ошибаюсь, умеет определять исходное слово точно, с учетом окружающего текста. Т.е. понимать, что в предложении «Мама мыла раму», «мыла» — форма глагола, а не существительного.
          • +1
            А. Вы про снятие омонимии — так?
            • +3
              Это уже другой уровень, семантический. И более ресурсоёмкий.
              Просто так такие вещи никто не раздаёт.
              • +3
                В ближайшее время открывать эту технологию не планируется.
          • 0
            Скажите, а лекции «большого» ШАД выкладываются в открытый доступ?

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое