войти зарегистрироваться

Яндекс

Яндекс
хабраиндекс
806,53

комментарии (13)

  • Да здравствует Абырвалг
  • О! кодировки!
    я дождался! )
  • Есть ли какие-либо варианты не в виде консольной утилиты? Вызов утилиты можно завернуть во что-то удобное, но скорость такой конструкции будет не ахти. Если есть, то возможно ли лицензирование для коммерческого использования?
    • Вот кстати да, поддержу.
    • На aot.ru есть. Lemmatizer называется. Очень быстрая и эффективная штука. Использовали в своём поисковике одно время.
      • Спасибо. Lemmatizer смотрел, первые впечатления очень положительные. Плюс исходники и собираемость под *nix и Win. Но яндекс+аот+институт Виноградова вместе могут, как мне кажется, сделать качественней.
        Хотя, тестирования не проводил, потому пока объективно сравнивать качество не могу.
      • Словарь АОТ с багами, там большое количество относится к нескольким частям речи (слова вида: прибитый — деепричастие и прилагательное одновременно). А про кодировки думаю мечтали все.
        • По моим наблюдениям, ошибок там совсем не критичное количество. Может одна на несколько десятков тысяч слов. Учитывая, что это на халяву да ещё и с исходниками, против яндексовского в виде только бинарика.
          А перекодировать из любой входящей кодировки в UTF-8 уже давно пора всем проектам не зависимо от необходимости для них морфологического парсера.
  • Интересный переводчик на сайте aot.ru
  • А чего без исходного кода?
  • Заопенсорсили бы вы его…
    • ну пожалуйста, заопенсорсьте…
  • Огромное спасибо! mystem — действительно незаменимый сегодня инструмент.
Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.