Comments / Profile of akuznetsov / Habr

Есть хорошая книжка по этой теме Walter Daelemans, Antal van den Bosch Memory-Based Language Processing. Так же еще можно прочитать статью на хабре про реализацию морфологии на python. И конечно сайт aot.ru.

Look

Русская морфология, основанная на памяти

akuznetsov Oct 12 2010 at 13:47

В аот насамом деле используются два автомата. Один для слов из словаря. Второй для предсказания. Я писал такой автомат на Java, но увы он занимал слишком много памяти и был сложный в реализации.

Look

Русская морфология, основанная на памяти

akuznetsov Oct 12 2010 at 12:30

В моем случая было критично объем оперативной памяти используемой программой. Кодирование к целым числам наоборот замедляют работу, но экономят используемую память.

Так же у меня используется упорядоченная структура, что бы угадывать правило для незнакомого слова, это тоже замедляет работу алгоритма.

Дерево пока не использовалось, возможно на такое представление будет сделан переход в следующей версии программы и оно должно даст значительный прирост производительности, но не уверен, что будет выгрыш по памяти, учитывая особенности языка java.

Look

Java для HPC. Расчёт скалярного произведения векторов

akuznetsov Oct 12 2010 at 11:49

А на сколько в java по сравнению с C производительность теряется?

Look

Русская морфология, основанная на памяти

akuznetsov Oct 12 2010 at 10:39

В английской литературе есть понятие Memory-Based Algorithm. Они основанные запоминание уже разобранных образцов использование их в дальнейшем. Я понимаю, что по русски это немного режет, но у меня нет лучшего перевода. Если интересно можете посмотреть книгу Walter Daelemans, Antal van den Bosch Memory-Based Language Processing. Там довольно много подобных алгоритмов.

Look

Русская морфология, основанная на памяти

akuznetsov Oct 12 2010 at 10:27

Задача по слову определить его нормальную форму. Например для существительного нормальная форма это именительный падеж, единственное число. Для глагола это инфинитив. Для прилагательного именительный падеж, мужской род и т.д.

Look

В Индии разрабатывается собственная операционная система

akuznetsov Oct 11 2010 at 22:42

Не только в России есть практика попила.

Look

Русская морфология, основанная на памяти

akuznetsov Oct 11 2010 at 19:44

code.google.com/p/russianmorphology/

Look

Penisland, или как написать спеллчекер

akuznetsov Oct 8 2010 at 12:04

На похожем принципе построена реализация морфологи от AOT aot.ru/docs/sokirko/Dialog2004.htm. Так же там есть ссылка на статью (an Daciuk, Bruce Watson, and Richard Watson, Incremental Construction of Minimal Acyclic Finite State Automata and Transducers), где описывается инкрементальное построение автомата, для проверки правильности написания слова. Для всех русской морфологии размер автомата будет около 400 тысяч вершин и около 850 тысяч переходов.

Look

Пакетный менеджер от Microsoft? Да, для Visual Studio 2010

akuznetsov Oct 7 2010 at 12:27

А автодополнение?

Look

Пакетный менеджер от Microsoft? Да, для Visual Studio 2010

akuznetsov Oct 7 2010 at 12:16

Да я знаю, что есть. Но нет консоли, приходится руками вставлять в xml.

Look

Пакетный менеджер от Microsoft? Да, для Visual Studio 2010

akuznetsov Oct 6 2010 at 23:42

Смотрю я на платформу .net и понимаю, что увы java начинает потихоньку проигрывать. И C# как язык развивается быстрее. Вот и пакетный менеджер появился. Как-то мне от этого грустно.

+10

Look

Краткий обзор membase — нового NoSQL решения от авторов memcached

akuznetsov Sep 28 2010 at 18:33

Да только redis пока в кластере не работает. Эту часть дописывать нужно, либо ждать пока реализуют.

Look

Yahoo! переходит на поисковик Bing уже на этой неделе

akuznetsov Aug 19 2010 at 11:49

Вы бы результаты на английском сравнивали. Все таки российский рынок для bing пока второстепенен.

Look

Кража информации у работодателя

akuznetsov Aug 17 2010 at 17:07