Pull to refresh
21
0
Игорь Бендруп @IBendrup

Разработчик

Send message
Вы спрашивали какие темы стоит раскрыть в последующих статьях. Думаю, было бы здорово написать подробнее про комбинирование ручных правил и машинного обучения
Вы пробовали оценить количество правил, необходимое для корректного извлечения адресов? Типовой адрес в РФ имеет 3-6 уровней адресации (например: область, район, город, улица, дом). Если просто предусмотреть для каждого уровня по 10 частных правил (правила для каждого уровня свои), то общее число правил для пяти-шести уровней достигнет 10^5-10^6. Есть ли какие-то варианты сократить число правил, необходимое для извлечения адреса?
Зачем заводить какие-то дополнительные структуры?

Во втором абзаце вы тоже ввели дополнительную структуру. И с точки зрения теории автоматов — это недетерминированный конечный автомат. Чтобы понять в чем его отличия от описанного в посте, нужно смотреть программную реализацию. Возможно их нет. В этом случае попробуйте перейти к детерминированному автомату — реализовать проще и работает быстрее.
Интересно, а почему вообще нужен специальный автомат?

mefrill, во втором абзаце вы тоже описали автомат. Trie это тоже специальный случай конечного автомата, причем детерминированного.
Не могли бы вы привести ссылки на более строгое описание алгоритма. Есть ли работающий код, оценки производительности?

Information

Rating
Does not participate
Registered
Activity