ortega3000 Feb 7 2012 at 22:57

Как я создавал синтаксический анализатор

5 min

36K

Algorithms*

From sandbox

+18

Comments 16

antaries Feb 8 2012 at 02:10

Как раз сейчас работаю с solarxом. Хочется все-таки спросить, почему не было возможности пользоваться его синтаксическим анализатором?

ortega3000 Feb 8 2012 at 10:57

Под невозможностью использования я имел в виду не физическую невозможность, а нежелание использовать эти результаты. Я пытался использовать этот анализатор, и достаточно часто результаты его работы казались мне странными. Кроме того, этот анализатор не дает некоторой важной информации, например, данных о членах предложения, и их все равно приходится извлекать вручную.

antaries Feb 8 2012 at 11:46

Понятно. Ну сейчас там этих проблем уже нет. Разве что работает не так быстро, как хотелось бы )

SoLRoN Feb 8 2012 at 07:40

Не удержался от совета. Сам писал анализаторы в университете не раз, тоже делал сначала «в лоб». Но изучив предмет «Теория языков программирования и Методы трансляции» понял, что все это сложно и ненадежно. Достаточно просто грамотно нарисовать (на бумаге) граф конечного автомата и построить таблицу переходов по нему. А сама программа, реализующая переходы по таблице невероятно проста. Поэтому если все же соберетесь серьезно вернутся к вопросу, стоит поковырять методы трансляции: Конечные автоматы и регулярные выражения, и если совсем заморочиться — грамматики.

ortega3000 Feb 8 2012 at 11:06

Да, вы правы: формальные правила пишутся куда быстрее и отлаживаются намного проще, чем функциональные методы. И когда у меня образуется достаточно времени, то я займусь этим вопросом — все равно будет полезно даже для общего развития.

AgentSmith Feb 8 2012 at 08:34

До семантики дело не дошло? Или это изначально не планировалось?

ortega3000 Feb 8 2012 at 11:15

Нет, этим я даже не планировал заниматься — очень уж обширная тема, в виде хобби просто не потяну.

corbenov Feb 8 2012 at 13:06

Так о чем статья? Как вы попытались написать синтаксический анализатор и у вас не получилось?
Чото мало конкретики и хардкора.

ortega3000 Feb 8 2012 at 13:41

Да, статья больше посвящена попытке написания такого анализатора, чем алгоритмам, использованным в ней. К сожалению, описание алгоритма с примерами кода займет намного больше места, чем краткая история плюс небольшое описание метода. Впрочем, если у народа будет интерес к этой теме, я могу написать серию статей, посвященных разным аспектам работы с синтаксисом русского языка и содержащим примеры исходных кодов. Возможно, это подтолкнет меня к продолжению работы над ним.

Error_403_Forbidden Feb 8 2012 at 15:18

Тема очень интересная, очень любопытно посмотреть на детали Вашей реализации.
Есть ли у Вас какая-нибудь демка? Какой язык программирования использовали?

ortega3000 Feb 8 2012 at 19:07

Нет, демки нет, просто не было такой цели — показывать результат до завершения работы.
Писал на C#. Детали реализации секретом не являются, и я покажу их в будущих статьях.

Fahrenheit Feb 8 2012 at 15:42

Простите, а как ваш парсер разберет предложение «еду на стол»? Как «едУ на стол» или как «Еду на стол»?

Это я к тому, что «алгоритм анализа предложения достаточно прост и может быть описан в виде состояний конечного автомата». Если подразумевается, что достаточно LR-разбора, то это не так.

Как минимум нужен GLR-парсер для того, чтобы парсер мог обрабатывать ветвления, а потом еще и лучшие варианты нужно вписывать в контекст (чему вообще только один абзац посвящен).

ortega3000 Feb 8 2012 at 16:19

К сожалению работа над анализатором еще не закончена, и варианты односоставных предложений (в том числе включающих омонимию) в нем еще не рассматривались. Но, скорее всего, в этом предложении омонимия распознана не будет, и оно будет разобрано как односоставное предложение только с составом сказуемого. То есть контекст будет содержать информацию о ком-то, кто едет. Хотя, скорее всего, варианты с омонимией в односоставных предложениях будут рассматриваться отдельно и, хочется верить, анализатор будет парсить такие фразы без проблем.

Fahrenheit Feb 8 2012 at 16:29

Вот неплохая статья по поводу синтаксического разбора: www.cs.cmu.edu/~alavie/papers/thesis.pdf. В частности, рассматриваются проблемы неоднозначности и прочее.
Конечно, они там решают более сложную проблему — распознавание смысла предложений, полученных после распознавания речи, но, думаю, будет познавательно.

stroncium Feb 9 2012 at 13:11

А как ваш парсер(который в голове) разберет такое предложение?

Fahrenheit Feb 9 2012 at 13:17

Если нету контекста — то (в терминах C++) получаем неопределенное поведение. Ну а при наличии контекста — с учетом его.
К этому я и писал — на следующий этап контекстного анализа стоит забрасывать все (ну или хотя бы лучшие) варианты разбора, а потом уже разрешать неоднозначности.

Show the best of all time