Pull to refresh

Bison для JavaScript

Reading time 2 min
Views 14K
Нет, не Jison. А полноценный генератор яваскриптовых парсеров с полной поддержкой бизона.


Начнем с главного вопроса.

Зачем?



Стало нужно портировать большой сишный парсер на яваскрипт без потери мелких деталей оригинала. Очень повезло, что оригинальный парсер написан в терминах yacc/bison, а не руками на хардкорном Си.

Когда настала пора портировать этот парсер, первое, что пришло в голову, это загуглить «javascript bison parser». Конечно, первым же результатом выпал Jison. Вот радость-то, подумалось тогда. Однако, первый же эксперимент показал, что Jison не умеет делать большой кусок работы с промежуточными состояниями. Это такие кабэ токены, при попадании на которые надо выполнить кусочек своего кода, чтобы, например, подсказать лексеру в каком он сейчас контексе. Краткая переписка в гитхабе проекта утешения не принесла. Вместо автора ответил очень подкованный чувак. Он написал там, по-моему, целую книгу с кучей подробностей! Пришлось трижды перечитать и понять: да, увы, придется ковырять оригинальный bison.

Bison



Сразу скажу, что бизон очень хорошо спроектирован. Вместо того, чтобы хардкодить внутри генератора какие-то конструкции, бизон использует язык шаблонов, с помощью которого красиво раскладывает нужные переменные и таблички в результирующий парсер. Для каждого из трех языков есть свой шаблон, называемый скелетом (skeleton). И всё бы хорошо, но язык шаблонов GNU m4 там просто ужасен. Из-за этого анахронизма, вместо того, чтобы спокойно портировать скелет для явы, пришлось джва дня разбираться только с шаблонным мусором.

lalr1.js



Так называется скелет для яваскрипта — lalr1.js. Они там все братья лалры :)

В итоге получилось очень даже ничего. Берем какой-нибуть grammar.y в одну руку, lalr1.js — в другую, и бац:
bison -S ./lalr1.js grammar.y

получаем grammar.js, который после запиливания к нему лексера очень даже может что-то распарсить.

Ах, да. Важно не забыть заменить весь Си код в этом самом grammar.y на яваскрипт. Ну, и лексер запилить. Ну, и еще потестить хорошенько, сравнив логи парсера на Си и парсера на яваскрипте.

Эпилог



Как обычно, делалось всё потому, что было жуть как интересно. Но при этом удалось довести результат до беты. Если среди вас окажутся люди, заинтересованные генерацией яваскриптовых парсеров (ну, там для кофескрипта, или прямо сразу яваскрипта), то буду очень рад помощи в обкатке всего этого в деле. Поиграть можно, забрав исходники с github.com/bison-lalr1.js и установив себе bison и v8/d8.

Две недели спустя (28.06.2013): Парсер таки хорошо делает своё дело при здоровенной гамматике, переплетенной со сложным лексером. Всего в 10 раз медленнее сишного парсера. Похоже, скоро можно релизить :)
Tags:
Hubs:
+43
Comments 15
Comments Comments 15

Articles