luciana Jul 6 2011 at 11:39

«Диалог» задаёт стандарты компьютерной лингвистики в России

6 min

8.4K

Как вы знаете, ABBYY создаёт программы, которые так или иначе связаны с обработкой языков: ABBYY Lingvo переводит слова с одного языка на другой, ABBYY FineReader преобразует тексты из печатного вида в электронный, ABBYY Compreno (о ней мы писали здесь) будет переводить на разные языки целые тексты. Программы такого типа называют «наукоемкими», потому что они основываются на результатах серьезных научных исследований. А в нашем случае – на результатах из области искусственного интеллекта, распознавания образов и компьютерной лингвистики. О компьютерной лингвистике и пойдет речь в этом посте.

Мы очень заинтересованы в том, чтобы эта наука развивалась, поэтому не ограничиваемся исследованиями внутри компании, но и который год подряд организуем целую научную конференцию на эту тему – «Диалог». Поскольку компьютерная лингвистика – достаточно специфическая область знаний, о «Диалоге» много знают лингвисты и мало знают все остальные. Под катом мы расскажем вам о нём подробнее.

«Диалог» – крупнейшая конференция по компьютерной лингвистике в России. Диалог – потому что здесь встречаются и обмениваются опытом специалисты из разных областей теоретической лингвистики и разработчики лингвистический технологий, таких, например, как извлечение знаний из текстов, распознавание и синтез речи или машинный перевод. Конференция проводится уже около 35 лет (с небольшими перерывами), и последний десяток лет ABBYY является ее основным организатором. Так уж получилось, что основные идеи «Диалога» совпали с теми позициями в сфере обработки естественного языка, которых всегда придерживалась наша компания: что будущее компьютерной лингвистики – в соединении современных инженерных и математических методов и полноценной лингвистики.

Сейчас на многих зарубежных конференциях по компьютерной лингвистике есть сильный «крен» в сторону чисто статистических методов, а «Диалог» старается продвигать идею, что статистическое обучение оказывается еще более эффективным, если «накладывается» на полноценные модели естественного языка. И тут без участия лингвистов инженерам никак не обойтись. Ещё одна отличительная черта «Диалога» – особое внимание к русскому языку. На конференциях, которые проводятся в других странах, по понятным причинам русским языком практически не занимаются, а на «Диалоге» современные методы компьютерной лингвистики применяются, прежде всего, к нему.

Зачем ещё нужен «Диалог»? Российская компьютерная лингвистика заметно еще отстаёт от западной и качественно, и количественно. У нас гораздо меньше специалистов и компаний в этой области, чем, например, в Германии. Мы в среднем хуже оснащены и теоретически, и методически, несколько оторваны от мирового мейнстрима. «Диалог» призван помочь не только преодолеть это отставание, но и привлечь внимание к тем отдельным направлениям, в которых российская компьютерная лингвистика вполне конкурентна. На конференции обсуждаются самые актуальные и интересные проблемы. Для этого мы приглашаем исследователей с мировым именем, и они рассказывают о своих проектах, делятся самым актуальным опытом работы.

В этом году в центре внимания была корпусная лингвистика. Корпуса – это большие массивы текстов, которые используются для лингвистического анализа. Можно сказать, что практически все результаты в современной теоретической и компьютерной лингвистике получаются с использованием корпусов. На них обучаются системы машинного перевода и прочие системы автоматического анализа, на примерах из корпусов основываются современные словари, на корпусных данных проверяются языковые теории.

Как работают с корпусами? Приведем пример. Наша компания является одним из инициаторов проекта, посвящённого региональным различиям в русском языке – «Языки русских городов». Участники проекта собирают информацию о различиях в названиях одних и тех же предметов и понятий в разных городах России и ближнего зарубежья. Большинство читателей слышали про бордюр и поребрик, а вот что означают слова вехотка, тремпель или мультфора? Тысячи слов, которые используются только в отдельных регионах России, удалось отыскать и проверить, как именно они используются, с помощью корпусов современного русского языка. Конечно, использовались корпуса, в которых содержатся данные о языковой географии (например, корпуса, составленные из текстов местных СМИ или блогов, участники которых сообщают о месте проживания).

Итак, практически всякое лингвистическое исследование ведется сегодня с привлечением корпусных данных. Но далеко не во всяком исследовании четко формулируется, какими необходимыми свойствами должен обладать корпус и методы работы с ним, чтобы полученные результаты заслуживали доверия. Грубо говоря, для разных задач и корпуса должны создаваться (выбираться) с учетом их специфики. Например, если вы работаете над системой распознавания современной разговорной речи, вам не подойдёт Национальный корпус русского языка, потому что его основу составляют произведения художественной литературы. Если вы делаете систему автоматического перевода новостных потоков, нужен корпус, содержащий правильно подобранные тексты СМИ. Отдельный вопрос, который обсуждался на «Диалоге», – можно ли использовать как корпус целый интернет. Как известно, там можно найти тексты практически любого типа. Но нужно разрабатывать средства автоматического отбора подходящих текстов.

Как мы уже говорили, российской компьютерной лингвистике есть чему поучиться. Для этого на «Диалог» приглашаются исследователи, которые рассказывают о самых «свежих» мировых достижениях. Например, в прошлом году выступали такие корифеи компьютерной лингвистики, как Йорик Уилкс (Yorick Wilks) и Йоаким Нивре (Joakim Nivre). В этом году гостями конференции стали Эдуард Хови (Eduard Hovy) и Диана Маккарти (Diana McCarthy).

Ещё одна важная тема «Диалога» – сравнение качества систем автоматического анализа текстов. В Европе уже давно принято договариваться о методиках оценки качества таких систем, и на конференцию может попасть только такая научная работа, которая удовлетворяет согласованным критериям т.н. «evaluation». Нам ещё предстоит добиться внедрения культуры верификации результатов, поскольку в России долгое время было принято полагаться на качественные оценки самих разработчиков, а они далеко не всегда объективны.
Одна из важных задач для «Диалога» в связи с этим – разработка технологий проведения соревнований между системами автоматического анализа текстов и критериев оценки качества работы этих систем. Например, на «Диалоге-2010» проводилось соревнование систем автоматического морфологического анализа русского языка (систем, которые умеют делать грамматический разбор слов). Двенадцать систем, разработанных ведущими научными институтами и коммерческими компаниями, сравнивались по нескольким параметрам, включая разрешение неоднозначностей в определении частей речи и других грамматических значений слов в зависимости от контекста. Например, такие системы должны уметь определить, в каком именно грамматическом значении употреблено в анализируемом тексте слово «стекло» – как существительное или как глагол.

В этом году обсуждалось, как сравнивать результаты синтаксического анализа. Сложные проблемы синтаксиса разные системы автоматического анализа решают по-разному. Одни делают полный разбор предложения, основанный на грамматиках (помните, как в школе: одной линией – подлежащее, двумя – сказуемое и так далее?), другие – частичный анализ фрагментов предложения, третьи используют статистические модели, основанные на выделении наиболее часто встречающихся вместе цепочек слов.

Договориться оказалось совсем не просто, но синтаксическое тестирование будет проведено осенью этого года. Кстати, к анализу его результатов решено привлечь наряду с экспертами и студентов вузов, которые имеют отношение к компьютерной лингвистике – лингвистов и программистов. Если вы хотите принять участие в этом проекте, пишите в личку.

Что ещё сказать о «Диалоге»? Помимо ABBYY в организации конференции участвуют МГУ им. М.В. Ломоносова, институт лингвистики РГГУ, институт проблем информатики РАН, институт проблем передачи информации РАН, компания Яндекс, ассоциация Искусственного Интеллекта. Проводить конференцию помогает Российский Фонд Фундаментальных Исследований.

Общепризнанный высокий уровень докладов на «Диалоге» помогает обеспечить большая группа строгих экспертов-рецензентов (около 60 российских и зарубежных специалистов), которые помогают отобрать на конференцию самые интересные работы и отсеять слабые и вторичные.

Мы уверены, что такая солидная компания поможет отечественной компьютерной лингвистике выйти на новый уровень. Все доклады «Диалога-2011» выложены на сайте конференции.

Света Лузгина,

при поддержке оргкомитета «Диалога»

Tags:

Hubs:

Content AI corporate blog

«Диалог» задаёт стандарты компьютерной лингвистики в России

Articles

Information