Блог компании ABBYY → Сегментно-статистический подход к интернету как корпусу — новый семинар в серии ABBYY Open
Его доклад посвящен разумным методам извлечения достоверной лингвистической информации из интернета. В докладе проводится сравнительный анализ Национального корпуса русского языка и различных интернет-корпусов как источников сведений о русском лексическом узусе разного типа. На материале русских толковых словарей и отдельных лингвистических исследований анализируются типичные ошибки и неточности, ставшие результатом игнорирования современных корпусных методов в лексикографии.
Рассматривается сегментная структура русскоязычной блогосферы, демонстрируются разнообразные результаты ее анализа сегментно-статистическим методом при исследовании синхронного состояния и динамики изменений в общерусской и региональной лексике, фразеологии, грамматике. Детально излагается методика лингвистически ориентированного поиска в блогосфере и способы преодоления возникающих при этом трудностей.
Подробная информация и регистрация – на странице ABBYY Open.
Персональные блоги → Конференция TEL-2012, Казань
С 25 по 28 января 2012 года в Казани будет проходить XII Казанская школа-семинар TEL'2012 «Корпусы национальных языков: модели и технологии».
Блог компании ABBYY → Тезаурус РуТез: структура и приложения – новый семинар в серии ABBYY Open
Семинар будет посвящен описанию структуры тезауруса русского языка РуТез, который представляет собой крупнейшую лингвистическую онтологию, используемую для автоматической обработки текстов. В докладе будет проведено сопоставление структуры тезауруса с другими подобными проектами: традиционными информационно-поисковыми тезаурусами, тезаурусами типа WordNet, формальными онтологиями. Будут рассмотрены приложения автоматической обработки текстов, в которых используется тезаурус РуТез.
Ведет семинар Наталья Лукашевич – кандидат физико-математических наук, ведущий научный сотрудник НИВЦ МГУ. Под ее руководством и при непосредственном участии разрабатываются такие лингвистические ресурсы, как Тезаурус русского языка РуТез, Онтология по естественным наукам и технологиям ОЕНТ, созданы онтологические ресурсы в конкретных предметных областях (компьютерная безопасность, авиационная сфера, банковское дело и др.). Данные ресурсы применяются в различных технологиях автоматической обработки текстов: автоматическое концептуальное индексирование, расширение поискового запроса, рубрицирование, автоматическое аннотирование отдельных документов и групп тематически близких документов, кластеризация документов.
Семинар начнется 20 декабря в 17.00. Подробная информация и регистрация – на странице ABBYY Open.
Криптография → Шифр Copiale Cipher XVIII в. расшифрован с помощью статистического машинного перевода
Более 60 лет назад Уоррен Уивер, пионер в области машинного перевода, впервые предложил применить технику криптоанализа для интерпретации иноязычных текстов.
В известном письме 1947 года к математику Норберту Винеру он писал: «Вполне естественно задаться вопросом, можно ли проблему перевода рассматривать как проблему криптографии. Когда я вижу текст на русском языке, я говорю: «На самом деле это написано на английском, но закодировано какими-то странными символами. Сейчас попробую расшифровать»».
Эта догадка привела в итоге к разработке целого поколения программ статистического машинного перевода, таких как Google Translate — и, неслучайно, к появлению новых инструментов для анализа исторических шифров».
Сейчас группа шведских и американских лингвистов применила техники статистического машинного перевода для взлома одного из самых трудных шифров: Copiale Cipher, рукописного 105-страничного манускрипта конца XVIII века. Учёные опубликовали свою работу в преддверии конференции Ассоциации компьютерной лингвистики в Портленде.
В известном письме 1947 года к математику Норберту Винеру он писал: «Вполне естественно задаться вопросом, можно ли проблему перевода рассматривать как проблему криптографии. Когда я вижу текст на русском языке, я говорю: «На самом деле это написано на английском, но закодировано какими-то странными символами. Сейчас попробую расшифровать»».
Эта догадка привела в итоге к разработке целого поколения программ статистического машинного перевода, таких как Google Translate — и, неслучайно, к появлению новых инструментов для анализа исторических шифров».
Сейчас группа шведских и американских лингвистов применила техники статистического машинного перевода для взлома одного из самых трудных шифров: Copiale Cipher, рукописного 105-страничного манускрипта конца XVIII века. Учёные опубликовали свою работу в преддверии конференции Ассоциации компьютерной лингвистики в Портленде.
Python → Определение части речи слов в русском тексте (POS-tagging) на Python 3
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:
Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Блог компании ABBYY → Интернет как корпус – новый семинар в серии ABBYY Open

В следующий вторник, 19 июля, в московском офисе ABBYY состоится очередной семинар в серии ABBYY Open «Актуальные проблемы компьютерной лингвистики». На семинаре выступит Сергей Шаров – сотрудник кафедры перевода Университета Лидса (Великобритания), ранее работавший в Российском НИИ искусственного интеллекта и Институте русского языка, РАН. Его доклад «Web as Corpus, Подходы к количественному и качественному анализу текстового содержания интернета» посвящен методам сбора лингвистических корпусов в интернете, оценке качества этих методов и рассмотрению подходов к автоматической классификации текстов.
На семинаре будут описаны способы быстрого сбора корпусов в нужной области, подходы к автоматической классификации текстов по предметным областям и жанрам с помощью таких методов как Support Vector Machines (SVM), Topic Modeling, Multidimensional Scaling. Помимо количественной оценки качества методов необходимо также проводить качественную оценку соответствия результатов классификации языковой интуиции. На семинаре будут приведены примеры использования методов создания и обработки корпусов для русского, английского, китайского и немецкого языков.
Подробную информацию о мероприятии вы можете прочитать здесь. Семинар бесплатный, для участия обязательно нужно зарегистрироваться и дождаться подтверждения регистрации.
UPD: Видео с семинара можно найти здесь
Блог компании ABBYY → «Диалог» задаёт стандарты компьютерной лингвистики в России
Как вы знаете, ABBYY создаёт программы, которые так или иначе связаны с обработкой языков: ABBYY Lingvo переводит слова с одного языка на другой, ABBYY FineReader преобразует тексты из печатного вида в электронный, ABBYY Compreno (о ней мы писали здесь) будет переводить на разные языки целые тексты. Программы такого типа называют «наукоемкими», потому что они основываются на результатах серьезных научных исследований. А в нашем случае – на результатах из области искусственного интеллекта, распознавания образов и компьютерной лингвистики. О компьютерной лингвистике и пойдет речь в этом посте. Мы очень заинтересованы в том, чтобы эта наука развивалась, поэтому не ограничиваемся исследованиями внутри компании, но и который год подряд организуем целую научную конференцию на эту тему – «Диалог». Поскольку компьютерная лингвистика – достаточно специфическая область знаний, о «Диалоге» много знают лингвисты и мало знают все остальные. Под катом мы расскажем вам о нём подробнее.
Блог компании ABBYY → Узнать всё о лингвистическом аннотировании текстов на семинаре ABBYY Open
В ближайший вторник, 24 мая, мы организуем в Москве семинар «Актуальные проблемы компьютерной лингвистики», посвящённый лингвистическому аннотированию текстов (корпусов). Мероприятие состоится в рамках серии открытых лекций и семинаров ABBYY Open.Лингвистическое аннотирование является сегодня центральной темой, объединяющей интересы теоретических и компьютерных лингвистов. Разметка корпусов нужна как для задач машинного обучения систем Natural Language Processing (NLP), так и для получения собственно лингвистических результатов.
Приглашенные докладчики – известные специалисты в области компьютерной лингвистики Эдуард Хови (Eduard Hovy, University of Southern California/Information Sciences Institute) и Диана Маккарти (Diana McCarthy, Lexical Computing Ltd).
Подробную информацию о месте и времени проведения мероприятия, а также аннотации докладов вы можете прочитать здесь. Семинар бесплатный, для участия обязательно нужно зарегистрироваться и дождаться подтверждения регистрации.
Рабочий язык семинара – английский.
Блог компании ABBYY → Ответы генерального директора ABBYY Сергея Андреева на вопросы читателей Хабра. Часть 1

Уважаемые читатели и писатели Хабра!
Хочу сказать спасибо всем участникам этого обсуждения за их искреннее желание сделать нашу страну лучше. Это видно во всех вопросах, заданных здесь, даже если они порой звучат жёстко и предубеждённо. Я посчитал важным ответить на вопросы, потому что ABBYY слишком давно не рассказывала о том, чем мы занимаемся, и как мы это делаем. А отсутствие информации порождает много нелепых догадок. Итак, время отвечать на вопросы.
В этих ответах я буду иногда отвлекаться к общим суждениям и общей информации, но не для того, чтобы что-то рекламировать, а чтобы лучше объяснить причины, лежащие в основе наших действий.
Начну с того, что компании ABBYY уже 21 год. Все это время мы делаем интересные продукты и технологии, известные во всём мире. Сейчас это продукты распознавания печатного и рукописного текста и словари. В будущем – это продукты, основанные на компьютерной лингвистике. Наши интересы не лежат в области потребления. Наши руководители и акционеры не ездят на роскошных автомобилях, не покупают яхт, вертолетов и дворцов, у нас нет дач на Рублевке. Нам интересно делать новые удивительные продукты, а не ходить по магазинам.
Блог компании Mail.Ru Group → Точка, точка, запятая: машинное обучение
Как научить поисковую машину правильно разбивать текст на предложения? Сделать так, чтобы она могла распознавать точки, которые не являются концами предложений.
Наша статья о машинном обучении объясняет одну из техник, которые применяются в поисковой машине тогда, когда возникает нужда в корректном разбиения текста на предложения. Решение такой задачи имеет принципиальное значение, например, при генерации сниппетов поисковыми системами или при построении базы контекстов словоупотребления. Сейчас эта технология встраивается в индексатор Поиска@Mail.Ru. Точность метода, по нашим наблюдениям — не менее 99%.
О том, как это работает, читайте в нашей статье.
Наша статья о машинном обучении объясняет одну из техник, которые применяются в поисковой машине тогда, когда возникает нужда в корректном разбиения текста на предложения. Решение такой задачи имеет принципиальное значение, например, при генерации сниппетов поисковыми системами или при построении базы контекстов словоупотребления. Сейчас эта технология встраивается в индексатор Поиска@Mail.Ru. Точность метода, по нашим наблюдениям — не менее 99%.
О том, как это работает, читайте в нашей статье.