войти зарегистрироваться

PythonОпределение части речи слов в русском тексте (POS-tagging) на Python 3

Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.

Разработка под Apple iOSНормализация слов для русского, английского и немецкого языков (iOS и Mac OS X)

Нормализация слова – это приведение слова к нормальной форме.

Есть задачи, где полноценный морфологический анализ не нужен (нахождения всех форм слова и грамматической информации). А нужно лишь узнать нормальную форму слова. Таких задач великое множество, и большая часть из них находится в сфере поиска. Например, поиск в словарных программах, поиск в индексированном контексте и пр.

Моё знакомство (около 8 лет назад) с машинной морфологией началось с проекта АОТ Алексея Сокирко (я думаю, что любой, кто сталкивался с машинной морфологией, знаком с этим проектом), за что ему огромное спасибо – я почерпнул большое количество полезных знаний.

Недавно для одного из проектов для iOS понадобилась нормализация для французского языка (морфологическая база имелась в наличии). Я сделал нормализатор, исходные коды которого я здесь и выкладываю – может кому-нибудь окажется полезным.

Персональные блоги Анализатор морфологии на автоматах

Периодически на хабре проскакивают статьи о том, как написать программу для анализа морфологии. В основном авторы пользуются базами данных, либо стандартными структурами, такими как словари. Но это не всегда удобно. Во-первых, страдает скорость. Во-вторых, некоторые алгоритмы, такие как предсказание морфологии незнакомых слов, реализуются нетривиально.

Здесь я привожу версию, основанную на конечных автоматах, где попробую избежать данных проблем. Как это работает можно посмотреть здесь.

PythonСумбурные заметки про python и django

Накопилось несколько маленьких заметок/советов про python и django, которые на отдельные топики не тянут, поэтому публикую все сразу.

Под катом:
  • как упростить код вьюх ровно в 2 раза
  • легкий способ рисования графиков
  • почему Ian Bicking воскликнул «Cool!»
  • приложения для ВКонтакте на django за 5 минут
  • хорош ли pymorphy?
  • пара фишек насчет выкладки пакетов на pypi
  • что общего между декораторами и with-контекст-менеджерами
  • принимаем оплату на django-сайтах
  • показываем Яндекс.Карту для заданного адреса

Персональные блоги Семинар Natural Language Processing — открытие сезона 2010/11

image

В субботу 25-ого сентября 2010 в 17.00 мы открываем новый сезон семинара по автоматической обработке естественного языка. На первом заcедании этого учебного года выступит Эдуард Клышинский (Институт прикладной математики им. М.В. Келдыша РАН. Москва) с рассказом о принципах построения программного модуля морфологического анализа и синтеза для русского языка. Доклад называется «Давайте напишем морфологию».
Семинар будет транслироваться в он-лайне, позже мы выложим презентацию и видеозапись на сайт семинара.

Поисковые машины и технологииLive Search заговорил по-русски

Поисковик Microsoft Live Search научился работать с морфологией русского языка и исправлять запросы, набранные в неправильной раскладке клавиатуры и с грамматическими ошибками. В этом начинании Microsoft, конечно, выступает в роли отстающего, но движение в эту сторону определенно может принести кое-какие плоды.

Менеджер продуктов в российском представительстве Microsoft Антон Данилов говорит, что «работа над поиском велась в Редмонде при тесном сотрудничестве с российским офисом». Механизм обработки русскоязычных запросов встроен в Live Search таким образом, что доступен из любой страны, а не только из России.

В механизме учитываются связанные слова: «падежи, времена, распознается множественное/единственное число», — говорит Антон. Но переходы слов в другие формы (отглагольные прилагательные, например) сейчас не обрабатываеются.

Будут ли наработки по исправлению раскладки и анализу морфологии использованы в других продуктах Microsoft, в компании не комментируют. Но перспективы аналога Punto Switcher'a в Office рисуются очень живо.

Персональные блоги Морфологический поиск

Точный поиск, реализуемый в базах данных это очень хорошо, когда дело касается точных фраз. Но что делать, когда среди документов есть Киевская карта но нету Карты Киева? В дело включаются языковые фильтры.Во-первых уже на лексическом уровне становится сложно оперировать с монолитным блоком текста что-бы учитывать всевозможные перестановки слов и расстояния между ними. Во-вторых, чем глубже копать в язык, тем ясней становится то, что семантический web — невероятно сложная планка для автоматических анализаторов и генераторов каких-то образов и моделей, что уж говорить про то что-бы написать RDF вручную.Морфология изучает изменение формы объектов в разных областях науки (ботанике например). Поэтому есть два пути — либо
учитывать все формы при поиске, либо вырезать корень слова и искать
только по нему. Последний способ называется stemming, отличается
быстротой, простотой и не нуждается в словарях. Именно его используют Битрикс и MS Sharepoint, Sphinx. Проблемы возникают со словами где корень изменчив (бег-бежать, расти-прирост, лев-львица). Я не буду рассказывать про стемминг, посмотрите как это реализовано php с русской морфологией. Меня больше интересуют словари. Национальный корпус русского языка приводит примерно какие характеристики могут иметься у любого слова. Теперь мы плавно подходим к пониманию того что нам необходима современная морфологическая база слов (RMU, AOT), прототип для семантической сети.

Хабрахабр Улучшение Поиска

Претензии у меня вот в чем - на хабре ужасен поиск. Поиск не поддерживает морфологию, и найти что-либо буквально невозможно - поиск работает только на точных фразах. Кроме того, нету поиска в отдельном блоге.

Что-то уж надо сделать. Если местные власти отпишутся - буду рад.

Поисковые машины и технологииВебальта запаслась словарями

Можно с уверенностью сказать, что Вебальта скоро научится понимать основные европейские языки в поиске, контекстной рекламе и других сервисах. Это связано с приобретением лицензии на использование словарей ОРФО в своих продуктах.

Словари ОРФО известны тем, что в свое время применялись в Microsoft Office и к ним приложил руку посмотреть профиль Ashmanov. В число доступных возможностей входят функции по проверке правописания и орфографии, которые наверняка будут применены при разработке.

Персональные блогиЗапущен первый российский поиск по wap-ресурсам

Компания Mail.Ru запустил бета-версию wap-поисковика. Новый сервис позволит владельцам мобильных телефонов искать информацию на русскоязычных wap-сайтах.

Технология wap-поиска — полностью собственная разработка Mail.Ru. Система изначально проектировалась для русскоязычных пользователей, что предусматривало в первую очередь полномасштабную индексацию русскоязычных wap-ресурсов и использование полноценной русской морфологии

В настоящее время поисковый движок Mail.Ru производит обработку 33 миллионов wap-документов.