Articles / Profile of lightcaster / Habr

@lightcaster

User

Profile Publications 6Comments 380Bookmarks

lightcaster Jun 10 2011 at 16:16

Кто разводит рыбок? Или решение загадки Эйнштейна регулярным языком

5 min

34K

Abnormal programming*

Многие сталкивались с головоломкой про пять разноцветных домов, в каждом из которых живет человек со своими любимыми животным, напитком и сигаретами. Эта загадка приписывается Эйнштейну, хотя прямых подтверждений этому нет. Полный текст этой головоломки есть на википедии.

Ее можно решить на бумаге или в уме, последовательно исключая неподходящие варианты. Однако, ее также можно решить более технично. Один из способов — написать программку на прологе. Но здесь я хочу ее решить используя более простые механизмы — регулярные выражения. А именно, перевести условия загадки на язык регекспов и свести задачу к поиску подходящей строки во всем допустимом наборе строк. Кстати, этот набор строк показан на рисунке.

Интересно? Прошу под кат.

+113

lightcaster May 30 2011 at 00:33

Наивный Байесовский классификатор в 25 строк кода

3 min

89K

Python*

Наивный Байесовский классификатор один из самых простых из алгоритмов классификации. Тем не менее, очень часто он работает не хуже, а то и лучше более сложных алгоритмов. Здесь я хочу поделиться кодом и описанием того, как это все работает.

И так, для примера возьму задачу определения пола по имени. Конечно, чтобы определить пол можно создать большой список имен с метками пола. Но этот список в любом случае будет неполон. Для того чтобы решить эту проблему, можно «натренировать» модель по маркированным именам.
Если интересует, прошу

под кат

+37

lightcaster Dec 11 2010 at 13:54

Анализатор морфологии на автоматах

4 min

6.3K

Lumber room

Периодически на хабре проскакивают статьи о том, как написать программу для анализа морфологии. В основном авторы пользуются базами данных, либо стандартными структурами, такими как словари. Но это не всегда удобно. Во-первых, страдает скорость. Во-вторых, некоторые алгоритмы, такие как предсказание морфологии незнакомых слов, реализуются нетривиально.

Здесь я привожу версию, основанную на конечных автоматах, где попробую избежать данных проблем. Как это работает можно посмотреть здесь.

Читать дальше →

+25

lightcaster Oct 7 2010 at 19:07

Penisland, или как написать спеллчекер

7 min

12K

Algorithms*

Есть хорошая статья Питера Норвига, в которой он рассказывает как написать спеллчекер в 20 строк кода. В этой статье он показывает как поисковые системы могут исправлять ошибки в запросах. И делает это довольно элегантно. Однако, у его подхода есть два серьезных недостатка. Во-первых, исправление более трех ошибок требует больших ресурсов. А гугл, кстати, неплохо справляется и с четырьмя ошибками. Во-вторых, нет возможности проверки связного текста.

Итак, хочется исправить эти проблемы. А именно, написать корректор коротких фраз или запросов, который:

умел бы выявлять три (и более) ошибки в запросе;
умел бы проверять «разорванные» или «слипшиеся» фразы, например expertsexchange — experts_exchange, ma na ger — manager
не требовал много кода для реализации
мог бы достраиваться до исправления ошибок на других языках и других типов" ошибок

Остальное — под катом.

Читать дальше →

+129

lightcaster Aug 27 2010 at 16:57

Один год продаж CRM

2 min

1.4K

Lumber room

Хочу написать о своем опыте продаж CRM-системы в нашем небольшом стартапе. За год были сделаны несколько наблюдений, которыми и хочу поделиться.

Куда продавать: в малом сегменте мало денег

В отличии от запада у нас плохо развито малое и микро- предпринимательство. Очень плохо. Похоже, это связано с детской сырьевой экономикой. Но сейчас не об этом. В конечном счете это значит, что у небольших компаний (до 10-15 человек) не будет денег вам заплатить. Они будут стараться ужаться до минимума, либо искать бесплатные варианты.

Читать дальше →

lightcaster Mar 24 2010 at 18:25

Генератор текста на основе триграмм (python)

10 min

36K

Python*

В данной статье описывается как сгенерировать псевдотекст на основе триграммной модели. Полученный текст вряд ли возможно где-либо использовать, тем не менее это неплохая иллюстрация использования статистических методов обработки естественного языка. Пример работы генератора можно посмотреть здесь.

Сухая теория

И так, наша задача сгенерировать текст. Это значит, нам нужно взять слова и выстроить их в определенном порядке. Как определить этот порядок? Мы можем пойти следующим образом: построить фразы, наиболее вероятные для русского языка. Но что значит вероятность фразы языка? С точки зрения здравого смысла это бред. Тем не менее, эту вероятность можно задать формально как вероятность возникновения последовательности слов в неком корпусе (наборе текстов).

Читать дальше →

+30