войти зарегистрироваться

РазработкаИнтеграция алгоритма стемминга русских слов в fts3 SQLite из песочницы

В данной статье я хочу поделиться опытом интеграции расширения для стемминга в код SQLite. Все действия выполнялись в ОС Ubuntu 11.10.

Проблема


В fts3 SQLite есть простой стеммер, реализующий алгоритм стемминга Портера, но для русских слов реализации нет. Т.е. MATCH по слову 'гостиницы' не найдёт записи, содержащие слово 'гостиница' и т.д.

Подготовка к компиляции


Что понадобится

  • исходники sqlite3 с репозитория;
  • наш стеммер на языке C (см. далее);
  • опционально библиотека readline (libreadline), если нужна история вводимых команд для консольного клиента.

Персональные блоги OEM-беззаконие — «боевые» действия в ФАС (в ролях ФАС, ЦеСТ, Microsoft, Acer, Asus, Dell, FTS, HP, Samsung, Toshiba)

10 сентября 2009 года было проведено второе слушание в ФАС по делу возврата ОЕМ Windows производителям ноутбуков. В слушаниях принимали активное участие Председатель ЦеСТ Виктор Алкснис v-alksnis2, администратор интернет-ресурса ЦеСТ Леонид Кривошеин klark973 и юрист ОЗПП Дмитрий Лесняк.
Только через четыре дня klark973 смог-таки до конца описать запомнившиеся моменты с заседания, которое снова решили перенести.
Тем не менее, ЦеСТ, продолжая гнуть свою линию, постепенно добивается всё больших и больших успехов, просчитав всё на несколько шагов вперёд.

Всем заинтересованным в вопросе возврата OEM и предоставлении покупателю свободы выбора программного обеспечения, рекомендую ознакомиться со следующим буклетом (оригинал в ЖЖ Леонида Кривошеина):

"Оглавление

Подготовка к слушаниям

Коротко о главном — для тех, кто не любит многабукаф

Общая часть, ходатайства сторон, FTS

Общая часть, интересное от FTS

Дебаты с Acer

Дебаты с Asus

Дебаты с Dell

Дебаты с HP

Дебаты с Samsung и Toshiba

Упущенные подробности

Невинные беседы в коридоре с Microsoft

Невинные беседы в коридоре (часть 2)

Невинные беседы и заключительная часть

Небольшое послесловие

Данная летопись — запомнившиеся лично мне наиболее яркие факты плюс личные впечатления. У когото-то впечатления могли быть совершенно иными, но отличить факты от впечатлений, полагаю, особого труда не составит. Что касается представителей СМИ, берите, что хотите и не спрашивайте. Для того и писалось. Комментарии были закрыты, чтоб не отрываться на обсуждения, теперь же открываю их зезде.

Меня тут осенила одна мысль. «Непонимание» представителями Microsoft сути предложения «договориться» говорит о следующем. Они не случайно не заинтересованы ослабить хватку в вопросе навязывания OEM’а, хотя от этого могли бы выиграть абсолютно все, включая Microsoft, по крайней мере, именно в России. Тот 1.1% людей, которые предпочитают заниматься настройками системы самостоятельно, вовсе не делает их пиратами: тут могут быть и линуксоды, и люди, которым не нравятся заводские установки. В любом случае этот контингент незначителен. А вот почти 99% предпочитают получить нормальное законченное решение — чего хотят эти люди? Windows XP? Лицензионную? Чтобы всё работало «из коробки»? Ну конечно же! Однако зачем-то, видимо, Microsoft-у нужно держать этих людей на крючке страха перед ст. 146 УК РФ, ведь как иначе объяснить нежелание идти навстречу в этом вопросе? Переустановка системы на ператскую венду дороже пресловутого OEM-а и не в интересах такого пользователя. Я уверен, что об этом надо начинать писать везде, на всех языках 80 стран мира, где Microsoft ведёт свой так называемый «OEM-бизнес»!!! Несомненно, это должно стать лейтмотивом официального заявления Центра свободных технологий в самое ближайшее время…"

Ссылки по теме:
«Борьба с ОЕМ беззакоением»

А тем временем Microsoft готовит нам OEM v.2

Upd:
Спасибо, перенес в блог «Защита прав потребителя»!

PostgreSQLСентябрьская PostgreSQL-встреча: полнотекстовый поиск в PostgreSQL

После летнего перерыва рады объявить о том, что 16-го сентября (вторник) в Москве планируется очередная, сентябрьская встреча всех тех, кто использует, начинает использовать или просто интересуется PostgreSQL. На этот раз мы поговорим о полнотекстовом поиске PostgreSQL, о том, как правильно его настраивать (прежде всего, при работе с русским и английским языками), о всех многочисленных возможностях FTS в PostgreSQL версии 8.3. С докладом-демонстрацией «Возможности полнотекстового поиска PostgreSQL» выступят Фёдор Сигаев (разработчик FTS в PostgreSQL) и Иван Золотухин. А об интересных новых разработках движка полнотекстового поиска и о планах расскажет Олег Бартунов (также разработчик FTS).

Как всегда, вход свободный, но из-за пропускного режима и ограниченного количества мест требуется предварительная регистрация: http://blog.styleru.net/register/.

Чуть больше подробностей доступно на странице http://postgresmen.ru/news/view/113.

Приглашаем всех желающих!

Хабрахабр Улучшение Поиска

Претензии у меня вот в чем - на хабре ужасен поиск. Поиск не поддерживает морфологию, и найти что-либо буквально невозможно - поиск работает только на точных фразах. Кроме того, нету поиска в отдельном блоге.

Что-то уж надо сделать. Если местные власти отпишутся - буду рад.