Разработка → Интеграция алгоритма стемминга русских слов в fts3 SQLite из песочницы
В данной статье я хочу поделиться опытом интеграции расширения для стемминга в код SQLite. Все действия выполнялись в ОС Ubuntu 11.10.
В fts3 SQLite есть простой стеммер, реализующий алгоритм стемминга Портера, но для русских слов реализации нет. Т.е. MATCH по слову 'гостиницы' не найдёт записи, содержащие слово 'гостиница' и т.д.
Проблема
В fts3 SQLite есть простой стеммер, реализующий алгоритм стемминга Портера, но для русских слов реализации нет. Т.е. MATCH по слову 'гостиницы' не найдёт записи, содержащие слово 'гостиница' и т.д.
Подготовка к компиляции
Что понадобится
- исходники sqlite3 с репозитория;
- наш стеммер на языке C (см. далее);
- опционально библиотека readline (libreadline), если нужна история вводимых команд для консольного клиента.
Персональные блоги → OEM-беззаконие — «боевые» действия в ФАС (в ролях ФАС, ЦеСТ, Microsoft, Acer, Asus, Dell, FTS, HP, Samsung, Toshiba)
10 сентября 2009 года было проведено второе слушание в ФАС по делу возврата ОЕМ Windows производителям ноутбуков. В слушаниях принимали активное участие Председатель ЦеСТ Виктор Алкснис v-alksnis2, администратор интернет-ресурса ЦеСТ Леонид Кривошеин klark973 и юрист ОЗПП Дмитрий Лесняк.
Только через четыре дня klark973 смог-таки до конца описать запомнившиеся моменты с заседания, которое снова решили перенести.
Тем не менее, ЦеСТ, продолжая гнуть свою линию, постепенно добивается всё больших и больших успехов, просчитав всё на несколько шагов вперёд.
Всем заинтересованным в вопросе возврата OEM и предоставлении покупателю свободы выбора программного обеспечения, рекомендую ознакомиться со следующим буклетом (оригинал в ЖЖ Леонида Кривошеина):
"Оглавление
Подготовка к слушаниям
Коротко о главном — для тех, кто не любит многабукаф
Общая часть, ходатайства сторон, FTS
Общая часть, интересное от FTS
Дебаты с Acer
Дебаты с Asus
Дебаты с Dell
Дебаты с HP
Дебаты с Samsung и Toshiba
Упущенные подробности
Невинные беседы в коридоре с Microsoft
Невинные беседы в коридоре (часть 2)
Невинные беседы и заключительная часть
Небольшое послесловие
Данная летопись — запомнившиеся лично мне наиболее яркие факты плюс личные впечатления. У когото-то впечатления могли быть совершенно иными, но отличить факты от впечатлений, полагаю, особого труда не составит. Что касается представителей СМИ, берите, что хотите и не спрашивайте. Для того и писалось. Комментарии были закрыты, чтоб не отрываться на обсуждения, теперь же открываю их зезде.
Меня тут осенила одна мысль. «Непонимание» представителями Microsoft сути предложения «договориться» говорит о следующем. Они не случайно не заинтересованы ослабить хватку в вопросе навязывания OEM’а, хотя от этого могли бы выиграть абсолютно все, включая Microsoft, по крайней мере, именно в России. Тот 1.1% людей, которые предпочитают заниматься настройками системы самостоятельно, вовсе не делает их пиратами: тут могут быть и линуксоды, и люди, которым не нравятся заводские установки. В любом случае этот контингент незначителен. А вот почти 99% предпочитают получить нормальное законченное решение — чего хотят эти люди? Windows XP? Лицензионную? Чтобы всё работало «из коробки»? Ну конечно же! Однако зачем-то, видимо, Microsoft-у нужно держать этих людей на крючке страха перед ст. 146 УК РФ, ведь как иначе объяснить нежелание идти навстречу в этом вопросе? Переустановка системы на ператскую венду дороже пресловутого OEM-а и не в интересах такого пользователя. Я уверен, что об этом надо начинать писать везде, на всех языках 80 стран мира, где Microsoft ведёт свой так называемый «OEM-бизнес»!!! Несомненно, это должно стать лейтмотивом официального заявления Центра свободных технологий в самое ближайшее время…"
Ссылки по теме:
«Борьба с ОЕМ беззакоением»
А тем временем Microsoft готовит нам OEM v.2
Upd:
Спасибо, перенес в блог «Защита прав потребителя»!
Только через четыре дня klark973 смог-таки до конца описать запомнившиеся моменты с заседания, которое снова решили перенести.
Тем не менее, ЦеСТ, продолжая гнуть свою линию, постепенно добивается всё больших и больших успехов, просчитав всё на несколько шагов вперёд.
Всем заинтересованным в вопросе возврата OEM и предоставлении покупателю свободы выбора программного обеспечения, рекомендую ознакомиться со следующим буклетом (оригинал в ЖЖ Леонида Кривошеина):
"Оглавление
Подготовка к слушаниям
Коротко о главном — для тех, кто не любит многабукаф
Общая часть, ходатайства сторон, FTS
Общая часть, интересное от FTS
Дебаты с Acer
Дебаты с Asus
Дебаты с Dell
Дебаты с HP
Дебаты с Samsung и Toshiba
Упущенные подробности
Невинные беседы в коридоре с Microsoft
Невинные беседы в коридоре (часть 2)
Невинные беседы и заключительная часть
Небольшое послесловие
Данная летопись — запомнившиеся лично мне наиболее яркие факты плюс личные впечатления. У когото-то впечатления могли быть совершенно иными, но отличить факты от впечатлений, полагаю, особого труда не составит. Что касается представителей СМИ, берите, что хотите и не спрашивайте. Для того и писалось. Комментарии были закрыты, чтоб не отрываться на обсуждения, теперь же открываю их зезде.
Меня тут осенила одна мысль. «Непонимание» представителями Microsoft сути предложения «договориться» говорит о следующем. Они не случайно не заинтересованы ослабить хватку в вопросе навязывания OEM’а, хотя от этого могли бы выиграть абсолютно все, включая Microsoft, по крайней мере, именно в России. Тот 1.1% людей, которые предпочитают заниматься настройками системы самостоятельно, вовсе не делает их пиратами: тут могут быть и линуксоды, и люди, которым не нравятся заводские установки. В любом случае этот контингент незначителен. А вот почти 99% предпочитают получить нормальное законченное решение — чего хотят эти люди? Windows XP? Лицензионную? Чтобы всё работало «из коробки»? Ну конечно же! Однако зачем-то, видимо, Microsoft-у нужно держать этих людей на крючке страха перед ст. 146 УК РФ, ведь как иначе объяснить нежелание идти навстречу в этом вопросе? Переустановка системы на ператскую венду дороже пресловутого OEM-а и не в интересах такого пользователя. Я уверен, что об этом надо начинать писать везде, на всех языках 80 стран мира, где Microsoft ведёт свой так называемый «OEM-бизнес»!!! Несомненно, это должно стать лейтмотивом официального заявления Центра свободных технологий в самое ближайшее время…"
Ссылки по теме:
«Борьба с ОЕМ беззакоением»
А тем временем Microsoft готовит нам OEM v.2
Upd:
Спасибо, перенес в блог «Защита прав потребителя»!
PostgreSQL → Сентябрьская PostgreSQL-встреча: полнотекстовый поиск в PostgreSQL
После летнего перерыва рады объявить о том, что 16-го сентября (вторник) в Москве планируется очередная, сентябрьская встреча всех тех, кто использует, начинает использовать или просто интересуется PostgreSQL. На этот раз мы поговорим о полнотекстовом поиске PostgreSQL, о том, как правильно его настраивать (прежде всего, при работе с русским и английским языками), о всех многочисленных возможностях FTS в PostgreSQL версии 8.3. С докладом-демонстрацией «Возможности полнотекстового поиска PostgreSQL» выступят Фёдор Сигаев (разработчик FTS в PostgreSQL) и Иван Золотухин. А об интересных новых разработках движка полнотекстового поиска и о планах расскажет Олег Бартунов (также разработчик FTS).
Как всегда, вход свободный, но из-за пропускного режима и ограниченного количества мест требуется предварительная регистрация: http://blog.styleru.net/register/.
Чуть больше подробностей доступно на странице http://postgresmen.ru/news/view/113.
Приглашаем всех желающих!
Как всегда, вход свободный, но из-за пропускного режима и ограниченного количества мест требуется предварительная регистрация: http://blog.styleru.net/register/.
Чуть больше подробностей доступно на странице http://postgresmen.ru/news/view/113.
Приглашаем всех желающих!
Хабрахабр → Улучшение Поиска
Претензии у меня вот в чем - на хабре ужасен поиск. Поиск не поддерживает морфологию, и найти что-либо буквально невозможно - поиск работает только на точных фразах. Кроме того, нету поиска в отдельном блоге.
Что-то уж надо сделать. Если местные власти отпишутся - буду рад.
Что-то уж надо сделать. Если местные власти отпишутся - буду рад.