Sphinx

индекс
210,29

Презентация: «Sphinx — полнотекстовый поиск на сайте, просто и доступно»

Вкратце: хочу сделать презентацию и пару раз выступить на конференциях интернет магазинов. Написал текст презентации, нужны отзывы. Надеюсь на вашу помощь в составлении грамотного и доступного текста.

Текущий текст презентации под катом
8 февраля 2012, 10:48
42

Sphinx: увеличиваем максимальный размер MVA из песочницы

Добрый день всем.

Недавно столкнулся с интересной проблемой, связанной с апдейтом MVA (multi value attributes).

Начальные условия:
  • sphinx-1.10-beta
  • sphinx php api

В рамках поставленной задачи мне нужно было реализовать on-a-fly апдейты mva аттрибутов. С начала всё показалось достаточно просто – берём функцию UpdateAttributes() из php-шной API и пишем нужные апдейты. Написал нужную обёртку, стал тестить – все отлично работает. Даже как то не поверилось что так быстро получилось – значит где то есть подвох. Начал тестить, так сказать, с фанатизмом – и подвох всплыл практически сразу.
+20
19 декабря 2011, 14:05
22

Про борьбу с качеством

Ровно через три дня будем раскрывать всем желающим кучу секретов: про настройку, оптимизацию, качество поиска и масштабирование Сфинкса (это все еще такой движок полнотекстового поиска и не только) в разные стороны. Подробности в самом конце поста.

А вот один из секретов про качество поиска начну раскрывать прямо здесь и сейчас. Это новая штука под названием expression ranker, добавленная в версии 2.0.2-beta, (правильный русский перевод еще не придумали), и чуть подробнее я сейчас расскажу про него под катом. Вкратце, оно позволяет задавать свою формулу ранжирования прямо на лету, и даже отдельную для каждого запроса. В общем, эдакий конструктор, который дает возможность каждому попробовать построить свой личный MatrixNet, с четырехмерными шахматами и оперными певицами :-)
+45
1 декабря 2011, 16:16
76

Вышел 2.0.2, скоро слет пользователей и 2.0.3

Мы тут дотестировали, собрали бинарные пакеты и выложили версию Sphinx 2.0.2-beta (это такой опен-сорсный поисковой сервер, использующийся на куче вебсайтов), запланировали на середину декабря (революционное изменение!) к выпуску Sphinx 2.0.3-release, а также усердно готовимся к (бесплатному) слету пользователей Сфинкса 04 декабря в Санкт-Петербурге. Зарегистрироваться на слет нужно по ссылке чуть выше, подать крутой доклад через нашу контактную форму, а ряд подробностей про те ~30 новых фичей и планы/сроки по ближайшим релизам и их циклу можно прочитать под катом.
+78
17 ноября 2011, 16:46
42

Пример Sphinx поиска на реальном проекте — магазин автозапчастей Tecdoc

Вкратце: статья будет полезна тем программистам, кто уже заинтересовался релевантным поиском и прочитал статьи по стартовой установке сфинкс поиска, погонял на тестовых примерах и таких же синтетических задачах. Часто эти примеры не дают ответа на вопрос, а как же ощутить реальную пользу от поискового модуля Sphinx в сравнении с другими более простыми вариантами поиска. Примеры кода в статье — на php+smarty, Sphinx 2.0.1-beta, база данных — mysql, исходники и дамп структуры базы выложены отдельным архивом в подвале. В статье описан пример использования таких особенностей сфинкса, как:
  • Создание единого конфиг файла для windows development и linux production
  • SetMatchMode(SPH_MATCH_EXTENDED2) и почему SPH_MATCH_ANY и другие не подходят для реального поиска
  • SetSortMode(SPH_SORT_RELEVANCE), SetFieldWeights — сортировка по релевантности и установка весов для полей индекса
  • SetLimits(0,20) — ограничение вывода результатов
  • AddQuery, RunQueries — построение мультизапросов
  • SetFilter, ResetFilters — добавление фильтрации в мулльтизапросе для ограничения получаемых данных
  • Wordforms — использование синонимов и преодоление ограничений для нестандартных словоформ, как «C#»

Также хочется внести свой вклад в развитие проекта и откровенно недостаточной русской документации при том, что проект создан и поддерживается русскоязычным программистом. Поэтому решено: непрекращающийся поток блокер задач идет лесом, вместо него в качестве благодарности разработчикам сфинкса в общем и пользователю Андрей Аксёнов ака shodan я пишу эту статью.
+45
8 ноября 2011, 19:31
216

Поиск по PDF, DOC, DOCX файлам с помощью Sphinx и PHP из песочницы

Доброе время суток.

Хочу поделиться своим опытом написания скрипта на PHP для поиска по файлам форматов PDF, DOC и DOCX, используя Sphinx. Все ниже изложенное написано для людей, которые уже имели опыт работы с связкой Sphinx и PHP. Если нет, то в свое время мне очень помогла статья Мартина Стрейчера «Создание собственной поисковой системы с помощью PHP», опубликованная на сайте IBM.

Совсем недавно на одном из проектов, который является веб-интерфейсом для базы пользователей, я получил задание организовать поиск по документам. Проект был написан до меня и уже использовал Sphinx.

Задача вроде тривиальная, но погуглив немного, я не смог найти внятную инструкцию с конкретным примером поиска по файлам форматов PDF, DOC и DOCX, что и стало причиной написания этой статьи.
+59
24 октября 2011, 15:46
186

мастер-класс в Киеве, 18 июня (сб)

В следующую субботу, 18го июня, буду проводить в Киеве мастер-класс про Сфинкс, аналогичный проведенному на недавнем Devconf. Осталась неделя, самое время зарегистрироваться. Под катом пара-тройка ответов на стандартные вопросы.
+20
12 июня 2011, 01:06
2

Новости 2.0.1-beta


Как здесь уже заметили, недавно вышел Sphinx 2.0.1. Релиз случался в легкой спешке, тк. «совершенно неожиданно» (примерно как сессия или Новый год) еще вдобавок вышла книжка для начинающих, описывающая как раз новую версию. Книга «про транк» это таки слишком эксцентрично, поэтому пришлось оперативно публиковать версию. Хорошо, что мы месяц-другой именно к релизу и готовились: чинили баги, не сильно ломали фичи. В заметке расскажу про всякие нововведения в свежей версии 2.0.1 и планы на следующую версию, см. подкат.
+89
7 мая 2011, 17:03
54

Индексируем форумы. Генератор XML-потока для сфинкса, с фильтрами на регулярках

Часто встречается задача прикрутить к форуму быстрый поиск. Так получается, что большинство выбирает sphinx search. Ну тем или иным способом его примонстрячивают и умывают ноги — большинство ставит настройки по умолчанию и считает задачу выполненной.

Однако желающие копнуть поглыбже и повысить качество выдачи обнаружат массу нюансов. Я пока оставлю в стороне вопросы генерации словарей, и коснусь конкретно форумной проблемы — удалению ббкодов. Во-первых, они в поисковом индексе нафик не нужны. Во-вторых, цитаты вызывают дубли в выдаче, с которыми тяжело бодаться. Потому что группировкой можно аннигилировать что-нибудь не то, и вообще, она нужна для другого.

+24
9 декабря 2010, 02:51
53

Конференция пользователей Sphinx уже в это воскресенье

Внезапно, до общего Московского сбора пользователей поискового движка Сфинкс осталось менее 3 суток. Программа докладов — sphinxsearch.com/conf2010ru.html, место проведения — МГУ, ВМК (2й уч. корпус), ауд. П-14, начало — 24 октября, 10:00 утра.

Только что разослал почтовые подтверждения всем зарегистрировавшимся; если вы ничего не получили, срочно напишите нам. Если еще не регистрировались, остался последний день (пятница) — но есть некоторая опасность, что сидячих мест уже может не хватить, приходите с походной пенкой или раскладными стульчиками ;)

Мы ждем всех!
+22
21 октября 2010, 15:59