Новый Яндекс.Сервер — поранжируем?
Сегодня вышел новый Яндекс.Сервер — продукт для организации поиска по сайту или в корпоративной сети, использующий технологии большого поиска Яндекса.
В новой версии особое внимание мы уделили качеству поиска, добавив новые возможности по управлению ранжированием.
Теперь можно перемещать найденные документы на первую или последнюю позицию выдачи, указав запросы и ссылку на документ, который необходимо сделать первым или последним. Зачем это нужно? Корпоративные сайты, к примеру, могут по запросу имени сотрудника поставить на первое место страницу с его биографией. А интернет-магазины могут по запросу с упоминанием товара в качестве первой страницы указать карточку этого товара.
В новой версии Яндекс.Сервера реализовано ссылочное ранжирование, которое учитывает ссылки на документ при расчете его релевантности. Кроме того, расширился список поддерживаемых документов: MS Office 2007, Open Office и PDF-файлы версии 1.7.
Скачайте Яндекс.Сервер, находите больше и точнее.
Мария Липатова и команда Яндекс.Сервера
В новой версии особое внимание мы уделили качеству поиска, добавив новые возможности по управлению ранжированием.
Теперь можно перемещать найденные документы на первую или последнюю позицию выдачи, указав запросы и ссылку на документ, который необходимо сделать первым или последним. Зачем это нужно? Корпоративные сайты, к примеру, могут по запросу имени сотрудника поставить на первое место страницу с его биографией. А интернет-магазины могут по запросу с упоминанием товара в качестве первой страницы указать карточку этого товара.
В новой версии Яндекс.Сервера реализовано ссылочное ранжирование, которое учитывает ссылки на документ при расчете его релевантности. Кроме того, расширился список поддерживаемых документов: MS Office 2007, Open Office и PDF-файлы версии 1.7.
Скачайте Яндекс.Сервер, находите больше и точнее.
Мария Липатова и команда Яндекс.Сервера
комментарии (44)
company.yandex.ru/technology/server/agreement
Присылайте пример конфига и описание на software@yandex-team.ru
описана в документации: api.yandex.ru/server/doc/concepts/y-ds-odbc.xml
Внутри продукта никакой связи с сервисами Яндекса нет.
Но на уровне фронт-энд-а можно осуществлять любые связи.
Попробую переформулировать вопрос: можно ли с помощью продукта Я.Сервер развернуть свой, узкоспециальный аналог Я.Маркета? Присутствует ли в движке каталогизатор и сравнение неких объектов по ряду параметров?
Поиск в Маркете, кстати, сделан на его основе.
А Каталогизатор Маркета — это результат долгой работы отдельной команды, который в продукт не входит. Да и деление на группы товаров ведь постоянно меняется.
Насчет каталогизатора — я думал, для деления на группы товаров есть специальный интерфейс, который один раз сделали, и теперь используют для настройки отдельных групп. Неужели все эти формы сравнения товаров каждый раз кодируют вручную?
Ну а детальней не знаю, поскольку занимаюсь не Яндекс.Маркетом.
Давайте запустите Яндекс в свои корпоративные коммерческие тайны :-))))
Это какая то лицензия особенная?
А в рамках стандартной лицензии это обязательно, насколько понял.
Но, кстати, не они одни такие: company.yandex.ru/technology/server/clients/
company.yandex.ru/forms.xml
company.yandex.ru/about/logotype/
А что теперь perl нужен?
company.yandex.ru/technology/server/shareware/download.xml
Летом ставил относительно новую версию — фиче-баг с несколькими DisallowIndex в одной webds похоже так и остался, приходится писать десятиэтажные регулярные выражения, чтобы исключить из индексирования страницы с нескольких сайтов (а их очень много у нас на search.sfu-kras.ru). Внутри IndexedArea они тоже у меня не заработали.
Порадовало, что pdf-ки теперь индексируются, а то я начал было уже писать собственный поиск на java/lucene. Надеюсь doc-и тоже индексируются, не проверял.
Свой поиск писать не стоит, просто присылайте пожелания сюда: software@yandex-team.ru
yandex error: 21
Initialization of Yandex.Server failed.
вот выдержка из лога:
Indexing was finished at Wed Sep 8 18:25:37 2010
It has been indexed 28176 documents.
Index contains 28176 documents.
Error: tarcio.cpp:29: archive "/var/local/yandex/newindex/tmparc" is not sorted: record 28194 is duplicated
что делать?
p.s. я индексировал локальный трекер.
[gidra:~] % ll /var/local/yandex/newindex [18:47]
total 768
-rw-r--r-- 1 root root 8192 2010-09-08 18:25 indexftds
-rw-r--r-- 1 root root 643 2010-09-08 17:57 indexwebds
-rw-r--r-- 1 root root 118039 2010-09-08 18:25 tmp0arc
-rw-r--r-- 1 root root 15 2010-09-08 18:25 tmp0atr
-rw-r--r-- 1 root root 31 2010-09-08 18:25 tmp0pls
-rw-r--r-- 1 root root 236070 2010-09-08 18:25 tmparc
-rw-r--r-- 1 root root 225560 2010-09-08 18:25 tmpdir
-rw-r--r-- 1 root root 113069 2010-09-08 18:25 tmpinv
-rw-r--r-- 1 root root 44930 2010-09-08 18:25 tmpkey
-rw-r--r-- 1 root root 4 2010-09-08 18:25 tmpp
-rw-r--r-- 1 root root 0 2010-09-08 18:25 tmprmurlpls
[gidra:~] % ll /var/local/yandex/workindex [18:47]
total 32
-rw-r--r-- 1 root root 8 2010-09-08 17:57 indexarc
-rw-r--r-- 1 root root 4 2010-09-08 17:57 indexdat
-rw-r--r-- 1 root root 0 2010-09-08 17:57 indexdir
-rw-r--r-- 1 root root 2 2010-09-08 17:57 indexfrq
-rw-r--r-- 1 root root 4096 2010-09-08 17:57 indexftds
-rw-r--r-- 1 root root 56 2010-09-08 17:57 indexinv
-rw-r--r-- 1 root root 0 2010-09-08 17:57 indexkey
-rw-r--r-- 1 root root 9 2010-09-08 17:57 indexlen
-rw-r--r-- 1 root root 1072 2010-09-08 17:57 indextf
-rw-r--r-- 1 root root 643 2010-09-08 17:49 indexwebds
[gidra:~] %
Сейчас все в порядке.
Опытным путём остановлено, что не работает несколько опций DisallowIndex в одной секции (приходится писать длинные регулярки).
Ручное ранжирование (подъём вверх, опускание вниз) требует переиндексации, неудобно, если переиндексация занимает много времени и выполняется редко.
PDF-ки, DOC-и ищутся, это хорошо, но без options set не знаю что и делать.