войти зарегистрироваться

Поисковые машины и технологииГоспоиск состоялся: по Рунету начал ходить бот электронного правительства или госпоисковика

Roem.ru обсуждает теперь уже далеко не слух:
За последние дни в несколько раз вырос входящий трафик. Логи показывают что сайт начал посещать некий бот именующий себя «SearchBot». IP-адрес указывает на то что это некий проект электронного правительства.

«Ведомости» около года назад писали (копия статьи в открытом доступе):
Об идее «государственного поисковика» стало известно летом [2010 г.], когда сотрудники «Яндекса», Mail.ru и Rambler стали получать от некоей «окологосударственной» структуры предложения о переходе на работу в этот проект. Его цель, как объяснял высокопоставленный источник в Кремле, — стимулировать развитие отечественных технологий в перспективной сфере. Позднее советник президента Леонид Рейман заявил, что созданием поисковика занимаются частные компании, а Минкомсвязи лишь курирует проект. Министр же Игорь Щеголев всегда опровергал возможность господдержки для поисковой системы. Однако отсутствие финансирования национального поисковика в ФЦП еще не значит, что проект закрыт — возможно, деньги будут выделены из другого источника, предполагает руководитель одной из интернет-компаний.

OpenStreetMapНесколько интересных новостей OpenStreetMap — 10

Поисковые машины и технологииПоиск по торрентам в DHT-сети

Мало найдётся людей среди пользователей и читателей Хабра, которым не доводилось бы пользоваться торрентами. И наверняка многие понимают уязвимость центральных звеньев этой системы — торрент-трекеров (истории с Пиратской бухтой и бывшим torrents.ru, ныне рутрекером, — тому подтверждение).

Однако не все знают, что уже давно существует альтернатива традиционным трекерам — DHT-сеть, позволяющая организовывать раздачи без трекера. До сих пор она не получила большого распространения из-за невозможности поиска внутри сети — нужный файл можно было скачать только при наличии magnet-линка раздачи. Однако недавно появился первый и уникальный пока поисковый сервис по DHT-сети BTDigg.org.

Сервис с весьма лаконичным дизайном заточен под одну функцию — поиск:


Поисковик по хэшам торрентов


Чтобы снизить зависимость от трекеров, в 2007 году разработчиками протокола bittorrent была принята его модификация на основе DHT-структуры, которая позволяла делать раздачи без трекера.

Что такое DHT-сеть? Фактически, это распределённая сеть торрент-клиентов, которая хранит идентификаторы (хеши) всех публичных раздач — т.н. magnet-link, которые представляют собой 160-битное случайное число. DHT-узлы клиентов отвечают за анонсирование своих торрентов и за поиск запрашиваемых. Благодаря тому, что все современные клиенты поддерживают DHT, можно сказать, что в этой сети есть практические все публичные торренты (приватные торренты сеть «не видит» и не позволяет скачивать). Практически — потому что DHT в клиенте может быть отключен. Поиск идёт по мета-информации, которую содержит в себе торрент-файл — то есть, проще говоря, он ищет по названию торрента и по названиям файлов входящих в него. Пользователь открывает magnet-линк в своём торрент-клиенте, тот находит всех раздающих файл и дальше качает как обычно — участия трекера в этой цепочке нет.

Блог компании Fast Lane Ventures LLCСервис поиска гостиниц Jizo

image
Хотим рассказать вам о новой полезной функции нашего проекта Jizo — сервисе поиска гостиниц hotels.jizo.ru
Теперь в рамках ресурса можно самостоятельно спланировать путешествие: найти удобный авиарейс и подобрать наиболее подходящую гостиницу.

Peer-to-PeerПоисковик по DC

Очень краткий обзор поисковика по файлообменной сети Direct Connect.
Subj ходит по основным хаблистам и на данный момент знает о ~740 миллионах файлов.

dc.proisk.ru

АлгоритмыСуффиксный массив — удобная замена суффиксного дерева

Здравствуйте, уважаемое сообщество! Думаю, многим знакома такая структура данных как суффиксное дерево. На Хабре уже было описание как его построить и зачем. Если вкратце, то оно нужно тогда, когда надо много раз искать какие-то произвольные образцы Xi в заранее заданном тексте A, а строится такое дерево мучительно с помощью алгоритма Укконена (есть и другие варианты, но они предполагают еще большее количество страданий). Общее наблюдение при работе с алгоритмами таково, что деревья — это, конечно, хорошо, но на практике их лучше избегать из за серьезных оверхэдов по памяти и не очень оптимального (с точки зрения эффективности оперирования данными компьютером) расположения. Кроме того, именно в таком дереве есть еще более существенная неприятность, а именно алфавитнозависимость структуры. Для решения этих проблем был придуман суффиксный массив. О том как его строить и как использовать и пойдет в этой статье.

Материал статьи предполагает знание понятий суффикса и префикса строки, а также знание того, как работает бинарный поиск. Надо также представлять, что такое стабильная сортировка и поразрядная сортировка, а также понимание, что имеется ввиду под стабильной сортировкой подсчетом. Для некоторых частей нам понадобится знание задачи о минимуме на отрезке — Range Minimum Query (RMQ). Ну, в общем, вас предупредили: никто не говорил, что будет просто.

Поисковые машины и технологииHyper Estraier — небольшой поисковик для ленивых

Небольшой — потому-что в сравнении со Сфинксом скорость работы действительно не впечатляет, а для ленивых — потому-что все очень просто.
Чем привлек внимание, не смотря на скромные характеристики?
1. Возможностью real-time индексирования.
2. Наличие атрибутов документа и их использование в поиске и сортировке результата.
3. Простота работы и компактная четкая документация (хватило пары дней на изучение, собственно беглый взгляд по диагонали доков и явился толчком для более детального изучения продукта).

Мои впечатления о Hyper Estraier:

ПереводыGeekDad оценил особенности поисковика для детей



Вслед за признанием Quintura Kids «must have» приложением для младших школьников, Крис Хинтон (Chris Hinton) в разделе GeekDad известнейшего Wired.com опубликовал обзор "GeekDad tries Quintura's explorative search". Далее перевод:

Поисковые машины и технологииКитайское правительство запускает собственный поисковик

image
В четверг информационное агентство Xinhua и China Mobile объявили о сделке по созданию новой поисковой системы. Как первая, так и вторая – компании государственные.

China Mobile является самым крупным и самым дорогим оператором мобильной связи в мире, еще бы, с ее 508 млн. абонентов. Естественно, она высоко котируется и на Нью-Йоркской и на Гонконгской фондовых биржах.

Xinhua (по-русски «Синьхуа) – информационное агентство, отражающее официальную политику Партии; отчитывается непосредственно перед отделом пропаганды компартии.

Персональные блоги Грамотная реализация Google Ajax Search

image

Всегда приятно наблюдать как из чего-то очень простого и доступного делают нечто полезное и качественное.

Вот например из простого Гугловского AJAX API сделать поисковик ничуть не уступающий по функциональности самому Гуглу, а даже наоборот, превосходящим его. Сайт Qwate.kz позволяет вам использовать поиск от Гугл, но специально заточенный под Казахстан. Поиск хорошо структурирован и позволяет находить нужную информацию намного быстрее чем если искать через Google.kz

Отличный вариант для поисковика по КазНету