Поисковые машины и технологии → Госпоиск состоялся: по Рунету начал ходить бот электронного правительства или госпоисковика
Roem.ru обсуждает теперь уже далеко не слух:
«Ведомости» около года назад писали (копия статьи в открытом доступе):
За последние дни в несколько раз вырос входящий трафик. Логи показывают что сайт начал посещать некий бот именующий себя «SearchBot». IP-адрес указывает на то что это некий проект электронного правительства.
«Ведомости» около года назад писали (копия статьи в открытом доступе):
Об идее «государственного поисковика» стало известно летом [2010 г.], когда сотрудники «Яндекса», Mail.ru и Rambler стали получать от некоей «окологосударственной» структуры предложения о переходе на работу в этот проект. Его цель, как объяснял высокопоставленный источник в Кремле, — стимулировать развитие отечественных технологий в перспективной сфере. Позднее советник президента Леонид Рейман заявил, что созданием поисковика занимаются частные компании, а Минкомсвязи лишь курирует проект. Министр же Игорь Щеголев всегда опровергал возможность господдержки для поисковой системы. Однако отсутствие финансирования национального поисковика в ФЦП еще не значит, что проект закрыт — возможно, деньги будут выделены из другого источника, предполагает руководитель одной из интернет-компаний.
OpenStreetMap → Несколько интересных новостей OpenStreetMap — 10
- OpenStreetMap попал в телевизор! Сюжет про составление карты в Пермском крае показал федеральный «5 канал». Фотографии с семинара и ещё один видеосюжет. Комментарии.
- Обновлён сайт OpenStreetMap.ru. Как известно стандартный поисковик плохо работает с нашими адресами, поэтому на российском сайте имеется «поисковик с русским лицом». Можете его протестировать и рассказать на форуме.
- Карта дня — три страницы отборных и интереснейших скриншотов.
- "Русские осмеры считают себя за котов, картируют в пяти измерениях и пишут настолько сложные рендереры, что лучшим браузерам приходится чинить баги, чтобы не отставать. Серьёзно. Бойтесь."
- Цель OSM: быть проще для обычных людей.
- Челябинск. 26 ноября. 14 часов.
Площадь Свободы.Вечный огонь. - "Закачал на служебные навигаторы карты от #openstreetmaps вместо #навител. Покрытие Челябинска ГОРАЗДО точнее. Водители довольны."
- Nokia запустила свои народные карты. Как и всё «народное», сервис Nokia — несвободный и унижающий простых пользователей. Уважаемые жители Киргизии и Узбекистана, не поддавайтесь на провокации!
- Визуализация: что редактировалось в OSM за последнюю неделю или 90 дней.
- Статистика. Какое название улицы в России самое распространённое?
- За последние 8 месяцев европейская часть базы данных OSM выросла на 90 000 мест. Но где же ещё не достаточно хорошо ступала нога OSMера?
- Временные рождественские ёлки и ярмарки тоже отмечаются на карте OSM.
- Опубликована предварительная программа конференции в Подмосковье. Будут много говорить об OSM.
- FranceTopo.fr — что можно сделать из OSM при большом желании.
- Молчащих участников в очередной раз просят сказать «да» или «нет» новой лицензии.
- Круглый стол по открытым данным в РИА Новости. Об OSM тоже говорили.
- "Сообщество+ОСМ=ГИС. МЫ и есть, и валидаторы, и триггеры, и описание схемы данных… Нас встроили в архитектуру".
- Говорят, есть хорошее приложение для оффлайн карт OSM и Google Maps на iPad.
- Юбилей. Год назад основатель OSM пошёл работать в Microsoft, а у нас появились снимки Bing.
- "Расскажи где торгуют смертью и добавь на openstreetmap". =))
Поисковые машины и технологии → Поиск по торрентам в DHT-сети
Мало найдётся людей среди пользователей и читателей Хабра, которым не доводилось бы пользоваться торрентами. И наверняка многие понимают уязвимость центральных звеньев этой системы — торрент-трекеров (истории с Пиратской бухтой и бывшим torrents.ru, ныне рутрекером, — тому подтверждение).
Однако не все знают, что уже давно существует альтернатива традиционным трекерам — DHT-сеть, позволяющая организовывать раздачи без трекера. До сих пор она не получила большого распространения из-за невозможности поиска внутри сети — нужный файл можно было скачать только при наличии magnet-линка раздачи. Однако недавно появился первый и уникальный пока поисковый сервис по DHT-сети BTDigg.org.
Сервис с весьма лаконичным дизайном заточен под одну функцию — поиск:

Чтобы снизить зависимость от трекеров, в 2007 году разработчиками протокола bittorrent была принята его модификация на основе DHT-структуры, которая позволяла делать раздачи без трекера.
Что такое DHT-сеть? Фактически, это распределённая сеть торрент-клиентов, которая хранит идентификаторы (хеши) всех публичных раздач — т.н. magnet-link, которые представляют собой 160-битное случайное число. DHT-узлы клиентов отвечают за анонсирование своих торрентов и за поиск запрашиваемых. Благодаря тому, что все современные клиенты поддерживают DHT, можно сказать, что в этой сети есть практические все публичные торренты (приватные торренты сеть «не видит» и не позволяет скачивать). Практически — потому что DHT в клиенте может быть отключен. Поиск идёт по мета-информации, которую содержит в себе торрент-файл — то есть, проще говоря, он ищет по названию торрента и по названиям файлов входящих в него. Пользователь открывает magnet-линк в своём торрент-клиенте, тот находит всех раздающих файл и дальше качает как обычно — участия трекера в этой цепочке нет.
Однако не все знают, что уже давно существует альтернатива традиционным трекерам — DHT-сеть, позволяющая организовывать раздачи без трекера. До сих пор она не получила большого распространения из-за невозможности поиска внутри сети — нужный файл можно было скачать только при наличии magnet-линка раздачи. Однако недавно появился первый и уникальный пока поисковый сервис по DHT-сети BTDigg.org.
Сервис с весьма лаконичным дизайном заточен под одну функцию — поиск:

Поисковик по хэшам торрентов
Чтобы снизить зависимость от трекеров, в 2007 году разработчиками протокола bittorrent была принята его модификация на основе DHT-структуры, которая позволяла делать раздачи без трекера.
Что такое DHT-сеть? Фактически, это распределённая сеть торрент-клиентов, которая хранит идентификаторы (хеши) всех публичных раздач — т.н. magnet-link, которые представляют собой 160-битное случайное число. DHT-узлы клиентов отвечают за анонсирование своих торрентов и за поиск запрашиваемых. Благодаря тому, что все современные клиенты поддерживают DHT, можно сказать, что в этой сети есть практические все публичные торренты (приватные торренты сеть «не видит» и не позволяет скачивать). Практически — потому что DHT в клиенте может быть отключен. Поиск идёт по мета-информации, которую содержит в себе торрент-файл — то есть, проще говоря, он ищет по названию торрента и по названиям файлов входящих в него. Пользователь открывает magnet-линк в своём торрент-клиенте, тот находит всех раздающих файл и дальше качает как обычно — участия трекера в этой цепочке нет.
Блог компании Fast Lane Ventures LLC → Сервис поиска гостиниц Jizo

Хотим рассказать вам о новой полезной функции нашего проекта Jizo — сервисе поиска гостиниц hotels.jizo.ru
Теперь в рамках ресурса можно самостоятельно спланировать путешествие: найти удобный авиарейс и подобрать наиболее подходящую гостиницу.
Peer-to-Peer → Поисковик по DC
Очень краткий обзор поисковика по файлообменной сети Direct Connect.
Subj ходит по основным хаблистам и на данный момент знает о ~740 миллионах файлов.
dc.proisk.ru
Subj ходит по основным хаблистам и на данный момент знает о ~740 миллионах файлов.
dc.proisk.ru
Алгоритмы → Суффиксный массив — удобная замена суффиксного дерева
Здравствуйте, уважаемое сообщество! Думаю, многим знакома такая структура данных как суффиксное дерево. На Хабре уже было описание как его построить и зачем. Если вкратце, то оно нужно тогда, когда надо много раз искать какие-то произвольные образцы Xi в заранее заданном тексте A, а строится такое дерево мучительно с помощью алгоритма Укконена (есть и другие варианты, но они предполагают еще большее количество страданий). Общее наблюдение при работе с алгоритмами таково, что деревья — это, конечно, хорошо, но на практике их лучше избегать из за серьезных оверхэдов по памяти и не очень оптимального (с точки зрения эффективности оперирования данными компьютером) расположения. Кроме того, именно в таком дереве есть еще более существенная неприятность, а именно алфавитнозависимость структуры. Для решения этих проблем был придуман суффиксный массив. О том как его строить и как использовать и пойдет в этой статье.
Материал статьи предполагает знание понятий суффикса и префикса строки, а также знание того, как работает бинарный поиск. Надо также представлять, что такое стабильная сортировка и поразрядная сортировка, а также понимание, что имеется ввиду под стабильной сортировкой подсчетом. Для некоторых частей нам понадобится знание задачи о минимуме на отрезке — Range Minimum Query (RMQ). Ну, в общем, вас предупредили: никто не говорил, что будет просто.
Материал статьи предполагает знание понятий суффикса и префикса строки, а также знание того, как работает бинарный поиск. Надо также представлять, что такое стабильная сортировка и поразрядная сортировка, а также понимание, что имеется ввиду под стабильной сортировкой подсчетом. Для некоторых частей нам понадобится знание задачи о минимуме на отрезке — Range Minimum Query (RMQ). Ну, в общем, вас предупредили: никто не говорил, что будет просто.
Поисковые машины и технологии → Hyper Estraier — небольшой поисковик для ленивых
Небольшой — потому-что в сравнении со Сфинксом скорость работы действительно не впечатляет, а для ленивых — потому-что все очень просто.
Чем привлек внимание, не смотря на скромные характеристики?
1. Возможностью real-time индексирования.
2. Наличие атрибутов документа и их использование в поиске и сортировке результата.
3. Простота работы и компактная четкая документация (хватило пары дней на изучение, собственно беглый взгляд по диагонали доков и явился толчком для более детального изучения продукта).
Мои впечатления о Hyper Estraier:
Чем привлек внимание, не смотря на скромные характеристики?
1. Возможностью real-time индексирования.
2. Наличие атрибутов документа и их использование в поиске и сортировке результата.
3. Простота работы и компактная четкая документация (хватило пары дней на изучение, собственно беглый взгляд по диагонали доков и явился толчком для более детального изучения продукта).
Мои впечатления о Hyper Estraier:
Переводы → GeekDad оценил особенности поисковика для детей

Вслед за признанием Quintura Kids «must have» приложением для младших школьников, Крис Хинтон (Chris Hinton) в разделе GeekDad известнейшего Wired.com опубликовал обзор "GeekDad tries Quintura's explorative search". Далее перевод:
Поисковые машины и технологии → Китайское правительство запускает собственный поисковик

В четверг информационное агентство Xinhua и China Mobile объявили о сделке по созданию новой поисковой системы. Как первая, так и вторая – компании государственные.
China Mobile является самым крупным и самым дорогим оператором мобильной связи в мире, еще бы, с ее 508 млн. абонентов. Естественно, она высоко котируется и на Нью-Йоркской и на Гонконгской фондовых биржах.
Xinhua (по-русски «Синьхуа) – информационное агентство, отражающее официальную политику Партии; отчитывается непосредственно перед отделом пропаганды компартии.
Персональные блоги → Грамотная реализация Google Ajax Search

Всегда приятно наблюдать как из чего-то очень простого и доступного делают нечто полезное и качественное.
Вот например из простого Гугловского AJAX API сделать поисковик ничуть не уступающий по функциональности самому Гуглу, а даже наоборот, превосходящим его. Сайт Qwate.kz позволяет вам использовать поиск от Гугл, но специально заточенный под Казахстан. Поиск хорошо структурирован и позволяет находить нужную информацию намного быстрее чем если искать через Google.kz
Отличный вариант для поисковика по КазНету