войти зарегистрироваться

Дистанционное обучение в ITUdacity: первые 2 курса

На Udacity анонсировано 2 курса, которые будут вести Sebastian Thrun и David Evans:
CS 101: Строим поисковый движок
CS 373: Программируем роботизированный автомобиль

Персональные блоги Поисковая система номер один в мире по мнению Google

Тренировал распознаватель голоса Chrome своими запросами, и по запросу Search Google выдал довольно любопытную картину:

Bing-же считает поисковиком номер один братский Yahoo!, хотя при этом ставит Google выше себя :)
Видать сильно прижали антимонопольщики, что поисковики ставят себя в собственном поиске ниже конкурентов.

Электронные книгиСервис поиска русскоязычных книг для Kindle

Kindle
После того как у меня появился Kindle 3 стала проблема наполнения его книгами на всем нам понятном русском языке. Сама книжка поддерживает кириллицу с коробки, но вот русской раскладки в ней не предусмотрено. Отличная возможность пользоваться встроенным в книгу браузером частично страдает из-за отсутствия русской раскладки.

Конечно, возможно использовать хаки прошивки для локализации устройства, но это не всегда удобно, так как при обновлении прошивки эти хаки придется откатывать назад, вдобавок мы можем потерять гарантию. Подключать же постоянно через USB книгу проводом тоже не удобно, ведь зачем же в конце концов в ней WiFi и 3G? Выходом из сложившейся ситуации может стать русифицированная экранная клавиатура.

За один вечер была найдена подходящая экранная клавиатура написанная на JavaScript и оптимизирована под экран Kindle. Зарегистрировано доменное имя kin3lib.ru для нашего проекта. Сервис перебрасывает поисковый запрос набранный на виртуальной клавиатуре в библиотеку Флибуста, где можно спокойно закачать затем книгу в ее родной mobi формат. В дальнейшем можно реализовать выбор библиотек на которых производить поиск, но, к сожалению, я нашел только одну, которая позволяет скачивать книги в формате mobi. Если кто знает еще такие библиотеки пишите мне.

Мне будет приятно выслушать мнения хабравчан о таком сервисе, а также кто и каким образом решает данную проблему.

Веб-разработкаБыстрый полнотекстовый поиск ElasticSearch из песочницы

image
При разработке высоконагруженных сайтов или корпоративных систем частенько возникает проблема с разработкой быстрого и удобного поискового движка. Ниже перечислены наиболее важные, на мой взгляд, требования к такому движку:

  • Скорость
  • Простота установки и настройки
  • Цена (желательно бесплатно и с открытым кодом)
  • Обмен информацией в формате JSON (по HTTP)
  • Масштабируемость (возможность распределения на несколько серверов)
  • Индексация в режиме реального времени
  • Multi-tenancy (гибкость в настройках под индивидуального пользователя)
  • Возможность переноса системы в облако

Хочу рассказать вам о новом поисковом движке Elasticsearch, который полностью удовлетворяет всем этим требованиям. В статье будет краткое описание, ссылка на авторитетную презентацию, а также описание установки и работы с ним.

Высокая производительность[Перевод] Теперь поиск Twitter ещё в 3 раза быстрее из песочницы

Мне всегда был интересен Ruby-on-Rails (RoR) и Twitter как яркий представитель платформы на этом framework. 6 апреля этого года в блоге команды Twitter появилась запись о полной смене поисковой платформы с RoR на Java. Под катом перевод о том, как это было.

PythonИспользование библиотеки для полнотекстового поиска Xapian в Python из песочницы

Сегодня, в эпоху Web 2.0, когда контента на сайтах становится все больше и больше, перед разработчиками встает задача реализации полнотекстового поиска.

Вариантов немного:
  • использовать виджеты от разработчиков поисковых систем (Google, Яндекс, etc): легко внедрить, привычный для пользователя интерфейс, поддержка морфологии, исправление слов по словарю, возможно более быстрая индексация сайта поисковыми системами, но, как правило ограниченные возможности по настройке и неизбежное запаздывание индексации;
  • использовать встроенные в СУБД средства (например FULLTEXT-индекс для MySQL): достаточно легко внедрить, актуальный поисковый индекс, полный контроль над настройкой и внешним видом, но, чаще всего очень низкая производительность на больших объемах данных, отсутствие учета морфологии, либо, в худшем случае, полное отсутствие подобных средств в СУБД;
  • использовать отдельную библиотеку/систему полнотекствого поиска.

Третий вариант кажется самым лучшим, ведь он сочетает достоинства двух других вариантов. Правда и здесь не обошлось без недостатков — библиотека требует установки, иногда даже запуска демона (например Sphinx), что может быть неприемлемо.

Решений существует масса, у каждого есть свои достоинства и недостатки. Я бы хотел подробнее остановиться на относительно малоизвестной библиотеке Xapian.

GoogleGoogle обвиняет Bing в копировании его поисковой выдачи



Можно сказать, что Bing извлекает урок из соревнования, но похоже, что он извлекает и чужие поисковые результаты. Представитель Google Амит Сингхал утверждает это, предоставив результаты своей любопытной (если не сказать «очень хитроумной») проверки. Вот как она работает: найди такой запрос, по которому ни в одном поисковике ничего не находится, вручную добавь в Google «страницу-приманку» в качестве результата для этого запроса, затем заставь около 20 сотрудников Google провести поиск и кликнуть по этому результату, используя Internet Explorer с включенными функцией Suggested Sites и тулбаром Bing. Через две недели, по словам Сингхала, достаточное количество (примерно 7-9) из 100 «приманок» повляются и в Bing. Включая результаты диких запросов вроде «mbrzxpgjys», «hiybbprqag» и «indoswiftjobinproduction».

Означает ли это, что Bing «жульничает», как утверждает Сингхал? Эксперимент проводился с включенными тулбаром Bing и/или функцией Suggested Search, а про них прямо сообщается, что они собирают данные для улучшения результатов поиска. И на популярные запросы, в отличие от редких, Bing выдает собственные результаты. Microsoft не ворует приватную информацию, но не является ли это нечестным приемом? Мы думаем, что над этим еще поломают копья.

Поисковые машины и технологииОтчет с конференции Lucene Revolution

В начале октября мне удалось побывать на конференции Lucene Revolution, которая проходила в городе-герое Бостоне. Эта конференция была посвящена открытым поисковым технологиям Apache Lucene и Apache Solr. Мне кажется, что на хабре в частности и в рунете в целом этим технологиям уделяется незаслуженно мало внимания. Давайте исправим это упущение.

Я пиарюсь Wolframalpha + Wikipedia = Galois/Wiki

Представьте себе Maple, Maxima или Mathematica, в которой правила работы являются энциклопедическими статьями, и, наоборот, энциклопедию, пополняя которую, вы улучшаете работу системы компьютерной алгебры. Эта идея лежит в основе Galois/Wiki (Галуа/Вики) — математической энциклопедии с интеллектуальным поиском.

image

Я пиарюсь Математическая поисковая система с визуальным вводом формул

Почти полгода назад я написал на хабре статью о проекте математической поисковой системы uniquation.ru. Тогда была получена конструктивная критика, которая помогла улучшить проект.

С тех пор проект претерпел множество изменений, главное из которых — визуальный ввод формул — теперь, чтобы найти информацию о каком либо математическом объекте, необязательно знать его представление в формате TeX.