Несколько дней назад американцы объявили о выводе войск из Ирака. Они ушли не с пустыми руками, а увезли биометрические данные трёх миллионов иракских жителей (примерно 10% населения). В течение нескольких лет американские пехотинцы носили с собой
портативные оптические сканеры, которые позволяют быстро в полевых условиях сделать снимок радужной оболочки глаза и снять отпечатки пальцев у любого прохожего.
Ценная база данных является собственностью американской армии и будет храниться в США.

Во всех онлайн сервисах и играх самая большая доля аудитории уходит прямо на старте – в первые же минуты и часы знакомства с продуктом. Этой теме уже посвящены сотни книг и статей с самыми различными гипотезами успеха и причин лояльности аудитории – уникальность, простота, юзабилити, бесплатность, обучение или инструкция, эмоциональность, и еще множество факторов считаются крайне важными.
Мы захотели узнать,
почему уходят игроки и можно ли
предсказать их уход. Предмет исследования – ММОРПГ Аион, однако наши результаты оказались применимы к широкому кругу игр и онлайн сервисов.
7 декабря 2011, 13:06
309
Миланский университет и Facebook окончили исследование о
теории шести рукопожатиях. За основу брался социальный граф Facebook. Были исследованы все аккаунты Facebook. В итоге получилось, что двух любых людей отделяют не 6, а 4,74 уровня связи.
И в США, кстати, количество звеньев меньше — 4,37 (по статистике более половины американцев старше 13 лет пользуются Facebook).
«Даже если взять самого территориально удаленного пользователя Facebook в сибирской тундре или перуанских джунглей, друг вашего друга, вероятно, знает друга их друга» — так отмечают исследователи.
Три года назад Microsoft провела аналогичное исследование на 242 миллионах пользователей MSN, написавших хоть одно сообщение за месяц. Их результат тогда был равен 6,6.
А вот исследование аудитории ВКонтакте, которое сделал
shuttie,
показывает, что этот результат в более локализованной сети — меньше, 5.65 пользователей.
Однажды в студеную зимнюю пору я столкнулся с упоминанием того, что кто-то в Facebook пытается подтвердить теорию шести рукопожатий. Для тех кто не в курсе, эта теория заключается в том, что все жители земли в среднем знакомы друг с другом через цепочку из пяти друзей (т.е. шести рукопожатий). Подробнее об истории этой теории можно прочитать
в википедии, там же можно узнать о том, что Майкрософт несколько лет назад
пыталась подтвердить эту теорию на основе данных о контакт-листах мессенджера MSN — в результате у них получилось 6,6 рукопожатий, что вполне вписывается в теорию.
Очень мне захотелось эту теорию подтвердить самому, используя данные, которые есть под рукой — ВКонтакте. Для претворения моей странной идеи в жизнь надо было решить целый комплекс проблем:
- На каких данных это все расчитывать.
- Где эти данные взять.
- Как эти данные сохранять.
- Каким алгоритмом воспользоваться для расчетов.
14 ноября 2011, 16:21
145
Как мы все знаем у организации Apache очень много проектов. Apache Foundation — это настоящий инкубатор IT проектов. Все знают Apache прежде всего по их веб-серверу. Однако кроме веб-сервера Apache продвигает много других очень полезных проектов. Один из таких перспективных проектов это Apache Hadoop. Apache Hadoop позволяет делать распределенные вычисления. Зачем это нужно? В первую очередь для обработки больших объемов данных. Сейчас есть такой современный тренд — Big Data — это большие данные. Но насколько большие? На этот вопрос все отвечают по разному. Для одной организации петабайт может являться в принципе нормальным объемом данных, а для другой это уже проблема больших данных. Если копнуть глубже то тут возникает целый ряд проблем: хранение, поиск, аналитика, и визуализация. Проблема хранения решается в принципе просто посредством какой-нибудь распределенной СУБД. Более сложно дело обстоит с поиском нужной информации, аналитикой и визуализацией. Вот как раз таки Apache Mahout и поможет нам программировать аналитику.
Потребовалось мне года три назад сделать классификатор текстов. В этой статье я расскажу о том как это заработало и вообще некоторые аспекты реализации и тестирования таких алгоритмов.
Классификация
Классификация, согласно википедии, это
одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Этим мы и будем заниматься.
12 октября 2011, 19:51
99
Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.
30 августа 2011, 23:54
22
Мы проанализировали 862 уникальных текста SMS на частотность употребляемых слов, распределили по городам и сгруппировали по получателям. За основу были взяты тексты, находящиеся короткое время в открытом доступе на популярном поисковом сервисе.
Чтобы нельзя было идентифицировать получателя сообщения, мы удалили телефонные номера, тексты, содержащие пароли, и другую информацию, которая может повредить отправителям или получателям.
Данный проект интересен нам исключительно в исследовательских и промо целях.
Некоторые результаты под катом.
Определения
В этой статье я опишу способы создания, и использования рубрикаторов, в основе которых лежит структура графа.
Рубрикатор, категоризатор, каталог категорий, предметный указатель, индекс. Для удобства будем считать, что все эти термины описывают примерно одно и то же. А там, где будут существенные отличия, мы будем явно на них указывать.
Информационный элемент – чаще всего файл, но в общем случае любая информация представленная как единое целое.
Введение
Рубрикаторы используются для решения самых разнообразных задач:
- Для ускорения поиска и облегчения навигации по большим массивам информации.
- Для пометки (тегирования) информации с целью организации выборок по определенным рубрикам
- Для сортировки информации по:
областям знаний (физика, математика, биология)
способам использования (Книги — читать, музыка — слушать, фильмы — смотреть)
принадлежности (папки мои и общие документы)
важности (папки inbox и spam) и т.п.