Data Mining

индекс
170,69

США составили биометрическую базу данных на три миллиона иракцев



Несколько дней назад американцы объявили о выводе войск из Ирака. Они ушли не с пустыми руками, а увезли биометрические данные трёх миллионов иракских жителей (примерно 10% населения). В течение нескольких лет американские пехотинцы носили с собой портативные оптические сканеры, которые позволяют быстро в полевых условиях сделать снимок радужной оболочки глаза и снять отпечатки пальцев у любого прохожего.

Ценная база данных является собственностью американской армии и будет храниться в США.
+4
21 декабря 2011, 18:49
1

Data Mining в онлайн играх

АионВо всех онлайн сервисах и играх самая большая доля аудитории уходит прямо на старте – в первые же минуты и часы знакомства с продуктом. Этой теме уже посвящены сотни книг и статей с самыми различными гипотезами успеха и причин лояльности аудитории – уникальность, простота, юзабилити, бесплатность, обучение или инструкция, эмоциональность, и еще множество факторов считаются крайне важными.

Мы захотели узнать, почему уходят игроки и можно ли предсказать их уход. Предмет исследования – ММОРПГ Аион, однако наши результаты оказались применимы к широкому кругу игр и онлайн сервисов.
+198
7 декабря 2011, 13:06
309

Какой инструмент вы используете для решения задач data mining?

1.85%
(36)
R
0.46%
(9)
Rapidminer
0.36%
(7)
Weka
3.69%
(72)
Matlab
0.72%
(14)
SAS
0.26%
(5)
Stata
1.49%
(29)
Mathematica
15.38%
(300)
Язык программирования общего назначения (Java, C++, Python итд)
5.64%
(110)
Excel и подобные
70.17%
(1369)
Пыщпыщ, я просто мимо проходил и хочу посмотреть результаты

Проголосовал 1951 человек. Воздержался 651 человек.

+7
29 ноября 2011, 14:52
12

Facebook подтвердила предположение о шести рукопожатиях



Миланский университет и Facebook окончили исследование о теории шести рукопожатиях. За основу брался социальный граф Facebook. Были исследованы все аккаунты Facebook. В итоге получилось, что двух любых людей отделяют не 6, а 4,74 уровня связи.
И в США, кстати, количество звеньев меньше — 4,37 (по статистике более половины американцев старше 13 лет пользуются Facebook).
«Даже если взять самого территориально удаленного пользователя Facebook в сибирской тундре или перуанских джунглей, друг вашего друга, вероятно, знает друга их друга» — так отмечают исследователи.
Три года назад Microsoft провела аналогичное исследование на 242 миллионах пользователей MSN, написавших хоть одно сообщение за месяц. Их результат тогда был равен 6,6.
А вот исследование аудитории ВКонтакте, которое сделал shuttie, показывает, что этот результат в более локализованной сети — меньше, 5.65 пользователей.
+65
22 ноября 2011, 15:56
37

Теория шести рукопожатий: еще одно подтверждение из песочницы

Однажды в студеную зимнюю пору я столкнулся с упоминанием того, что кто-то в Facebook пытается подтвердить теорию шести рукопожатий. Для тех кто не в курсе, эта теория заключается в том, что все жители земли в среднем знакомы друг с другом через цепочку из пяти друзей (т.е. шести рукопожатий). Подробнее об истории этой теории можно прочитать в википедии, там же можно узнать о том, что Майкрософт несколько лет назад пыталась подтвердить эту теорию на основе данных о контакт-листах мессенджера MSN — в результате у них получилось 6,6 рукопожатий, что вполне вписывается в теорию.

Очень мне захотелось эту теорию подтвердить самому, используя данные, которые есть под рукой — ВКонтакте. Для претворения моей странной идеи в жизнь надо было решить целый комплекс проблем:
  1. На каких данных это все расчитывать.
  2. Где эти данные взять.
  3. Как эти данные сохранять.
  4. Каким алгоритмом воспользоваться для расчетов.
+195
14 ноября 2011, 16:21
145

Использование Apache Mahout для кластеризации данных на Hadoop платформе из песочницы

Как мы все знаем у организации Apache очень много проектов. Apache Foundation — это настоящий инкубатор IT проектов. Все знают Apache прежде всего по их веб-серверу. Однако кроме веб-сервера Apache продвигает много других очень полезных проектов. Один из таких перспективных проектов это Apache Hadoop. Apache Hadoop позволяет делать распределенные вычисления. Зачем это нужно? В первую очередь для обработки больших объемов данных. Сейчас есть такой современный тренд — Big Data — это большие данные. Но насколько большие? На этот вопрос все отвечают по разному. Для одной организации петабайт может являться в принципе нормальным объемом данных, а для другой это уже проблема больших данных. Если копнуть глубже то тут возникает целый ряд проблем: хранение, поиск, аналитика, и визуализация. Проблема хранения решается в принципе просто посредством какой-нибудь распределенной СУБД. Более сложно дело обстоит с поиском нужной информации, аналитикой и визуализацией. Вот как раз таки Apache Mahout и поможет нам программировать аналитику.
+16
8 ноября 2011, 11:39
31

Классификация документов методом опорных векторов из песочницы

Потребовалось мне года три назад сделать классификатор текстов. В этой статье я расскажу о том как это заработало и вообще некоторые аспекты реализации и тестирования таких алгоритмов.

Классификация


Классификация, согласно википедии, это одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Этим мы и будем заниматься.
+38
12 октября 2011, 19:51
99

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI из песочницы

Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.

+31
30 августа 2011, 23:54
22

Анализ текстов SMS пользователей ЗАО «Мегафон»

image

Мы проанализировали 862 уникальных текста SMS на частотность употребляемых слов, распределили по городам и сгруппировали по получателям. За основу были взяты тексты, находящиеся короткое время в открытом доступе на популярном поисковом сервисе.

Чтобы нельзя было идентифицировать получателя сообщения, мы удалили телефонные номера, тексты, содержащие пароли, и другую информацию, которая может повредить отправителям или получателям.

Данный проект интересен нам исключительно в исследовательских и промо целях.

Некоторые результаты под катом.
+36
19 июля 2011, 17:26
12

Использование графа, как основы для создания рубрикатора

Определения


В этой статье я опишу способы создания, и использования рубрикаторов, в основе которых лежит структура графа.
Рубрикатор, категоризатор, каталог категорий, предметный указатель, индекс. Для удобства будем считать, что все эти термины описывают примерно одно и то же. А там, где будут существенные отличия, мы будем явно на них указывать.
Информационный элемент – чаще всего файл, но в общем случае любая информация представленная как единое целое.

Введение


Рубрикаторы используются для решения самых разнообразных задач:
  • Для ускорения поиска и облегчения навигации по большим массивам информации.
  • Для пометки (тегирования) информации с целью организации выборок по определенным рубрикам
  • Для сортировки информации по:
    областям знаний (физика, математика, биология)
    способам использования (Книги — читать, музыка — слушать, фильмы — смотреть)
    принадлежности (папки мои и общие документы)
    важности (папки inbox и spam) и т.п.

+21
12 июля 2011, 11:49
51