Data Mining

индекс
8,40

Конкурс рекомендательных систем MSD Challenge

26 апреля стартовал конкурс рекомендательных систем Million Song Dataset Challenge. Завершение — через три месяца, 9 августа. В ходе конкурса нужно построить систему, которая по 100% истории прослушивания музыки для 1М пользователей и 50% истории для 100К пользователей сможет максимально точно достроить недостающие 50%. При этом доступны не только данные по прослушиванию, но и обширная база метаданных и даных по контенту от The EchoNest, MusicXMatch и Last.fm. При желании можно пользоваться любыми другими данными (у многих других музыкальных сервисов есть API, через который можно выудить ценную информацию).

Организаторы — CAL UCSD, LabROSA CU, IMIRSEL и UIUC.

Как такового приза у конкурса нет, но компания Zvooq решила сделать его чуть более интересным для российских участников. Лучшая команда из России (вне зависимости от абсолютного места) получит $5000 и возможность бесплатно отправить одного участника на ISMIR 2012.

Условия получения этого бонуса — все участники команды должны проживать в РФ, должно быть опубликовано описание используемого подхода (например, на Хабре или arxiv.org), команда должна заявить о себе на challenge@zvooq.com.

+6
3 мая 2012, 13:33
12
ksavenkov 5,8

Клиентская аналитика: Большой Брат знает, что ты купишь завтра и когда сменишь провайдера

Если вы знаете, что один из ваших клиентов завтра проснётся с мыслью о покупке нового планшета — можно уже сегодня прислать ему письмо с кодом на скидку. Если вы понимаете, что по всем признакам клиент собирается перейти к другому провайдеру, можно повысить ему скорость, снизить цену или предложить что-то ещё. Это клиентская аналитика.

Если вы не знаете, какой тарифный план из трёх предложенных стоит запустить по всей стране, надо воспользоваться клиентской аналитикой, которая возьмёт каждого отдельного человека из базы, оценит эмоциональные и практические мотивы перехода – и позволит понять, сколько людей будут пользоваться этим тарифом.

Именно так выглядит Data Mining в клиентской аналитике. И именно так это уже работает на практике в сотнях крупных компаний по всему миру и в нашей стране.



+26
10 апреля 2012, 11:46
223
Alefima 5,0

Программа «Рыбка» решила королевский гамбит на 1 апреля

UPD 4.04. Новость оказалась первоапрельской шуткой ChessBase, которая из-за ошибки CMS была опубликована на сайте 2 апреля. Поверила даже Википедия, изменив статью про королевский гамбит.

Запустив шахматную программу Rybka на рабочей станции IBM POWER 7 с 2800 ядрами, автор программы сумел решить королевский гамбит — один из самых сложных и острых дебютов шахматной партии, который активно использовали Борис Спасский и Бобби Фишер. Компьютерная программа рассчитала исход всех вариантов развития шахматной партии и пришла к неожиданным результатам.



Оказывается, в случае принятия чёрными жертвы на f4 у белых остаётся только один ход, который ведёт к ничьей (в случае идеальной игры с обеих сторон) — слон на e2. Во всех остальных случаях белые получают мат.
+81
3 апреля 2012, 15:10
70
alizar 2276,6

Алгоритмы сегментации текста из песочницы

Здравствуйте.

В контексте анализа данных из твиттера возникла задача обработки хештегов. Нужно было взять хештег и разбить его на отдельные слова (#habratopic => habra topic). Задача казалась примитивной, но, получается, я ее недооценил. Пришлось перебрать несколько алгоритмов пока не было найдено то, что надо.

Эту статью можно считать некой хронологией решения задачи с анализом преимуществ и недостатков каждого из использованных алгоритмов. Поэтому, если вам интересна данная тема, прошу под кат.

+39
2 апреля 2012, 11:36
156
mishadoff 7,1

Нечеткий кластерный анализ на примере социально-экономических показателей крупных городов России

Введение


Кластерный анализ — задача разбиения определенного множества объектов на группы, называемые кластерами так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Данный анализ предполагает следующие цели:
  • Понимание данных путем выявления кластерной структуры.
  • Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
  • Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.


В данной статье будет использоваться метод нечеткой кластеризации c-means. Отличительной особенностью нечеткой кластеризации является тот факт, что каждый объект может относиться к каждому кластеру с определенной степенью принадлежности.

Для анализа будут выбраны 17 крупнейших городов России по населению, в качестве характеристик выступают социально-экономические показатели (демография, занятость населения, зарплата, преступность и т.д.). Результатом будут являться полученные кластеры городов.
image

+40
2 апреля 2012, 06:37
103
sermal 22,4

Система мониторинга мнений методом поточечной взаимной информации из песочницы

Здравствуйте.
Если вы занимаетесь DataMining, анализом текстов на выявление мнений или вам просто интересны статистические модели для оценки эмоциональной окраски предложений — эта статья может оказаться интересной.
Далее, чтобы не тратить время потенциального читателя впустую на груду теории и рассуждений, сразу краткие результаты.
Реализованный подход работает приблизительно с 55% точностью в трех классах: негативный, нейтральный, позитивный. Как говорит Википедия, 70% точность приблизительно равна точности человеческих суждений в среднем (в силу субъективности трактований каждого).
Следует отметить, что существует немало утилит с точностью выше полученной мной, но описанный подход, можно достаточно просто усовершенствовать (будет описано ниже) и получить в итоге 65-70%. Если после всего вышеизложенного у вас осталось желание читать — добро пожаловать под кат.
+11
26 марта 2012, 22:12
58
denysA 2,5

Немного магии: как взять и сделать call-центр реально эффективным

Вы звоните провайдеру. Приготовившись к разговору с вымученно-жизнерадостной девушкой о количестве зелёных лампочек на чёрной коробочке, даже немного теряетесь, когда вам отвечает натуральный сисадмин. И сразу же понимает суть проблемы и решает её. Вы кладёте трубку через 25 секунд разговора в лёгком шоке.

Потом перезваниваете с телефона сестры и получаете ласковое «А какого цвета у вас Интернет?», и начинаете понимать, в чём дело.

Да, это реально возможно на практике. Давайте для примера возьмём некий типовой call-центр и покопаемся в его уже собранных данных, а потом подключим немного математики.

+48
22 марта 2012, 11:57
188
Alefima 5,0

Факторный анализ вектора критериев в задачах распознавания образов

Введение


При разработке систем распознавания образов часто возникают проблемы при оценке параметров, которые используются в качестве входного вектора. В данной статье я опишу подход, который можно применять при анализе векторов обучающей выборки, с целью обнаружения зависимостей между параметрами, а также сокращения размерности, что позволит в свою очередь сократить затрачиваемые вычислительные ресурсы при анализе данных и повысить репрезентативность обучающей выборки.
image

Целью данной работы является определение факторов входного вектора критериев обучающей выборки, предназначенных для решения данной задачи.
+20
15 марта 2012, 13:47
84
sermal 22,4

Стивен Вольфрам проанализировал свою жизнь



Разработчик программного пакета Mathematica и научной поисковой системы Wolfram Alpha Стивен Вольфрам выложил результаты анализа цифровых данных, которые скопились у него за годы. В числе прочего — визуализация 300 тыс. отправленных электронных писем с 1989 года, 100 миллионов нажатий клавиш с 2002 года, телефонные звонки, встречи, время редактирования файлов разного типа с 1980 года и т.д. В результате проявились некоторые интересные корреляции между различными аспектами жизни, а также структурные изменения, которые произошли в течение десятилетий.

Подобный личностный анализ может сделать каждый с помощью новых функций поисковика Wolfram Alpha Pro.
+93
10 марта 2012, 17:04
80
alizar 2276,6

Google Transit: тихая революция в общественном транспорте

Среди многочисленных проектов компании Google есть один очень важный проект, которым компания занимается уже более пяти лет, и в то же время он на удивление мало освещается в прессе. Речь идёт о стандарте GTFS (изначально Google Transit Feed Specification, но с 2009 года расшифровку сменили на General Transit Feed Specification) — общий протокол для расписания общественного транспорта, который компания Google предложила в 2006 году.



Сейчас Google получает информацию от 475 транспортных компаний США и Европы, но пока что расписание на Google Maps полноценно работает только в четырёх американских городах (Бостон, Портленд, Сан-Диего, Сан-Франциско) и двух европейских (Мадрид, Турин). Жители этих городов могут в привычном интерфейсе Google Maps смотреть, через сколько минут на остановку придёт нужный автобус, троллейбус или трамвай — c июня 2011 года для этих городов работает функция Live Transit Updates, то есть обновление в реальном времени информации о реальном местонахождении транспорта.
+45
26 февраля 2012, 00:35
72
alizar 2276,6