srgkvlv Dec 30 2012 at 22:34

Обзор алгоритмов кластеризации числовых пространств данных

10 min

41K

Data Mining*Algorithms*

From sandbox

+37

Comments 10

Daniyar Dec 30 2012 at 23:07

Главная проблема кластеризации — определить количество кластеров. В этот вопрос вы не углублялись, возможно в следующих материалах могли бы затронуть. Спасибо за материал.

srgkvlv Dec 30 2012 at 23:39

Безусловно, определение количества кластеров — это одна из важнейших проблем кластерного анализа. В более широком смысле — это проблема инициализации алгоритма: выбора оптимальных значений управляющих параметров, используемых оценочных функций, метрики, условий остановки и т.п. В этой статье я умышленно не затрагивал этот вопрос, поскольку он выходит далеко за пределы темы статьи. Если эти проблемы будут интересны — я обязательно раскрою их в отдельных материалах.

Для некоторых алгоритмов, перечисленных в статье, их авторы предлагают методы определения оптимальных значений параметров алгоритма, поэтому рекомендую ознакомиться с исходной литературой.

Daniyar Dec 30 2012 at 23:49

Да, или инициализации, или терминации, как в случае иерархической кластеризации например.

Всецело согласен, слишком большой вопрос для одного топика.
Лично меня интересует, почему в различных материалах об алгоритмах кластеризации (скажем диссертации), используется различная терминология для описания одного и того же.

Вы выделяете какие-либо школы или подходы, которые обуславливали бы этот факт? Или это просто вариации перевода.

srgkvlv Dec 31 2012 at 00:15

Во-первых, есть обилие терминов, очень схожих по своему смыслу, которые в контексте алгоритмов кластеризации могут заменять друг друга. Например, термины «мера сходства» (similarity) и «дистанция» (distance) родственны, но термин «дистанция» всё-таки имеет геометрическое толкование, поэтому применение его в методах кластеризации категориальных или гетерогенных пространств данных не совсем корректно. Термин «мера сходства» здесь более универсален.

Во-вторых, это особенности перевода терминологии из зарубежных источников. Лично я встречал довольно мало российских научных работ по кластерному анализу, а большинство имеющихся основаны на зарубежных источниках и являются в какой-то мере их переводом. Может быть, в российском научном сообществе ещё не сформировалось какой-то устойчивой терминологии в области кластерного анализа, и поэтому каждый коллектив авторов использует свою. Я думаю, что если бы в России проводились национальные конференции по анализу данных типа ACM SIGKDD, то это было бы толчком к «стандартизации» терминов в области обработки данных.

Daniyar Dec 31 2012 at 00:24

Может начнем проводить?
Если нашлось бы достаточно желающих поучаствовать, и спикеров, то можно даже профинансировать эту идею.

srgkvlv Dec 31 2012 at 00:29

Я только за, с удовольствием принял бы участие.

Однако для проведения таких мероприятий необходима заинтересованность и поддержка серьёзных и уважаемых научных учреждений. К сожалению, такого пока не наблюдается.

Cyrill Dec 31 2012 at 17:19

Пользуясь случаем, хочу передать привет В.В. Топоркову.

kmike Dec 31 2012 at 12:29

В английском тоже терминология «скачет»: одно и то же рассматривается в смежных областях науки («machine learning», «statistics», вычислительная математика), и люди часто придумывают/используют свои термины — например, features == inputs == predictors == independent variables (пример из The Elements of Statistical Learning, Hastie et al. )

lightcaster Dec 31 2012 at 11:36

> Алгоритм EM [11] основан на предположении, что исследуемое множество данных может быть смоделировано с помощью линейной комбинации многомерных нормальных распределений.
Не совсем так. EM используется тогда, когда максимум правдоподобия не может быть оценен напрямую из-за скрытых переменных. Тогда используется итеративное приближение матожидания целевой функции относительно этих переменных. То что вы написали — задача разделения смеси гауссиан, и EM ее решает. Но он более общий и может оценивать и другие виды распределений.

Статья хорошая, плюсую, хотя терминология непривычная.
С наступающим :)

Toozla Jan 1 2013 at 17:04

Забыли Вы рассказать про дискриминантный и факторный анализ (PCA), оба из которых являются простыми способами классификации данных интервальных шкал.
Ну и еще есть целая группа методов для классификации категориальных наблюдений.

Show the best of all time