Статистика в IT

индекс
92,59

О Хабрахабре, статистике и… облаках тэгов

Здравствуйте!
Примерно месяц назад я написал статью, в которой представил на суд уважаемой хабрапублики несколько графиков. Графики как могли отражали историю развития этого сайта и пытались оценить качество контента на нем. Даже не знаю, удалось ли им добиться своей цели, но в целом статью встретили довольно тепло. Еще тогда я пообещал себе, что при возможности попытаюсь продолжить тему.

И снова о тематическом наполнении


В прошлый раз я пытался отразить тематическое наполнение Хабрахабра с помощью графика и круговых диаграм, которые оперировали количеством статей, принадлежащих той или иной категории блогов. И, если чесно, то считаю, что удалось это мне из рук вон плохо.

Я подумал, что ведь должны же быть какие-то способы отразить тематическое наполнение сайта во времени. К сожалению, гугление не дало результатов — ничего лучше старых-добрых графиков человечество пока не придумало. Но погодите! Ведь мы живем в эпоху Web 2.0 и одним из ее главных символов выступает… обычное облако тэгов. Вы все его видели множество раз, оно банально до невозможности и уже успело всем порядком надоесть своим присутствием на каждом втором сайте, да еще и в различных 3d-шно флешовых формах. Но, справедливости ради, облако тэгов обрело свою популярность именно потому, что очень хорошо отражает тематическое наполнение сайта. А что, если попробовать нарисовать облако тэгов и сделать его динамически изменяемым во времени? Такая себе машина времени тэгов. Дальше дело оставалось за малым: продумать, как это все будет выглядеть, сделать его подинамичнее, выделить вечер на реализацию задуманого на WPF и еще один вечер на рендеринг и кодирование в видео. То, что у меня получилось, я назвал «Tag Tornado» или «Смерч Тэгов». Увидеть, собственно, виновника торжества можно на следующем видео:
* я рекомендую смотреть видео на сайте ютуба в «большом» плеере и разрешении 480р
** так и не сумел подобрать музыку для ролика, оставляю ее выбор на зрителя. Устройтесь поудобнее, откинтесь на спинку кресла и наслаждайтесь

Как это работает?


Да очень просто это работает — названия блогов крутятся вокруг общего центра по кругу с постоянной угловой скоростью. Для каждого последовательного момента (в данном случае с шагом в два часа) рассчитывается «вес» каждого блога. Вес блога зависит от суммарной оценки статей в нем за период около двух недель, при чем оценка каждой статьи умножается на коефициент удаления момента ее публикации от момента, который мы рассматриваем. В общем, чем ближе была статья к даному моменту, тем больше ее оценка влияет на вес. После рассчета весов всех блогов для данного момента, они нормализируются и укладываются в промежуток [0;1] делением на максимальную оценку. Те блоги, чей максимальный вес ни разу не превысил 0,1 вообще выброшены.
Вес влияет на три параметра — чем он больше, тем меньше расстояние тэга от центра, больше размер шрифта и меньше прозрачность текста. Тэги отсортированы лексикографически. Ко всему этому добавлено несколько дополнительных коефициентов, которые обеспечивают общую плавность вылетов и влетов тэгов на «сцену».


Вместо заключения


Внимательный и занудный читатель заметит, что на видео крутятся все же не тэги, а блоги Хабрахабра, но у меня уже заготовлен ответ: дело в том, что тэгов слишком много и они слишком разные, поэтому без таблиц синонимов и семантических связей между тэгами подобная визуализация была бы не очень полезной — терялось бы слишком много важной информации. Визуализировать же категории, как в предыдущей статье, не имеет смысла, ибо их слишком мало.
Also, тэги иногда наползают друг на друга, но если смотреть в динамике, а не отдельные кадры, то читабельности это почти не мешает.
И да, что касается названия визуализации, сначала хотел назвать ее «водоворотом», но в результате пришел к выводу, что «атмосферная» аналогия с облаком тэгов будет лучше.
Спасибо за внимание.
_________
Текст подготовлен в ХабраРедакторе
+50
15 февраля 2010, 02:17
16

комментарии (39)

+3
YasonBy #
Замечательная идея, просто шикарно!

Очень интересно видеть развитие хабра «с высоты птичьего полёта»:
2007 — «Я умный» уверенно держится в центре, несмотря на «наезды» других блогов.
2008 — «Я умный» продолжает доминировать, периодически уступая место «Юмору на Хабрахабре».
2009 — торнадо и хаос, в которое иногда безаппеляционно врывается «Информационная безопасность» :)
0
lesa80 #
2006-ой год по праву можно назвать годом «Колонок» =)
+1
CrazyMacho #
Поясните молодёжи :)
+2
lesa80 #
ээ… мм… что пояснить?
вы ролик смотрели? вверху бежит дата… так вот — в течение 2006 года в центре, практически несвергаемо, красовался блог «Колонки» =)
0
hlomzik #
Ну так и просят пояснить, что за «Колонки».
0
Demir0 #
«Я умный» отбивался-отбивался, да так и не выдержал, в следствии чего был свергнут беспорядочно массой. Там даже иногда видны были бессовестные, резкие нападки)
+1
hTLK #
В «Я умный» в какой-то момент запретили писать с нулевой кармой. Вот он и ушёл из центра.
+5
ernt #
Смерчь тегам! :) Уберите мягкий знак.
+1
mace #
Вот думал же, что как то оно не так и глаз режет. Спасибо большое, исправил.
0
Frip #
Отличный пример интерактивной инфографики. Свежо, запутанно и симпатично :) Т.е., конечно, облака и в самом деле поднадоели, идея вращать тэги в реальном времени тоже, какбы, не нова, но на фоне нудных и не слишком симптичных инфограмм Горбунова – это все равно шедевр :)
P.S. по делу: иногда тэги двигаются рывками. Может, провести сглаживание рядов популярности тэгов перед рендером? Общая тенденция сохранится, и интерактивность будет красивей.
0
mace #
рывки изза подтормаживания жесткого диска во время рендеринга :( к сожалению заметил их уже после того, как ролик был готов, позно вечером
0
WingedFlame #
Спасибо, очень интересная серия статей с интересными выводами. Интересно посмотреть на тенденцию развития Хабра. Хоть я тут и не совсем новичек, но никогда о таких вещах не задумывался. А посмотрел видео и заметил несколько вещей:
  1. Интерес к более узким темам (следил на появление блогов конкретных языков программирования) начинает появляться где-то с середины-начала 2008 года.
  2. Эта тенденция сейчас приводит к тому, что различные довольно узкоспециализированные блоги становятся более «равны» между собой, и явного лидера среди них нет. Лично меня это радует, потому что таких образом Хабр становится более разноплановым.
  3. Ну, и как принято принято, третий пункт: на протяжении всего 2007 года интерес к Apple почти всегда совпадал с интересом к Google :)
+1
Devich #
Это супер. Я вспомнил IT события за последние 3 года. Вот смотришь, а в голове: да, точно, было, да, да. Спасибо.
0
Wott #
Это видео подтвердило мои ощущения — еще год назад было достаточно подписаться на пару блогов и хорошее чтиво за завтраком было обеспечено. А теперь фактически нет объединяющего начала для потенциально хороших статей — приходиться читать все новые, что-бы, если захочется поговорить, попасть в первую десятку комментов.

Впору делать «прогноз погоды» для Хабра :) — топ потенциально лучших статей.
0
WingedFlame #
Если качество будет как у реального прогноза погоды, боюсь, я не буду к нему прислушиваться :) А вот сделать возможность анонса своих статей… Может, и неплохая идея, кстати. Только не для всех, естественно, а, например, только для «Звезд». Что-то вроде того: «В ближайшую неделю ожидайте интересную статью о новой непонятной зафигулине!» :)
0
Wott #
Анонсы хороши для авторов, а для читателя — только засоряют ленту :)

Под «прогнозом» я имел в виду некий фильтр по авторам, потенциально интересных, и блогам и тегам, отсеивающие неинтересные темы. Некая индивидуализация тоже хорошо.
Как пример, пусть слабый, — RSS по ключевым словам как у гугла.
0
WingedFlame #
А, теперь понял вас правильно :)) Да, наверное, было бы полезно. Причем для меня скорее было бы полезно отмечать темы, про которые мне читать не интересно, нежели наоборот.
0
Wott #
WingedFlame : Причем для меня скорее было бы полезно отмечать темы, про которые мне читать не интересно, нежели наоборот.

Полностью согласен!
0
eugenius_nsk #
0
Wott #
не, как-то не то он выбирает

PS. а я уже и забыл что это фича в каком-то виде появлялась :)
0
eugenius_nsk #
Ну, мне его качества более-менее хватает :-)
0
Max2D #
Очень хорошая идея и реализация.
А под музыку это смотреть еще интересней. Поэтому пришлось свой плеер включить для комфортного просмотра.
0
artzub #
Под конец «информационная безопасность» пыталась несколько раз разогнать хаос и у нее даже это получалось =)
+1
TiGR #
Когда увидел «притчи», аж почти прослезился :)
+1
Melonamin #
По данному видео по-моему отчетливо видны «волны» хабратопиков. Когда за одним топиком пишутся еще несколько и тренд держится несколько дней.
+1
Masterkey #
прикрутите линию времени, будет еще суперовей
+1
mace #
ну там вверху есть дата, а дублировать ползунок плеера я не вижу смысла
0
Masterkey #
упс, не заметил )))
0
WingedFlame #
Кстати, да, интересно посмотреть графики популярности блогов во времени. А если сделать это как-то интерактивно (т.е. например чтобы я мог посмотреть друг под другом только графики вышеупомянутых мной Google и Apple) — было бы вообще отлично!
0
Kain_Haart #
Здорово! Впечатлило. И возникло несколько мыслей:

1) Категорий слишком мало — можно использовать категорию как параметр цвета
2) Хотелось бы в облаке видеть вычисленный «вес» (хоть мелким шрифтом, но всё же)
3) Может быть (не уверен, но можно же попробовать) длинные названия разбивать на две строки
0
Kain_Haart #
По поводу п.2: Лучше даже вес до нормализации
0
Kain_Haart #
Кто под какую музыку смотрел?
0
Kain_Haart #
Space — Magic Fly
0
TiGR #
Эхо Москвы :)
0
wersoo #
здорово вспомнить например в мае 2009 всплеск блога информационная безопасность на волне истерии о qip нововведениях и взломе
0
Gorthauer87 #
а что это за колонки то? И кстати да, не хватает какой-нибудь правильной музыки на фоне
0
mace #
колонки: habrahabr.ru/blogs/columns/
а музыку я просто не сумел подобрать, к сожалению :(
0
predtech #
Честно говоря, считаю такое облако излишеством и вот почему:
1. Анимированнео облако берет на себя лишком много внимания, посетители сайта приходят смотреть и читать контент, а не красивые облака (кстати, многие ли предпочитают кликать на облак, а не на элементы меню).
2. Не знаю в чем это сделано, но если во флеше, то облако, фактически, не будет вполнять свое основное предназначение — указывать поисковикам ключевые слова (или ссылаться на разделы).
0
mace #
не-не-не, я ни в коем случае не считаю это заменой облака! это визуализация истории сайта, которая удобна для оценки динамики развития ресурса, чтобы можно было понять, что изменилось, куда движется сайт. в случае Хабра это еще и срез горячих тем ІТ за последние три с половиной года

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.