Livejournal

индекс
56,53

Статистика записей Живого Журнала

top
Под катом небольшое статистическое исследование, которое может быть просто интересно, а может быть полезно тем, кто разрабатывает или поддерживает сервисы на основе Живого Журнала.
Вторая версия исследования.

Метод исследования


Для исследования были взяты дневники пользователей со страницы статистики. По пять дневников с каждых 10 страниц. Всего было извлечено 200 пользователей. У каждого были загружены все записи с 1999 года за исключением подзамочных и 18+. Вышло 190 439 записей. Из записей, в свою очередь, были извлечены заголовки, теги, текст без HTML-разметки и количество комментариев. Выборка не очень большая, меньше процента, но  достаточно репрезентативная в качестве основы, на которой можно проектировать сервисы для ЖЖ. В некоторых графиках были исключены пользователи первой пятерки, т.к. создавали очень большой шум. :) Итак, поехали.

Записи


Наличие заголовка

TitleNoTitle
Зеленый — есть, серый — нет.

Длина заголовка в символах

TitleLength

Длина записи в символах

ArticleLength
Один столбик — 1000 символов.

Статей в месяц

ArticlesPerMonth

По дням недели

PostDayOfWeek

По часам

PostHour

Теги



Есть или нет?

TagNoTag
Зеленый — есть, серый — нет.

Количество тегов

TagsCount

Длина тега

TagLength

Популярные теги

PopularTags

Комментарии



Количество комментариев к записи

CommentsCountLine

Количество комментариев к записи в виде пирога

CommentsCountPie

Количество комментариев от объема текста

 CommentsTextLenght

Столбик — 1000 символов.
80 000 — глюк: в текст записи запарсились сами комментарии.

П.С.


Надеюсь, что этот анализ был кому-нибудь интересен. А может он даже сделает какой-то проект чуточку удобнее. Я с удовольствием извлеку другие метрики из базы, если они кому-то понадобятся.

П.П.С.


К следующей неделе сделаю более репрезентативную выборку из 10 000 пользователей с записями только по 2006 год.
+55
17 сентября 2009, 12:10
21

комментарии (62)

0
tkf #
теги есть или нет, наличие заголовков есть или нет, можно было подписать какая часть на графике к чему относиться. Хотя и так можно догадаться.
+1
tkf #
Сорри не заметил в рисунке про наличие заголовков подпись, сначала заглянул на теги есть или нет, так как больше интересовало.
0
3fonov #
Все равно добавил. :)
+1
DileSoft #
«Длина» с одним н.
+2
3fonov #
Спасибо, исправил.
0
msapiens #
Оченно интересно!!!
а соц-дем можно из БД извлекать?
0
3fonov #
Соц-дем нету. Но есть официальные данные за 2007 год.
+9
mapcoxog #
Фото Уфа — интересный тег.
+1
3fonov #
Это, видимо, погрешность выборки. Попался журнал у которого 925 записей помечены тегом Фото Уфа.
+4
MpaK999 #
Но приятная погрешность, я так даже горд стал за нашу Уфу :)
+1
tourelle #
Дама, ведущая этот дневник — молодец. Так здорово повлиять на статистику в одиночку — надо уметь!
0
nadoelo #
о да!
+3
rokoto #
Казахстан упоминается в тегах чаще чем жизнь — жизненно ;)
+7
JetHedgehog #
Всего было извлечено 200 пользователей

Как-то слабовато для исследований. И какой смысл грузить записи от 1999 года? Уже давно другие тренды и другие пользователи. Так же, ничто не мешает этим же алгоритмом проанализировать 2000 и даже 20000 пользователей. Так что задумка хорошая, но делать какие-либо выводы по этой статистике, мягко говоря, сложно. Может быть, я не уловил тайный смысл данного исследования… Поэтому очень хочется узнать — зачем это было сделано?
0
3fonov #
Не мешает ничего, кроме времени: у меня загрузка 200 000 страниц заняла сутки. Я не готов ждать 10 дней.

К вопросу «для чего». Это будет оффлайн-агрегатор для ЖЖ, который будет позволять скачивать дневники полностью. Поэтому мне была интересна общая статистика за все время существования ЖЖ.
+2
romx #
Зачем вообще нужна статистика, если ее составитель «не готов» сделать ее сколь-нибудь репрезентативной?
+2
3fonov #
Мне кажется, что длина заголовков или среднее количество тегов несильно изменятся, если увеличить выборку. Мне это нужно для того, чтобы сразу избежать каких-то явных ляпов в интерфейсе: что-то расползлось или висит в воздухе.

Она ответила на интересующие лично меня вопросы и я решил просто поделиться с другими. ;)
0
3fonov #
Появилась более репрезентативная версия: habrahabr.ru/blogs/lj/78942/
0
shamannn #
Такие аггрегаторы уже существуют.
Погуглите на тему
0
3fonov #
Не видел ни одного, который бы не сохранял мне тонну хтмл-ок на диск, имел бы поиск и пр.
+1
muse #
Особенно интересно выборка по дням недели. Чтобы не делал — ты лишь статистика.
+1
saver_ag #
Пожалуй, что для полноценной статистики 200 пользователей все-же маловато, особенно если учитывать сегментацию. У вас всего один пользователь внес весьма существенную и заметную погрешность. Неплохо бы хотя бы 10-20 тысяч, хотя понятно что для этого нужны другие мощности.
И вам правильно сказали про 1999 год, исследовать нужно последние года 2-3 не дальше.
0
3fonov #
Я с вами полностью согласен, что маловато. Остальную статистику соберут будущие пользователи, надеюсь. :)
В моем случае нужно было скачать весь журнал целиком. Поэтому мне интересны записи с 1999 года. Мне кажется, что длина заголовков или среднее количество тегов несильно изменятся, если увеличить выборку. Мне это нужно для того, чтобы сразу избежать каких-то явных ляпов в интерфейсе: что-то расползлось или висит в воздухе.
0
catbegemot #
Мне были бы интересны тренды по временной линии — как менялась длина заголовков, размер постов, число комментариев и остальные метрики за 10 лет
0
3fonov #
10 000 пользователей и 1 777 308 записей: habrahabr.ru/blogs/lj/78942/
0
ident #
оф, какой инструмент использовали для отрисовки?
0
3fonov #
Графики в Иллюстраторе + доводка каждого напильником.
0
punch #
Статистика это всегда интересно. Спасибо.
+1
d1pr3d #
Интересно.
А почему отбор был таким:
5 пользователей со страницы и их посты до 1999-ого года,

а не таким:
Каждый второй пользователь, но посты, допустим за последние 4-6 лет.

Цифры у меня взяты с потолка, но мне кажется, что лучше взять больше разных пользователей и менее длинный период времени, чем исследовать долгий период некоторой их части. Стиль написания у одного человека достаточно константен, либо циклично повторяется.
+1
3fonov #
Меня прямо подвигают на повторное исследование. :) А про пять — мне хотелось, чтобы попала первая пятерка.
Запущу тогда дома на пару дней и посмотрим на сколько изменяться результаты.
0
d1pr3d #
Спасибо, я слишком поздно заметил, что уже про это спрашивали. Ждем новых результатов, будет интересно сравнить с этими.
+1
avenu #
А у Вас остался кэш, можно еще раз пробежаться по страницам?
Мне вот, например, интересно было бы посмотреть статистику не по сообщениям <1000 символов, а <140 (сравнение с твиттером) или <160 (с sms), что-то мне подсказывает, что твиттер уже давно существовал в рамках жж.
0
3fonov #
Уже убил. Через пару дней можно будет. Учту ваше пожелание.
0
3fonov #
ЖЖ и вправду сильно напоминает твиттер по количеству символов: habrahabr.ru/blogs/lj/78942/
0
avenu #
О, ничего себе. Сейчас почитаем :)
+8
l0ser140 #
Извините, а за такие графики не положено отрывать руки?

0
3fonov #
А чем он плох? Может и положено. :)
0
l0ser140 #
Мне казалось, что график должен быть информативен. Главной задачей графика является быстро донести информацию в виде, который легко воспринимать и анализировать.
Было бы интересно смотреть не на 1стоблец, из которого понятно, что более 1000 знаков никто не пишет, а на 15столбцов с шагом 100символов.
Было бы интересно смотреть не на шкалу от 0 до 20 по тегам, где дальше 5и — пустота, а на шкалу от 0 до 5, зато это было бы понятно.
0
l0ser140 #
Вот эти хороши

+2
l0ser140 #




p.s. предыдущий ответ отправился случайно =(
0
3fonov #
Оба графика несут информацию.
Первый говорит о том, что есть записи более 50 000 знаков. А шаг в 100 символов тоже очень велик для того, чтобы увидеть что-то отличное от резкого снижения.

Второй говорит о том, что больше 20-ти тегов быть не может. Это физическое ограничение ЖЖ. Поэтому шкала от 0 до 5 скрывала бы данные.

Но я согласен с тем, что выглядит это не лучшим образом. Постараюсь исправить в версии 2.0
+1
l0ser140 #
Было бы разумно пренебречь этими результатами, если таких постов менее 1%.
А если хотелось всё таки разместить шкалу на 20 делений, то зачем было ужимать её в 2.5 раза, по сравнению с другими графиками?
0
l0ser140 #
А мысли так и лезут в голову…
Еще мне кажется, что данные за 1999 год не актуальны.
Тем более, вы их предлагаете использовать для анализа ситуации в данный момент.
Информация была бы намного актуальнее, если бы взять 20 000 пользователей и рассматривать 10 их последних постов.
0
3fonov #
Эти два графика частично исправил. Про актуальность почитайте комментарии выше и П.П.С.
0
nil #
На этих графиках просто слишком «тыжелый хвост». В таких случаях нужно сделать ось X логарифмической, это как бы «растянет» данные по графику и сделает его более читаемым. Если нужно, могу показать пример с теми же данными на простом графике и на графике с логарифмической осью X.
0
3fonov #
Хвост поправил. А суть логарифмического графика я плохо понимаю. На мой взгляд он будет искажать отношения.
+4
nil #
Вот пример двух графиков для тех же самых данных. Обратите внимание на шаги по оси X на втором графике — они не линейные, а логарифмические. На втором графике видно, что основная часть данных лежит в интервале от 0.01 до 100. На первом графике этого разглядеть невозможно. Поэтому я и советую вам использовать логарифмические графики в тех двух случаях — они будут гораздо лучше читаться.

0
3fonov #
Понял. Я сперва подумал, что по оси Y. Осталось понять как заставить иллюстратор такое сделать. Или SQL.
0
nil #
Тут я к сожалению не могу вам помочь, т.к. я не знаком с инструментом которым вы пользуетесь. Если эти графики (кстати, они называются гистограммы — histograms) рисуются при помощи какой-нибудь функции типа histogram(data), то можно попробовать просто histogram(log10(data)) или что-нибудь в этом роде.
0
3fonov #
Спасибо. В во второй версии посмотрю.
0
catbegemot #
Можно воспользоваться общепринятыми способами и построить графики в Excel, который под это заточен.
0
fonmax #
добавь:

(-:
0
3fonov #
Не понял :-)
0
nil #
Пара комментариев по оформлению графиков. У вас практически нигде нет рисок с подписями на осях. Например на графике «Длина заголовка в символах» нужно по оси X проставить риски через каждые 10 или 20 единиц. Аналогично из графика «По дням недели» понятно лишь что в среду чуть больше записей чем, например, во вторник. Если вы по оси Y проставите риски со значениями, то сразу станет понятно, сколько же в среду публикуется записей.

Если вы собираетесь продолжить анализ, то предлагаю вам углубиться в изучение данных. То что вы представили это как бы описание основных параметров данных, из этого как правило не получается сделать интересные выводы. Все станет гораздо интереснее если вы найдете какие-нибудь неожиданные корреляции. Например верна ли гипотеза, что чем длиннее заголовок, тем больше комментариев? Или влияет ли объем текста на колличество комментариев? Эти утверждения я привожу здесь лишь в качестве примера. Как мне кажется вы попытались сделать что-то в этом роде на последнем графике, но я его, если честно, не понял. Чему соответствуют оси (еще раз возвращаемся к вопросу об оформлении осей)?
0
3fonov #
Про последний график. Он неточен в плане данных: в части записей комментарии распарсились и стали текстом заметки. А вообще по горизонтали отложено количество знаков х1000, а по вертикали — количество комментариев.

Про анализ. Мне не интересны какие-то интересные (-: корреляции. Мне нужно было решить конкретную задачу: спроектировать интерфейс. Для этого мне понадобились конкретные данные: длина заголовков, количество тегов, объем текста.

Про оси. Данные графики в своей массе показывают экстремумы значений. Мне было все равно сколько записей имеют в заголовке 7 букв. Мне важно, что большинство имеют около 14.

Но с новой выборкой (10 000 ников уже загрузил ;-) ) я попробую найти какие-нибудь интересные закономерности.
0
nil #
А вообще по горизонтали отложено количество знаков х1000, а по вертикали — количество комментариев.


Интересно, слабенькая корреляция все-таки есть. В правой части графика значения по оси Y выше, т.е. грубо говоря, чем длинне текст, тем больше комментариев.
0
3fonov #
Улучшенный вариант: habrahabr.ru/blogs/lj/78942/. Длина текста достаточно сильно влияет на количество комментариев.
0
pepelsbey #
Ожидал увидеть «лытдыбр» среди популярных тегов (
0
3fonov #
Он просто потерялся: habrahabr.ru/blogs/lj/78942/
+1
pepelsbey #
Некро-комментарий! :)
0
DrTenma #
А FOAF вы не собирали?
0
3fonov #
Нет, не собирал.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.