Под катом небольшое статистическое исследование, которое может быть просто интересно, а может быть полезно тем, кто разрабатывает или поддерживает сервисы на основе Живого Журнала.
Вторая версия исследования.
Метод исследования
Для исследования были взяты дневники пользователей со страницы статистики. По пять дневников с каждых 10 страниц. Всего было извлечено 200 пользователей. У каждого были загружены все записи с 1999 года за исключением подзамочных и 18+. Вышло 190 439 записей. Из записей, в свою очередь, были извлечены заголовки, теги, текст без HTML-разметки и количество комментариев. Выборка не очень большая, меньше процента, но достаточно репрезентативная в качестве основы, на которой можно проектировать сервисы для ЖЖ. В некоторых графиках были исключены пользователи первой пятерки, т.к. создавали очень большой шум. :) Итак, поехали.
Записи
Наличие заголовка
Зеленый — есть, серый — нет.
Длина заголовка в символах
Длина записи в символах
Один столбик — 1000 символов.
Статей в месяц
По дням недели
По часам
Теги
Есть или нет?
Зеленый — есть, серый — нет.
Количество тегов
Длина тега
Популярные теги
Комментарии
Количество комментариев к записи
Количество комментариев к записи в виде пирога
Количество комментариев от объема текста
Столбик — 1000 символов.
80 000 — глюк: в текст записи запарсились сами комментарии.
П.С.
Надеюсь, что этот анализ был кому-нибудь интересен. А может он даже сделает какой-то проект чуточку удобнее. Я с удовольствием извлеку другие метрики из базы, если они кому-то понадобятся.
П.П.С.
К следующей неделе сделаю более репрезентативную выборку из 10 000 пользователей с записями только по 2006 год.
комментарии (61)
а соц-дем можно из БД извлекать?
Как-то слабовато для исследований. И какой смысл грузить записи от 1999 года? Уже давно другие тренды и другие пользователи. Так же, ничто не мешает этим же алгоритмом проанализировать 2000 и даже 20000 пользователей. Так что задумка хорошая, но делать какие-либо выводы по этой статистике, мягко говоря, сложно. Может быть, я не уловил тайный смысл данного исследования… Поэтому очень хочется узнать — зачем это было сделано?
К вопросу «для чего». Это будет оффлайн-агрегатор для ЖЖ, который будет позволять скачивать дневники полностью. Поэтому мне была интересна общая статистика за все время существования ЖЖ.
Она ответила на интересующие лично меня вопросы и я решил просто поделиться с другими. ;)
Погуглите на тему
И вам правильно сказали про 1999 год, исследовать нужно последние года 2-3 не дальше.
В моем случае нужно было скачать весь журнал целиком. Поэтому мне интересны записи с 1999 года. Мне кажется, что длина заголовков или среднее количество тегов несильно изменятся, если увеличить выборку. Мне это нужно для того, чтобы сразу избежать каких-то явных ляпов в интерфейсе: что-то расползлось или висит в воздухе.
А почему отбор был таким:
5 пользователей со страницы и их посты до 1999-ого года,
а не таким:
Каждый второй пользователь, но посты, допустим за последние 4-6 лет.
Цифры у меня взяты с потолка, но мне кажется, что лучше взять больше разных пользователей и менее длинный период времени, чем исследовать долгий период некоторой их части. Стиль написания у одного человека достаточно константен, либо циклично повторяется.
Запущу тогда дома на пару дней и посмотрим на сколько изменяться результаты.
Мне вот, например, интересно было бы посмотреть статистику не по сообщениям <1000 символов, а <140 (сравнение с твиттером) или <160 (с sms), что-то мне подсказывает, что твиттер уже давно существовал в рамках жж.
Было бы интересно смотреть не на 1стоблец, из которого понятно, что более 1000 знаков никто не пишет, а на 15столбцов с шагом 100символов.
Было бы интересно смотреть не на шкалу от 0 до 20 по тегам, где дальше 5и — пустота, а на шкалу от 0 до 5, зато это было бы понятно.
p.s. предыдущий ответ отправился случайно =(
Первый говорит о том, что есть записи более 50 000 знаков. А шаг в 100 символов тоже очень велик для того, чтобы увидеть что-то отличное от резкого снижения.
Второй говорит о том, что больше 20-ти тегов быть не может. Это физическое ограничение ЖЖ. Поэтому шкала от 0 до 5 скрывала бы данные.
Но я согласен с тем, что выглядит это не лучшим образом. Постараюсь исправить в версии 2.0
А если хотелось всё таки разместить шкалу на 20 делений, то зачем было ужимать её в 2.5 раза, по сравнению с другими графиками?
Еще мне кажется, что данные за 1999 год не актуальны.
Тем более, вы их предлагаете использовать для анализа ситуации в данный момент.
Информация была бы намного актуальнее, если бы взять 20 000 пользователей и рассматривать 10 их последних постов.
(-:
Если вы собираетесь продолжить анализ, то предлагаю вам углубиться в изучение данных. То что вы представили это как бы описание основных параметров данных, из этого как правило не получается сделать интересные выводы. Все станет гораздо интереснее если вы найдете какие-нибудь неожиданные корреляции. Например верна ли гипотеза, что чем длиннее заголовок, тем больше комментариев? Или влияет ли объем текста на колличество комментариев? Эти утверждения я привожу здесь лишь в качестве примера. Как мне кажется вы попытались сделать что-то в этом роде на последнем графике, но я его, если честно, не понял. Чему соответствуют оси (еще раз возвращаемся к вопросу об оформлении осей)?
Про анализ. Мне не интересны какие-то интересные (-: корреляции. Мне нужно было решить конкретную задачу: спроектировать интерфейс. Для этого мне понадобились конкретные данные: длина заголовков, количество тегов, объем текста.
Про оси. Данные графики в своей массе показывают экстремумы значений. Мне было все равно сколько записей имеют в заголовке 7 букв. Мне важно, что большинство имеют около 14.
Но с новой выборкой (10 000 ников уже загрузил ;-) ) я попробую найти какие-нибудь интересные закономерности.
Интересно, слабенькая корреляция все-таки есть. В правой части графика значения по оси Y выше, т.е. грубо говоря, чем длинне текст, тем больше комментариев.