войти зарегистрироваться

ЖЖ whois

индекс
69,61

Статистика записей Живого Журнала

top
Под катом небольшое статистическое исследование, которое может быть просто интересно, а может быть полезно тем, кто разрабатывает или поддерживает сервисы на основе Живого Журнала.
Вторая версия исследования.

Метод исследования


Для исследования были взяты дневники пользователей со страницы статистики. По пять дневников с каждых 10 страниц. Всего было извлечено 200 пользователей. У каждого были загружены все записи с 1999 года за исключением подзамочных и 18+. Вышло 190 439 записей. Из записей, в свою очередь, были извлечены заголовки, теги, текст без HTML-разметки и количество комментариев. Выборка не очень большая, меньше процента, но  достаточно репрезентативная в качестве основы, на которой можно проектировать сервисы для ЖЖ. В некоторых графиках были исключены пользователи первой пятерки, т.к. создавали очень большой шум. :) Итак, поехали.

Записи


Наличие заголовка

TitleNoTitle
Зеленый — есть, серый — нет.

Длина заголовка в символах

TitleLength

Длина записи в символах

ArticleLength
Один столбик — 1000 символов.

Статей в месяц

ArticlesPerMonth

По дням недели

PostDayOfWeek

По часам

PostHour

Теги



Есть или нет?

TagNoTag
Зеленый — есть, серый — нет.

Количество тегов

TagsCount

Длина тега

TagLength

Популярные теги

PopularTags

Комментарии



Количество комментариев к записи

CommentsCountLine

Количество комментариев к записи в виде пирога

CommentsCountPie

Количество комментариев от объема текста

 CommentsTextLenght

Столбик — 1000 символов.
80 000 — глюк: в текст записи запарсились сами комментарии.

П.С.


Надеюсь, что этот анализ был кому-нибудь интересен. А может он даже сделает какой-то проект чуточку удобнее. Я с удовольствием извлеку другие метрики из базы, если они кому-то понадобятся.

П.П.С.


К следующей неделе сделаю более репрезентативную выборку из 10 000 пользователей с записями только по 2006 год.

комментарии (61)

  • теги есть или нет, наличие заголовков есть или нет, можно было подписать какая часть на графике к чему относиться. Хотя и так можно догадаться.
    • Сорри не заметил в рисунке про наличие заголовков подпись, сначала заглянул на теги есть или нет, так как больше интересовало.
      • Все равно добавил. :)
  • «Длина» с одним н.
    • Спасибо, исправил.
  • Оченно интересно!!!
    а соц-дем можно из БД извлекать?
  • Фото Уфа — интересный тег.
    • Это, видимо, погрешность выборки. Попался журнал у которого 925 записей помечены тегом Фото Уфа.
      • Но приятная погрешность, я так даже горд стал за нашу Уфу :)
      • Дама, ведущая этот дневник — молодец. Так здорово повлиять на статистику в одиночку — надо уметь!
  • Казахстан упоминается в тегах чаще чем жизнь — жизненно ;)
  • Всего было извлечено 200 пользователей

    Как-то слабовато для исследований. И какой смысл грузить записи от 1999 года? Уже давно другие тренды и другие пользователи. Так же, ничто не мешает этим же алгоритмом проанализировать 2000 и даже 20000 пользователей. Так что задумка хорошая, но делать какие-либо выводы по этой статистике, мягко говоря, сложно. Может быть, я не уловил тайный смысл данного исследования… Поэтому очень хочется узнать — зачем это было сделано?
    • Не мешает ничего, кроме времени: у меня загрузка 200 000 страниц заняла сутки. Я не готов ждать 10 дней.

      К вопросу «для чего». Это будет оффлайн-агрегатор для ЖЖ, который будет позволять скачивать дневники полностью. Поэтому мне была интересна общая статистика за все время существования ЖЖ.
      • Зачем вообще нужна статистика, если ее составитель «не готов» сделать ее сколь-нибудь репрезентативной?
        • Мне кажется, что длина заголовков или среднее количество тегов несильно изменятся, если увеличить выборку. Мне это нужно для того, чтобы сразу избежать каких-то явных ляпов в интерфейсе: что-то расползлось или висит в воздухе.

          Она ответила на интересующие лично меня вопросы и я решил просто поделиться с другими. ;)
        • Появилась более репрезентативная версия: habrahabr.ru/blogs/lj/78942/
      • Такие аггрегаторы уже существуют.
        Погуглите на тему
        • Не видел ни одного, который бы не сохранял мне тонну хтмл-ок на диск, имел бы поиск и пр.
  • Особенно интересно выборка по дням недели. Чтобы не делал — ты лишь статистика.
  • Пожалуй, что для полноценной статистики 200 пользователей все-же маловато, особенно если учитывать сегментацию. У вас всего один пользователь внес весьма существенную и заметную погрешность. Неплохо бы хотя бы 10-20 тысяч, хотя понятно что для этого нужны другие мощности.
    И вам правильно сказали про 1999 год, исследовать нужно последние года 2-3 не дальше.
    • Я с вами полностью согласен, что маловато. Остальную статистику соберут будущие пользователи, надеюсь. :)
      В моем случае нужно было скачать весь журнал целиком. Поэтому мне интересны записи с 1999 года. Мне кажется, что длина заголовков или среднее количество тегов несильно изменятся, если увеличить выборку. Мне это нужно для того, чтобы сразу избежать каких-то явных ляпов в интерфейсе: что-то расползлось или висит в воздухе.
      • Мне были бы интересны тренды по временной линии — как менялась длина заголовков, размер постов, число комментариев и остальные метрики за 10 лет
    • 10 000 пользователей и 1 777 308 записей: habrahabr.ru/blogs/lj/78942/
  • оф, какой инструмент использовали для отрисовки?
    • Графики в Иллюстраторе + доводка каждого напильником.
  • Статистика это всегда интересно. Спасибо.
  • Интересно.
    А почему отбор был таким:
    5 пользователей со страницы и их посты до 1999-ого года,

    а не таким:
    Каждый второй пользователь, но посты, допустим за последние 4-6 лет.

    Цифры у меня взяты с потолка, но мне кажется, что лучше взять больше разных пользователей и менее длинный период времени, чем исследовать долгий период некоторой их части. Стиль написания у одного человека достаточно константен, либо циклично повторяется.
    • Меня прямо подвигают на повторное исследование. :) А про пять — мне хотелось, чтобы попала первая пятерка.
      Запущу тогда дома на пару дней и посмотрим на сколько изменяться результаты.
      • Спасибо, я слишком поздно заметил, что уже про это спрашивали. Ждем новых результатов, будет интересно сравнить с этими.
  • А у Вас остался кэш, можно еще раз пробежаться по страницам?
    Мне вот, например, интересно было бы посмотреть статистику не по сообщениям <1000 символов, а <140 (сравнение с твиттером) или <160 (с sms), что-то мне подсказывает, что твиттер уже давно существовал в рамках жж.
    • Уже убил. Через пару дней можно будет. Учту ваше пожелание.
    • ЖЖ и вправду сильно напоминает твиттер по количеству символов: habrahabr.ru/blogs/lj/78942/
      • О, ничего себе. Сейчас почитаем :)
  • Извините, а за такие графики не положено отрывать руки?

    • А чем он плох? Может и положено. :)
      • Мне казалось, что график должен быть информативен. Главной задачей графика является быстро донести информацию в виде, который легко воспринимать и анализировать.
        Было бы интересно смотреть не на 1стоблец, из которого понятно, что более 1000 знаков никто не пишет, а на 15столбцов с шагом 100символов.
        Было бы интересно смотреть не на шкалу от 0 до 20 по тегам, где дальше 5и — пустота, а на шкалу от 0 до 5, зато это было бы понятно.
        • Вот эти хороши





          • p.s. предыдущий ответ отправился случайно =(
        • Оба графика несут информацию.
          Первый говорит о том, что есть записи более 50 000 знаков. А шаг в 100 символов тоже очень велик для того, чтобы увидеть что-то отличное от резкого снижения.

          Второй говорит о том, что больше 20-ти тегов быть не может. Это физическое ограничение ЖЖ. Поэтому шкала от 0 до 5 скрывала бы данные.

          Но я согласен с тем, что выглядит это не лучшим образом. Постараюсь исправить в версии 2.0
          • Было бы разумно пренебречь этими результатами, если таких постов менее 1%.
            А если хотелось всё таки разместить шкалу на 20 делений, то зачем было ужимать её в 2.5 раза, по сравнению с другими графиками?
            • А мысли так и лезут в голову…
              Еще мне кажется, что данные за 1999 год не актуальны.
              Тем более, вы их предлагаете использовать для анализа ситуации в данный момент.
              Информация была бы намного актуальнее, если бы взять 20 000 пользователей и рассматривать 10 их последних постов.
              • Эти два графика частично исправил. Про актуальность почитайте комментарии выше и П.П.С.
    • На этих графиках просто слишком «тыжелый хвост». В таких случаях нужно сделать ось X логарифмической, это как бы «растянет» данные по графику и сделает его более читаемым. Если нужно, могу показать пример с теми же данными на простом графике и на графике с логарифмической осью X.
      • Хвост поправил. А суть логарифмического графика я плохо понимаю. На мой взгляд он будет искажать отношения.
        • Вот пример двух графиков для тех же самых данных. Обратите внимание на шаги по оси X на втором графике — они не линейные, а логарифмические. На втором графике видно, что основная часть данных лежит в интервале от 0.01 до 100. На первом графике этого разглядеть невозможно. Поэтому я и советую вам использовать логарифмические графики в тех двух случаях — они будут гораздо лучше читаться.

          • Понял. Я сперва подумал, что по оси Y. Осталось понять как заставить иллюстратор такое сделать. Или SQL.
            • Тут я к сожалению не могу вам помочь, т.к. я не знаком с инструментом которым вы пользуетесь. Если эти графики (кстати, они называются гистограммы — histograms) рисуются при помощи какой-нибудь функции типа histogram(data), то можно попробовать просто histogram(log10(data)) или что-нибудь в этом роде.
              • Спасибо. В во второй версии посмотрю.
            • Можно воспользоваться общепринятыми способами и построить графики в Excel, который под это заточен.
  • добавь:

    (-:
    • Не понял :-)
  • Пара комментариев по оформлению графиков. У вас практически нигде нет рисок с подписями на осях. Например на графике «Длина заголовка в символах» нужно по оси X проставить риски через каждые 10 или 20 единиц. Аналогично из графика «По дням недели» понятно лишь что в среду чуть больше записей чем, например, во вторник. Если вы по оси Y проставите риски со значениями, то сразу станет понятно, сколько же в среду публикуется записей.

    Если вы собираетесь продолжить анализ, то предлагаю вам углубиться в изучение данных. То что вы представили это как бы описание основных параметров данных, из этого как правило не получается сделать интересные выводы. Все станет гораздо интереснее если вы найдете какие-нибудь неожиданные корреляции. Например верна ли гипотеза, что чем длиннее заголовок, тем больше комментариев? Или влияет ли объем текста на колличество комментариев? Эти утверждения я привожу здесь лишь в качестве примера. Как мне кажется вы попытались сделать что-то в этом роде на последнем графике, но я его, если честно, не понял. Чему соответствуют оси (еще раз возвращаемся к вопросу об оформлении осей)?
    • Про последний график. Он неточен в плане данных: в части записей комментарии распарсились и стали текстом заметки. А вообще по горизонтали отложено количество знаков х1000, а по вертикали — количество комментариев.

      Про анализ. Мне не интересны какие-то интересные (-: корреляции. Мне нужно было решить конкретную задачу: спроектировать интерфейс. Для этого мне понадобились конкретные данные: длина заголовков, количество тегов, объем текста.

      Про оси. Данные графики в своей массе показывают экстремумы значений. Мне было все равно сколько записей имеют в заголовке 7 букв. Мне важно, что большинство имеют около 14.

      Но с новой выборкой (10 000 ников уже загрузил ;-) ) я попробую найти какие-нибудь интересные закономерности.
      • А вообще по горизонтали отложено количество знаков х1000, а по вертикали — количество комментариев.


        Интересно, слабенькая корреляция все-таки есть. В правой части графика значения по оси Y выше, т.е. грубо говоря, чем длинне текст, тем больше комментариев.
        • Улучшенный вариант: habrahabr.ru/blogs/lj/78942/. Длина текста достаточно сильно влияет на количество комментариев.
  • Ожидал увидеть «лытдыбр» среди популярных тегов (
  • А FOAF вы не собирали?
    • Нет, не собирал.
Только авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста.