12 октября 2009 в 15:16

Анализ комментариев

Хотел опубликовать перед выходными, но я думаю, в понедельник тоже пойдет.
Ниже анализ комментариев к 212 топикам за неделю с 24 сентября по 30 сентября (даты приблизительные). Всего комментариев 14 423, средняя длина комментария 200,8 символов.

Отношение к окружающим


image
Выводы

  • вежливых в 7 раз больше;
  • о себе говорят в 45% случаев.


Самые популярные смайлики


Веселые
:) 2121
;) 316
=) 285
:-) 145
)) 81
))) 58
;-) 54
:)) 50
%) 35
:))) 29
=)) 25
^_^ 11
)))) 11
))))) 8
=))) 8
Не веселые
:( 130
=( 20
:-( 10

Выводы
  • на Хабре весело;
  • классический смайлик :-) теряет свою популярность.

Любимые числа


Место Кол-во Число
1 258 2
2 249 1
3 213 5
4 173 10
5 158 3
6 121 0 (ноль)
7 110 4
8 83 6
9 82 7
10 77 30
11 75 100
14 56 8
22 28 9

Выводы
  • Хабр — ИТ ресурс;
  • 8, и особенно 9 недолюбливают.

Оценки комментариев


Средняя оценка комментария +1,036.
Самые нелюбимые слова (слово встречается больше 50 раз, средняя оценка комментария)

image
Самые любимые слова (слово встречается больше 50 раз, средняя оценка комментария)

image
Выводы
  • Комментарии с картинками или кодом — это плюс.

Сначала я хотел поставить эти графики в начало, для привлечения внимания, но так и не понял, как их трактовать. Обратите внимание: «хабр» +2,57, «хабре» -0,85.

П.С. Базу комментариев можно скачать здесь (формат SQLite, ~8 Мб).
В какой блог лучше поместить? Перенес в блог Статистика
Денис Потапов @PatapSmile
карма
264,0
рейтинг 0,0
Обо всём и ни о чём
Самое читаемое Разное

Комментарии (30)

  • +6
    ИМХО
    Как по мне то очень любопытная статистика, но к сожалению вряд ли будет иметь какой-либо практический интерес.
    • +9
      все понял, добавил тег «Юмор».
  • +7
    Хабр, знает, интернет, пользователя :) и смайлики ))
  • +25
    >> Любимые числа

    Я удивлён — а где же 42??
    • –1
      и 100001001 нет в списке тоже :)
    • +6
      так же нет числа 100500!
      • +1
        over 9000 тоже нет :(
        • +1
          В выборке 4 раза встречается
  • +17
    Идеальный комментарий:
    Народ знает, интернет хочет пользователя.Ответ времени — момент. :)
  • +2
    Самое популярное слово в виде тега картики и стиля шрифта улыбнуло.
  • +8
    А почему закрытых blockquote больше чем открытых?
  • –9
    Попробуем:
    Интернет знает пользователя :)
    • +5
      Сейчас Вас и других «тестеров» заминусуют и у автора будет тема для новой статистики :)
  • +3
    Ну как в какой?..
    Конечно, в I ♥ Habrahabr!
    • +5
      НЛО уже среагировало.
  • –2
    )
  • –3
    Интересно)
  • +1
    во блин. веселый IT ресурс, где не любят 8 и 9, но любят троеточие и «над» =)))
  • +1
    Хорошо, что смайлик вида )))) не стал еще самым популярным :-)
    • +2
      (:
  • +3
    Странно не видеть распределение плюсов/минусов от длинны коммента.
    И вообще более сложный корреляционный анализ имел бы больше смысла. Например словосочетание слов наверняка более сильно коррелирует с оценкой чем просто слова eg «линукс гавно» и «линукс рулез». Тут еще важно расстояние между словами eg «ms гавно а линукс рулез» ну и так далее… :)

    PS. Статистика — она всегда такая — вроде как факт, но на самом деле хитро заныканная полуправда.
  • 0
    И не лень вам было все это считать? :-) (я пользуюсь классическим смайликом всегда)
  • 0
    Интересно, а почему смайл "))" в рейтинге смайлов на 5 месте, но единственный смайл в списке «любимых» слов? =))
    • 0
      Выходит, что только смайл «))» ставят в дельных комментариях))
  • +1
    А какое слово на диаграмме нелюбимых слов между «умеет» и «php»? Растризация шрифтов оставляет желать.
    <font… ))
    • 0
      Там «ms». Прошу прощения за качество, так и не разобрался как из ОпенОфиса нормально диаграммы экспортировать.
  • –1
    Момент пользователя знает интернет сети, хочет информации и ответ со стороны статьи хабра :)
    • +1
      Мда… Есть ложь, есть отьявленная ложь, а есть статистика…
  • +1
    из статистики по обращениям не нужно так прямо воспринимать обращение «Вы» это скорей всего гораздо чаще сарказм чем факт вежливого обращения))
  • 0
    За проделаную работу — 5, а вот слова «говорю» и «говорит» можно было бы и склеить… Ну это так от морфоанализа потянуло:)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.