Pull to refresh

Comments 93

Договор с дьяволом за первое место по карме?:)
Причем до десятых точность. Корпорация зла все-таки палится.
Он — воин хаоса, евангелист майкрософта на Хабре.
UFO just landed and posted this here
Просто у таких людей карма редко меняется, так как за то время что он на сайте, по сути, все кто его видели, скорее уже проголосовали, либо + либо -, но проголосовали, а голосовать можно один раз.
Я за ней уже давно наблюдаю. Иногда она на 1-2 единицы уходит от этого числа, но всегда находятся добрые люди, которые быстро её обратно вытягивают.
И как же сложно ее поддерживать на таком уровне…
За каждый ПЛЮС, надо сразу же где то выхватить МИНУС, чтобы не спугнуть такие цифры
У меня два вопроса:
1. Почему суммы за 0-6 и 6-12 месяцев кое-где не сходятся с цифрами за "< 1 года"?
2. Где же самое интересное — исходный код с пояснениями? ;)
1) Хм… напишите в личку, где не сходятся. Всё делал в экселе с проверками, где только можно. Скорее всего опечатка.
2) Код парсера? он несложный, поэтому решил не выкладывать. Да и тематика блога — статистика.
Алгоритм таков:
а) тянем все страницы из инета и сохраняем локально (это самая долгая часть);
б) параллельно с этим можно начинать парсить то, что сохранили.
Подводные камни:
Первый раз не проверил, правильно ли распарситься карма с минусом через преобразования типа $x = (float)$text. В результате потратил кучу времени на неправильный парсинг данных. Исправил, запустил опять, и снова fail — нужно было в числе запятую заменить на точку. Только после двух неудачных попыток решил сохранять страницы локально.
>на 1 тролля
я так-то хотел написать умный коммент, но прочитав это, решил что ваш топик пока этого недостоин.
UFO just landed and posted this here
Денис Попов вне конкуренции :)
Ой, уберите текстовые размышления — они неправильные, имхо. Вы посчитали всех когда-либо зарегистрированных пользователей, а рассуждаете так, словно смотрите на данные только за последние дни.
Если вы о блоке про хабрадинамику, то я поэтому и назвал этот подраздел «псевдонаучно о..». Решил немного разбавить сухие цифры. Но если она действительно никак не вписывается, то уберу.
В первую очередь я это к разделу «Численность».
Спасибо. Надеюсь, я то убрал?:)
Да и эти два предложения тоже странные. Опять же, имхо. Тут как бы график скорее говорит о том, что пик регистраций был 3-4 года. Хотя опять же не знаю, учитывали Вы активность или нет. Если учитывали, то тогда я в своём «имхо» неправ.
Мм, в разделе численность я рассматривал именно численность, активность в расчет не брал. Цель была просто показать количество аккаунтов в той или иной возрастной группе. Чтобы учесть активность, нужно ещё парсить хабрацентры (даты, когда человек был последний раз на сайте), но этого в расчёт не брал, так что, наверное, в этом ключе ваше «имхо» право:)
Простите, а чем осуществлялся подсчёт данных?
image
Группа "< 1 года" обобщает первые две группы.
Можно ещё гендерный признак как-нибудь в это всё вплести)
Я это включил в планы — заключительная часть, пункт «в-третьих». Идея сама по себе интересная:) Думаю, процент отхабренных девушек будет меньше отхабренных мужчин.
p.s^ Не смог реализовать, потому что парсил только страницы с рейтингом, а там личной информации минимально.
Можно будет узнать, кто чаще троллит — дамы, или господа)

Если к этому ещё и «По городам/странам» приписать, можно будет узнать, в каком городе самая высокая популяция самок троллей.
Эк вас понесло:) Боюсь, что для этого придется просить статистику у хабраадминистрации: далеко не все указывают страну, не то что город.
В-третьих, распарсить все хабрацентры и составить статистику по настоящим возрастным группам, а также по дополнительным параметрам — количество «легенд», «авторов» и других статусов, наиболее часто встречаемые имена и фамилии.


А если у человека в настройках приватности активна опция
«Показывать значки в профайле: всем / только себе», это же отразится на результатах подсчёта?
Очевидно, что да. Но ведь статистика, она всегда немного врёт. Чисто с бытовой точки зрения, значки целесообразно прятать только троллям, но их можно и по карме выявить.
С этим могут быть проблемы. Я сам как-то парсил первую 1000 хабралюдей. Решение о принадлежности к тому или иному полу принималось на основе названия ссылки на публикации: «его» или «ее». Проблема в том, что значительный процент людей (около 30%) не указал свой пол, но ссылка отображается как «его». В единичных случаях пол может быть указан неверно. Такое тоже попадалось.
Тогда, видимо, придется отказаться от пола или делать частичную выборку. Идея определять пол по «его»/ «её» хороша.
Не знаю, насколько она хороша, но других вариантов я не нашел.
Есть вариант парсить комментарии и статьи человека на наличие фраз, определяющих его пол
Интересно, а я считаюсь активным? У меня акку чуть больше 3-х лет и карма чуть меньше пяти)
Повторюсь, этот фрагмент шуточный. А активными обозначил тех, кто теоретически может опубликовать статью (карма > 5). По этой терминологии вы не активны:) Вообще, конечно, активность надо по рейтингу определять.
Сумма кармы первых тысячи человек составляет примерно 20% от суммы по всему хабру

Почти как с распределением денежных благ в РФ )
Парето намекает, что так происходит вообще почти со всеми подобными распределениями.
интереснее проанализировать динамику появления постов на главной: иногда бывает встретишь пост в новых, а потом он через несколько дней на главной оказывается, невольно задаешься вопросом неужели так много людей просматривает ленту новых на пару дней назад или это (о ужас) накрутки на хабре:) можно построить конспирологию кого и на какие темы накручивают)
Не думаю что накрутки. Обычно новая хабрастатья в первые минуты жизни подвергается бурному голосованию. Положительные оценки компенсируются отрицательными. Через сутки, когда страсти улягутся, в минус почти не голосуют — минусяторы в это время бросаются на более свежую жертву. Зато по чуть-чуть растут плюсы от тех, кто вчера был занят и смог прочитать статью только через день или два.
Карма — ничто. В неё гадят нехорошие обиженные люди. Например сегодня я получил минус два голоса в карму (куда ж ниже! :) Запомнил что было 83 голоса потому, что как раз сегодня заходил в профиль, теперь там 85 голосов) за то, что написал, что подкасты — неудобно и долго. habrahabr.ru/company/nomobile/blog/117591/#comment_3827841

Продолжаете считать карму адекватным мерилом? Для любителей поднасрать — однозначно.
UFO just landed and posted this here
UFO just landed and posted this here
Заик трудно слушать, говорить с заиками — легко :)
Неужели? Я недавно общалась с одним очень выраженным заикой — так гораздо больше меня напрягло то, что он активно и на полном серьезе оперировал понятиями «субординация» и «подсидеть» (по отношению к третьему лицу).
(Если что, минусы не мои, я так, мимо пробегала :-))
UFO just landed and posted this here
UFO just landed and posted this here
Не знаю, по какой причине размазывается скриншот, но хочется поделится некоторыми соображениями по цифрам. По нажатию на скриншоте сможете просмотреть его в нормальном качестве.
image
А по-моему в 3-х летних куча ботов. Судя по количеству и средней карме. Когда там инвайты ввели?
где-то три года назад и случилось
Это вы кого сейчас ботом назвали? :))
Кстати, да. Подтвердить смогу после следующего сбора статистика (парсинга хабрацентра), но то, что много «странных» — это точно. Где-то в середине рейтинга есть часть людей, у которых непросто нулевые карма и рейтинг, но ещё и ни одного коммента / ответа на вопрос (за 3 года).
За три года ни разу не довелось плюсанють… хоть что-нибудь, пичалька. Моя требуэ понижения планки.
Старожилы сидят без кармы, ай-ай-ай, если бы не они, каким был бы хабр? :-)
Нужно анализировать только активных пользователей. С примесью мертвых душ неинтересно, погода на Марсе получается.

Активность можно определять по рейтингу или по дате последней активности.
Ага, я понял;) во второй части статистики обязательно учту. Спасибо!
рейтинг вверх, карма вниз… :)
что я делаю не так?
видимо, много глупых вопросов задаете :)
Хабар весьма забавное место. Здесь поощряется стадное мышление. А для того, что не раскрывать тайну «человек имеющий своб точку зрения» заменили на «тролль»(нет, много людей с этой плашкой действительно тролли, но карма не показатель). А для того, чтобы стадо не напрягало свой мозг совсем — добавили автоматическую выдачу плашек.
Даже будучи несогласным и имея свою точку зрения, это самую точку зрения можно выражать так, что у оппонентов не возникнет желания лезть в профиль и минусовать. Я не говорю, что надо своими комментариями ублажать всех, просто всегда стоит следить за своими комментариями и не грубить.
Расскажите нам еще что-нибудь захватывающее из разряда фантастики, пожалуйста
Ну почему фантастики, просто человек мыслит оптимистично и верит в людей, при этом он кажется реалист. Ну это все равно что — гопников можно и нужно пытаться наставлять на путь истинный кротким словом, но это не избавляет он необходимости носить с собой кастеты ;).
Если взять чистую статистику, то юзер написал 300 комментариев за 5 лет. За это время поведение пользователей на хабре менялось примерно 3 раза, приходили другие люди, другие уходили. У меня цифра комментариев немного больше, поэтому с точкой зрения автора комментария не согласен или согласен, но в малой доле.
Спасибо, что не поленились заглянуть в мой профиль :) Просто я предпочитаю больше читать, чем писать. Порой даже если и не согласен, то ленюсь написать коммент, так как понимаю, что завяжется бесполезный спор, который ни к чему не приведет.
Выходит вы выбираете вменяемых оппонентов, естественно ваша статистика покажет всегда + :)
Ага, для каждого случая необходим свой подход. И к гопникам, и к троллям :)
Желание возникнет обязательно, это от человека зависит. Например, моя карма за 2 комментария в этом посте пострадала. Главное, не особо заморачиваться по поводу цифр в профиле.
Что-то и мне захотелось похабрастатистить, график зависимости рейтинга от позиции в рейтинге(взяты первые 400 позиций):


Парсилось все небольшим скриптом на питоне:
rating=[]
... for i in xrange(1, 5+1):
... adr="http://habrahabr.ru/people/page"+str(i)+"/"
... page = urllib2.urlopen(adr).read()
... page = page.replace(u'</scr"+"ipt>',"
")
… soup = BeautifulSoup( page )
… for j in soup.findAll(«td», «userrating»):
… rating.append( j.contents[0].contents[0])

Визуализировалось с помощью matplotlib.
Кстати, была мысль сделать такой график, но относительно кармы, получилось довольно скучно — монотонно убывающая почти прямая.
Очень здорово было бы сделать специальный сайт, на котором можно было бы в любой момент получить текущий срез. Если эту идею осуществить, то несложно будет добавить сохранение срезов (например, раз в день) и выводить статистику в динамике — как менялись разные показатели с течением времени.
товарищи администрация, рассказывайте как (когда, что, регулярность) вас можно парсить, чтобь не попасть в немилость (не завалить чтонить)?!
В идеале эта просьба должна звучать как «Товарищи администрация, рассказывайте, когда у хабра будет нормальный API?».
не спешите, ФБ тоже не день строился — зато сейчас их смело можно матюкать за 3 вида апи и кучу недокументированных фич.

ЗЫ отправил письмо чипу и дейлу, мож чего расскажут
ЗЗЫ тут не зря есть раздел DIY — это какбы намекает
а чтобы вы хотели видеть в хабровском API?
Интересно, что нету ограничения на количество документов в минуту. Т.е. волнует вопрос: могу ли я одномоментно обратиться к 3 тысячам документов? При этом правило «обращение к 1 документу не чаще 1 раза в минуту» будет соблюдено.
Не нашел в статистике тех, у кого и рейтинг и карма
мм, имеете в виду нулевые рейтинг и карму? Можно начать смотреть отсюда.
Я извиняюсь, почему-то пост обрезался (на символе
Я опять извиняюсь, посты режутся на математическом символе «меньше» (символ начала тега). Как я понимаю, это связано с запретом тегов для минусовой кармы.
Я имел ввиду тех, у кого и рейтинг и карма меньше нуля. Или они в категории нулевых?
Нет, этот показатель я и правда забыл посмотреть. Если интересно, то их — 5272 человека, т.е. 8,7% от всей аудитории. Спасибо за хороший вопрос! ;)
p.s^ для символа "<" используйте соответствующую html-сущность — &lt; (для знака > — &gt;)
Спасибо, надеюсь администрация в курсе данной фичи, и что чайники вроде меня могут генерить обрезанные посты.
Думаю, они в курсе. Парсеру сложно разобраться, где символ открывающегося тега, а где знак "<". Если задуматься, хабр делает благородное дело — обучает основам вёрстки, что бы будущий программист не умер от безработицы с голоду:)
Феерично :) раньше просто пузомерки были, теперь вокруг них чуть ли НИИ строят :)
Автор, в чём соль вашего титанического труда по выявлению средней температуры по больнице?)
Во-первых, труд не такой уж и титанический: час на вытягивание страниц, полчаса на парсинг, два вечера на подведение результатов и составление диаграмм.
Во-вторых, если, честно, не вижу ничего фееричного — просто статистика, кое-какие цифры. К тому же, в разделе «Предыстория» всё сказано: получение опыта парсинга (нужен для одного текующего проекта), ответ на вопрос про распределение кармы. А здесь делюсь результатами работы.
В-третьих, мне нравится наблюдать за людьми и искать какие-то закономерности в их поведении. Фактически, данный топик — это первый блин, проба сил и проверка хабраинтереса к подобной статистике. В следующий раз попробую написать что-то поинтереснее. Даже, может быть, вам понравится;)
Sign up to leave a comment.

Articles