Анализ статей Хабрахабр и Geektimes



    Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске. UPD: по поводу расчета рейтинга — я тоже ошиблась при расчете. Тут в обсуждении OsipovRoman пишет, что отличия небольшие.

    Результаты обработки данных


    Анализ хабов


    Распределение количества хабов, в которых размещена статья:


    Самые большие хабы по количеству статей:


    Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):


    Граф связей не делала, т.к. не собирала список хабов отдельно.

    Количество статей в зависимости от времени


    В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.

    Количество постов за месяц:


    За год:


    В хабе «Математика»:



    Хаб «Космонавтика»:



    Хаб «Хабрахабр»:



    Количество изображений (видео), используемых в постах в зависимости от времени










    И в отдельных хабах:







    Облака ключевых слов и отдельных хабов


    Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:



    Хаб «Математика»:


    Хаб «Программирование»:


    Хаб «Java»:


    Хаб «Open source»:


    Хаб «Машинное обучение»:


    Сайты, на которые ссылаются в статьях



    Убираем Хабрахабр как источник ссылок:


    В хабе «Математика» (без Хабрахабра как источника ссылок):


    Хаб «Разработка под iOS»:


    Хаб ".NET":


    Коды, которые приводят в статьях


    Без SomeCode (если не указан язык программирования):


    В хабе «Алгоритмы»:


    В хабе «Программирование»:


    В хабе «Настройка Linux»:


    В хабе «Машинное обучение»:


    Частота встречаемости слов








    В хабе «Разработка под iOS»


    В хабе «Разработка под Android»:


    Частота употребления названий операционных систем в хабе «Open source»:


    И на Хабрахабре/Geektimes:


    Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений






    Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.

    Математическое ожидание: {25.6067, 13487.2}
    Среднеквадратическое отклонение: {35.9361, 28783.9}

    Вероятность, того, что пост наберет определенный рейтинг:


    Вероятность, того, что пост наберет определенное число просмотров:


    Зависимость рейтинга и числа просмотров поста от времени публикации


















    Зависимость рейтинга поста от его объема





    Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.

    Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:


    Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:


    Посты с максимальным количеством


    Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
    Комментариев: "Как раздавать инвайты на Google+"
    Рейтингом: "Делаем приватный монитор из старого LCD монитора"
    Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
    Просмотрами: "Взломать Wi-Fi за… 3 секунды"
    Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
    Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
    Текста: "Создаем клон Flappy Bird — Zombie Bird"
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама
    Комментарии 30
    • +12
      Ужас какой.
      • +5
        Очень много результатов, но мало предварительной обработки данных, в результате получаем отдельный анализ для «c++» и «си++», «java8» и «java 8» и т.п. В общем количество в радости, качество грустит.
        • +11

          Начало вроде интересное, но когда пошла детализация, остался лишь один вопрос — "зачем?!"

          • +2
            Предлагаю выложить датасет на data.world — GitHub для датасаентистов. В качестве бонуса получится на лету делать запросы любому пользователю.
            • +1
              К сожалению, не удалось загрузить файл — пишет слишком большой размер. (1,6 Gb)
              • 0
                Еще есть https://zenodo.org/ — лимит 50 гигов и заодно дает DOI
                • 0
                  Не везет мне с загрузкой датасета, дважды пыталась — выдает ошибку, загружает очень медленно.
            • +3
              Может я что-то не понимаю, но разве у заминусованной статьи рейтинг не отрицателен?
              Если отрицателен, то почему это не отражено в графиках и таблице?

              В частности в таблице «Вероятность, того, что пост наберет определенный рейтинг» для рейтинга 1 указано вероятность 1 (то есть 100%), получается рейтинг 1 минимально возможный?
              • 0
                Тоже обратил на это внимание… Подумал, что наверное проверялось «Какая вероятность, что рейтинг будет ниже». Тогда всё сходится.
              • +6
                Обычно такие «анализы» ценны выводом и результатами анализа.

                А тут просто «сырые данные» вывалены потоком, печалька.
                • +2
                  Хабр…
                  Пять лет назад никто не пытался провести анализ «кармадрочерства», ибо былии статьи и были пользователи с «инвайтом»! Не было ro плавно перерастающего в "отхабреный" и, извините, СРАЧЕЙ!
                  Теперь мы будем руководствоваться статистикой и «жамкать» на популярные темы?
                  Жаль…

                  ЗЫ: предчувствую свою карму в минус пятьсот:)
                  • 0
                    Хабр мертв, как мертва хабрадемократия — анархия IT гиков. Нынешний Хабр это просто коммерческий проект выпущенный под брендом того Хабра. Печально, но такова жизнь…

                    И знаете, меня это радует. Если что то мертво, то что то должно родиться.
                    • 0
                      Хабр-кз, Сохабр? Что именно?
                      • 0

                        OpenHabr или librehabr.
                        Опенсорс, с инвайтами и представителями второй по древности професии.

                    • +1
                      ro получили возможность писать только в 2016 году вроде ж.

                      Кармадрочерство?

                      Я бы сказал, что кармадрочерство, у тех, кто срет в карму.
                      Мне плевать, куда ущербные ту карму заминусуют. Просто, если срешь в карму, то хотя бы аргументируй.

                      Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)
                      А сейчас все по шаблонам. Инакомыслие подавляется.
                      • 0
                        Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)

                        Все мы становимся немножко старше.
                        … каждый день:)
                    • –4

                      Операционные системы:


                      • windows
                      • linux
                      • ios

                      IOS? Вы серьезно? Может все же MacOS?

                      • +3
                        Сделайте еще один анализ:
                        Сколько статей опубликовано в Блогах компаний, а сколько пользователями.
                        • 0
                          В блогах: 38067, пользователями: 227630. Это с учетом того, что одна и та же статья м.б. в разных хабах.
                          • 0
                            Ок.
                            Еще один тонкий момент.
                            Блоги были введены в каком-то недавнем году (т.е. не с самого начала образования Хабра).
                            Можно ли сделать отсечку по кол-ву постов с того времени.
                            Допустим Блоги были введены в 2012 году (условно).
                            Вот какое кол-во постов с 2012 года от пользователей и в Блогах компаний?
                            • 0
                              Если с 12 года включительно: блоги — 31413, пользователи — 153933.
                        • 0
                          В блоке ".NET" раздела «Сайты, на которые ссылаются в статьях» nuget.org встречается дважды :\
                          • 0
                            Самая большая проблема Хабра и Geektimes — система кармы. Тебе могут наставить минусов, что приведет к возможности комментирования раз в день. То есть из дискуссии ты практически выпадаешь.
                            Причем, ставят минусы откровенно зря. Высказали альтернативное мнение, не совпадающее с твоим — получай минус, гад.
                            Причем, дело даже не в политическом троллинге, рекламе и т.п. Можно просто рассказать свой реальный опыт и нахватать минусов.
                            Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов. В свои 20 ничего не добились, кроме доступа к редактированию кармы, и теперь тешут самолюбие.
                            • +1
                              Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов.

                              Читая комментарии подобные Вашему, складывается впечатление, что их оставляют неспособные корректно выражаться на публике д'Артаньяны с необъятным самолюбием. Высказываешься на острую тему — будь осторожен, тщательно аргументируй и не нахватаешь минусов в карму! Пишешь о своём опыте — будь осторожен с обобщениями. Я не сторонник такой системы кармы как на хабре и сам её не минусую почти (может раз или два за всё время) и система StackExchange мне больше нравится, но то, что люди не понимают, почему их минусуют меня искренне удивляет.
                              • 0
                                Почему-то на других форумах, такие д`Артаньяны никому не мешают. Только если человек совсем с катушек слетает и начинает слать нах, то его банят.
                                Обычно человек может спокойно донести свое, пусть и неправильное, мнение. Я бы понял, если бы комментирующие поголовно были бы заслуженными экспертами во всех вопросах. Но 80% комментирующих — такие дАртаньяны и есть. Просто много кто бережет свою карму, высказывает только социально-ожидаемые ответы.

                                Мое мнение: хватит уже играть в элитарный клуб. Выкиньте эту карму, будьте проще, и народ к вам потянется.
                                • 0
                                  Почему-то на других форумах, такие д`Артаньяны никому не мешают.
                                  Мешают, с ними не всегда борются, но борются, к примеру, на StackExchange.
                                  Обычно человек может спокойно донести свое, пусть и неправильное, мнение.
                                  Может, согласен, но очень часто люди ленятся качественно излагать, а иногда намеренно провоцируют («авторский стиль»). По этой причине на некоторых ресурсах людей всячески стараются стимулировать писать меньше, но лучше.
                                  Но 80% комментирующих — такие дАртаньяны и есть.
                                  Люди почти не бывают черными или белыми. Некоторые люди иногда излагают с позиции д'Артаньяна время от времени. Не хочу давать количественную оценку, сколько таких постов, но для меня, чтение д'Артаньяновских постов — это пустая трата времени. Я понимаю, что без прочтения таких пустых постов не добраться и до ценных, но предпочитаю, что бы мне приходилось тратить на это как можно меньше времени.
                              • +1

                                Проблема в том, что карма — оторванная от чего-либо сущность и функция случайных заходов в профиль, но которая почему-то влияет на ограничения пользователей. Самый большой абсурд — то, что карма совершенно оторвана от оценок за публикации, которые и являются целью ресурса. Если вам понравилась статья, надо нажать отдельно плюс за статью, и отдельно — в карму, чего конечно никто не делает (наблюдается только статистическая погрешность).


                                Раньше карма играла роль самомодерации, но сейчас это бесполезная функция. У Хабра есть своя модерация, и только она может отправить в то же r/o.


                                Не менее абсурдно существования клона кармы — рейтинга, который подсчитывается примерно так, как и должна по идее подсчитываться карма за исключением затухания со временем.


                                Я писал ещё Шухарту много лет назад, что систему надо менять, причём многие моменты из того, что я писал, за это время были учтены, но главное ТМ (читай: Денискин) менять боятся.

                                • 0
                                  1. Пишешь комментарии как хочется
                                  2. Сливаешь себе карму
                                  3. Пишешь хорошую статью — поднимаешь карму
                                  4. См. п. 1

                                  И статей вне блогов на хабре станет больше, и мнение выражать можно свободно — идеальная схема
                                • +1
                                  Странно, почему из ссылок убрали habrahabr, но оставили habrastorage. Логичнее было бы убрать и то и другое.
                                  • +1
                                    Сегодня случайно наткнулся на вашу статью. Рад, что вам понравился мой пост и вы продолжили исследование.

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.