Пользователь
0,0
рейтинг
23 октября 2013 в 15:03

Разработка → Кто живет в соцсетях?


Как бы ни гремели скандалы про PRISM, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё: какие котята нравятся, с кем ты дружишь и почему с утра такой не выспавшийся.
Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом, и мне всегда хотелось её пощупать. С одной стороны, эти данные лежат вроде бы в открытом доступе, но просто взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно. К тому же, насколько я знаю, пригодных для машинного анализа наборов данных о соцсетях практически не существует. А для России — так и подавно.
Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.

О том, что удалось выудить из таких данных, и пойдет рассказ.

Как же так?


Признаюсь, это исследование далеко не первое. Соцсети (а особенно Фейсбук и ВКонтакте) открыто изучали уже много раз. И даже ваш покорный слуга писал статью про шесть рукопожатий, собрав для этого полный граф друзей из ВКонтакте.
Но не единым Вконтактом живет рунет. Хотелось заглянуть в то, что творится в других соцсетях, не менее обитаемых, а также понять отличия в их аудитории.

Сбор данных


Это наш не первый опыт сбора больших данных под покровом ночи. Так что в быстром темпе в пять рук на Qt/C++ и Python были написаны четыре паука, которые, неспешно прогуливаясь по отдельным соцсетям, записывали в базу все, что они встретили.
Разные соцсети по-разному относятся к парсингу. Проблемы возникали с Одноклассниками и Фейсбуком, у которых, как оказалось, есть довольно хитрая система детекта подозрительных ботов. К счастью, она по большей части нацелена на спамеров, а наши боты с этой точки зрения выглядят розовыми и пушистыми, и нам кое-как удалось настроить более-менее стабильный, хоть и очень медленный сбор.

Аналитика


Выкачать много данных — легко, всего лишь два месяца сбора. Но паранойя шагает по планете, и у большинства людей открытый профиль в соцсети выглядит очень скудно. Львиная доля информации доступна только лишь для друзей. Но дело в том, что сами-то друзья чаще всего открыты!
И на основании их можно вычислить довольно много интересного. К примеру, город, возраст и ВУЗ. Да и еще много чего. Для затравки покажу график зависимости реального возраста от медианы возрастов друзей:
image
Как можно догадаться, реальный возраст по большей части весьма связан с медианой возрастов друзей. Так что даже если вы параноик, то ваши друзья выдадут многое о вас просто своим наличием.

Для хранения и анализа мы решили, как большие мальчики, использовать HBase/Hadoop. Это стильно, модно, молодежно, к тому же уже был опыт дрессировки подобных технологий. В результате из того, что мы насобирали, были рассчитаны (т.е. либо приведены к единому виду, либо выделены из социальных связей) примерно 50 параметров. Недурно. Далее из общего набора данных была сделана случайная выборка по одному миллиону пользователей из каждой соцсети и тщательно проанализирована. Подобный финт был сделан для того, чтобы хоть немного нормализовать аудиторию разных соцсетей с разным количеством пользователей.
Далее, собственно, самое вкусное, что удалось выяснить.

Возраст


Для начала, было бы интересно узнать возрастную структуру разных социальных сетей.
В качестве возраста использовался либо сам возраст, если человек не постеснялся указать свой год рождения, либо его аппроксимация на основе даты окончания школы/ВУЗа. Подобный маневр был необходим по большей части из-за Вконтакте и Фейсбука, у которых точный возраст известен для 40% и 20% пользователей соответственно.
Получилась примерно такая картина.
image

Забавно. Увидев это, можно определенно заметить следующие особенности:
  • В Одноклассниках сидит публика постарше.
  • Те, кто помоложе, почти полным составом сидят ВКонтакте. Странный выброс в районе 14 лет объясняется тем, что самый последний год рождения, который возможно выбрать в профиле — 1999. Вот все, кто моложе, его и выбирают. Защита детей и маркировка 14+ в действии.
  • В Фейсбук люди идут уже в сознательном возрасте, младше 18 там почти никого нет.

А как дела обстоят с половозрастной структурой? Пол был либо взят как есть, если в соцсети вообще есть возможность его указать, либо рассчитан на основании имени следующим образом. Если большинство людей, носящих имя “Александр” — мужчины, то будем всех Александров с неизвестным полом считать мужчинами. Подобный подход работает для подавляющего количества имен, но имеет некоторые проблемы с Женями и Сашами.


Прекрасно. Я всегда это подозревал:
  • В Одноклассниках большая часть аудитории — женщины. Предлагаю администрации переименовать сеть в Одноклассницы, это будет ближе к правде.
  • В остальных соцсетях тоже чувствуется общий перевес в сторону женщин, но уже не такой фатальный.
  • Общий провал в количестве мужчин до 1976 года можно объяснить тем грустным фактом, что мужчины в среднем возрасте умирают раньше и чаще женщин. Полагаю, подобная зависимость отражает общую демографическую ситуацию для этой группы людей. Берегите мужчин.

Далее был рассчитан некий абстрактный показатель активности человек в соцсетях в виде набора нескольких правил: “есть аватарка”, “друзей более 50”, “недавно был в сети” и т.п. За срабатывание каждого такого правила в общую копилку профиля падало несколько баллов. И вот так выглядит распределение этого показателя по разным соцсетям:


Удивительно, но ВКонтакте просто фонтанирует молодыми и гиперактивными пользователями, запал которых угасает (или чутко перенаправляется в семейное русло) только к 35 годам. В Одноклассниках основная активность начинается аж в 30 лет. А в МойМир и Фейсбук в этом плане ситуация более плачевная — там болото.

Нецензурная лексика


Возраст и активность это конечно хорошо, но очень уж скучно. И для того, чтобы не уснуть, для каждого человека в выборке было рассчитано количество найденых в его постах матерных слов. Особенно забавно было составлять словарь таких слов. Размерность по оси ординат — количество слов на 10 последних постов.

Очевидно, что лет с 15 молодые люди смелеют настолько, что могут невозбранно материться прямо у себя на странице. Лично я свой первый “Х*Й” на школьном дворе написал еще в 12, но правда анонимно. Излияние нецензурной лексики продолжается эдак годов до 23-х. Потом, видимо, наступает серьезность и пора уже стать взрослым. Весьма капитанское утверждение, но теперь оно хотя бы доказано фактами.

Популярность имен


Теперь пришла пора препарировать имена. Мне всегда казалось, что имена имеют разную популярность во времени. Иногда прямо-таки чувствуется своеобразная мода называть детей как-то необычно. И теперь это можно увидеть своими глазами.

Тенденция налицо: популярные ранее имена стремительным домкратом теряют свою былую популярность.
  • К примеру, Александром в старые-добрые времена называли каждого восьмого мальчика, а теперь всего лишь каждого 50-го. Перевелись Александры нынче.
  • Популяция Владимиров стабильно сокращается вот уже 50 лет.
  • Заметны волны моды на имена Алексей и Игорь.

С женскими именами ситуация выглядит похожим образом:

В общем, тот же стремительный домкрат, но внимание стоит обратить на следующие особенности:
  • Популярные женские имена еще сильнее растеряли свою популярность, нежели мужские. Видимо, если рождается девочка, родители изо всех сил напрягают свою фантазию и изрыгают на свет Изольду, Мальвину или Даздраперму. Но если появляется мальчик, то чего напрягаться-то: и Александр сойдет.
  • Переломный момент с падением популярности приходится на конец 70-х и начало 80-х. Повеяло западом, оттепелью и вот результат: каждый родитель теперь соревнуется в оригинальности имен своих детей.

Модели телефонов


Идем далее. У всех постов на стене ВКонтакте есть забавная метка, если этот пост сделан с телефона под управлением iOS/Android. И это тоже можно (и даже нужно) проанализировать. Хочу отметить тот факт, что на графике по оси Y указана доля мужчин. Доля женщин, как вы можете догадаться, имеет очень простую зависимость от доли мужчин.

Интересно, но у iPhone явный перекос в сторону прекрасного пола, что неудивительно. “Папа, купи мне айфон, что я как дура тут хожу” — пожалуй, довольно популярная фраза, снящаяся в кошмарах многим молодым папам. А Андроид начинает пользоваться повышенным спросом у суровых мужиков за 30.

Семейное положение


Бабушка всегда говорила мне, что вот в ее времена быть холостым (или, что еще хуже, незамужней) в 25 было равносильно катастрофе. Что в дальнейшем, обычно, приводило к лекции на тему “жениться тебе надо, барин” и “все уже переженились, а ты один как сыч”. Мне всегда хотелось аргументов в этом споре, и теперь их есть у меня.
Хочу отметить, что семейное положение было проанализировано только среди тех, кто его указал.

Очень интересны следующие факты:
  • В 27 лет женаты только половина из тех, кто указал свое семейное положение. А вы-то говорили.
  • Молодежь чаще ходит в статусе “холост/не-замужем”, чем “встречается”. Ходит-ходит, а потом хлоп — и “женат/замужем”.

Вредные привычки


Теперь можно перейти к вредным привычкам: курению и употреблению алкоголя. Этот параметр есть только ВКонтакте, но многие его старательно заполняют, чем мы и воспользуемся.

Прискорбно, но любовь к алкоголю и курению только усиливается с возрастом. Некоторое плато наступает только аж к 30 годам, что несколько меня удивило. Где-то к 40 некоторые одумываются и пытаются исправить ситуацию, но уже поздно пить Боржоми.

Рост и вес


В МойМир в профиле есть забавные параметры: рост и вес. Не могу объяснить, чем руководствовался чей-то великий разум, который их туда добавил. Но параметры есть, и будет глупо их не разглядеть через призму нашего любопытства.

Я предполагал увидеть менее контрастный график. Но получилось именно так. Полагаю, объяснить эту странность можно тем, что женщины чаще гордятся своим небольшим ростом, а большой рост скрывают. У мужчин ситуация выглядит ровным счетом наоборот: стыдно на весь интернет признаться, что в тебе всего 150см, но если в тебе под два метра, то это должны узнать обязательно все.
С другой стороны, женщины в среднем ниже мужчин и все может быть гораздо проще.

С весом ситуация примерно такая же, как и с ростом. Женщины после 60кг резко перестают упоминать о своем весе. Зато мужчины — всегда пожалуйста. Сто двадцать? Да не проблема, хорошего человека должно быть много.

Вообще, взаимосвязь роста и веса описана во многих медицинских источниках. И на этом графике она налицо. Забавно отметить то, что низкорослые девочки обычно тяжелее мальчиков.

Пол


Еще когда я был маленьким, я всегда подозревал, что девочки чаще дружат с девочками. И в отместку им дружил по большей части с мальчиками. Полагаю, пришло время подтвердить эту тенденцию.

Да, можно заметить четкую связь с тем, что у девочек в друзьях девочки. Если вы обладатель мужского пола, а в друзьях у вас одни дамы, то у меня для вас плохие новости.

Лайки


Лайки — удивительная вещь. Еще шесть лет назад их не существовало, а теперь это неотъемлемый атрибут любой социальной сети.

Всегда подозревал, что прекрасный пол лайкают значительно чаще. И этот тренд продолжается чуть ли не до 30 лет, но потом потихоньку сходит на нет. С возрастом, к счастью, ценности меняются.
Лайк это феномен нынешних времен. Девушки нервно считают, сколько людей полайкало их новую аватарку с осенними листочками. а этим временем в голове моей звучит диалог: “Папа, а как ты познакомился с мамой?” — “Ну я полайкал ее аву, и тут понеслось”.

Политика


Как бы хабр ни был вне политики, она нынче сочится из всех щелей. В соцсетях даже поле специальное есть, описывающее политические взгляды, которое мы сейчас препарируем.

  • Лично я удивлен тем, что нынче существует столько людей, гордо отметивших свое равнодушие к политике. Количество таких людей плавно уменьшается с возрастом, но незначительно.
  • С возрастом количество консерваторов и либералов растет. Видимо, за счет людей с индифферентными политическими взглядами.

На этом красивые графики закончились. Но веселье — еще нет.

Данные


Создать такой чудесный набор данных для анализа и не поделиться им — преступление против человечества. Поэтому было решено выложить его в открытый доступ, но так, чтобы не задеть права и приватность людей, попавших в этот набор данных:
  • Профили анонимизированы, нет имени, фамилии, даты рождения, ВУЗа и адреса профиля. Теоретически некоторые из профилей возможно деанонимизировать, но это будет сделать довольно сложно.
  • Набор данных является семплом, объем которого ровно 4 млн. профилей, по 1 млн. для каждой соцсети.
  • Сбор и анализ этого добра, как мне кажется, удовлетворяет закону о персональных данных. Ключевые слова: общедоступные данные (пользователи это выложили сами), анонимизация (нет ФИО, даты рождения и т.п.), использование в научных некоммерческих целях.
  • Лицензия на данные: Creative Commons Attribution Shake-alike Noncommercial (CC-BY-NC-SA).
  • Данные в формате дампа для MySQL. В комплекте идет описание всех имеющихся полей.
  • В данных могут быть баги, я в этом просто уверен. Если вы нашли баг, то можете гордо поделиться им со мной в приватном сообщении.

Архив с данными, 7z, 135Mb в архиве, 1Gb в распакованном виде.

Вместо послесловия


Будьте аккуратнее с данными, которые выкладываете в сеть. То, что туда было однажды закачано, останется там на века. Так что берегите себя и свою приватность смолоду.
Семен Семенович @shuttie
карма
117,0
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (115)

  • –17
    Как то не очень весело смотреть на график возраста Вконтакте. Получается, что больше всего там 11-15 лет, и это один из самых больших социальных ресурсов с порно***фией. Какое то зло…
    • +27
      Интернет вообще полон этого «зла». Пора уже привыкнуть, что в современном информационном мире бесполезно ограждать детей от информации. Лучше заниматься их воспитанием и образованием.
      • +11
        Ограждать проще же. Наша дума плохого не посоветует.
      • –6
        Я и не спорю.
        Сам занимаюсь таким воспитанием. Если ребенок поймет почему это плохо, он не будет делать.
        Если его ограждать, интерес иногда только усиливается.

        Я не призываю убирать детей с контакта, я говорю о том что бы убрать порно с контакта. Или что, если мы воспитываем детей, то в порядке вещей выкладывать в соц. сети всякое «зло»?
        • +1
          Для начала в порядке вещей определиться плохо ли это. По российским законам плохо вроде как только незаконное порно выкладывать.
          • 0
            По нашим законам последних лет (с подачи Мизулиной, разумеется) выкладывание в интернет любого порно — тяжкое преступление, от 2 до 6 лет тюрьмы.
            Эротика законна, но решать что это — порно или эротика — будут «эксперты», и результат тут известен.
            • 0
              Не любое выкладывание, а незаконное. Другое дело, что действует принцип «что не разрешено, то запрещено» и пока нет закона о порнографии любое порно незаконно.
    • +9
      Хотел вас поправить, указав где на самом деле порно, но потом посмотрел на возраст в профиле и решил, что не надо. Да, да, вКонтакте все порно — вКонтакте :)
    • +4
      график возраста Вконтакте. Получается, что больше всего там 11-15 лет

      ВК максимальный год рождения в настройках — 1999. Отсюда куча людей с возрастом 14 лет. На самом деле этот пик на 14 — это суммарная масса тех, кому 14 и меньше. Мой племянник, например, был зарегистрирован ВК уже в 9 лет. И его одноклассники тоже.
      • +3
        Мне кажется, это печально.
        • +4
          То что зареганы — не печально. Печально, что они сидят там круглые сутки. Приходится их гнать в кружки и на секции, а дома пинать, чтоб уроки делали, вместо того, чтобы «налайкивать» друг другу в профилях. Но это уже, как выше заметили, от родителей зависит.
          • +3
            Для социальной сети это офигенная статистика — через 3-4 года можно будет открыть задвижку монетизации пошире :)
    • –1
      Смешно читать такие комментарии. Вы действительно считаете, что в российской действительности, порно в интернете — это самое страшное?
    • +1
      Существуют исследования, в которых показано, что всякие сексуальные отклоненцы вырастают не из тех, кто в этом возрасте интересуется порнухой, а как раз наоборот, из тех, кто не интересуется.
      Так что это скорее норма. Вот если никаких других интересов нет — тогда печально.
    • 0
      Порнография вовсе не зло. Исключительно полезная вещь. И именно из-за этого против нее выступают разные другие представители зла типа религиозных и политических деятелей. Надо им как-то заставить людей страдать.
  • +5
    А вероисповедание почему не взяли в расчет? Оно же сразу за политикой идет ( в vk, во всяком случае)…
    • +11
      Чтоб межнациональную рознь не возбуждать. На самом деле просто не догадался. Но именно для этого данные выложены в открытый доступ, и каждый может посчитать зависимость количества владельцев айфонов от религии.
  • 0
    Какой объем выборки удалось получилась по фейсбуку и одноклассникам?
    • 0
      ФБ — около 5 млн, ОК — около 10.
      • +1
        Очень неплохо!
        А если не секрет можно рассказать:
        1. Сколько потоков? Какие ресурсы были задействованы?
        2. Как долго все работало?
        3. Сколько аккаунтов использовалось и как боролись с блокировками?
        Интересует фейсбук в первую очередь.

        PS Позже посмотрю данные может еще вопросы возникнут :)
        • +2
          В двух словах, сбор ФБ — это боль, кровь, кишки и печаль, несколько месяцев сбора и несколько сотен неторопливых потоков. То, как оно работало под капотом, на публику выносить не хочу, ибо это все можно будет использовать не только во имя добра и луны.
          • 0
            Я с этой болью, кишками и печалью живу каждый день, так что хорошо вас понимаю :))))
  • +33
    Популяция Владимиров стабильно сокращается вот уже 50 лет

    Опасно шутите, товарищ.
    • 0
      Если чего, переедет к нам в Киев. Думаю работенка в КПИ ему найдется :)
    • 0
      Так и напрашивается продолжение: «Пройдёмте».
  • –3
    А каков процент политических взглядов «фошыст» во ВКонтакте? :)
    • 0
      Согласен, это была тупейшая шутка
  • +1
    Это очень печально, что политическая обстановка в стране не волнует 60-70% людей. Получается, что наш президент, наше правительство и все остальные люди просто напросто нелегитимны. Хотя это уже много лет подтверждается очень низкой явкой на выборах.
    • +1
      все остальные люди просто напросто нелегитимны

      Слава роботам

      Если серьезно, то, учитывая мнение юзеров того же ВКонтакте, больше всего люди верят в какое-нибудь «Сообщество Коловрата» или в «Возрождение СССР».
      P.S. Вероятнее всего, «пофигистом» учитывают тех, кто просто не указал свою идеологию?
      • 0
        Нет, это «индифферентные» политические взгляды. График построен только по тем, кто хоть что-нибудь указал.
        • +3
          Многие пишут Умеренные взгляды, чтобы не раскрывать свои истинные политические взгляды- вера в Макаронного Монстра, например.
          • 0

            Многие „умеренные“ и прочие нейтральные формулировки — лишь способ не рассориться с френдами на темы, которые в других условиях не доводилось обсуждать :)
          • +1
            вера в Макаронного Монстра — это религиозные взгляды.
            • 0
              Которые вполне официально можно указать в своём профиле ВК, что делает эту социальную сеть макароноугодной.
          • +1
            Интересно было бы ознакомиться с политической программой макаронного монстра… И его планами на следующие президентские выборы.
            • 0
              А какие планы на следующие выборы у Гаутамы Будды, Иисуса Христа и Магомета?
    • +1
      Субъективно, но, считаю, что на самом деле «индифферентный» взгляд на политику не всегда означает равнодушие. Например, я не отношу себя к какой-то определённой стороне, но тем не менее, мне не всё равно. Т.е. мне близки разные мнения (не все) разных направлений, и в этом случае я бы указал «индифферентные», т.к. выбор одного из имеющегося было бы большой неправдой, нежели данный вариант.

      А вообще, посмотрите ещё раз на график возрастов: мне печально за ребёнка, которого волнует политика — так ведь детство пройдёт и его не вернёшь.
      • +2
        мне печально за ребёнка, которого волнует политика — так ведь детство пройдёт и его не вернёшь
        Ну меня допустим в детстве политика больше волновала нежели сейчас. Возможно, потому что телевизор в 90е чуть менее чем полностью был полон политики и захватывающего мордобития в стенах гос.Думы. Сейчас политики нет, одно название осталось.
        • 0
          Т.е. вы считаете, что это нормально, когда 10летний ребёнок «занимается» политикой? о_0
          У нас с вами действительно разные взгляды на детей.
          • +1
            Что значит «занимается»? Речь шла об «интересуется». Не вижу в этом ничего плохого. Может вырастет активный член общества а не еще один потребитель.
            • 0
              Да, тут вы правы.
              Но согласитесь, что в этом возрасте ребёнок, скорее всего, ещё не определился со своей политической точкой зрения?
              Что ему в таком случае указывать в профиле?
              • 0
                Не знаю, я всегда был определившимся, сколько себя помню. Взгляды менялись, конечно, но из многообразия политических направлений всегда находил что-то подходящее, пусть и не очень распространенное (например такое)
              • 0
                ребёнок, скорее всего, ещё не определился
                Скорее всего да. Или определился на весьма короткое время.
                Что ему в таком случае указывать в профиле
                Разве это имеет какое-то значение?
                • 0
                  Разве это имеет какое-то значение?


                  В данном случае да, т.к. это влияет на статистику — речь-то о ней всё ещё идёт.
    • +2
      Равнодушие к политике большого числа людей скорее как раз означает легитимность властей — эти люди не против действующей власти.
      • +1
        В нашем случае — нет. Власть все 20 лет компрометировала выборы, как институт… Теперь никто не верит в выборность, а раз нельзя выбрать — зачем париться…
        • +1
          Вроде речь не ополитической активности, а о политических взглядах была.
        • 0
          Так этим 60% плевать на выборы. Своим «пофигом» они одобряют безвыборную систему власти.
          • +2
            И нивелируют крики о нелегитимности власти :) Ведь нелегитимна та власть, против которой против большинство, а не за которую меньшинство.
  • 0
    Не понял, как из графика «доля мужчин в зав-ти от года рождения» следует, что «В Одноклассниках большая часть аудитории — женщины».
    Или там график пропущен?
    • +1
      Вы не поверите, но если среди родившихся в 1980 году доля мужчин составляет 30%, то доля женщин — ровно 70%. Это как если бы график перевернули вверх ногами.
    • +1
      Обратите внимание, что график для ОК (синий) по большей части находится ниже отметки 0.5. Это значит, что доля мужчин соответствующих возрастов меньше чем 50% от общего числа пользователей, а доля женщин, соответственно, выше 50%, т.е. женщин больше.
      • 0
        Красный, разумеется, прошу прощения.
  • +1
    del
  • +1
    А не хотите ли сделать полезное для молодых родителей, и попробовать собрать статистику по именам до текущего года? Я не представляю откуда брать такую информацию, но очень сильно пострадал от её отсутствия: хотел сына назвать редким именем, а оно оказалось самым популярным в том году. Потом хотел дочку назвать ещё боле редким, чтоб уж наверняка. Облом — каждая вторая в песочнице с таким же…
    • +1
      Меня посещала эта идея. Но до текущего года не выйдет — такая информация есть только в ЗАГСе, а они ее не очень охотно предоставляют.
      • 0
        Может по женским форумам?
        • 0
          Хотите, я вам приведу с ходу 50 женских и околоженских форумов, где эта тема может обсуждаться? Как их анализировать? А вы третьего ждете? :)
          • 0
            А кто говорил, что это простая задача? :)
    • 0
      В обычных сми часто публикуют итоги популярных имён за год. По каким-то городам есть и регулярно обновляемые рейтинги имён. Вот, например, Екатеринбург.
      • 0
        По некоторым городам действительно есть. И, я смотрю, Екатеринбург по именам сильно отличается от Москвы. Так что нужна статистика и с привязкой к региону. Видимо, без содействия со стороны государства будет сложно что либо сделать.
    • +2
      Смех-смехом, но сегодня нечасто встретишь людей с именем-отчеством Акакий Акакиевич.
      (тонкий намек на места, откуда можно почерпнуть вполне себе редкие, и, иногда, красивые имена)
      • +1
        Смех-смехом, но к красивому имени ещё и фамилия с отчеством нужны подходящие, и тут литература — не советчик.
    • +3
      к сожалению, дети до года не очень любят регистрироваться в соц.сетях
    • 0
      А вы не идете с мейнстримом — называйте популярными именами: Маша, Саша, Паша, Даша, Наташа, Вова, Коля, Дима, Лёша, Андрей, Воробей… А все остальные пусть называют Матвеями и Милонами.
  • +3
    Тема для исследований хороша, но «зависимость пола от процента мужчин в друзьях» — это просто шедеврально :) То есть если у меня увеличивается количество мужчин в друзьях, то я меняю пол
    • 0
      Да, скорее всего наоборот, «зависимость процента мужчин в друзьях от пола». Статью и график поправил.
  • 0
    Титанически :)
    Пожалуй кое-что узнал о себе нового, из такого косвенного анализа.
  • 0
    Ничего не пойму. По поиску вконтакте в моем городе девушек 26 лет около 3800 человек. А по вашей базе всего 80.
    • +1
      Как было написано в статье, эта база — случайная выборка, по Вконтакте там примерно 1% от всех пользователей. Плюс многие скрывают свой возраст и город.
  • +2
    Как же так?! Почему среди женских имен нет самого популярного — Мария?
    • 0
      А тут был бы полезен график распределения пользователей по регионам. Вот, скажем, в Москве Марии встречаются нечасто, а соцсетями пользуются многие.
  • 0
    Идеи витают в воздухе) Как раз собираемся обнародовать наши данные о возрасте активных авторов в соцсетях.
    Мы пошли по прямому пути и взяли только открыто указанные в профиле даты рождения. Но для нашей сферы точность — принципиальна.
    Опосредованное определение возраста пользователя (например, по возрасту друзей), мне кажется, чревато адскими искажениями результата: например, в результате такого определения возраста, судя по вашему исследованию, около 40% 10-11-летних пользователей состоят в браке ))
    «Плывут» и другие результаты, которые привязаны к возрасту: резкое падение всех популярных имен к 2006 году, связано, вероятно и с тем, что пользователей с таким годом рождения сильно меньше?
    То есть мы понимаем, что даже открытая дата рождения — далеко не гарантия истинности, а известна ли погрешность при использовании вашего метода?
    • 0
      Абсолютная точность бывает только в паспорте. Про популярные имена вы невнимательно читали статью, но сразу кинулись критиковать: на тех графиках указана доля людей с этим именем среди всех, кто родился в этот год. Т.е. В 1960 родилось 100 Александров на 1000 человек, а в 2006 только 5 на 100, т.е. доля упала с 0.1 до 0.05.
      Про восстановление возраста на основании возраста друзей: для всех графиков, в которых фигурирует возраст, такой подход не использовался. Возраст восстанавливался только на основе даты окончания школы/ВУЗа.
      • 0
        А за окончание школы/ВУЗа какой возраст принимался?
        Я не критикую, я любопытствую) А «Александры» — только уникальные учитывались?
    • +1
      Где-то год назад пытался изучить вопрос реконструкции возраста по косвенным признакам во ВКонтакте. Сравнивал прогнозный возраст и указанный пользователем. На случайных пользователях (где были боты, всяческие коллективные и заброшенные аккаунты): прогноз по местам обучения (школы + вузы) — в 90% ошибка не превышала ±3 года. Если делать прогноз исходя из возраста друзей — то «попадание» ±3 года было в 71% случаев. Распределение ошибок было ближе к нормальному (без смещений). Т.к. при обработке возраст часто группируется в 4-5 категорий — мне такой результат показался достаточным. И кстати — «выбросы» в 10 лет и больше чаще всего были там, где указанный пользователем возраст был явно «ненастоящим». В принципе, можно попробовать сделать классификатор качества прогноза — это могло бы еще повысить точность. Так что не все так плохо :)
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Я так понимаю там где есть API — использовалось оно, где API нет — парсинг.
      • 0
        Именно так все и было, обыкновенный парсинг через XPath/CSS-selectors
  • +2
    Если вы обладатель мужского пола, а в друзьях у вас одни дамы, то у меня для вас плохие новости.

    Вот этот пункт заинтриговал. Можно поподробнее?
  • +1
    Вы как-то странно обошли вниманием довольно странные факты по вашим данным:
    1. Семейное положение «начинается» с 11 лет.
    2. Довольно странное резкое уменьшение мужчин с весом 116 и 122 кг по отношению к женщинам.
    3. Странный всплеск лайков у мужчин за 55.
    4. Количество молодых коммунистов больше, чем тех же «в возрасте».

    Как думаете, с чем связаны такие заскоки?
    • +2
      Легкий налет треша по краям графика часто связан с шумом. Публика до 13, после 50 и тяжелее 100кг довольно скудно представлена в соцсетях, так что у них может быть большой разброс по разным параметрам.
    • +2
      С коммунистами элементарно — для среднего поколения эта идеология ассоциируется с реальным поздним СССР, при котором они выросли, для младшего — с ретро-ностальгией.
      • 0
        Возможно вы правы, но я как-то слабо себе представляю 11-14-летнего подростка увлекающегося ретро. Хотя, скорее всего, я просто мало знаю подростков в этом возрасте (:
        • 0
          Лет до 16 я был коммунистом потому что коммунизм — это мир Полудня у Стругацких. И вообще, подросткам свойственно идеализировать то, что им нравится.
          • 0
            Эх, побольше бы подростков таких как вы были — читающих не только стены вк и блоги, но и книги. Но это уже совсем другая история.

            Кстати, в вк же можно указать книги, которые нравятся/читал? Наверное, может получиться собрать статистику по тому, что читают в данной соц.сети и примерно сколько читают. Интересно посмотреть, что получится.
            • 0
              Да, в вк есть раздел «любимые книги» в профиле, но через API его не получить.
              • 0
                Печально
                • 0
                  Я не помню, соврал я вам три года назад или нет, но в текущей версии вк апи любимые книги прекрасно получаются через метод users.get с указанием поля books
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Сорцы паукана, или данных, которые он извлечет? :-)
      Как раз сегодня заинтересовался в исследовательских целях собрать статистику об одной группе в ВК, что-то вроде того, что выше в статье…
      Ваять что-то свое не успеваю, полез искать, может что готовое есть — а тут и статья как раз…
      • НЛО прилетело и опубликовало эту надпись здесь
      • НЛО прилетело и опубликовало эту надпись здесь
        • НЛО прилетело и опубликовало эту надпись здесь
    • НЛО прилетело и опубликовало эту надпись здесь
    • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    А сколько реально заняло времени на парсинг?
    • 0
      2-3 месяца, в зависимости от соцсети.
  • 0
    А как, если «самый последний год рождения, который возможно выбрать в профиле — 1999», на графике «Доля мужчин в зависимости от года рождения» зависимость для Вконтакте построена до 2004?
    • 0
      До принятия закона о возрастных маркировках, там можно было хоть 2013 выбрать. Теперь — только 1999.
    • 0
      Некоторые родители регают своих новорожденных. А кто-то даже домашних питомцев.
  • –1
    При расчете популярности имен нужно удалять с общего количества тех, кто вместо имени написал ерунду какую-то. Поэтому у старшего поколения доли более заметны.
  • 0
    Про имена: я подозреваю, что вы не учитывали варианты (Владимир, Вова, Вован, ~=Super-Vovan=~ и т. д.), и уменьшение долей объясняется тем, что люди постарше указывают в профиле соцсети чаще всего полное имя (Владимир Владимирович Путин), а молодежь — короткое.
    • 0
      Спасибо, хорошая мысль!!! Эти сильные спады графиков имён меня тоже сильно удивили — тенденция к нестандарным именам, действительно, есть, но чтобы настолько сильно…
  • 0
    Исследование, которое может стать началом других. Многогранное. Спасибо, было интересно.
  • +3
    Комментарий для захабривания, с целью использования в интернет-спорах:
  • 0
    Прискорбно, но любовь к алкоголю и курению только усиливается с возрастом.

    Прекрасно что у молодых больше здравомыслия и они реже курят и пьют.
    Интерпретации, такие интерпретации.
    • 0
      По моим собственным наблюдениям студентов 2000 и 2010 года поступления — таки да. Последние пьют гораздо меньше, реже, часто вообще не пьют. С другой стороны, на стороне первых активная социализация — походы, байдарки, автостоп и куча еще чего, куда они ломились толпой. Поколение 2010 так все больше в соц.сетях.
    • 0
      Да, я тоже подумал по графику — молодёж не пьёт и не курит. В принципе, может так оно и есть — теперь чаще наркотики в моде… Кстати, там нет данных по употреблению?
      • 0
        Все побежали заполнять, ага :)
  • 0
    Очень крутая статья, первый раз вижу настолько читабельный анализ соц сетей…
    Хотя кстати при создании например таргетированной рекламы в том же контакте можно извлечь примерно те же цифры без пауков и гораздо быстрее… Не считая конечно матных слов/постов =)
    В целом супер! Особенно полезно для тех кто создает игры/приложения для соц сетей. Спасибо автор! Взял на заметку.
    • 0
      Кстати было бы интересно увидеть график зависимости возраст/количество друзей/активность/процент ботов
  • 0
    Раздел про имена может быть применим следующим образом: теперь в личных обращениях роботов к человекам, вместо «Уважаемый(ая)...» можно будет написать «Здравствуйте, вероятнее всего, Елена...».
  • 0
    Профили анонимизированы, нет имени, фамилии, даты рождения


    А если именно распределения дней рождений хочется проанализировать, как быть?
    Именно дней, а не года.

    На какие дни года приходится больше всего дней рождений и совсем круто разбивка по возрастам.

    Такой анализ имеет прямой коммерческий интерес для определённых компаний «розницы».
    • 0
      Это исследование делалось не с целью удовлетворить чей-то коммерческий интерес, а just-for-fun.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.