12 апреля 2016 в 09:43

Социальное неравенство и зарплаты чиновников

Волею судеб, ко мне в руки попали данные о заработных платах, премиях и сверхурочных множества госслужащих одного крупного портового города, от мэра до сторожа бассейна. Не теряя ни минуты, я бросился вгрызаться в цифры. Нет ничего любопытнее, чем смотреть на чужие зарплаты, особенно, когда можно оправдать себя тем, что занимаешься Data Science!

Как только прошли первые приступы зависти, я осознал, что в датасете присутствует информация не только по крупным руководителям, но и по рядовым сотрудникам от самого низкого уровня. Получается, что по этим данным можно воочию наблюдать основные закономерности в распределении доходов в реальном мире. Пользуясь случаем, я приглашаю всех диванных экономистов в увлекательное турне в мир роскошных окладов и скупой статистики!

Сегодня мы поговорим про средние и медианные зарплаты, индекс социального неравенства Джини, отношения между богатыми и бедными (индекс Rich/Poor), непреодолимый разрыв доходов (эффект Матфея) и карьерный рост.

San-Francisco

Сразу вскрою основную интригу — что это за данные и откуда я их взял. Это реальная информация о заработных платах муниципальных служащих города Сан-Франциско (на фото), что в Калифорнии, США. В датасете присутствую настоящие имена, занимаемые должности, оклады, бонусы, сверхурочные и премии некоторых (возможно, всех) служащих за 4 года — с 2011 по 2014 включительно. Данные не очень чистые и не совсем стандартизованные, но работать с ними можно. Все это любезно предоставила администрация штата в рамках проекта Transparent California. Все суммы — в долларах в год, до вычета налогов.

Я осознанно пропущу этапы изучения и подготовки данных, а также код построения графиков. Желающие могут изучить все это в github. Там Python, Jupyter, Pandas и Seaborn. Итак, приступим.

Распределение заработных плат


В датасете есть не только базовые доходы сотрудников, но и различные надбавки. Дабы не углубляться в мелочи, будем рассматривать только базовый доход и общий доход с учетом всех надбавок и премий.

Вот так выглядит распределение базовых доходов сотрудников за 4 года:
Базовые доходы

Эти четыре… гхм… “морковки” символизируют распределение доходов за 4 года. По оси Y — величина дохода, по оси X — плотность вероятности распределения доходов. Поперечные пунктирные линии — это квартили 25%, 50% (медиана) и 75% распределения. Четко видно несколько уплотнений — в районе $5.000, $65.000, $110.000 и $170.000. Так выглядят классы сотрудников — временные рабочие, линейный персонал, высококлассные специалисты и топ-менеджмент. Кажется, что “морковка” медленно едет вверх, что может означать как растущий уровень благосостояния, так и инфляцию.

Теперь посмотрим на распределение общего дохода сотрудников:


Данные за 2011ый год сильно отличаются от последующих. Оказалось, что у нас нет данных о премиях в течение этого года. Вообще, данные за 2011ый год отформатированы иначе, что сильно затрудняет их использование. Кроме того, в этом году сменилось выборное правительство, из-за чего зарплаты людей на выборных должностях посчитаны не за полный год.

В остальных годах мы видим, что слой премий “сгладил” “морковку” распределения, практически ликвидировав четкое деление сотрудников по классам. Т.е., с учетом премий хороший линейный специалист зарабатывает сравнимо с ненапрягающимся экспертом.

Сан-Франциско — недешевый город. Официальная минимальная зарплата составляет порядка $20.000 в год, субъективный прожиточный минимум — от $40.000 в год. Непонятно, откуда же такое большое число людей с зарплатой меньше МРОТ? Ответ кроется в признаке Status — FT (Full-time) и PT (Part-time), т.е. в выборке есть не только штатные сотрудники, но и совместители, в т.ч. разовые подработки. Признак Status проставлен только для 2014го года.

Вот так выглядит распределение общих доходов с разделением на штатных и внештатных сотрудников:


Как видно, медианный доход штатника составляет около $130.000 в год.

Давайте заодно ответим на вопрос, которому посвящено множество споров в интернетах — как связаны средняя и медианная зарплата. Бытует мнение, что средняя зарплата значительно выше медианной засчет доходов топ-менеджмента.

Проверим, так ли это:


На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному. Наибольшему значению плотности распределения соответствует средняя зарплата, которая составляет $90.000. На нижнем рисунке изображены квартили распределения зарплат, средняя линия внутри прямоугольника — медианная зарплата, и она составляет $85.000. Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

Социальное неравенство


Наиболее волнительным в зарплатах является вопрос их справедливого распределения (от каждого — по способностям, каждому — по труду?). Мудрые предки оставили нам численные метрики неравенства распределения доходов. К наиболее популярным относятся индекс Джини и индекс R/P. Давайте поговорим о них подробнее.

Индекс Джини — это статистический показатель степени расслоения величины. В экономике его обычно используют для измерения расслоения населения по доходам. Считается индекс Джини как выраженное в процентах отношение площади между кривой Лоренца и диагональю y=x (зеленая область) к площади всего треугольника ниже диагонали (синяя + зеленая области):


Показатель измеряется от 0 до 100, где 0 — полное равенство (всё синее), а 100 — все доходы у одного человека (всё зеленое). Для примера, Джини России — 42.0, США — 45.0, Германии — 27.0, Китая — 47.3. Самый маленький Джини у Швеции — 23.0, самый большой — у африканских банановых монархий, где он может подниматься свыше 60.

На рисунке выше изображена кривая Лоренца для доходов штатных сотрудников. Индекс Джини для них составляет 18.9, что говорит о практически коммунистической уравниловке. Можно трактовать это так — если вам удалось попасть в штатные сотрудники мэрии Сан-Франциско, зарплатой вас не обидят. А можно так — если вы работаете в мэрии, карьерная лестница у вас невысокая.

Еще одним любопытным индикатором расслоения является отношение доходов богатых к доходам бедных. Посмотрим на темно-синий “треугольник” на рисунке выше. Его ширина — 20%, это 20% богатейших людей. Высота темно-синего треугольника — 31%. Это значит, что на 20% богатейших людей приходится 31% совокупного дохода. Теперь обратите внимание на красный треугольник. Его ширина — 20% (беднейших людей), а высота — 12% (дохода), т.е. на 20% беднейших людей приходится 12% совокупного дохода. Индекс Rich/Poor 20 отражает отношение доходов богатейших 20% к беднейшим 20% общества. Для штатных сотрудников муниципалитета Сан-Франциско R/P 20 составляет 2,5. Можно трактовать это как высоту потолка роста на карьерной или социальной лестнице.

Теперь для сравнения посмотрим на кривую Лоренца для внештатных сотрудников:


Мы видим разительное отличие от предыдущего графика. Дуга кривой Лоренца прогнулась далеко вниз, зеленая область увеличилась в размерах. Богатый треугольник занимает почти половину высоты, а бедный треугольник почти не видно. Индекс Джини составляет 53.6, а R/P 20 равен 45. Это примерно соответствует бедным странам Южной Америки, с ярко выраженным расслоением на зажиточных капиталистов и простоватых мучачос.

Эффект Матфея


Мудрость поколений гласит, что “всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет”. Другими словами, зазор между бедными и богатыми постоянно увеличивается. Это забавное явление прото-социологи наблюдают в течение тысячелетий, а в последнее время его осознание стало доступно широким массам. Из Эффекта Матфея, как его называют экономисты, следует вывод, что единственный способ приумножить свое состояние и оставить наследство своим детям — принадлежать к верхушке общества. Эта гипотезу весьма неприятно осознавать, и было бы неплохо, если б она оказалась ложной. Так давайте же ее опровергнем!

На рисунке ниже вы видите суммарный размер фонда оплаты труда муниципалитета Сан-Франциско за 3 года. Он вырос c $3,70 млрд в 2012ом году до $3.82 млрд в 2014ом, показав рост +3,2% общего объема.


Теперь давайте построим графики среднего дохода высшего и низшего децилей (10% самых больших и самых маленьких зарплат). Как видно, средний доход в высшем дециле увеличился на +3,0%, в то время, как доход в низшем дециле существенно упал на -12,6%.


Это означает не только то, что эффект Матфея есть, но и то, что он крайне силён и легко заметен невооруженным взглядом. Можно предположить, что именно этим объясняется уверенный рост индекса Джини в США в течение последних 30 лет.

Стоит отметить, что из-за отсутствия разметки full-time/part-time в ранних годах, мы оценивали доходы децилей на смешанной выборке из штатников и внештатников. Это могло внести существенные корректировки в результат, так что я в нем не уверен — чересчур неправдоподобно выглядит величина зазора.

Карьерный рост


Раз уж мы заговорили о карьерном росте, давайте проверим — есть ли он, или это фантастика? Поскольку разбираться в иерархии американских чиновников нет никакого желания, будем считать, что карьерный рост сводится к росту зарплаты. В датасете есть имена и фамилии людей, и они ожидаемо повторяются из года в год.

Давайте посмотрим на доходы одних и тех же людей в 2012ом и 2014ом годах, посчитаем рост в процентах и построим распределение роста в пересчете на один год:


Слева изображен график плотности вероятности роста дохода, справа — график функции распределения роста дохода. Во-первых, видно, что рост доходов 20% сотрудников лежит в диапазоне от 0 до 2%, что примерно покрывает инфляцию. Наиболее распространенный рост доходов — от 2% до 5%, он наблюдается в 50% случаев, это мода скорости карьерного роста. Далее, примерно 15% людей смогли добиться роста в 5-10%, такой темп роста можно считать высоким. И не более 5% людей показали выдающийся рост доходов более чем на 10% год к году. Стоит также отметить, что 10% сотрудников показали отрицательный рост дохода, т.е. их зарплаты уменьшались год к году.

Заметим, что для построения этого графика мне пришлось наложить на выборку угрубляющие фильтры, чтобы срезать “длинный хвост”, образованный людьми, кто перешел из разовых контрактников в штат, тем самым увеличив свои доходы от муниципалитета в 50-100 раз. Эти фильтры могли существенно повлиять на распределение.

Заключение


Оказалось, что на примере даже такого маленького мирка, как муниципалитет города Сан-Франциско, можно изучать социологические и экономические закономерности.

Мы можем отметить следующие тезисы:
  • зарплаты в муниципалитете очень скученны
  • хороший специалист может зарабатывать не меньше посредственного руководителя
  • медианная зарплата несильно отличается от средней
  • разрыв доходов между богатыми и бедными увеличивается
  • даже в спокойной госслужбе есть возможности для карьерного роста

Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе. Я не рекомендую делать на основе этой статьи далеко идущих выводов об экономической статистике в США и, тем более, в мире в целом.
Федор Лаврентьев @fediq
карма
32,0
рейтинг 22,8
Data Engineering
Самое читаемое Разработка

Комментарии (62)

  • +1
    Свечки по-моему не репрезентативны, тем более с группировкой по годам. Гистограмма со смещением или график отношения к первому году выглядели бы более внятно.
  • +22
    Я-то было подумал тут про РФ. Свечки были бы мягко говорят другими, я полагаю.
    • +10
      «Свечки» в наших ареалах плавно превращаются в остроконечный скипетр, при этом конец скипетра пробивает не только небеса, но и вселенную…
    • +11
      В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
      В статье есть ссылка на подборку статистики, можете ознакомиться.
      • +6
        Не все же доходы попадают в статистику. Особенно, в России.
        • +23
          Я вам — подробную статистику, а вы мне — голословные суждения. Нехорошо. Могли бы хоть википедией прикрыться.

          Если вкратце — есть способы засунуть «не все» доходы в статистику.
          • +1
            Только вот эти способы смазывают всю картину или делают всю статистику нерепрезентативной. А часто подобное еще и «подкручивают», по разным причинам, до желаемых или просто неверных результатов. Как проводятся соцопросы случайных людей и фокус-групп знаю. Как и методы с предсказанием по особым группам. Единственная статистика, которой можно более-менее верить в этом — это как раз что-то вроде данных по которым вы сделали это исследование. Остальное — цифры чуть ли не с потолка или рассчеты по сомнительным методам, без научного подтверждения верности методов, нерепрезентативные выборки и т.д. Да даже о двойном слепом методе часто и не вспоминают.
        • 0
          Да даже если и попадают… Зарплата моей жены= МРОТ (бюджетник), а средняя з/п в регионе по данным статистики в 3-5 раз выше. Что же получается- в регионе очень мало работников бюджетной сферы? Или просто у кого-то (скажем, главврача местной больницы) доход на порядок выше?
          • 0
            Потому и есть смысл всегда указывать еще и медиану.
          • 0
            Кстати интересно, какой процент работающего населения занят в бюджетной сфере? На вскидку кажется должно быть около 15%
          • 0
            В статье описано и показано на картинках, почему так бывает. Попробуйте перечитать еще раз.
      • 0
        А вы думаете, что статистика неравенства доходов госслужащих совпадает с такой статистикой для населения в целом?
        • 0
          Неравенство для населения в целом будет существенно больше.

          Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).
          • 0
            Вот именно. Так что та ссылка, которую вы привели, не даёт оснований утверждать, что

            статистически причин увидеть другие «свечки» нет


            Если даже для США в целом такие причины есть!

            Тем более даже не уточнив, например, идёт ли речь о всей РФ или о бюджетниках какого-нибудь аналогичного по статусу города.
  • –1
    Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе.

    Ну вот как-то да…
    На основе данных (например) Росстата было бы что-то более актуальное и интересное, наверное.
    В любом случае, спасибо за статью.

    Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

    Я так понимаю ящик с усами построен с отсечением выбросов сверху? То есть в расчете средней и медианы выбросы не принимали участия?
    • 0
      Среднее точно считалось по всем данным.
      Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.
      • 0
        «усы» точно отбрасывают учитывают выбросы


        Мм?
        • +1
          Опечатался, поправил.
  • +4
    Благодарю. Прекрасный короткий обзор, который может дальше использован как пример для подобного анализа для других стран и групп.
    Кстати, Норвегия, наверно единственная страна в мире, где данные доходов, налогов и капиталов каждого человека доступны публично (с некоторыми ограничениями) для всех.
    Вот например норвежский топ 100 богатых по доходам/налогам/капиталу по областям/районам
    www.dn.no/skattelister/#!/Norge/2014/
    • 0
      О, спасибо за наводку!

      И за комплимент. =)
      • +4
        Статья классная! А уж если бы кто проанализировал данные по Норвегии, это было бы вообще очень ценно для понимания реальности.
  • +3
    Только один вопрос — почему Вы называете это Data Science?
    • +6
      Вспомним известную цитату.

      Потому что Data Science, как и Big Data — это как секс в разговорах подростков.
      Все это обсуждают, но никто не знает, что это такое на самом деле.
    • +62
      Я лишь прикрываюсь этим брендом, чтобы оправдать бездарно потраченное время.
      • –1
        Сарказм засчитан :)
  • 0
    «На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному». Судя по диаграмме, это скорее распределение Релея, хотя возможно это случайность.
    • 0
      Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.

      Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.
  • +4
    По тексту до хабраката не понятно, что речь идет не о России. Нехорошо.
    • 0

      Здание transamerica pyramid известное вроде бы

  • +15
    Смешанное чувство, когда твоя зарплата находится в зоне статистической погрешности… Снизу…
  • –6
    Социальное неравенство это проблема? Мэр города должен получать столько же, сколько уборщица? На мой взгляд госслужащим наоборот недоплачивают, потому что не должен мэр получат меньше руководителя самой крупной корпорации в том же городе. А так сколько платим — такую власть и имеем, что туда только воровать с такой зарплатой идут, что у нас, что в США.
    • 0
      Главнее всех — бухгалтерия, а главный в бухгалтерии — главный бухгалтер.
    • 0
      Как в США-то воровать, посодют же.
    • +4
      Роковая ошибка в вашей логике, что руководитель всегда работает на владельца.
      У компании владелец — это конкретный человек или группа. У города — население этого города.
    • –1
      Бедные, бедные депутаты с зарплатой 400 т.р. (+ премии и овер 9000 льгот). На такую зарплату у нас можно только выживать, но не жить.
    • 0
      Подавляющие число людей, способных к административной борьбе (при этом могут слабыми работниками в целом), часто ненасытны в деньгах или власти, и не менее часто добиваются и того и другого не чистыми методами. Вывод, высокие зарплаты не гарантируют вообще ничего, кроме высокого ФОТ и потенциально, ещё большего воровства.
  • +6
    Карьеру интересно изучать в разрезе распределения по отдельным профессиям
    у архитекторов, юристов и врачей видно «2-е дыхание»,
    тоже неплохо инженерам, пожарным, полицейским и мэрам)
    image

    • +9
      Хорошая профессия — Animal.
      • 0
        я сначала подумал, что это всякие собаки на службе, питомцы зоопарка и т.п., но потом увидел

        код R
        query = «select Id,
        case when jobtitle like '%fire%' then 'Fire'
        when jobtitle like '%police%' then 'Police'
        when jobtitle like '%sherif%' then 'Police'
        when jobtitle like '%probation%' then 'Police'
        when jobtitle like '%Sergeant%' then 'Police'


        when jobtitle like '%MTA%' then 'Transit'
        when jobtitle like '%transit%' then 'Transit'
        when jobtitle like '%anesth%' then 'Medical'
        when jobtitle like '%medical%' then 'Medical'
        when jobtitle like '%nurs%' then 'Medical'
        when jobtitle like '%health%' then 'Medical'
        when jobtitle like '%physician%' then 'Medical'
        when jobtitle like '%Orthopedic%' then 'Medical'

        when jobtitle like '%health%' then 'Medical'
        when jobtitle like '%pharm%' then 'Medical'
        when jobtitle like '%airport%' then 'Airport'
        when jobtitle like '%animal%' then 'Animal'
        when jobtitle like '%architect%' then 'Architectural'
        when jobtitle like '%court%' then 'Court'
        when jobtitle like '%legal%' then 'Court'

        when jobtitle like '%MAYOR%' then 'Mayor'
        when jobtitle like '%librar%' then 'Library'

        when jobtitle like '%parking%' then 'Parking'

        when jobtitle like '%Public Works%' then 'Public Works'
        when jobtitle like '%Attorney%' then 'Attorney'
        when jobtitle like '%MECHANIC%' then 'Automotive'
        when jobtitle like '%automotive%' then 'Automotive'
        when jobtitle like '%custodian%' then 'Custodian'
        when jobtitle like '%engineer%' then 'Engineering'
        when jobtitle like '%engr%' then 'Engineering'
        when jobtitle like '%account%' then 'Accounting'
        when jobtitle like '%Gardener%' then 'Gardening'
        when jobtitle like '%General Laborer%' then 'General Laborer'
        when jobtitle like '%food serv%' then 'Food Service'
        when jobtitle like '%clerk%' then 'Clerk'
        when jobtitle like '%porter%' then 'Porter'
        else null
        end as JobType
        from Salaries»
        • +1
          Кажется, код не опровергает вашу версию.
          • +3

            Есть служба "Animal control" — это всякие собаколовы и т.п. Типа отлавливать шарящихся по мусоркам енотов, выдворять из города медведей и т.п.


            Кстати, один местный рассказывал такую хохму — делал очень реалистичный маскот-костюм льва, надел его испытать, разлёгся у себя на заднем дворе — а соседи через забор увидели, и вызвали этот самый Animal Control — "У соседа во дворе ЛЕВ!!!"

            • +2

              Кстати, вот он:


              image


              А если по отдельности, то вот так:


              image

    • +1
      Ужасающе узкие распределения в низкоквалифицированном труде.
      • +2
        Это логично. В низкоквалифицированном труде расти некуда. Если ты грузчик, то ты будешь таскать ящики. Делать это более профессионально фактически невозможно. Все тонкости труда познаются за неделю в худшем случае.
  • –3
    А в России можно посчитать что либо подобное — а то чем интереснее по той или стране данные тем тщательнее их берегут от любопытных.
  • +2
    Я хочу компьютерную игру (RTS), в которой вот такая вот статья будет одной главой туториала…
    • 0
      Вспомнилась Tropico)
      • 0
        Не играл… Стоит?
        • +1
          Экономический градостроительный симулятор-RTS.
          Мне игра понравилась юмором (крайне удачно локализована на русский) и колоритом бананового островного квазигосудартсва на Карибах.
          На вкус и цвет, как говорится, но мне доставила весьма, особенно 3-4 части, несмотря что я набрёл на неe только в прошлом году.
  • 0
    А почему вы подгоняли под нормальный закон? Видно же, что нужно что-то другое посмотреть. Тот же хи-квадрат, весьма похоже описывает данные — резкий рост в начале и постепенное снижение в дальнейшем.
    • 0
      Доходы населения моделируют распределением Парето обычно
      • +1
        По-моему логнормальное тоже иногда используют…
        • +1
          верно, главное exp
    • 0
      Как написано в тексте, я пытался максимально наглядно показать на выборке среднее значение.

      Задачи параметризовать выборку каким-либо распределением не стояло.
  • 0
    медианная зарплата несильно отличается от средней

    в муниципальной сфере в СФ. Все таки это гос учреждение, публичные люди и все такое. Имхо именно в этой выборке медиана и должна была быть максимально приближена к средней. А вот в реальной (конкурентной среде частного бизнеса), это были бы другие цифры.
    • 0
      Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
      В википедии есть интересующие вас цифры со ссылкой на данные Росстата.
    • –1
      nmnmnmmnmnm
      • 0
        Прошу прощенья, это был случайный коммент
  • 0
    Интересно почитать, спасибо. Если интересует тема доходов, то US Census Bureau в своем ACS дает данные по доходам населения, но правда на основе опросов, то есть люди могут занижать.
  • –1
    Кроме того можно сравнить средние месячные зп за 2012-2014 (до волнений) в месяц по оф. статистике:
    в Норвегии — 3313$, Росии — 377$, Украине — 116$ и Индии —
    • 0
      Статья не про сравнение. Кроме того, она про очень частный случай. Получившиеся результаты некорректно сравнивать с общей статистикой.
      • 0
        Это очевидно, однако мы живем в мире, в социуме, и все-таки резонно посмотреть не только вертикально, но и горизонтально, тем более в комментариях.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.