Социальное неравенство и зарплаты чиновников

    Волею судеб, ко мне в руки попали данные о заработных платах, премиях и сверхурочных множества госслужащих одного крупного портового города, от мэра до сторожа бассейна. Не теряя ни минуты, я бросился вгрызаться в цифры. Нет ничего любопытнее, чем смотреть на чужие зарплаты, особенно, когда можно оправдать себя тем, что занимаешься Data Science!

    Как только прошли первые приступы зависти, я осознал, что в датасете присутствует информация не только по крупным руководителям, но и по рядовым сотрудникам от самого низкого уровня. Получается, что по этим данным можно воочию наблюдать основные закономерности в распределении доходов в реальном мире. Пользуясь случаем, я приглашаю всех диванных экономистов в увлекательное турне в мир роскошных окладов и скупой статистики!

    Сегодня мы поговорим про средние и медианные зарплаты, индекс социального неравенства Джини, отношения между богатыми и бедными (индекс Rich/Poor), непреодолимый разрыв доходов (эффект Матфея) и карьерный рост.

    San-Francisco

    Сразу вскрою основную интригу — что это за данные и откуда я их взял. Это реальная информация о заработных платах муниципальных служащих города Сан-Франциско (на фото), что в Калифорнии, США. В датасете присутствую настоящие имена, занимаемые должности, оклады, бонусы, сверхурочные и премии некоторых (возможно, всех) служащих за 4 года — с 2011 по 2014 включительно. Данные не очень чистые и не совсем стандартизованные, но работать с ними можно. Все это любезно предоставила администрация штата в рамках проекта Transparent California. Все суммы — в долларах в год, до вычета налогов.

    Я осознанно пропущу этапы изучения и подготовки данных, а также код построения графиков. Желающие могут изучить все это в github. Там Python, Jupyter, Pandas и Seaborn. Итак, приступим.

    Распределение заработных плат


    В датасете есть не только базовые доходы сотрудников, но и различные надбавки. Дабы не углубляться в мелочи, будем рассматривать только базовый доход и общий доход с учетом всех надбавок и премий.

    Вот так выглядит распределение базовых доходов сотрудников за 4 года:
    Базовые доходы

    Эти четыре… гхм… “морковки” символизируют распределение доходов за 4 года. По оси Y — величина дохода, по оси X — плотность вероятности распределения доходов. Поперечные пунктирные линии — это квартили 25%, 50% (медиана) и 75% распределения. Четко видно несколько уплотнений — в районе $5.000, $65.000, $110.000 и $170.000. Так выглядят классы сотрудников — временные рабочие, линейный персонал, высококлассные специалисты и топ-менеджмент. Кажется, что “морковка” медленно едет вверх, что может означать как растущий уровень благосостояния, так и инфляцию.

    Теперь посмотрим на распределение общего дохода сотрудников:


    Данные за 2011ый год сильно отличаются от последующих. Оказалось, что у нас нет данных о премиях в течение этого года. Вообще, данные за 2011ый год отформатированы иначе, что сильно затрудняет их использование. Кроме того, в этом году сменилось выборное правительство, из-за чего зарплаты людей на выборных должностях посчитаны не за полный год.

    В остальных годах мы видим, что слой премий “сгладил” “морковку” распределения, практически ликвидировав четкое деление сотрудников по классам. Т.е., с учетом премий хороший линейный специалист зарабатывает сравнимо с ненапрягающимся экспертом.

    Сан-Франциско — недешевый город. Официальная минимальная зарплата составляет порядка $20.000 в год, субъективный прожиточный минимум — от $40.000 в год. Непонятно, откуда же такое большое число людей с зарплатой меньше МРОТ? Ответ кроется в признаке Status — FT (Full-time) и PT (Part-time), т.е. в выборке есть не только штатные сотрудники, но и совместители, в т.ч. разовые подработки. Признак Status проставлен только для 2014го года.

    Вот так выглядит распределение общих доходов с разделением на штатных и внештатных сотрудников:


    Как видно, медианный доход штатника составляет около $130.000 в год.

    Давайте заодно ответим на вопрос, которому посвящено множество споров в интернетах — как связаны средняя и медианная зарплата. Бытует мнение, что средняя зарплата значительно выше медианной засчет доходов топ-менеджмента.

    Проверим, так ли это:


    На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному. Наибольшему значению плотности распределения соответствует средняя зарплата, которая составляет $90.000. На нижнем рисунке изображены квартили распределения зарплат, средняя линия внутри прямоугольника — медианная зарплата, и она составляет $85.000. Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

    Социальное неравенство


    Наиболее волнительным в зарплатах является вопрос их справедливого распределения (от каждого — по способностям, каждому — по труду?). Мудрые предки оставили нам численные метрики неравенства распределения доходов. К наиболее популярным относятся индекс Джини и индекс R/P. Давайте поговорим о них подробнее.

    Индекс Джини — это статистический показатель степени расслоения величины. В экономике его обычно используют для измерения расслоения населения по доходам. Считается индекс Джини как выраженное в процентах отношение площади между кривой Лоренца и диагональю y=x (зеленая область) к площади всего треугольника ниже диагонали (синяя + зеленая области):


    Показатель измеряется от 0 до 100, где 0 — полное равенство (всё синее), а 100 — все доходы у одного человека (всё зеленое). Для примера, Джини России — 42.0, США — 45.0, Германии — 27.0, Китая — 47.3. Самый маленький Джини у Швеции — 23.0, самый большой — у африканских банановых монархий, где он может подниматься свыше 60.

    На рисунке выше изображена кривая Лоренца для доходов штатных сотрудников. Индекс Джини для них составляет 18.9, что говорит о практически коммунистической уравниловке. Можно трактовать это так — если вам удалось попасть в штатные сотрудники мэрии Сан-Франциско, зарплатой вас не обидят. А можно так — если вы работаете в мэрии, карьерная лестница у вас невысокая.

    Еще одним любопытным индикатором расслоения является отношение доходов богатых к доходам бедных. Посмотрим на темно-синий “треугольник” на рисунке выше. Его ширина — 20%, это 20% богатейших людей. Высота темно-синего треугольника — 31%. Это значит, что на 20% богатейших людей приходится 31% совокупного дохода. Теперь обратите внимание на красный треугольник. Его ширина — 20% (беднейших людей), а высота — 12% (дохода), т.е. на 20% беднейших людей приходится 12% совокупного дохода. Индекс Rich/Poor 20 отражает отношение доходов богатейших 20% к беднейшим 20% общества. Для штатных сотрудников муниципалитета Сан-Франциско R/P 20 составляет 2,5. Можно трактовать это как высоту потолка роста на карьерной или социальной лестнице.

    Теперь для сравнения посмотрим на кривую Лоренца для внештатных сотрудников:


    Мы видим разительное отличие от предыдущего графика. Дуга кривой Лоренца прогнулась далеко вниз, зеленая область увеличилась в размерах. Богатый треугольник занимает почти половину высоты, а бедный треугольник почти не видно. Индекс Джини составляет 53.6, а R/P 20 равен 45. Это примерно соответствует бедным странам Южной Америки, с ярко выраженным расслоением на зажиточных капиталистов и простоватых мучачос.

    Эффект Матфея


    Мудрость поколений гласит, что “всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет”. Другими словами, зазор между бедными и богатыми постоянно увеличивается. Это забавное явление прото-социологи наблюдают в течение тысячелетий, а в последнее время его осознание стало доступно широким массам. Из Эффекта Матфея, как его называют экономисты, следует вывод, что единственный способ приумножить свое состояние и оставить наследство своим детям — принадлежать к верхушке общества. Эта гипотезу весьма неприятно осознавать, и было бы неплохо, если б она оказалась ложной. Так давайте же ее опровергнем!

    На рисунке ниже вы видите суммарный размер фонда оплаты труда муниципалитета Сан-Франциско за 3 года. Он вырос c $3,70 млрд в 2012ом году до $3.82 млрд в 2014ом, показав рост +3,2% общего объема.


    Теперь давайте построим графики среднего дохода высшего и низшего децилей (10% самых больших и самых маленьких зарплат). Как видно, средний доход в высшем дециле увеличился на +3,0%, в то время, как доход в низшем дециле существенно упал на -12,6%.


    Это означает не только то, что эффект Матфея есть, но и то, что он крайне силён и легко заметен невооруженным взглядом. Можно предположить, что именно этим объясняется уверенный рост индекса Джини в США в течение последних 30 лет.

    Стоит отметить, что из-за отсутствия разметки full-time/part-time в ранних годах, мы оценивали доходы децилей на смешанной выборке из штатников и внештатников. Это могло внести существенные корректировки в результат, так что я в нем не уверен — чересчур неправдоподобно выглядит величина зазора.

    Карьерный рост


    Раз уж мы заговорили о карьерном росте, давайте проверим — есть ли он, или это фантастика? Поскольку разбираться в иерархии американских чиновников нет никакого желания, будем считать, что карьерный рост сводится к росту зарплаты. В датасете есть имена и фамилии людей, и они ожидаемо повторяются из года в год.

    Давайте посмотрим на доходы одних и тех же людей в 2012ом и 2014ом годах, посчитаем рост в процентах и построим распределение роста в пересчете на один год:


    Слева изображен график плотности вероятности роста дохода, справа — график функции распределения роста дохода. Во-первых, видно, что рост доходов 20% сотрудников лежит в диапазоне от 0 до 2%, что примерно покрывает инфляцию. Наиболее распространенный рост доходов — от 2% до 5%, он наблюдается в 50% случаев, это мода скорости карьерного роста. Далее, примерно 15% людей смогли добиться роста в 5-10%, такой темп роста можно считать высоким. И не более 5% людей показали выдающийся рост доходов более чем на 10% год к году. Стоит также отметить, что 10% сотрудников показали отрицательный рост дохода, т.е. их зарплаты уменьшались год к году.

    Заметим, что для построения этого графика мне пришлось наложить на выборку угрубляющие фильтры, чтобы срезать “длинный хвост”, образованный людьми, кто перешел из разовых контрактников в штат, тем самым увеличив свои доходы от муниципалитета в 50-100 раз. Эти фильтры могли существенно повлиять на распределение.

    Заключение


    Оказалось, что на примере даже такого маленького мирка, как муниципалитет города Сан-Франциско, можно изучать социологические и экономические закономерности.

    Мы можем отметить следующие тезисы:
    • зарплаты в муниципалитете очень скученны
    • хороший специалист может зарабатывать не меньше посредственного руководителя
    • медианная зарплата несильно отличается от средней
    • разрыв доходов между богатыми и бедными увеличивается
    • даже в спокойной госслужбе есть возможности для карьерного роста

    Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе. Я не рекомендую делать на основе этой статьи далеко идущих выводов об экономической статистике в США и, тем более, в мире в целом.
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 62
    • +1
      Свечки по-моему не репрезентативны, тем более с группировкой по годам. Гистограмма со смещением или график отношения к первому году выглядели бы более внятно.
      • +22
        Я-то было подумал тут про РФ. Свечки были бы мягко говорят другими, я полагаю.
        • +10
          «Свечки» в наших ареалах плавно превращаются в остроконечный скипетр, при этом конец скипетра пробивает не только небеса, но и вселенную…
          • +11
            В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
            В статье есть ссылка на подборку статистики, можете ознакомиться.
            • +6
              Не все же доходы попадают в статистику. Особенно, в России.
              • +23
                Я вам — подробную статистику, а вы мне — голословные суждения. Нехорошо. Могли бы хоть википедией прикрыться.

                Если вкратце — есть способы засунуть «не все» доходы в статистику.
                • +1
                  Только вот эти способы смазывают всю картину или делают всю статистику нерепрезентативной. А часто подобное еще и «подкручивают», по разным причинам, до желаемых или просто неверных результатов. Как проводятся соцопросы случайных людей и фокус-групп знаю. Как и методы с предсказанием по особым группам. Единственная статистика, которой можно более-менее верить в этом — это как раз что-то вроде данных по которым вы сделали это исследование. Остальное — цифры чуть ли не с потолка или рассчеты по сомнительным методам, без научного подтверждения верности методов, нерепрезентативные выборки и т.д. Да даже о двойном слепом методе часто и не вспоминают.
                • 0
                  Да даже если и попадают… Зарплата моей жены= МРОТ (бюджетник), а средняя з/п в регионе по данным статистики в 3-5 раз выше. Что же получается- в регионе очень мало работников бюджетной сферы? Или просто у кого-то (скажем, главврача местной больницы) доход на порядок выше?
                  • 0
                    Потому и есть смысл всегда указывать еще и медиану.
                    • 0
                      Кстати интересно, какой процент работающего населения занят в бюджетной сфере? На вскидку кажется должно быть около 15%
                      • 0
                        В статье описано и показано на картинках, почему так бывает. Попробуйте перечитать еще раз.
                    • 0
                      А вы думаете, что статистика неравенства доходов госслужащих совпадает с такой статистикой для населения в целом?
                      • 0
                        Неравенство для населения в целом будет существенно больше.

                        Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).
                        • 0
                          Вот именно. Так что та ссылка, которую вы привели, не даёт оснований утверждать, что

                          статистически причин увидеть другие «свечки» нет


                          Если даже для США в целом такие причины есть!

                          Тем более даже не уточнив, например, идёт ли речь о всей РФ или о бюджетниках какого-нибудь аналогичного по статусу города.
                  • –1
                    Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе.

                    Ну вот как-то да…
                    На основе данных (например) Росстата было бы что-то более актуальное и интересное, наверное.
                    В любом случае, спасибо за статью.

                    Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

                    Я так понимаю ящик с усами построен с отсечением выбросов сверху? То есть в расчете средней и медианы выбросы не принимали участия?
                    • 0
                      Среднее точно считалось по всем данным.
                      Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.
                      • 0
                        «усы» точно отбрасывают учитывают выбросы


                        Мм?
                        • +1
                          Опечатался, поправил.
                    • +4
                      Благодарю. Прекрасный короткий обзор, который может дальше использован как пример для подобного анализа для других стран и групп.
                      Кстати, Норвегия, наверно единственная страна в мире, где данные доходов, налогов и капиталов каждого человека доступны публично (с некоторыми ограничениями) для всех.
                      Вот например норвежский топ 100 богатых по доходам/налогам/капиталу по областям/районам
                      www.dn.no/skattelister/#!/Norge/2014/
                      • 0
                        О, спасибо за наводку!

                        И за комплимент. =)
                        • +4
                          Статья классная! А уж если бы кто проанализировал данные по Норвегии, это было бы вообще очень ценно для понимания реальности.
                      • +3
                        Только один вопрос — почему Вы называете это Data Science?
                        • +6
                          Вспомним известную цитату.

                          Потому что Data Science, как и Big Data — это как секс в разговорах подростков.
                          Все это обсуждают, но никто не знает, что это такое на самом деле.
                          • +62
                            Я лишь прикрываюсь этим брендом, чтобы оправдать бездарно потраченное время.
                            • –1
                              Сарказм засчитан :)
                          • 0
                            «На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному». Судя по диаграмме, это скорее распределение Релея, хотя возможно это случайность.
                            • 0
                              Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.

                              Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.
                            • +4
                              По тексту до хабраката не понятно, что речь идет не о России. Нехорошо.
                              • 0

                                Здание transamerica pyramid известное вроде бы

                              • +15
                                Смешанное чувство, когда твоя зарплата находится в зоне статистической погрешности… Снизу…
                                • –6
                                  Социальное неравенство это проблема? Мэр города должен получать столько же, сколько уборщица? На мой взгляд госслужащим наоборот недоплачивают, потому что не должен мэр получат меньше руководителя самой крупной корпорации в том же городе. А так сколько платим — такую власть и имеем, что туда только воровать с такой зарплатой идут, что у нас, что в США.
                                  • 0
                                    Главнее всех — бухгалтерия, а главный в бухгалтерии — главный бухгалтер.
                                    • 0
                                      Как в США-то воровать, посодют же.
                                      • +4
                                        Роковая ошибка в вашей логике, что руководитель всегда работает на владельца.
                                        У компании владелец — это конкретный человек или группа. У города — население этого города.
                                        • –1
                                          Бедные, бедные депутаты с зарплатой 400 т.р. (+ премии и овер 9000 льгот). На такую зарплату у нас можно только выживать, но не жить.
                                          • 0
                                            Подавляющие число людей, способных к административной борьбе (при этом могут слабыми работниками в целом), часто ненасытны в деньгах или власти, и не менее часто добиваются и того и другого не чистыми методами. Вывод, высокие зарплаты не гарантируют вообще ничего, кроме высокого ФОТ и потенциально, ещё большего воровства.
                                          • +6
                                            Карьеру интересно изучать в разрезе распределения по отдельным профессиям
                                            у архитекторов, юристов и врачей видно «2-е дыхание»,
                                            тоже неплохо инженерам, пожарным, полицейским и мэрам)
                                            image

                                            • +9
                                              Хорошая профессия — Animal.
                                              • 0
                                                я сначала подумал, что это всякие собаки на службе, питомцы зоопарка и т.п., но потом увидел

                                                код R
                                                query = «select Id,
                                                case when jobtitle like '%fire%' then 'Fire'
                                                when jobtitle like '%police%' then 'Police'
                                                when jobtitle like '%sherif%' then 'Police'
                                                when jobtitle like '%probation%' then 'Police'
                                                when jobtitle like '%Sergeant%' then 'Police'


                                                when jobtitle like '%MTA%' then 'Transit'
                                                when jobtitle like '%transit%' then 'Transit'
                                                when jobtitle like '%anesth%' then 'Medical'
                                                when jobtitle like '%medical%' then 'Medical'
                                                when jobtitle like '%nurs%' then 'Medical'
                                                when jobtitle like '%health%' then 'Medical'
                                                when jobtitle like '%physician%' then 'Medical'
                                                when jobtitle like '%Orthopedic%' then 'Medical'

                                                when jobtitle like '%health%' then 'Medical'
                                                when jobtitle like '%pharm%' then 'Medical'
                                                when jobtitle like '%airport%' then 'Airport'
                                                when jobtitle like '%animal%' then 'Animal'
                                                when jobtitle like '%architect%' then 'Architectural'
                                                when jobtitle like '%court%' then 'Court'
                                                when jobtitle like '%legal%' then 'Court'

                                                when jobtitle like '%MAYOR%' then 'Mayor'
                                                when jobtitle like '%librar%' then 'Library'

                                                when jobtitle like '%parking%' then 'Parking'

                                                when jobtitle like '%Public Works%' then 'Public Works'
                                                when jobtitle like '%Attorney%' then 'Attorney'
                                                when jobtitle like '%MECHANIC%' then 'Automotive'
                                                when jobtitle like '%automotive%' then 'Automotive'
                                                when jobtitle like '%custodian%' then 'Custodian'
                                                when jobtitle like '%engineer%' then 'Engineering'
                                                when jobtitle like '%engr%' then 'Engineering'
                                                when jobtitle like '%account%' then 'Accounting'
                                                when jobtitle like '%Gardener%' then 'Gardening'
                                                when jobtitle like '%General Laborer%' then 'General Laborer'
                                                when jobtitle like '%food serv%' then 'Food Service'
                                                when jobtitle like '%clerk%' then 'Clerk'
                                                when jobtitle like '%porter%' then 'Porter'
                                                else null
                                                end as JobType
                                                from Salaries»
                                                • +1
                                                  Кажется, код не опровергает вашу версию.
                                                  • +3

                                                    Есть служба "Animal control" — это всякие собаколовы и т.п. Типа отлавливать шарящихся по мусоркам енотов, выдворять из города медведей и т.п.


                                                    Кстати, один местный рассказывал такую хохму — делал очень реалистичный маскот-костюм льва, надел его испытать, разлёгся у себя на заднем дворе — а соседи через забор увидели, и вызвали этот самый Animal Control — "У соседа во дворе ЛЕВ!!!"

                                                    • +2

                                                      Кстати, вот он:


                                                      image


                                                      А если по отдельности, то вот так:


                                                      image

                                              • +1
                                                Ужасающе узкие распределения в низкоквалифицированном труде.
                                                • +2
                                                  Это логично. В низкоквалифицированном труде расти некуда. Если ты грузчик, то ты будешь таскать ящики. Делать это более профессионально фактически невозможно. Все тонкости труда познаются за неделю в худшем случае.
                                              • –3
                                                А в России можно посчитать что либо подобное — а то чем интереснее по той или стране данные тем тщательнее их берегут от любопытных.
                                                • +2
                                                  Я хочу компьютерную игру (RTS), в которой вот такая вот статья будет одной главой туториала…
                                                  • 0
                                                    Вспомнилась Tropico)
                                                    • 0
                                                      Не играл… Стоит?
                                                      • +1
                                                        Экономический градостроительный симулятор-RTS.
                                                        Мне игра понравилась юмором (крайне удачно локализована на русский) и колоритом бананового островного квазигосудартсва на Карибах.
                                                        На вкус и цвет, как говорится, но мне доставила весьма, особенно 3-4 части, несмотря что я набрёл на неe только в прошлом году.
                                                  • 0
                                                    А почему вы подгоняли под нормальный закон? Видно же, что нужно что-то другое посмотреть. Тот же хи-квадрат, весьма похоже описывает данные — резкий рост в начале и постепенное снижение в дальнейшем.
                                                    • 0
                                                      Доходы населения моделируют распределением Парето обычно
                                                      • +1
                                                        По-моему логнормальное тоже иногда используют…
                                                    • 0
                                                      Как написано в тексте, я пытался максимально наглядно показать на выборке среднее значение.

                                                      Задачи параметризовать выборку каким-либо распределением не стояло.
                                                    • 0
                                                      медианная зарплата несильно отличается от средней

                                                      в муниципальной сфере в СФ. Все таки это гос учреждение, публичные люди и все такое. Имхо именно в этой выборке медиана и должна была быть максимально приближена к средней. А вот в реальной (конкурентной среде частного бизнеса), это были бы другие цифры.
                                                      • 0
                                                        Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
                                                        В википедии есть интересующие вас цифры со ссылкой на данные Росстата.
                                                        • –1
                                                          nmnmnmmnmnm
                                                          • 0
                                                            Прошу прощенья, это был случайный коммент
                                                        • 0
                                                          Интересно почитать, спасибо. Если интересует тема доходов, то US Census Bureau в своем ACS дает данные по доходам населения, но правда на основе опросов, то есть люди могут занижать.
                                                          • –1
                                                            Кроме того можно сравнить средние месячные зп за 2012-2014 (до волнений) в месяц по оф. статистике:
                                                            в Норвегии — 3313$, Росии — 377$, Украине — 116$ и Индии —
                                                            • 0
                                                              Статья не про сравнение. Кроме того, она про очень частный случай. Получившиеся результаты некорректно сравнивать с общей статистикой.
                                                              • 0
                                                                Это очевидно, однако мы живем в мире, в социуме, и все-таки резонно посмотреть не только вертикально, но и горизонтально, тем более в комментариях.

                                                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.