Лаборатория анализа данных Кукушкина Александра
–1,6
рейтинг
11 ноября 2015 в 18:46

Разработка → Исследование результатов ЕГЭ, ГИА и олимпиад для московских школ. Из каких школ в какие ВУЗы поступают

Месяц назад я писал про наше участие в хакатоне по открытым данным.

После хакатона мы не остановились на достигнутом, как это обычно бывает, а продолжили работу. У нас на руках оказались данные, к которым раньше имели доступ, наверное, только сотрудники Министерства образования: результаты ГИА и победы на олимпиадах за 2014-2015 год для 90% московских школ. Для 55% школ удалось собрать данные по ЕГЭ за 2015 год. Прокачали все аккаунты московских школьников в Контакте, посмотрели, какие ВУЗы они указывают у себя в профайлах после окончания.

Естественно, было интересно поизучать такой датасет. Сначала тривиальные вещи, о которых люди из образования, наверное, хорошо знают:
  • Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим. История — исключение;
  • Естественно-научные дисциплины посередине.



Для некоторых школ есть данные по ЕГЭ за 2014 год, поэтому можно попробовать посмотреть динамику за два года:
  • Как будто подрос балл по физике и немного упал балл по информатике;
  • Либо это шум, либо задания изменились, либо готовить стали по-другому.



Для некоторых школ у нас есть не только баллы по ЕГЭ, но и число сдававших предмет. Можно посмотреть на популярность дисциплин. Скорее всего, люди в теме, это и так знают:
  • Русский — обязательный, его сдают все;
  • Часть, видимо, сдаёт базовую математику, мы рассматривали только профильную;
  • Выбросы в английском и физике происходят, наверное, за счёт спецшкол.



Я думал, что чем популярнее предмет, тем выше по нему средний балл. Но, похоже, всё наоборот:


Теперь немного про ГИА. Я думал, что чем лучше в школе сдают ГИА, тем лучше через два года и баллы по ЕГЭ. Оказалось, что это справедливо только для русского и математики и от части для обществознания. Почему так, кто знает?



Была гипотеза, что предпочтения по предметам меняются. Возможно, те кто сдавал, например, физику в 9 классе совсем не обязательно сдают физику в 11. Но по ГИА у нас тоже есть данные по числу сдающих и популярность предметов в целом совпадает с тем, что мы видим для ЕГЭ:



Может быть, дело в заданиях. Если упорядочить предметы по среднему баллу по ГИА, порядок будет совсем не такой, как для ЕГЭ:
  • Высокие баллы по информатике;
  • Засечки на целых баллах появляются, потому что некоторые школы округляют среднее до нулевого знака;
  • По истории, как и для ЕГЭ, баллы одни из самых низких.



Теперь про олимпиады. У нас есть число победителей московских и всероссийских олимпиад по всем предметам. Было интересно проверить коррелируют ли успехи на олимпиадах со средним баллом по ЕГЭ по школе:
  • Иногда какая-то зависимость просматривается: для английского, обществознания, биологии, например;
  • Иногда не очень: для русского, литературы особой связи нет.



Для всех школ известны координаты. Да, бывает, что зданий несколько, но мы пока смотрим на юридический адрес.



У меня было представление, что чем ближе школа к центру, тем она лучше. Но, похоже, это не так. По крайней мере, средний балл по ЕГЭ от близости к центру не зависит:



Наверное, некоторых сейчас интересует откуда данные и почему им можно доверять. Результаты ГИА и олимпиад нам любезно предоставило Министерство образования. Они обещали, что скоро эти данные будут публично доступны. Результаты ЕГЭ по предметам, почему-то считаются большим секретом, поэтому нам пришлось их собирать вручную с сайтов школ. Все московские школы хостятся на портале mskobr.ru и у всех есть раздел "публичный доклад". Там обычно есть ссылка на документ, где директор школы в произвольный форме отчитывается за прошедший год. Естественно, все школы видят содержание и оформление отчёта по-разному:



Поэтому об автоматическом сборе данных пришлось забыть. Мы взяли классный инструмент для распознавания таблиц в PDF-документах — Tabula. Немного её пропатчили и процесс сбора данных выглядел так:



Через ~30 часов все ~600 документов были обработаны. Оказалось, что только из ~55% получается достать данные по ЕГЭ. Часто данные в отчёте несвежие или результатов ЕГЭ нет или нет именно средних баллов, а есть только, например, максимальные. Затем в ~300 школ, для которых удалось достать баллы по ЕГЭ были отправлены письма с просьбой проверить данные. ~30 школ ответили, 2 нашли ошибки, 5 прислали баллы чуть-чуть завышенные относительно отчёта, остальные сказали «норм». То есть с точностью больших проблем нет, есть проблемы с полнотой. Нужно где-то достать баллы ещё для ~300 школ.

Затем мы приступили к Контактику. Цель была определить из каких школ в какие ВУЗы чаще всего поступают. Первым делом нужно было объединить официальные названия школ, с теми которые использует Контакт. Это сделать не так просто. Потому что, например, у нас есть «Школа №17», а у ВК есть «Вечерняя школа №17», «Музыкальная школа №17 им. Л. Н. Оборина», «Школа-интернат №17». Кроме этого Контакт разрешает получать только 1000 результатов поисковой выдачи. Если школа указана более, чем в 1000 аккаунтов, а для московских школ это почти всегда так, то нужно что-то придумывать. Мы разбивали один запрос «школа №17» на несколько: «школа №17 девочки от 6 до 14», «школа №17 мальчики от 6 до 14», «школа №17 девочки от 15 до 17», «школа №17 мальчики от 15 до 17» и так далее. На запросы к поиску, похоже, существует какой-то нечёткий лимит. После ~50 обращений нас банили на ~1 час. Так или иначе через пару суток все аккаунты были прокачаны. На одну школу приходится в среднем ~1800 человек, из них ~450 указывают университет.


Если использовать эти данные как есть, странным образом, 90% московских школьников поступают в МГУ. Поэтому применяется следующий изощрённый алгоритм: выкинуть МГУ. Да, например, для лицея №1533, откуда 50% людей уходит в МГУ этот алгоритм работает не очень хорошо, но другие подходы жутко ухудшаю покрытие для всех школ. Остаётся, например, не ~450 человек, а ~45, строить по ним распределение по ВУЗам не получается. Те, кто учился в школах с картинки, пожалуйста, напишите соответствует гистограмма правде или нет:


Остальные школы можно попробовать поискать на obr.msk.ru
Кукушкин Александр @alexkuku
карма
151,0
рейтинг –1,6
Лаборатория анализа данных Кукушкина Александра
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разработка

Комментарии (31)

  • 0
    Вопрос автору: каким инструментом анализ проводился?
    • +2
      iPython с библиотеками Pandas, Seaborn и Matplotlib
  • 0
    Работа отличная, сами экзамены вызывают вопросы.
  • +2
    Очень странное предположение о связи между качеством образования и близостью к центру.
    Интересно было бы, конечно, увидеть и данные с учетом того, какие школы являются школами с углубленным изучением предметов, но, похоже, такого списка в ясном виде просто не существует. В Википедии есть список московских школ, но он мало что проясняет — скажем, являются ли таковыми все лицеи, неизвестно.
    • 0
      Очень странное предположение о связи между качеством образования и близостью к центру.

      Видимо это в некотором смысле калька с благополучных районов в США. В США действительно существует корреляция между уровнем школ и стоимостью на жилье. Хотя это не всегда работает хорошо в городах к примеру в Сан Франциско очень тяжелое положение со школами, а цены на жилье одни из самых дорогих в мире. Москва собственно не исключение, что данное исследование и подтверждает.
      • 0
        Смотрю на графики, и вижу подтверждение. У школ за 25-30 км по большинству предметов результаты более чем скромны. То есть они все «не очень».

        А школ ближе к центру очень сильно варьируется уровень. Есть как хорошие, так и плохие.
    • +1
      Возможно, стоит рассмотреть предположение о связи между качеством образования и расстоянием школ ло ближайших университетов. Не знаю точно, как сформулировать, но есть в москве кластеры школ, которые возле университетов находятся. Да и сами унивеситеты собираются в кластеры, например, на юго-западе Москвы или северо-востоке.
      • 0
        Была такая идея, но это сложновато в реализации и графики сложно интерпретировать
  • –1
    А у меня когда-то в руках оказались данные об успеваемости учащихся одного лицея. Я вычислял средний бал учащегося и сортировал учащихся по этому балу. Не удержался и построил график (по х — учащийся, по у — его средний бал; точные данные утрачены, прилагаю примерный рисунок). Ожидалось что получится плавная кривая, где сначала идёт достаточно большое количество троечников, потом немного хорошистов, а затем пара человек отличников. Оказалось что в пределах одного класса наблюдается отклонение от плавной кривой, которое очевидно связано с тем, что формируются группы учащихся, в пределах которых более сильные стараются подтянуть коллег.
    image
  • 0
    Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим

    А можете прояснить, какие предметы из тех, что есть у вас в списке вы считаете техническими?
    Мне на ум приходит только информатика, да и то, с большой натяжкой.
    • 0
      Математика, физика, информатика
      • –3
        С математикой весьма дискуссионный вопрос.
        Но вот физика это определённо естественно-научная дисциплина.
  • +2
    А можно ли добавить статистику по СУНЦ МГУ или школа-интернат Колмогорова?
    Хочется проверить эти данные с данными ручной статистики в самой школе.
    • 0
      У нас проблемы со школой Колмогорова. В данных Минобра её нет, видимо, потому что в школе занимаются только 10-11 классы. Данных по ЕГЭ нет, потому что не нашли публичный доклад. Распределение по ВУЗам кривое, потому что из школы, видимо, часто идут в МГУ, а МГУ мы выкидываем. При этом понятно, что школа крутая. Может быть, вы нам просто сами пришлёте данные по ЕГЭ и ВУЗам на ak@obr.msk.ru?
      • 0
        Спасибо!
        Закину на почту ответственным людям, может разродятся;)
  • +2
    Ваша гипотеза о физике и информатике не совсем верна. Оба предмета (как и многие другие) были достаточно сильно реструктурированы (убраны задания с выбором ответа, многие задания были удалены, какие-то добавлены, какие-то изменены). Балл по физике вышел чуть выше потому что у учителей (во всяком случае в нашем случае) откуда-то были сведения о примерных заданиях (ездили они на какие-то московские конференции), следовательно лично мой класс был заранее подготовлен к определенным типам заданий. По информатике такого не было, готовились все по сути к ЕГЭ 2014 в итоге на экзамене многие были удивлены, что в жизни заданий подобного типа не решали. Кстати списываний в моем регионе я не видел, всё ОЧЕНЬ строго.

    В целом в ЕГЭ есть положительные тенденции, но он до сих пор очень далек от идеала.
    • 0
      Соточку из математики сейчас реально выбить? Или там совсем вундеркиндом надо быть?
      • 0
        Скажу честно, я почти не готовился целенаправленно, то есть просто учился в достаточно сильной школе на четверки и всё – 76 баллов по математике (или 78 у меня, подзабыл уже :) ). Первая часть идеальная, во второй пару заданий угробил глупыми ошибками (например забыл минус в ответе). То есть сотка вполне реальна, у меня в классе на 90+ писали. Главное уметь решать задачу по геометрии планиметрическую и последнюю задачу начального олимпиадного уровня.
        • 0
          понятно. Примерно так и было. Спасибо.
      • 0
        Видел какие-то пробные задания 2015го года — сотку реально выбить, но нужно ОЧЕНЬ аккуратно всё решить. Геометрия довольно зубодробительная, как мне показалось.
  • –2
    Так Вы без сырцов, только по среднему баллу ориентируетесь?
    Бесполезная это работа, простите — среднее по больнице использовать как показатель.
    В тестировании знаний (уж я то знаю, сам обрабатывал) гораздо важнее «дисперсию» знать. А лучше несколько значений процентилей.
    Хотя самые классные результаты — это корреляции всех-со-всеми — тот самый факторный анализ.
    Простите, но данные действительно «строго конфиденциальны».
    Хотите пример интересной картинки? (данные староваты, правда)
    image
    Это усреднённые" характеристические кривые первых, вторых и третьих экспертов. Видите разницу? Кто в теме — поймёт.
    И как можно это знание использовать — тоже.
    • 0
      Об идеальных данных можно долго мечтать. Но все работают с тем, что есть.
      Если задача анализа как-то сравнить школы, то среднее — вполне годная характеристика. Конечно, можно желать большего, но где ж его взять?
  • +1
    Я в Самаре, у нас данные среднего ЕГЭ и ГИА по всем школам Самарской области доступны в местном Центре развития образования. Сырья, к сожалению, не дают, хотя в обезличенном виде, с привязкой только к школе, думаю, могли бы — не вижу, чьи тут могут быть быть задеты интересы. Сам ЦРО на базе сырья делает анализ по городам и селам области, бьет на мальчиков-девочек по всем предметам — достаточно познавательно, хотя можно сделать гораздо больше.
    Ну а мы на базе этих данных и данных из отчетов школ с bus.gov.ru делали корреляцию с внебюджетным доходом школ. Плюс добавляли руками стобалльников. Получилась достаточно четкая картина — стобалльники есть только в школах с достаточно высоким внебюджетным доходом; общий результат ЕГЭ в этих школах выше, чем в более бедных. В школах с нулевым внебюджетом — ну, например, 30-40 математика, то есть ужас.
    Черновая визуализация: bl.ocks.org/YuliyaTorgasheva/raw/26069a3e6f42515b8c19
    горизонталь — сумма средних ЕГЭ по математике и русскому языку, вертикаль — внебюджет в год на одного ученика
    Если захотите такое сделать по московским школам, могу подсказать, где смотреть данные на бус.гов
    • 0
      На bus.gov.ru, вроде бы нет Москве. Так, jimborobin?
    • 0
      Московские школы, к сожалению, почти не выкладывают информацию о себе на bus.gov.ru. Скорее всего, это объясняется наличием собственных информационных систем, но закрытых.
  • 0
    А карту успеваемости интересно наложить на карту стоимости жилья в Москве — недавно мелькала диссертация какого-то товарища из вышки с исследованием связи цен на жилье с качеством соседних школ. Вроде он там нашел какие-то закономерности.
    • 0
      Не поделитесь ссылкой?
      Я недавно делал исследование о взаимосвязи стоимости жилья и миграционного притока в Москву. Тут можно посмотреть.
      Если вкратце, закономерности есть, но эффект не большой.
      • +1
        «Результаты свидетельствуют, что родители готовы
        платить на 2,2-2,9 процентов (в среднем на 330 тыс. рублей) больше за
        жилье, обеспечивающее их доступом к школе, предоставляющей более
        качественные образовательные услуги (на 1 стандартное отклонении или
        7 тестовых баллов).»
        www.hse.ru/data/2015/05/25/1096966573/dis%20chugunov.pdf
        К автору было немало претензий, но сама по себе тема очень интересная и долгоиграющая, также как и анализ данных ЕГЭ.
        • 0
          Спасибо! Интересно.
          Но уже из названия видно, что вопросов должно быть много.
          Скорее всего, речи о влиянии не идет вообще. Есть корреляция. Причем она, скорее всего, подразумевает зависимость в противоположном направлении. Т.е. в районах с более дорогим жильем селятся люди более высокого социально-экономического уровня, дети которых, в свою очередь, склонны посещать более качественные школы и добиваться высших результатов при тестированиях.
          • 0
            Автор там указывает, не очень понятно на основании чего, что родители именно рассматривают школу как фактор покупки квартиры.
            Директора школ в Самаре говорят, что на количество денег и общую успеваемость сильно влияют новые дома вокруг школы. Но при этом даже в Самаре есть такие истории, когда некоторая школа вдруг начинает набирать очки и через 5-15 лет приписанный к ней район действительно становится более престижным. За счет школы или по другим причинам — трудно сказать, потому что везде, кроме совсем выселок, строится новое жилье и инфраструктура. В Москве должно быть много таких историй. Для основательного анализа, наверное, данных по ЕГЭ лет за десять будет достаточно.
  • +1
    Прекрасное описательное исследование. Спасибо!
    Было бы любопытно забуриться в тему поглубже.
    Вам, вероятно, будет интересно взглянуть на статью, где похожим образом изучается молодежная миграция.
    Замятина, Н. (2012). Метод изучения миграций молодежи по данным социальных интернет-сетей: Томский государственный университет как «центр производства и распределения» человеческого капитала (по данным социальной Интернет-сети «ВКонтакте»). Региональные исследования, (2), 15–28. (в открытом доступе статья перепечатана здесь).

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.