15 мая 2016 в 22:01

Выбор школы в Москве the hard way

Полгода назад я писал про то, как мы участвовали в конкурсе по открытым данным с проектом "Московские школы". Потом было исследование московских результатов ЕГЭ, московских кружков и секций. Недавно удалось собрать все результаты в одном месте и аккуратно оформить:


Я хотел бы подробно рассказать про процесс сбора и обработки школьных данных. Оказывается, что для каждой школы в Москве публикуется достаточно много информации: результаты ЕГЭ, ГИА и олимпиад, профили учителей, бухгалтерская отчётность и списки кружков.

Рейтинги


Департамент Образования Москвы каждый год составляет рейтинг школ. Доступны срезы за 2015, 2014 и 2013 годы. Можно посмотреть не только на каком месте находится школа сейчас, но и на динамику. Если лень разбираться в разных версиях названий школ, например «Специализированный учебно-научный центр (факультет) — школа-интернат имени А.Н.Колмогорова» и «СУНЦ МГУ», можно взять сводную таблицу из репозитория obr.msk.ru.

Нужно учитывать две вещи:
  1. Рейтинг может меняться по не зависящим от школы причинам. Например, приписали к школе вечёрку — рейтинг упал, хотя хуже учить не стали.
  2. К рейтингу есть вопросы с точки зрения математики. Например, в описании есть такая строчка «За каждого учащегося, который по каким-либо трем предметам на ЕГЭ набрал не менее 220 баллов, начисляется 1 балл». Пускай в одной школе ЕГЭ сдавало 100 человек и >220 набрало 10, а в другой сдавало 10 человек и >220 набрал 1. И там и там >220 набрало 10%, но первая школа получит 10 баллов, а вторая 1. Также интересно как они подбирают коэффициенты, почему за победителя Всеросов дают именно 10 баллов, а за призёра — 5.


И вообще, школа — очень сложная вещь: десятки учителей, сотни учеников, корпуса, кружки и секции. Как это можно свести к одной цифре? В топе рейтинга, действительно, хорошие школы. При этом низкая позиция ещё не означает, что школа плохая.

Сайты школ


В Москве почти все школьные сайты хостятся на одной платформе. Это очень удобно. Список школ со ссылками есть на obr.msk.ru. На сайтах школ есть много полезного:
  1. Списки корпусов. У школы есть юридический адрес и обычно его наносят на карту. Но это не совсем корректно. У 80% московских школ больше одного корпуса. Да, в 80% случаев эти корпуса находятся рядом (меньше 1.5 км), но бывает и так:

  2. В каких корпусах кто учится. 95% школ учат с 1 по 11 класс. Почти у всех есть ещё детские сады. Но часто начальным классам и, конечно, садикам выделяют отдельные здания. Поэтому может оказаться, что школа близко от дома, а нужный корпус далеко.
  3. Публичный доклад. На каждом сайте есть специальный раздел, куда директор каждый год выкладывает отчёт о работе школы. В половине случаев это актуальный содержательный документ, где в произвольной форме описывается всё: результаты проверок и мониторингов, успехи на олимпиадах, отчёты о поездах и праздниках. Кстати, это единственный открытый источник баллов по ЕГЭ по отдельным предметам.

  4. Фотки. 95% школ выкладывают на сайт фотографии с разных мероприятий и праздников. Иногда с их помощью можно получить представление о школьной инфраструктуре.

  5. Профили учителей. Больше 75% школ выкладывают на сайты списки учителей. Для каждого указана квалификация, стаж, образование и награды.


data.mskobr.ru


Пару месяц назад разработчики платформы, на которой работают все школьные сайты, запустили справочник data.mskobr.ru. На первый взгляд ничего особенного, но если присмотреться можно найти вещи, которых нигде больше нет:
  1. Мобильные телефоны и личные емейлы сотрудников администрации. Директора не очень довольны, наверное, скоро данные уберут.
  2. Число учеников и учителей. Можно измерять число учеников на одного учителя. Если оно больше 12-15, это странно.

  3. Сколько пришло в первый класс, сколько из них учились в садике при школе. Если, например, 80% первоклашек приходит из садика при школе, значит хорошо бы заранее записаться именно в этот садик.
  4. Средние зарплаты учителей и администрации. Если зарплата больше 75 000р., значит нагрузка на учителей выше среднего или школа хорошо зарабатывает на дополнительных услугах.


data.mos.ru


В начале 2016 года на Портале открытых данных Правительства Москвы появилось три датасета: результаты ГИА, результаты ЕГЭ и победители олимпиад.

ЕГЭ

Вообще результаты ЕГЭ для отдельных школ публикуются очень редко. Обычно это большой секрет. По Москве данные представлены в супер-агрегированном виде, для каждой школы известно только три числа: «сколько одиннадцатиклассников сдавало ЕГЭ», «сколько набрали >150 баллов по результатам трёх экзаменов», «сколько набрали >220 баллов». Сначала кажется, что данных слишком мало и ничего не выйдет, но это не так. С помощью серии вычитаний и сложений для каждой школы получаем три числа: «сколько одиннадцатиклассников набрали <150 баллов», «сколько от 150 до 220», «сколько >220». На эти три точки натягивает бета-распределение и рисуем графики. Получается достаточно информативно:



Нужно понимать две вещи:
  1. ЕГЭ — это очень высокоуровневый показатель, но если результаты значительно хуже средних, наверное, лучше в такую школу не идти.
  2. Нельзя просто так вычесть из всех сдававших тех, кто набрал >150 баллов и получить число тех, кто набрал <150. Некоторые одиннадцатиклассники сдают два экзамена. Иногда к школе приписывают пересдающих, их тоже надо исключать. К сожалению, таких данных нет и приходится немного корректировать результаты по запросу администраций школ.


Олимпиады

Табличка по олимпиадам на Портале открытых данных странная. Например, у Второй школы куча призёров и победителей по математике в старших классах, на портале указано всего 6 человек. Но есть прекрасный сайт — Единая Система Регистрации на олимпиады школьников. Особенно мне нравится их капча:


Там можно найти пофамильные списки победителей и призёров с указанием этапов олимпиад:


Финансы


Ещё один прекрасный сайт — bus.gov.ru. Для 90% школ там можно найти актуальную бухгалтерскую отчётность. Небольшой хак: не надо пытаться искать школу по названию, это бесполезно:


Сразу вбивайте ИНН, его можно найти на data.mskobr.ru:


Затем делаем несколько неочевидных кликов:


И вуаля, можно посмотреть, какую долю доходов школа получает «от оказания платных услуг (работ)», сколько тратит в расчёта на одного ученика. Иногда можно даже посмотреть зарплату директора:


ВКонтактик


Чтобы собрать профили московских школьников и выпускников, можно воспользоваться поиском. Проблема в том, что АПИ позволяет получить только первые 1000 результатов, а нужных профилей примерно 1000 000. Поэтому нужно сделать не один запрос, а много: «лицей 1535 мальчики 15 лет», «лицей 1535 девочки 15 лет», «лицей 1535 мальчики 16 лет» и так далее.

Удобно, что прямо в результатах поиска пишется вуз пользователя. Таким образом можно прикинуть, куда поступаю ученики школы. Для этого даже не нужно прокачивать профили. Правда, нужно быть аккуратным с МГУ и некоторыми другими вузами на букву «А». 90% пользователей ВК указывают именно их. Иногда уже в 5 классе.


Также очень удобно собирать отзывы о школах. Создаёшь голосование, id всех проголосовавших известны, кто в какой школе учится известно:


Потом можно выводить статистику по школам:


Самые основные показатели из упомянутых источников собраны на obr.msk.ru. Если вдруг кому-то надо, код открыт github.com/alexanderkuk/moscow-school2.
Кукушкин Александр @alexkuku
карма
154,0
рейтинг –1,6
Лаборатория анализа данных Кукушкина Александра
Самое читаемое Разработка

Комментарии (5)

  • 0
    Спасибо, получилось интересно. А нельзя ли к карте добавить фильтры? Например, галочки про тип учреждения, классы, рейтинг не больше/не меньше.
  • +1
    Все это конечно, хорошо. Но, увы, отражает только прошлое и не отражает текущие процессы, происходящие в московских школах. Есть школы, которые еще год-два назад показывали хорошие результаты, а сейчас деградируют. Причем во всех известных мне случаях после объединения с соседними школами. Извините, что о наболевшем.

    По технической части — нельзя ли сделать, чтобы при возврате на исходную страницу obr.msk.ru карта сохраняла свой масштаб и позиционирование?
    Скорее всего пользователей будут интересовать окрестные школы, а не разбросанные по всей Москве.
  • 0
    Из того, что бросилось в глаза:
    1. Несколько школ помечены номером 1454, хотя на яндексе это, например, 885 и 929. Уж не знаю, кто из вас прав. И все эти школы- одна и та же информация. Т.е. сравнить не получится никак.
    2. В «инфо» маркеры начальной и средней школы- отображаются одинаково, могу скриншот сделать.
    3. Список «Университеты»- абсолютно не читаемый- у каких то вузов в две-три строчки что ли сделаны «прогрессбары»?
    4. Собственно весь сайт сделан для сравнения школ. А вот сравнивать как раз и не удобно совсем. Или я не понял как?

    Но конечно тема интересная, спасибо.
  • 0
    Учась в институте с выпускниками передовых школ (сам из обычной школы, пусть и хорошей), пришел к выводу, что превосходство в рейтингах достигается экзаменами при поступлении и фильтрацией всех кроме сильных учеников, а не выдающимися учителями. Хотя стоит признать, что обучение среди более сильных одноклассников приностит свою пользу.
  • 0
    Очень познавательно. Спасибо Вам за работу.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.