29 октября 2013 в 10:45

Нормализация образования в резюме на hh.ru



Образование – одно из самых важных и в то же время недооцененных полей резюме. На него работодатели обращают внимание в первую очередь, когда работу ищет молодой специалист. Часто именно образование склоняет выбор в пользу одного из кандидатов. Наконец, бывает, что компании ищут специалиста с вполне конкретным образованием, вплоть до факультета нужного вуза.

Соискатели, со своей стороны, указывают образование в резюме не очень охотно. Аббревиатура в поле образования – это еще хороший вариант. Часто можно встретить просто «техническое» или «именем Ленина».

На hh.ru «образование» до недавних пор было свободным текстовым полем, что не позволяло полноценно искать кандидатов по этому критерию, зрительно легко считывать информацию об образовании в резюме, а нам – строить статистику, полезную рынку. Поэтому настало время помочь пользователям, создав справочник вузов и нормализовав это поле.

О том, как мы решали эту задачу с 11 млн резюме и как реагировали пользователи, – в этой статье.


Большая цель состояла в том, чтобы, во-первых, новые пользователи при создании резюме выбирали вуз из нашего справочника, а во-вторых, чтобы существующие пользователи обновили свои резюме таким же образом.
Базу учебных заведений нам любезно предоставили коллеги из «Одноклассников». В ходе работы над созданием своего справочника мы ее существенно переработали, но основа была уже заложена, что значительно ускорило нашу работу на старте.

Шаг 1. Предложения при заполнении


Первым делом в форме создания резюме мы добавили выпадающие подсказки (саджесты) с правильными и полными названиями вузов из нашего справочника. За полтора месяца работы подобной схемы мы увидели, что только 45% новых пользователей выбирают вуз, предложенный нами, остальные же предпочитали оставлять свою версию, даже если она полностью совпадала с предложенной! В результате мы получили 200 тыс. резюме с нормализованным образованием, но этот показатель нужно было увеличивать как минимум на порядок.



Шаг 2. Маппинг


Новые резюме – это хорошо, но чтобы проект имел смысл и мог уже сегодня принести пользу, нужно было нормализовать существующую базу, составлявшую на тот момент около 10 млн. резюме. Поэтому мы решили замаппить (сопоставить) «образование», которое уже было указано в свободной форме пользователями на новый справочник вузов. При этом нужно было учитывать, что пользователи указывают образование в резюме, мягко говоря, очень приблизительно (просто слово «высшее» — тоже очень распространенный вариант).

Для маппинга использовался классический алгоритм поиска сходства двух текстов: cosine similarity. Каждый текст рассматривается как вектор в пространстве термов (слов, его составляющих). Чем большее количество раз слово встречается в тексте, тем большую координату имеет вектор по соответствующей оси. Similarity 2-х текстов есть не что иное, как cos между векторами в пространстве термов.
Использование этого алгоритма «в лоб» давало не очень впечатляющие результаты, поэтому пришлось внести некоторые поправки.

1. Координаты вектора, соответствующего тексту, могут принимать значения {0, 1} – действительно, несколько одинаковых слов в названии учебного заведения – это экзотика.
2. Пространство термов пришлось сделать анизотропным: координаты по некоторым осям вносят разный вклад в норму данного пространства.
Существуют часто используемые слова (например, «государственный», «технический»), которые могут быть опущены или присутствовать в пользовательском написании учебного заведения. И они должны оказывать меньшее воздействие на степень похожести текстов. Наоборот, такие слова, как «(им.) Куйбышева», более важны и позволяют с большей вероятностью установить соответствие. Таким образом, при определении уровня сходства слова, составляющие тексты, разбиваются на несколько групп, отличающихся степенью важности для поиска соответствия.

Вузы. Наследие
Переименования вузов – еще одна задача, которую пришлось решить. Например, то, что когда-то называлось «Педагогический институт», теперь именуется «Педагогический университет». Поэтому при маппинге учитывается возможная омонимия. Кстати, в 90-х сменили свои названия многие города, поэтому в рамках омонимии «Калининский педагогический институт» стоит замаппить на «Тверской педагогический университет». Тем более что работодатели сегодня знают, в основном только современное название учебного заведения.

Совпадающие аббревиатуры
Отдельную задачу составили совпадающие аббревиатуры. Во-первых, некоторые учебные заведения имели одинаковые аббревиатуры в разное время: например, Самарский государственный университет — бывший КГУ (Куйбышевский) и Курский государственный университет — настоящий КГУ.

Во-вторых, учебные заведения разных стран зачастую тоже имеют совпадающие аббревиатуры, например: БГУ – это и Брянский государственный университет им. И.Г. Петровского, и Белорусский государственный университет. Для разрешения таких коллизий приходилось учитывать информацию о городах, где находятся учебные заведения, их населении, странах проживания владельцев резюме. Большую помощь при маппинге также оказали многочисленные использующиеся эвристики.

Результат маппинга
В результате нам удалось «замаппить» чуть больше половины всех высших образований в наших резюме: 6 989 453 из 12 510 682. После тестирования и проверки мы решили, что пора открывать результаты пользователям и изучать их реакцию.

Шаг 3. Проверьте вуз в резюме


Нельзя у пользователя втихую поменять название учебного заведения. Мало кому понравится, если в его резюме системой будут самостоятельно вноситься правки, да и в справочнике до сих пор были неточности. Поэтому мы создали уведомление «уточните название учебного заведения в вашем резюме» на странице с откликами на вакансии. Результат – по этой ссылке переходило менее 10% пользователей, видевших ее: достигнуть цели таким способом не удалось. Вероятно, пользователи были уверены, что с «образованием» у них все в порядке и там нечего проверять.



Однако благодаря этому уведомлению мы увидели, во-первых, типичные ошибки, а во-вторых, странную закономерность: даже если мы замаппили все правильно, пользователи все равно возвращали свой вариант, который, возможно, им просто роднее и привычнее. Это стоило учесть на будущее.

В общем, за две недели работы уведомления мы получили еще 150 тыс. резюме с правильным образованием. Всего же за 2,5 месяца существования справочника вузов мы имели 450 тыс. замаппиных резюме, или около 5% от всей базы. Сей результат снова не впечатлял, и мы продолжили делать выводы и продумывать дальнейшие шаги.

Шаг 4. Как подцепить пассивных пользователей


С помощью саджестов и уведомлений мы охватили только активных пользователей, которые приходят на сайт. Чтобы достучаться до соискателей, которые не ищут сейчас работу, мы решили сделать рассылку на часть базы зарегистрированных соискателей. В письме мы написали, что внесли некоторые изменения в образование из резюме, и их нужно подтвердить, но можно и отклонить.


Логика в письме была следующая:
  • если пользователь никак не прореагирует на это письмо, то образование в резюме останется нетронутым;
  • если пользователь подтвердит, что название мы поменяли верно, то образование в резюме обновляется на актуальный вариант из нашего справочника;
  • если пользователь отвергнет предложенный нами вариант, то перейдет в редактирование своего резюме, где сможет вернуть изначальный вариант.




Все случаи отказов от нашего варианта мы выгрузили и на их основе еще раз проверили справочник, внеся необходимые правки.

Тут надо заметить, что формулировка о внесении изменений в резюме оказалась не очень удачной, поэтому по другой части базы мы отправили письма, где говорили о новом справочнике вузов и предлагали пользователям обновить название вуза самостоятельно.



Спустя неделю после рассылки у нас в базе оказалось 1 000 052 завершенных резюме с образованием из справочника – существенная часть, но еще далеко не все. Поэтому мы продолжили рассылки с предложением обновить вуз, объясняя, зачем это нужно и что дает соискателям. В поддержку нормализации вузов мы также запустили проект «Битва вузов», чтобы стимулировать пользователей обновлять резюме, тем самым поддерживая свой вуз в импровизированной битве. На объективный рейтинг вузов этот проект, конечно, не претендует, но он, тем не менее, тоже внес (и продолжает вносить) определенный вклад в дело нормализации образования.



Буквально несколько дней назад добавили варианты названий вузов на английском (для резюме на английском). Пока не для всех, будем увеличивать их число.

В результате на сегодняшний день мы имеем 23% резюме в базе с нормализованным образованием, а это около 3,3 млн. До конца года планируем дойти до 30%.

Если вы не еще обновили образование в резюме, то сейчас самое время это сделать.

Если вашего вуза все еще нет в справочнике, то напишите нам об этом, и мы его добавим.

Шаг 5. Поиск по вузам – первое, ради чего всего затевалось


Благодаря тому, что фактически четвертая часть всех резюме теперь имеет нормализованное образование, и эта доля постоянно растет, мы выпустили первую стадию поиска по вузам. Теперь рекрутер может найти выпускников конкретного учебного заведения, просто кликнув на него в любом резюме, а с помощью поисковых фильтров выборка быстро сужается до требуемого города, профсферы, опыта работы кандидата, знания языков, желаемого типа занятости и так далее. Работодателям, которые точно знают, чего хотят, или просто привередливым (как вам больше нравится) теперь стало намного легче находить нужных кандидатов. Но это только начало.



Нормализация образования – это лишь часть проекта нормализации, в который также входит нормализация должностей, навыков, работодателей и профессиональных областей.

Если есть идеи и вопросы по этому проекту — всегда рады им в комментариях.
Автор: @djika
Похожие публикации

Комментарии (16)

  • +4
    Интересно было бы увидеть срез, как часто работодатели обращают внимание на образование на какие специальности. Не верю я в наше образование на IT специальности
    • +3
      На самом деле образование достаточно важно для работодателей. На профильное образование не обращают внимание только 13% работодателей. Картинка, конечно, в целом, по IT тоже поищу наглядные данные. Мне кажется, там значимость образования будет еще выше.
      image
      Из прошлогоднего исследования: hh.ru/article.xml?articleId=12846
      • +1
        Сам помнится отвечал на подобный опрос и ответил, что обращаю внимание.
        Но вопрос не в том, обращаю ли я внимание, а в том, какую роль играет данная информация для меня.
        Со временем стал ставить плюс напротив нескольких ВУЗов и специальностей, которые имеют вес для нужной вакансии.
      • +1
        В IT, я думаю, работодатели обращают внимание на образование только у джуниоров.
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Это иллюстрация из битвы вузов (http://hh.ru/article/bitva_vuzov), там каждый город — ссылка, которая открывает список вузов из битвы. Там, конечно, далеко не все города, когда делали проект ограничились теми, которые видны сейчас. На карту России не претендует, не хотели вас этим расстроить.
  • +1
    думаю, характеристика «диплом с отличием (красный)» сама по себе интересна, странно спешивать её с квалификацией
  • +1
    есть существенная доля работодателей, которые ищет студентов конкретных вузов, конкретных специальностей или кафедр.
    при этом интересно, что 39% работодателей требует техническое образование как таковое.
  • 0
    А как на MS SQL реализовать подобное?

    Нашел только статью a-ma.us/wp/2012/06/cosine-similarity-in-ms-sql/.
    • +1
      Мы никогда не использовали MS SQL, поэтому сложно ответить на ваш вопрос. Я знаю, что в SQL Server есть компонент полнотекстового поиска technet.microsoft.com/ru-ru/library/ms142571.aspx, наверняка в нем есть функция «похожести» двух фраз.

      В любом случае алгоритм cosine similarity тривиальный (в тексте есть ссылка на википедию), и его не сложно реализовать на любом языке программирования. Мы писали на python.
  • 0
    А как изменится англоязычное описание? Необходимо ли проверять и его?
    • 0
      Мы загрузили в справочник названия учебных заведений на английском (пока не всех, будем расширять), поэтому их тоже нужно проверить.
    • +1
      Полезно если в резюме вуз будет НЕ самописным, а из каталога.
      это касается как резюме на русском (с вузами на русском), так и резюме на английском (с вузами на англ)
  • 0
    Привет заму тех. дира из МГИУ)))
  • 0
    А можно узнать, откуда были взяты данные о переименованиях учебных заведений?
    • 0
      Эту информацию дали «Одноклассники»

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное