“Главный вызов — это кадровый голод” — панельная дискуссия о подборе команд по работе с данными. Data Science Week 2017

    Привет, Хабр! Публикуем заключительную часть обзора Data Science Week 2017, прошедшем в Москве 12-14 сентября. Сегодня расскажем о панельной дискуссии по теме “Подбор команд по работе с данными и оценка их эффективности”. Модератором выступила Ольга Филатова, вице-президент по персоналу и образовательным проектам Mail.ru Group, а участниками были Виктор Кантор (Яндекс), Андрей Уваров (МегаФон), Павел Клеменков (Rambler&Co) и Александр Ерофеев (Сбербанк).



    — Коллеги, расскажите о вашей компании и команде data scientist-ов в ней. Как команда организована и сколько людей в ней? О каких интересных проектах можете рассказать? С какими вызовами чаще всего сталкиваетесь?

    Андрей (МегаФон): Я руководитель аналитических сервисов в МегаФоне, фактически я отвечаю за аналитику больших данных в техническом блоке компании. Аналитические компетенции в МегаФоне сейчас распределены по разным подразделениям, в нашем — сейчас порядка 18 человек, и мы активно усиливаемся. Если говорить об организации деятельности, то мы работаем в динамических командах: появляется новый проект, мы собираем под него команду с теми навыками, которые необходимы для его реализации. При этом не едиными data scientist-ами мы живы, в команду входят и data engineer-ы для пайплайнов, и разработчики для внедрения моделей в продакшн, тестировщики и бизнес-аналитики.

    Нашими заказчиками являются различные внутренние функции МегаФона, будь то повышение выручки или снижение риска. Любое подразделение компании может прийти к нам, рассказать о своей “боли”, а дальше мы уже думаем, как решить их проблему.

    Среди последних наших проектов можно выделить кейс по определению расположения новых базовых станций. Не секрет, что от того, как мы будем развивать нашу сеть, напрямую зависит удовлетворенность пользователей, поэтому очень важно понять, в каких локациях нужно строить станции. С этим направлением связан целый спектр задач: предсказание роста трафика вплоть до каждой базовой станции, анализ клиентских предпочтений, локации и структуры трафика. В результате весь этот стрим задач, который мы называем Smart CAPEX, направлен на правильную приоритезацию наших инвестиций.

    Взаимодействие внутри команды проходит по Agile. У нас открытое планирование, при котором каждый сотрудник вне зависимости от должности может высказать свою идею и будет услышан. Если говорить про работу с заказчиком, то работаем по Scrum, проверяем гипотезы совместно с ним, какие-то срабатывают, какие-то нет, но самое главное, что в процессе заказчик все глубже погружается в предметную область и уже по-другому относится к постановке задачи.

    Главный вызов для нас — понять, как вовлечь заказчика в проект, чтобы он поделился своей предметной экспертизой в области. Зачастую data scientist-ы не обладают очень глубокими знаниями о сфере деятельности заказчика, поэтому помощь людей, которые в ней работают не первый год может быть очень полезна для понимания истинной природы данных. Также это всевозможные вызовы, связанные с HR: развитие, мотивация, найм, формирование команды: как правильно разделить зоны ответственности — один супермен или команда с инженером данных, тестировщиком и data scientist-ом?

    Александр (Сбербанк): Я работаю в отделе управления корпоративными данными в Сбербанке. В отделе есть два направления: в первом работают data scientist-ы, а во втором — люди, отвечающие за данные, их доступность, инфраструктуру хранения и обработку.

    Сейчас у нас в команде чуть больше 100 data scientist-ов, (в дальнейшем планируем увеличить их количество до 300), которые работают в 10 юнитах, стараясь делать каждый из них более data-driven. Исходя из этого, главный вызов для нас сейчас — кадровый голод. На рынке сейчас нет достаточного количества квалифицированных специалистов. Такая ситуация не только с data scientist-ами, но и со специалистами, работающими с инфраструктурой. Особенность Сбербанка в том, что у нас довольно сложный ландшафт с огромным количеством источников данных: сейчас это порядка 100 подключенных хранилищ. Прибавьте к этому работу с партнерами, которые делятся данными и получаются очень большие масштабы, для управления которыми нужны соответствующие кадры. Проблему усугубляет тот факт, что как только разработчики набирают достаточное количество опыта, им быстро приходят предложения от зарубежных компаний, и они уезжают за границу.

    Продукты у нас разделены на две группы: первая связана непосредственно с данными, где результатом работы разработчика является стабильная витрина данных, применительно к этому у нас недавно появился термин DQA (Data Quality Agreement), где прописаны ассортимент данных, периодичность обновления и т.д. Во вторую группу входит аналитическая модель — результат работы разработчика и data scientist-a, которая и выводится в продакшн. Кстати, один из показателей эффективности работы data scientist-а у нас – количество моделей, которые дошли до стадии внедрения.

    Также сейчас на уровне банка мы активно занимаемся управлением портфелем инициатив, чтобы инвестиции, которые мы вкладываем в юниты, были максимально возвратными. При этом с определенной периодичностью мы обновляем портфель, в каждом из юнитов есть план по внутреннему переходу: часто случается, что data engineer через какое-то время хочет стать data scientist-ом.

    Одна из последних инициатив, которые мы запустили — это smart кредиты, подбор персонализированных предложений для малого бизнеса, позволяющий существенно сократить процесс принятия решения по кредиту на основе детальной аналитики по клиенту. Здесь возникает такая особенность, что у нас, в отличии от интернет и телеком компаний, значительная доля данных создается вручную: при обработке кредитных заявок, при заключении договоров на выдачу дебетовых карт и т.д. Конечно, когда такие процессы есть, вопрос качества данных выходит на первый план. Отмечу, что традиционно всю ответственность за качество данных у нас несли люди на стороне хранилища данных, но сейчас мы эту ситуацию выравниваем, в каждом юните появляются свои DQA.

    Павел (Rambler&Co): Я руковожу отделом машинного обучения в одном из крупнейших медийных холдингов страны – Rambler&Co. Большая часть экспертизы по анализу данных сконцентрирована у нас и разделена на три направления. Первое – это все, что связано с рекламой, второе – рекомендательные системы, есть платформа Price.ru (аналог Яндекс.Маркет). И третье направление – это Data Science на аутсорс, мы работаем с внешними компаниями, решаем кейсы с учетом наших знаний, данных и опыта. К примеру, мы запустили товарные рекомендации на сайте компании Ecco, известном магазине обуви, и получили достаточно крутые результаты: неожиданно, но средний чек увеличился в 2 раза.

    Также занимаемся и компьютерным зрением. Одним из наших клиентов была компания КБ STRELKA, которая занимается различными городскими проектами. У них есть направление – городская антропология, изучающая, как люди ведут себя в городе, в каких местах бывают, и какие точки притяжения для них существуют. В этом проекте мы использовали фотографии посетителей различных мест в городе в социальных сетях, чтобы составить их «портрет», понять, что это за люди (конечно, данные полностью анонимны, мы видим только лица этих людей).

    Наша команда состоит из 10 data scientist-ов, 2 инженеров инфраструктуры, и еще есть отдел администраторов. Data scientist-ы у нас работают end-to-end, решают бизнес-задачи до реализации продакшн кода, стараемся все делать по Scrum.

    Найм людей – это основной вызов и для нас тоже, их в принципе мало, квалифицированных еще меньше, как и мест, где их профессионально готовят. Еще проблема и одновременно плюс заключается в доступности онлайн-образования, где контент и его качество не всегда нам подходят.



    Виктор Кантор (Яндекс): В мае этого года я пришел в Яндекс.Такси, чтобы выстроить подразделение, занимающееся машинным обучением. Теперь у нас есть несколько десятков проектов. Сейчас выделилось несколько основных направлений, среди которых, например, определение точного времени ожидания, удобных точек посадки/высадки. Также это анализ поведения водителей и пассажиров здесь и сейчас, как мы можем на них воздействовать, повышать активность, предлагая им какие-то выгодные штуки, что в случае водителя он больше вывезет, а в случае клиента – больше покатается.

    В команде у нас 13 человек, все data scientist-ы, но некоторые с особыми навыками, кто-то лучше с разработкой, есть люди с богатым опытом участия в соревнованиях, они могут качество модели сделать как можно более высоким. Таким образом, всегда есть люди, которые определенные задачи могут решить быстрее и лучше, и мы это активно используем.

    По-моему опыту, часто вызовом является удачная постановка задач, будь то внутренний или внешний заказчик. Я до этого работал в Yandex Data Factory, и там часто случалось, что в процессе несколько раз переформулировали постановку задачи. Однако это не из-за того, что заказчики такие плохие, а потому что нужно приложить много усилий, чтобы найти подходящую постановку. Сейчас мы стараемся выстраивать процессы так, чтобы появлялись какие-то понятные, измеримые этапы с измеримым результатом и такой постановкой, которую не нужно прямо на ходу очень часто менять.

    — Поделитесь лайфхаками для коллег, которые захотят к вам трудоустроиться. На что вы смотрите при приеме на работу? Дайте несколько советов, как подготовиться, к отбору в ваши компании.

    Виктор: мы обычно проверяем следующие вещи: как дела с машинным обучением — теория, практика. По теории мы должны удостовериться, что человек понимает, что именно происходит, мог объяснить то или иное поведение, знать, какими оптимизационными методами решается, ведь иногда возникает потребность использовать алгоритмы нетривиальным образом. Насчет практики мы спрашиваем про те задачи, которые человек делал. Если опыта еще нет, то предлагаем описать, как бы он делал задачу. При этом, конечно, задача не в том виде, как она приходит от заказчика, а в довольно общем плане, в духе: «Нужно разработать такой-то алгоритм рекомендации в такой ситуации, опишите, как вы будете измерять качество, какие данные использовать и на основе каких признаков строить модель». Часто возникает проблема, что кандидаты пускаются рассуждать не о признаках, а о модели, которую он будет обучать, не подумав о том, а что вообще он будет предсказывать.

    — Отдаете ли вы предпочтение олимпиадникам или ребятам, которые прошли различные хакатоны, или это непринципиально?

    Виктор: У нас очень простой подход: все равны, и только знания показывают, насколько человек будет ценен для команды. Я против того, чтобы вся команда состояла из олимпиадников, но в то же время у меня были разные кейсы, когда как олимпиадные программисты, так и кагглеры были очень полезны в команде, просто нужно правильно с ними взаимодействовать.

    Александр: HR-ом я не занимаюсь, но был случай, когда потенциальным data scientist-ам мы давали тестирование на знание математики и несколько кейсов по решению прикладных задач. По результатам тестирования сразу же отсеялась приличная часть кандидатов.

    На самом деле каждый блок набирает людей самостоятельно. Также есть подразделение, отвечающее за развитие компетенций, развиваем партнерство с вузами, стараемся на ранних стадиях людей забирать. По максимуму стараемся вкладывать и во внутренний ресурс, повышая навыки сотрудников. Сейчас у нас блоки работают в формате сообществ, и одна из их задач – перекрестное развитие компетенций. Например, есть блок рисков и блок розницы, где Data Science имеет очень высокий уровень, они в основном и помогают улучшать анализ данных в других блоках.

    — Что не хватает в обучении? что посоветуете организациям и самим студентам?

    Павел: Мне кажется, что, к сожалению, не все люди умеют учиться. Даже если ты закончил онлайн-специализацию, часто выхлоп получается довольно поверхностный. Люди хватают много всяких слов и имеют неглубокие знания. Особенно это видно, когда они начинают доводить вещи до продакшна, где часто возникает необходимость понимания внутреннего принципа работы. Кажется, что со способностью учиться ничего не поделаешь, но этим вполне можно заниматься самостоятельно: на Coursera есть отличный «Learning How to Learn», есть отличный метод Фейнмана.

    Вторая беда, лично по моему опыту – очень плохое программирование. Здесь дело даже не в том, что человек не может реализовать какой-то более-менее сложный алгоритм, а это неумение программировать в принципе. Если человек, чтобы прочитать файл в Python, импортирует Pandas, то это странно. Однако мы начинаем с этим бороться, иначе мы вообще никого не сможем нанять. Таким образом, программирование – это очень важная часть работы в Data Science.

    Андрей: Продолжу тему, которую поднял Павел. Data scientist-ы плохо программируют, от этого никуда не деться. В то же время есть высококлассные разработчики, которые может и не знают столько алгоритмов и не пробовали их обучать руками. Поэтому самое важное (и первый лайфхак) – самоопределиться, отрасль и направление очень богаты и разнообразны, найти свое место в ней может каждый.

    Например, мы сейчас не можем найти хорошего тестировщика, который будет тестировать модель в продакшне. С одной стороны, это должен быть человек с опытом автоматизации и хорошим знанием операционных систем, баз данных и т.д., с другой стороны, он должен хотя бы немного разбираться в алгоритмах машинного обучения и анализе данных.

    Дальше, если раскрыть внутреннюю кухню МегаФона, то мы идем от людей, у нас нет идеально четкого описания вакансий. Оно, конечно, есть, но мы его не придерживаемся, человек присылает нам резюме, и мы смотрим, а может ли он нам быть полезен, если может, то в каких проектах, каком подразделении и т.д. Если нашли проект под его компетенции, получается такая история win-win.

    Вопросы


    — Сейчас уже есть огромное количество онлайн и офлайн курсов по анализу данных. Как вы считаете, обладая определенным уровнем базовой подготовки, какой оптимальный путь дальше: дальнейшее самообразование и начало карьеры через несколько месяцев, либо развитие за счет практики и работы, решая прикладные задачи?

    Павел: На мой взгляд, когда у тебя уже есть определенный уровень, круто заниматься практикой и так или иначе устраиваться на работу в конкретную компанию, потому что область действительно огромная, и при желании можно всю жизнь учиться. Кроме того, если тебе хочется дальше учиться, то лучше подойдет академическая карьера, иначе получается образование ради образования. Более того, люди часто себя недооценивают и думают: “В Яндексе работают такие крутые ребята, очевидно, что я до них не дотягиваю”. А чаще всего оказывается, что ты лучше, чем среднестатистический кандидат.

    Виктор: Согласен, лучше как можно скорее приобретать практику, причем в разумных пределах. К примеру, я сначала пытался приобретать практику, не имея теоретических знаний, никому не советую. Очень неприятно, когда в течение долгого времени ничего не получается, и не понимаешь причину, а впоследствии осознаешь, как много времени потратил впустую.

    Часто еще бывает, что о существовании чего-то просто не знаешь, потому что никогда это не изучал, поэтому образование не нужно прекращать, постоянно нужно интересоваться, что вообще есть в области, хотя бы на уровне понимания, как оно работает.

    Посмотреть часовую видеозапись панельной дискуссии можно на странице New Professions Lab в Facebook.

    На этом, с обзором Data Science Week 2017 мы заканчиваем, будем рады видеть вас в начале марта 2018 года там же, в Deworkacy, на Data Science Weekend 2018.

    Партнером мероприятия выступила компания МегаФон, а инфо-партнером — компания Pressfeed.

    Pressfeed — Способ бесплатно получать публикации о своей компании. Сервис подписки на запросы журналистов для представителей бизнеса и PR-специалистов. Журналист оставляет запрос, вы отвечаете. Регистрируйтесь. Удачной работы.
    New Professions Lab 50,01
    Образование в области технологий
    Поделиться публикацией
    Похожие публикации
    Комментарии 26
    • +5
      Кадровый голод создали сами же кадровики. Они ищут специалистов с оптом 5 лет на рынке которому самому 5 лет.
      При наличии всех инструментов попробовать и посмотреть на людей, это и срочные договора и испытательный срок по ТК. Они (HR) просто не хотят напрягаться и напрягать подразделения которым эти специалисты нужны. На все что их хватает это организовать платные курсы и бесплатные стажировки, но люди хотя есть каждый день. А любой труд даже самый фиговый должен оплачиваться, хотя он может и ДОЛЖЕН оплачиваться и очень низко.
      • +9
        Кадровый голод в Сбербанке, надо же! Это в организации, глава которой публично заявил: “Не нужны сегодня программисты. У нас огромное количество программистов, с которыми мы боремся”. На мой взгляд, после такого работать в Сбербанке – просто себя не уважать. Положение презираемого барином холопа.
        • 0
          Греф борется только с «чистыми» программистами: «Чистые программисты нам не нужны. Нам нужны программисты-тестировщики, умеющие работать в команде и понимающие глубоко продукт, над которым они работают.»
          • +1
            Да он там, похоже, со всеми борется. Народ бежит из Сбербанка уже давно. Замечательные технические решения вроде замены промышленной СУБД на какой-то мутный стартап говорят сами за себя. Даже клиентский софт разваливается на глазах: моя жена имеет несчастье получать зарплату через Сбер, так у неё шаблоны платежей в клиенте с каждым новым обновлением перестают работать. А чего ждать-то при таком подходе? Скоро опять сберкнижки введут, как предел умопостижения людьми типа Грефа технических дисциплин.
            • 0
              какой-то мутный стартап
              это про GridGain?
            • –1
              как раз за gridgain Грефу памятник еще поставят, когда они единственные из банков не будут вырублены ораклом и будут иметь живой пример куда двигаться в век клаудов и кластеров
              • 0
                В связи с чем оракл вырубит банки?
                • –1
                  добавит вашингтон РФ в санкционный список и вырубят. закон для всех един. Крым уже между прочим в списке.
                  • +2
                    А GridGain, типа, законодательству США не подчиняется? Такая же американская фирма, только там, где гиганты вроде Oracle и IBM будут тормозить и добиваться для себя исключений, малый бизнес побежит исполнять в первых рядах.
                    • –1
                      типа нет. gridgain давно передали весь код в опен соурс (в apache ignite). тут две фишки: во первых у опен соурса есть лазейка, например редхад пишет так: "Fedora software in source code and binary code form are publicly available and are not subject to the EAR in accordance"
                      во вторых имея исходники сбер и без гридгейн запросто сможет супортить и развивать apache ignite по своему усмотрению.
                      а ибм, сименс или оракл никто в вашингтоне спрашивать не станет. сименс вон не спрашивали, так же не спросят и оракл
                      • 0
                        Если дело дойдёт до ковровых отключений системообразующих предприятий, то никто не помешает и Oracle пересобрать из исходников, переданных во ФСТЭК/ФСБ. И будет это точно так же нелегально, но технически принципиально возможно.

                        Что касается Сименса, то у руководства ЕС и США разный подход к санкциям. У американцев он гораздо более прагматичный.

                        Так или иначе, борьба с санкционной угрозой путём выбора другого американского поставщика – это нонсенс. Причины, думаю, гораздо более приземлённы.
                        • –1
                          именно по этому выбрали российских ребят, а то что канторы в сша зарегали, кого это трогает? главное, что это опен соурс и никто даже если очень захочет вырубить apche ignite не сможет. а оракл лишь показывал некоторые части кода, ничего собрать не выйдет.
                          у американцев только трамп сдерживает ковровые отключения. уйдет трамп и всякие хилари обрубят все. и свифт и оракл и многое другое. а трамп не факт что до конца срока с таким рейтингом досидит.
              • 0

                Никто оттуда не бежит массово, при их оплатах чуть выше рынка этого просто не будет, не фантазируйте

                • 0
                  Лишняя пара купюр к зарплате — далеко не главное для хорошего специалиста.
                  • 0
                    Какого рынка?
              • 0
                Во всех американских финансовых институтах — программист — это простой обслуживающий персонал.
              • +2
                Проблему усугубляет тот факт, что как только разработчики набирают достаточное количество опыта, им быстро приходят предложения от зарубежных компаний, и они уезжают за границу.


                Как бы логично, если там платят в разы больше, чем здесь. Платите на мировом уровне, и будут специалисты оставаться.
                • +1

                  Это, кстати, удивительно: подобный вой на спецов, которые переросли отечественный рынок, слышал много где: Яндекс, Badoo, СберТех, СколТех. Но никто не хотел задуматься над мыслью "хочешь этого спеца на работу — предложи ему лучшие условия".

                  • 0
                    Проблема обратная.

                    Есть куча недоспециалистов. Которые хотят зарплату специалистов.

                    • 0
                      Это просто 2 разные, независимые проблемы.
                • +1

                  По моему опыту, главный вызов — это купить задешево и удержать надолго специалиста, которому готовы платить больше конкуренты и за рубежом.


                  Т.е. нам нужен технически блестящий, но инфантильный человек, не приспособленный к обычной жизни. О да, таких сложно найти.


                  Компании, которые платят нормальную зарплату (а по моему опыту +20% к рынку с головой) если и теряют сотрудников, то только по нефинансовым причинам. И отбоя от желающих у них нет. И высокий технический уровень. Работал в такой компании, наши уволенные за плохой перформанс мидлы уходили синьорами в другие компании. Увы, все хорошее кончается однажды. Highly skilled consulting стабилен, но скалируется плохо.


                  Поэтому проблема (обычно) в неверной выборке необходимых специалистов плюс (почти всегда) национальное желание срезать косты, называйте вещи своими именами.

                  • 0
                    Не врите мне тут.

                    Проводили эксперимент — платили не на 20% а в 2 раза больше.
                    Толку нет.

                    Если специалистов нет — то они и за в 2 раза большие деньги не возьмутся из воздуха
                    • 0
                      На эффективность работы это не влияет, но влияет на удержание сотрудников. А это имеет положительный кумулятивный эффект для компании. Низкая текучка, благоприятная атмосфера.

                      Так же нельзя забывать про соотношение уровня зарплаты и минимального дохода необходимого для выживания.
                      Допустим: минимальный доход = A
                      Если я получаю, 1.1 * A, то ради 1.5 * A, я могу пойти на многое, т.к. это увеличит мою прибыль в 5 раз.
                      А если я получаю 3 * А, то я без проблем могу ужаться в вилке до 2 * А, если это существенно интереснее или перспективнее. Но ниже не пойду это точно.

                      А что будет, если за забором платят 5 * А, уровень А конечно выше, но и зарплата выше несоизмеримо.
                      • 0
                        В одночасье специалистом не станешь.

                        Вы что же хотите сказать — вам мало платят и вы работаете как неквалифицированный спец? А станут платить больше — так мгновенно станете квалифицированным?
                        С чего бы? Квалификация приходит с опытом а не с зарплатой. Повышение зарплаты это следствие роста квалификации а не причина.
                        Грядущее повышение может являться мотивацией профессионально рости, да. Но не автоматически повышает квалификацю.

                        Зарплата мгновенно больше может заставить вас работать на износ. Но не превратит в спеца мгновенно.
                        • 0
                          В России как правило интеллектуальный труд оплачивается на уровне уборщиц.
                          У нас квалификация приходит, а труд оплачиваться не начинает.
                          Кто-то вылезает из этого болота, кто-то остается в нем, а кто-то меняет сферу деятельности и выбирает не по душе, а по финансам. Последние на мой взгляд наиболее несчастные. Первые побороли систему, вторые смирились с ней, третьи обеспечены финансово, но не духовно.

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое