sashaturilin Feb 27 2015 at 15:11

Как мы готовим будущих специалистов по большим данным

4 min

15K

New Professions Lab corporate blogData Mining*NoSQL*Big Data*Hadoop*

В эту субботу стартует наша программа “Специалист по большим данным”: она получилась такой насыщенной, что, кажется, в ближайшие три месяца у слушателей не останется никакого свободного времени. В этом посте я расскажу, как именно мы будем растить специалистов по Big Data, и как будет построен процесс обучения во время первого месяца.

Центральный кейс на этот период — создание DMP-системы. DMP (data management platform) анализирует интернет-логи пользователей и, исходя из их поведения в сети, присваивает этим людям различные свойства или причисляет к определенным классам. Например, правильно настроенная DMP-система может определить пол и возраст человека и узнать, является ли он гаджетоманом или, скажем, фанатом люксовых фешн-брендов. Этот кейс мы разрабатываем совместно с компанией Data-Centric Alliance, они используют большие данные для настройки рекламных кампаний.

Работа в командах

На нашем Дне открытых дверей мы рассказали, что слушатели будут работать над кейсами в командах. Некоторые были недовольны: “Зачем нам это надо! Что, если я попаду в одну команду со слабаком, и он будет тянуть меня назад!?”. Другие переживали: “У меня недостаточно знаний, что я буду делать в команде с сильными разработчиками?”. Логично? Да, но в реальной жизни анализ больших данных — это не индивидуальный, а командный вид спорта, одиночкам тут непросто. Мы же поставили перед собой цель погрузить слушателей в условия, максимально приближенные к боевым.

Команды меняются раз в месяц, и все слушатели получат не только ценный опыт командной работы над проектом, но и хорошие связи с однокурсниками. Учиться к нам пришли основатели IT-компаний, технические директора и опытные разработчики — так что эти связи будут не менее полезными, чем знакомства с именитыми преподавателями.

Data Management Platform в четыре шага

В течение первых 4 недель слушатели будут создавать свою DMP-систему, и на каждой неделе группа будет выполнять одно под-задание, продвигая вперед весь кейс.

Итак, вот план:

Первая неделя: каждый слушатель самостоятельно разворачивает небольшой Hadoop-кластер
Вторая неделя: нужно предобработать 1ТБ веб-логов и корректно загрузить их в таблицу HBase
Третья неделя: Начинаем анализировать логи — пока без машинного обучения. Берем детерминированные заранее правила и выделяем классы пользователей.
Четвертая неделя: Machine learning over Map-Reduce. Строим DMP-систему по анализу веб-логов!

Баллы, рейтинг, бейджи

Мы создали систему баллов и рейтингов, которая поможет преподавателям и работодателям ориентироваться, насколько упорно трудятся слушатели.

У каждой подзадачи будет минимум два уровня сложности: первый — просто ее решить, второй — решить с дополнительными условиями. За такие достижения мы будем давать специальные бейджи и дополнительные баллы. На заметку тем, кто поставил перед собой цель найти новую работу: такие “ачивки” очень интересуют наших партнеров-работодателей.

Итоговая DMP-система должна будет вычислять портрет пользователя с определенным коэффициентом точности. Это реальная задача интересная бизнесу, и ребята из Data-Centric Alliance готовы компенсировать четверть стоимости обучения команде, которая создаст хорошо работающее решение. Команда, которая сможет показать выдающееся решение, получит компенсацию до 50%. Повышение точности классификации на 5% повышает отдачу от рекламной компании на 30%, говорит Александр Петров, руководитель отдела R&D Data-Centric Alliance и по совместительству руководитель первого месяца курса.

Аудиторные и практические дни

Занятия проходят три раза в неделю — по вторникам, четвергам и субботам. Каждый вторник и четверг — аудиторные занятия. Они построены так, чтобы максимально вовлекать слушателей в работу (в противовес старомодной университетской лекции), все строится на решении задач и разборе кейсов. Цель аудиторных занятий — объяснить методику решения задач, показать, как работают все необходимые инструменты, и дать критический взгляд на теорию и основные концепции. По нашему опыту, такой формат дает глубокое понимание и хорошие рабочие навыки.

Такой формат, кстати, позволяет активно вовлекать и онлайн-аудиторию! Мы решили, что на этом курсе будем требовать от онлайн-участников работать со включенной камерой. Конечно, слушатели стесняются и даже возмущаются, но включенная камера не оставляет шанса работать спустя рукава.

Каждый вторник команда будет получать задачу, на решение которой дается неделя. По субботам — дни консультаций. Двери Digital October будут открыты с 11 утра, команды могут приходить, чтобы вместе работать над решением задачи. С 16:00 начинаются офисные часы тьюторов-семинаристов, которые смогут проконсультировать команды, ответить на конкретные вопросы и помочь, если кто-то зашел в тупик. Сами задачи можно будет проверять автоматически, загружая код на специальную платформу.

Задачи, тесты и коллоквиумы

Все задачи мы будем решать на облачных ресурсах, которые для каждой команды будут развернуты в AWS (мы стали партнерами Amazon Web Services и поэтому сможем давать слушателям большие вычислительные мощности). На решение каждой из четырех подзадач дается 1 неделя, это “мягкий дедлайн”. Если команда не сдаст задачу в этот срок, то еще одну неделю можно будет сдаться, но уже с штрафом в 30%. Тот, кто пропустит несколько дедлайнов, теряет возможность получить сертификат о прохождении курса.

Чтобы минимизировать эти неприятные моменты, каждые две недели будет проходить коллоквиум по пройденным материалам. Здесь можно догнать группу и получить дополнительные баллы.

Как видите, у нас не концлагерь, но все довольно жестко. Мы хотим выпускать специалистов, в компетенциях которых мы уверены, и достижениями которых мы сможем гордиться в будущем. Записаться на программу все еще можно, осталось полтора места.

Tags:

Hubs:

Как мы готовим будущих специалистов по большим данным

Articles

Information