enchantner Aug 19 2015 at 19:26

Data Science Week — микроанонс для тех, кто еще не знает

4 min

8.4K

    Логично, что в последнее время количество разного рода конференций и прочих публичных мероприятий в сфере анализа данных резко выросло. Наверняка многие уже слышали про OpenData или PyData, а кто-то, наверняка, даже бывал на них. Но все мы прекрасно знаем, что выпросить у руководства возможность поехать на конференцию (даже при условии выступления на ней) — задача нетривиальная. Проблема в том, что большинство таких встреч происходит где-нибудь в Штатах (например, в Техасе) или в какой-нибудь Швеции, поэтому бюджет на поездку, особенно в рамках кризиса, не всякая контора позволит себе выделить.

    В России, однако же, есть положительная тенденция — многие проявляют инициативу и проводят подобного рода мероприятия своими силами. Пусть даже это не всегда глобальные конференции, а больше камерные встречи, но все же MDS и MIDSM с каждым разом собирают все больше заинтересованных людей. И подобные встречи, кстати, бывают не только в Москве.

    Так уж вышло, что после завершения курсов по Data Science под крылом Лаборатории новых профессий мы сдружились со многими ребятами оттуда на почве больших данных, аналитики и прочей интересной ерунды. И да, если вы досюда дочитали — то уже догадались, что они организуют еще один подобный IT-фестиваль, а я планирую его посетить.

    Итак, Data Science Week пройдет в Digital October с 24 по 30 августа. Его программа следующая:

24.08 Монетизация больших данных

Data Management Platform (DMP)
Кейсы компаний
Рост продаж с помощью анализа профиля пользователя и персонализации контента

Выступления:

Представитель компании DCA
Сергей Марин, Руководитель службы разработки продуктов Big Data Beeline
Зоя Никитина, генеральный директор и со-основатель E-Contenta
Александр Крот, основатель MLClass.ru

25.08 Открытые данные

Тенденции
Кейсы
Открытые данные в России
Журналистика данных

Выступления:

Сергей Водопетов, Заместитель руководителя Главного управления по информационной политике Московской области
Иван Бегтин, директор, Информационная культура
Евгений Смирнов, основатель и технический директор, Newtonew
Ирина Радченко (доцент НИУ ИТМО)

26.08 Data Scientist: рабочие инструменты

Обзор распространенных инструментов по анализу данных
Эволюция инструментов по анализу и обработке данных Kafka, Spark, Go, Akka, Azure ML

Выступления:

Представитель компании DCA
Александр Иващенко, ведущий разработчик REES46
Андрей Зимовнов, ведущий data scientist Ozon.ru
Представитель компании Microsoft
Наталья Горбунова, Oracle
Андрей Выходцев, Big Data Solution Architect, IBM

27.08 Data driven business

Построение системы аналитики с нуля
Кейсы из разных идустрий
Small Data vs. Big Data
Предиктивная аналитика

Выступления:

Анджей Аршавский, директор ЦК «Супермассивы данных», Сбербанк-Технологии
Олег Новиков, Data Scientist, Lyst.com
Иван Гуз, Директор аналитического департамента, Avito
Михаил Кечинов, основатель REES46

28.08 Advanced Spark

Workshop по продвинутому использованию Apache Spark

Выступления:

Андрей Выходцев, Big Data Solution Architect, IBM
Александр Федерягин, 3data
Александр Сербул, руководитель направления 1C-Битрикс

29.08-30.08 Datathon

    Надо отдать товарищам должное, судя по программе — они смогли максимально рассовать по дням чистые бизнес-доклады с техническими по разным дням, чтобы народу из разных сфер пришлось скучать как можно меньше. Список, возможно, еще расширю/поправлю, как будет больше подробностей.

    Первый день весь посвящен тому, как зарабатывать на больших данных в разных отраслях: маркетинг и реклама, банкинг, телеком, рекомендательные системы. Особенно интересно будет послушать о совместном сотрудничестве Bookmate и e-contenta в области построения качественных рекомендаций, приносящих деньги. Также рекомендую послушать Data-Centric Alliance (рассказывают про свою DMP-систему) тем, кто пока не представляет, как данные из “сырых” становятся “менее сырыми”, и где в этом монетизация. В общем, это все скорее более интересно бизнес-людям, нежели ученым и программистам, но, тем не менее, полезно.

    На второй день стоит пойти, если интересно не только как зарабатывать деньги на data science, но и как при помощи них можно попробовать принесли немного пользы обществу. Ключом к позитивным изменениям в этой сфере являются открытые данные. Интересно послушать, что сейчас делается в этом направлении. По сути, дата-журналистика и всякого рода “отчеты по отчетам” — это занятие сродни вымыванию золота из песка, и при должном умении можно там найти настоящие сокровища. Ходят слухи, что к бигдате хотят приобщиться даже шишки из правительства Московской области, но это пока не подтверждают. Хотя то, что правительственные аналитические центры периодически набирают кадры на серьезные исследования в области урбанистики и прочей магии — факт.

    Третий день, наверное, наиболее технический. Классика жанра и знакомое многим дата-технарям комьюнити — как всегда, можно послушать профессионалов об опыте использования каких-либо инструментов и подводных камнях, с которыми столкнулись. Использование Akka в работе Facetz.DCA, Mahout — в REES46.com, IPython Notebook (ныне уже совсем уже Jupyter) — в Озоне. Обзор решений от Microsoft, IBM, Oracle для работы в области Data Science. Не понаслышке знаю, что задача “построить аналитическую систему” даже в глазах бизнеса выглядит крайне размыто, а уж на уровне разработки приходится быстро выбирать несколько из сотен подходов, ибо попробовать все варианты не хватит ни времени, ни денег. Так что послушать тех, кто это уже пилил, все-таки стоит.

    На четвертый день запланирован целый набор бизнес-кейсов о том, как можно использовать Data Science в своей каждодневой работе и повышать эффективность бизнеса. Здесь и аналитика, и рекомендательные системы. Помните, пару недель назад на Kaggle и еще паре сайтов были конкурсы от Avito? Так вот, насколько я понял — ожидаются спикеры оттуда, которые расскажут об итогах и, возможно, даже досыплют сверху технических подробностей.

    Пятый день полностью посвящен штуке, о которой последнее время столько говорят — Apache Spark. Приедет IBM, которые недавно (июль 2015) серьезно вложились в проект, и обещают, вроде как, рассказать, что они думают о его дальнейшей судьбе и как собираются развивать. Еще обещается мастер-класс по развертыванию Spark-инфраструктуры за 30 минут. Поживем-увидим.

    Ну и на выходных будет дататон, на котором можно будет попробовать свои силы в решении реальных задач в области Data Science. Я не уверен, что доберусь до него, но если найдется время — постараюсь описать свои впечатления, плюсы и минусы. Спишемся!

    Ах да, чуть не забыл: мероприятие-то бесплатное, но требуется регистрация, так что не забудьте зарегистрироваться.

Tags:

Hubs: