• 1-я лабораторная работа программы Data Engineer

      Как говорится, никогда такого не было, и вот опять. Мы подумали и решили выложить в свободный доступ первую лабораторную работу нашей новой программы Data Engineer. Бесплатно. Без смс.


      Чуть ранее мы писали, зачем вообще стоит присмотреться к этой профессии. Недавно взяли интервью у одного из таких специалистов, и по совместительству, нашего преподавателя.



      Так вот. Потенциально каждый самостоятельно может пройти эту лабу и почувствовать себя немножко этим дата инженером. Для этого будет все, что требуется.


      А делать в этой лабе мы будем следующее.


      1. Зарегимся на облачном сервисе.
      2. Поднимем на нем 4 виртуальных машины.
      3. Развернем кластер при помощи Ambari.
      4. Поднимем сайт на nginx на одной из виртуалок.
      5. Добавим специальный javascript на каждую страницу этого сайта.
      6. Соберем кликстрим на HDFS.
      7. Соберем его же в Kafka.
      Читать дальше →
    • “Главный вызов — это кадровый голод” — панельная дискуссия о подборе команд по работе с данными. Data Science Week 2017

        Привет, Хабр! Публикуем заключительную часть обзора Data Science Week 2017, прошедшем в Москве 12-14 сентября. Сегодня расскажем о панельной дискуссии по теме “Подбор команд по работе с данными и оценка их эффективности”. Модератором выступила Ольга Филатова, вице-президент по персоналу и образовательным проектам Mail.ru Group, а участниками были Виктор Кантор (Яндекс), Андрей Уваров (МегаФон), Павел Клеменков (Rambler&Co) и Александр Ерофеев (Сбербанк).


        Читать дальше →
      • “Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым

          Привет, Хабр! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у Senior Data Science Engineer, Aligned Research Group LLC и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных.


          Читать дальше →
        • Data Science Week 2017. Обзор второго и третьего дня

            Привет, Хабр! Продолжаем рассказывать о прошедшем 12-14 сентября форуме Data Science Week 2017, и на очереди обзор второго и третьего дня, где были затронуты вопросы построения рекомендательных систем, анализа данных в Bitcoin и построения успешной карьеры в области работы с данными.


            Читать дальше →
          • Распознавание дорожных знаков с помощью CNN: Spatial Transformer Networks

              Привет, Хабр! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks).

              В прошлом посте мы начали разговор о подготовке данных для обучения сверточной сети. Сейчас же настало время использовать полученные данные и попробовать построить на них нейросетевой классификатор дорожных знаков. Именно этим мы и займемся в этой статье, добавив дополнительно к сети-классификатору любопытный модуль — STN. Датасет мы используем тот же, что и раньше.

              Spatial Transformer Network (STN) — один из примеров дифференцируемых LEGO-модулей, на основе которых можно строить и улучшать свою нейросеть. STN, применяя обучаемое аффинное преобразование с последующей интерполяцией, лишает изображения пространственной инвариантности. Грубо говоря, задача STN состоит в том, чтобы так повернуть или уменьшить-увеличить исходное изображение, чтобы основная сеть-классификатор смогла проще определить нужный объект. Блок STN может быть помещен в сверточную нейронную сеть (CNN), работая в ней по большей части самостоятельно, обучаясь на градиентах, приходящих от основной сети.

              Весь исходный код проекта доступен на GitHub по ссылке. Оригинал этой статьи можно посмотреть на Medium.

              Чтобы иметь базовое представление о работе STN, взгляните на 2 примера ниже:
              Слева: исходное изображение. Справа: то же изображение, преобразованное STN. Spatial transformers распознают наиболее важную часть изображения и затем масштабируют или вращают его, чтобы сфокусироваться на этой части.
              Читать дальше →
              • +19
              • 4,1k
              • 5
            • 3 кейса применения анализа данных в сфере недвижимости. Data Science Week 2017. Обзор. Часть 1

                Публикуем обзор первого дня Data Science Week 2017, в течение которого наши спикеры говорили о применении анализа данных в сфере недвижимости.



                ЦИАН


                Касательно конкретных кейсов применения, освещать тему всего дня начал Павел Тарасов — руководитель отдела машинного обучения в ЦИАН — крупнейшем сервисе по аренде и продаже недвижимости, где публикуется более 65 000 новых объявлений в день, среди которых от 500 до 1000 являются мошенническими. Главная цель злоумышленников — собрать как можно больше звонков для того, чтобы заставить клиента перевести им деньги или, в случае недобросовестных риэлторов, продать какой-то другой продукт.

                Для решения данной задачи компанией активно применяется машинное обучение с использованием большого количества факторов: от описания объявления и до цены, при этом наиболее важной фичей являются фотографии. Яркий пример:
                Читать дальше →
              • 4 причины стать Data Engineer

                Привет, Хабр! На данный момент в Data Science образовался огромный перекос в сторону data scientist-ов, об этой профессии сейчас знают даже те, кто никак не связан с IT, а новые вакансии появляются ежедневно. В свою очередь data engineer-ы не получают того внимания, которое бы соответствовало их важности для компании, поэтому в сегодняшнем посте мы бы хотели исправить эту несправедливость и объяснить, почему разработчикам и администраторам стоит немедленно начинать изучать Kafka и Spark и строить свой первый пайплайн.



                В скором времени ни одна компания не сможет обойтись без Data Engineer


                Давайте рассмотрим типичный рабочий день data scientist-а:

                Получается, что около 80% своего времени data scientist тратит на сбор данных, их предобработку и очистку — процессы, которые напрямую не связаны с главной его обязанностью: поиском инсайтов и паттернов в данных. Конечно, подготовка данных требует высшего уровня мастерства, но это не data science, это не то, зачем тысячи людей сегодня стремятся попасть в эту отрасль.
                Читать дальше →
              • Data Science Week 2017: Рынок становится всё более зрелым

                  12-14 сентября мы в очередной раз организуем масштабное мероприятие — Data Science Week 2017.

                  Каждый раз, проектируя программу, мы стараемся подходить к ней с нуля, чтобы учесть какие-то последние тенденции в этой быстро меняющейся сфере и учитывать ее зрелость.
                  Мы поняли, что в очередной раз слушать как используется анализ данных, например, в классическом банкинге или на рынке интернет-рекламы, уже как-то неинтересно (хотя и там тоже идёт прогресс), и решили взять отрасль, относительно которой не так много публичных интересных кейсов — сфера недвижимости и всё, что с ней связано — и посвятить ей целый вечер.
                  Читать дальше →
                • Российские девушки в Data Science. Часть 1

                    Как известно, в IT мужчин значительно больше, чем женщин, хотя последние зачастую не уступают по знаниям и навыкам. По нашим наблюдениям, в сфере Data Science этот перекос еще сильнее, хотя опять же женщины обрабатывают данные и строят модели ничуть не хуже мужчин. Подтверждением этому для нас стали итоговые результаты участников нашей прошлой группы “Специалиста по большим данным”, когда в топ-5 группы вошли 3 девушки (а их всего в группе было четверо).

                    Мы задались целью найти девушек в разных компаниях и отраслях, работающих с большими данными, управляющих командами, и у нас получилось собрать интересный материал, который не умещается в рамки одной статьи, так что ждите серию публикаций!

                    И открываем данную серию с интервью с Анной Крючковой и Марией Анисимовой, которые расскажут о своей работе, карьерном пути и о будущем девушек в Data Science.


                    Читать дальше →
                    • –3
                    • 5,6k
                    • 7
                  • Генератор кликов на Python для программы Data Engineer

                      Процесс разработки образовательной программы очень похож на процесс разработки нового продукта. И там, и там ты пытаешься вначале понять, а есть ли спрос на то, что ты собираешься производить? Существует ли в реальности та проблема, которую ты хочешь решить?

                      Предыстория


                      В этот раз для нас всё было довольно просто. Несколько выпускников нашей программы «Специалист по большим данным» в течение, наверное, года просили:
                      Сделайте для нас еще одну программу, где мы бы могли научиться работать с Kafka, Elasticsearch и разными инструментами экосистемы Hadoop, чтобы собирать пайплайны данных.

                      Потом со стороны работодателей стали «прилетать» запросы, которые собирательно можно описать так:
                      Data Engineer'ы – это очень горячие вакансии!
                      Реально их уже на протяжении полугода никак не можем закрыть.
                      Очень здорово, что вы обратили внимание именно на эту специальность. Сейчас на рынке очень большой перекос в сторону Data Scientist'ов, а больше половины работы по проектам – это именно инженерия.

                      С этого момента стало понятно, что спрос есть, и проблема существует. Надо бросаться в разработку программы!
                      Читать дальше →
                    Самое читаемое