• 4 причины стать Data Engineer

      Привет, Хабр! На данный момент в Data Science образовался огромный перекос в сторону data scientist-ов, об этой профессии сейчас знают даже те, кто никак не связан с IT, а новые вакансии появляются ежедневно. В свою очередь data engineer-ы не получают того внимания, которое бы соответствовало их важности для компании, поэтому в сегодняшнем посте мы бы хотели исправить эту несправедливость и объяснить, почему разработчикам и администраторам стоит немедленно начинать изучать Kafka и Spark и строить свой первый пайплайн.



      В скором времени ни одна компания не сможет обойтись без Data Engineer


      Давайте рассмотрим типичный рабочий день data scientist-а:

      Получается, что около 80% своего времени data scientist тратит на сбор данных, их предобработку и очистку — процессы, которые напрямую не связаны с главной его обязанностью: поиском инсайтов и паттернов в данных. Конечно, подготовка данных требует высшего уровня мастерства, но это не data science, это не то, зачем тысячи людей сегодня стремятся попасть в эту отрасль.
      Читать дальше →
    • Data Science Week 2017: Рынок становится всё более зрелым

        12-14 сентября мы в очередной раз организуем масштабное мероприятие — Data Science Week 2017.

        Каждый раз, проектируя программу, мы стараемся подходить к ней с нуля, чтобы учесть какие-то последние тенденции в этой быстро меняющейся сфере и учитывать ее зрелость.
        Мы поняли, что в очередной раз слушать как используется анализ данных, например, в классическом банкинге или на рынке интернет-рекламы, уже как-то неинтересно (хотя и там тоже идёт прогресс), и решили взять отрасль, относительно которой не так много публичных интересных кейсов — сфера недвижимости и всё, что с ней связано — и посвятить ей целый вечер.
        Читать дальше →
      • Российские девушки в Data Science. Часть 1

          Как известно, в IT мужчин значительно больше, чем женщин, хотя последние зачастую не уступают по знаниям и навыкам. По нашим наблюдениям, в сфере Data Science этот перекос еще сильнее, хотя опять же женщины обрабатывают данные и строят модели ничуть не хуже мужчин. Подтверждением этому для нас стали итоговые результаты участников нашей прошлой группы “Специалиста по большим данным”, когда в топ-5 группы вошли 3 девушки (а их всего в группе было четверо).

          Мы задались целью найти девушек в разных компаниях и отраслях, работающих с большими данными, управляющих командами, и у нас получилось собрать интересный материал, который не умещается в рамки одной статьи, так что ждите серию публикаций!

          И открываем данную серию с интервью с Анной Крючковой и Марией Анисимовой, которые расскажут о своей работе, карьерном пути и о будущем девушек в Data Science.


          Читать дальше →
          • –3
          • 4,9k
          • 7
        • Генератор кликов на Python для программы Data Engineer

            Процесс разработки образовательной программы очень похож на процесс разработки нового продукта. И там, и там ты пытаешься вначале понять, а есть ли спрос на то, что ты собираешься производить? Существует ли в реальности та проблема, которую ты хочешь решить?

            Предыстория


            В этот раз для нас всё было довольно просто. Несколько выпускников нашей программы «Специалист по большим данным» в течение, наверное, года просили:
            Сделайте для нас еще одну программу, где мы бы могли научиться работать с Kafka, Elasticsearch и разными инструментами экосистемы Hadoop, чтобы собирать пайплайны данных.

            Потом со стороны работодателей стали «прилетать» запросы, которые собирательно можно описать так:
            Data Engineer'ы – это очень горячие вакансии!
            Реально их уже на протяжении полугода никак не можем закрыть.
            Очень здорово, что вы обратили внимание именно на эту специальность. Сейчас на рынке очень большой перекос в сторону Data Scientist'ов, а больше половины работы по проектам – это именно инженерия.

            С этого момента стало понятно, что спрос есть, и проблема существует. Надо бросаться в разработку программы!
            Читать дальше →
          • Распознавание дорожных знаков с помощью CNN: Инструменты для препроцессинга изображений

              Привет, Хабр! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks)

              Введение


              За последние несколько лет сфера компьютерного зрения (CV) переживает если не второе рождение, то огромный всплеск интереса к себе. Во многом такой рост популярности связан с эволюцией нейросетевых технологий. Например, сверточные нейронные сети (convolutional neural networks или CNN) отобрали себе большой кусок задач по генерации фич, ранее решаемых классическими методиками CV: HOG, SIFT, RANSAC и т.д.

              Маппинг, классификация изображений, построение маршрута для дронов и беспилотных автомобилей — множество задач, связанных с генерацией фич, классификацией, сегментацией изображений могут быть эффективно решены с помощью сверточных нейронных сетей.


              MultiNet как пример нейронной сети (трех в одной), которую мы будем использовать в одном из следующих постов. Источник.
              Читать дальше →
            • Анализируем карьеру игроков NHL с помощью Survival Regression и Python

                Привет, Хабр! Сегодня рассмотрим один из подходов к оценке временного риска, который основан на кривой выживаемости и одноименной регрессии, и применим его к анализу продолжительности карьеры игроков НХЛ.

                Когда у данного пациента произойдет рецидив? Когда наш клиент уйдет? Ответы на подобные вопросы можно найти с помощью анализа выживания, который может быть использован во всех областях, где исследуется временной промежуток от «рождения» до «смерти» объекта, либо аналогичные события: период от поступления оборудования до его выхода из строя, от начала использования услуг компании и до отказа от них и т.д. Чаще всего данные модели используются в медицине, где необходимо оценить риск летального исхода у больного, чем и обусловлено название модели, однако они также применимы в сфере производства, банковском и страховом секторах.

                image
                Читать дальше →
                • +12
                • 3,5k
                • 8
              • Поддержка исследователей в области Deep Learning

                  Хабр, нам тут пришла одна идея… В настоящий момент у нас возникло некое межсезонье между разными образовательными программами. Мы подумали, зачем нашей инфраструктуре зря простаивать, когда есть люди, которые могли бы на этой инфраструктуре что-то классное сделать.

                  Мы решили сделать небольшой вклад в развитие deep learning в России и выделить 3 виртуальных сервера с GPU тем, кто что-то делает в этой области. 2 виртуалки мы решили отдать нашим выпускникам, а 1 виртуалку дать в пользование кому-то «со стороны».

                  image

                  Читать дальше →
                • Старт big data проекта: 6 важных вопросов

                    Использование данных в своей деятельности давно стало очевидным для многих, потенциальные преимущества ясны, но порой непонятно с чего все-таки начать и как двигаться в это будущее, которое где-то уже наступило.


                    Читать дальше →
                  • Введение в OpenCV применительно к распознаванию линий дорожной разметки

                      Привет, Хабр! Публикуем материал выпускника нашей программы Deep Learning и координатора программы по большим данным, Кирилла Данилюка о его опыте использования фреймворка компьютерного зрения OpenCV для определения линий дорожной разметки.

                      image
                      Читать дальше →
                      • +13
                      • 7,9k
                      • 8
                    • Конфигурирование Spark на YARN

                      Хабр, привет! Вчера на митапе, посвященном Apache Spark, от ребят из Rambler&Co, было довольно много вопросов от участников, связанных с конфигурированием этого инструмента. Решили по его следам поделиться своим опытом. Тема непростая — поэтому предлагаем делиться опытом тоже в комментариях, может быть, мы тоже что-то не так понимаем и используем.
                      Читать дальше →
                    Самое читаемое