• Цифровая экономика и экосистема R

      Если смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.



      Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций, планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.

      Читать дальше →
    • Школа Данных: хорошее мы сделали еще лучше

        image

        Привет, Хабр! Надеемся, этим летом не смотря на плохую погоду Вам удалось отдохнуть. Близится осень — самое время поучиться. С учетом предыдущих курсов — мы сильно обновили нашу программу — добавили множество практических занятий, больше говорим про практические кейсы. В этом посте хотелось бы подробно рассказать про все нововведения. Для тех, у кого мало времени:

        • Снизилась цена
        • 8 дополнительных практических семинаров
        • Дополнительные занятия про бизнес
        • Занятия по Deep Learning
        • Доступно удаленное обучение
        • Плюс 2 занятия в Вводном курсе
        Читать дальше →
      • Интерактивные рекоммендеры: как создавать, как работают

          Как строить рекомендательные системы? Какие модели машинного обучения можно применять? Какие проблемы решают интерактивные рекоммендеры, а какие – нет? Какие инструменты могут быть полезны для e-commerce портала? Об этом – в докладе Big Data-инженера ЕРАМ Екатерины Сотенко «Обзор подходов построения интерактивных рекоммендеров», с которым она выступила на самарском ITsubbotnik этой весной. Ниже – видеозапись доклада, еще ниже – его краткое содержание.


          Читать дальше →
        • R c H2O на Spark в HDInsight

            imageH2O – библиотека машинного обучения, предназначенная как для локальных вычислений, так и с использованием кластеров, создаваемых непосредственно средствами H2O или же работая на кластере Spark. Интеграция H2O в кластеры Spark, создаваемые в Azure HDInsight, была добавлена недавно и в этой публикации (являющейся дополнением моей прошлой статьи: R и Spark) рассмотрим построение моделей машинного обучения используя H2O на таком кластере и сравним (время, метрика) его с моделями предоставляемых sparklyr, действительно ли H2O киллер-приложение для Spark?

            да, но это не точно
          • Распределенное обучение нейронных сетей с MXNet. Часть 1

            • Перевод

            Сегодня мы дадим ответ на простой вопрос: "Как работает распределённое обучение (в контексте MXNet)?"


            Все примеры кода протестированные на MXNet v0.10.0 и могут не работать (или работать по-другому) в других версиях, однако полагаю, что общие концепции будут неизменимы еще долго.


            Ну и последнее перед тем, как мы перейдем к основной части, я хочу выразить благодарность за помощь в написании статьи моим коллегам, без которых эта статья не была бы возможной:


            • Madan Jampani;
            • Suneel Marthi;

            Еще хотел бы порекомендовать поднять машинку с DLAMI и выполнить все примеры из статьи самостоятельно, тем более, что они достаточно простые. Для выполнения кода вполне себе подойдет бесплатная машинка на AWS.


            С преамбулой окончено, лезем под кат...

            Читать дальше →
          • 10 типов структур данных, которые нужно знать + видео и упражнения

            Екатерина Малахова, редактор-фрилансер, специально для блога Нетологии адаптировала статью Beau Carnes об основных типах структур данных.

            «Плохие программисты думают о коде. Хорошие программисты думают о структурах данных и их взаимосвязях», — Линус Торвальдс, создатель Linux.

            Структуры данных играют важную роль в процессе разработки ПО, а еще по ним часто задают вопросы на собеседованиях для разработчиков. Хорошая новость в том, что по сути они представляют собой всего лишь специальные форматы для организации и хранения данных.

            В этой статье я покажу вам 10 самых распространенных структур данных.
            Читать дальше →
          • Поиск лучшего места в мире для ветряка

              История о том, как NASA, ESA, Датский Технологический Университет, нейронные сети, деревья решений и прочие хорошие люди помогли найти мне лучший бесплатный гектар на Дальнем Востоке, а также в Африке, Южной Америке и других “так себе” местах.


              Читать дальше →
            • Генератор кликов на Python для программы Data Engineer

                Процесс разработки образовательной программы очень похож на процесс разработки нового продукта. И там, и там ты пытаешься вначале понять, а есть ли спрос на то, что ты собираешься производить? Существует ли в реальности та проблема, которую ты хочешь решить?

                Предыстория


                В этот раз для нас всё было довольно просто. Несколько выпускников нашей программы «Специалист по большим данным» в течение, наверное, года просили:
                Сделайте для нас еще одну программу, где мы бы могли научиться работать с Kafka, Elasticsearch и разными инструментами экосистемы Hadoop, чтобы собирать пайплайны данных.

                Потом со стороны работодателей стали «прилетать» запросы, которые собирательно можно описать так:
                Data Engineer'ы – это очень горячие вакансии!
                Реально их уже на протяжении полугода никак не можем закрыть.
                Очень здорово, что вы обратили внимание именно на эту специальность. Сейчас на рынке очень большой перекос в сторону Data Scientist'ов, а больше половины работы по проектам – это именно инженерия.

                С этого момента стало понятно, что спрос есть, и проблема существует. Надо бросаться в разработку программы!
                Читать дальше →
              • Распознавание дорожных знаков с помощью CNN: Инструменты для препроцессинга изображений

                  Привет, Хабр! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks)

                  Введение


                  За последние несколько лет сфера компьютерного зрения (CV) переживает если не второе рождение, то огромный всплеск интереса к себе. Во многом такой рост популярности связан с эволюцией нейросетевых технологий. Например, сверточные нейронные сети (convolutional neural networks или CNN) отобрали себе большой кусок задач по генерации фич, ранее решаемых классическими методиками CV: HOG, SIFT, RANSAC и т.д.

                  Маппинг, классификация изображений, построение маршрута для дронов и беспилотных автомобилей — множество задач, связанных с генерацией фич, классификацией, сегментацией изображений могут быть эффективно решены с помощью сверточных нейронных сетей.


                  MultiNet как пример нейронной сети (трех в одной), которую мы будем использовать в одном из следующих постов. Источник.
                  Читать дальше →
                • R и большие данные: использование Replyr

                  • Перевод
                  replyr — сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).

                  Почему стоит попробовать replyr? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).

                  Можно работать так же, как и с локальным data.frame. replyr предоставляет такие возможности:

                  • Обобщение данных: replyr_summary().
                  • Объединение таблиц: replyr_union_all().
                  • Связывание таблиц по строкам: replyr_bind_rows().
                  • Использование функций разделения, объединения, комбинирования (dplyr::do()): replyr_split(), replyr::gapply().
                  • Аггрегирование/распределение: replyr_moveValuesToRows() / replyr_moveValuesToColumns().
                  • Отслеживание промежуточных результатов.
                  • Контроллер объединений.

                  Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark и sparklyr гораздо легче.

                  replyr — продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.

                  Примеры ниже.
                  Читать дальше →
                Самое читаемое