• Airflow Workshop: сложные DAG’и без костылей


      Привет, Хабр! Меня зовут Дина, и я занимаюсь разработкой игрового хранилища данных для решения задач аналитики в Mail.Ru Group. Наша команда для разработки batch-процессов обработки данных использует Apache Airflow (далее Airflow), об этом yuryemeliyanov писал в недавней статье. Airflow — это opensource-библиотека для разработки ETL/ELT-процессов. Отдельные задачи объединяются в периодически выполняемые цепочки задач — даги (DAG — Directed Acyclic Graph).


      Как правило, 80 % проекта на Airflow — это стандартные DAG’и. В моей статье речь пойдёт об оставшихся 20 %, которые требуют сложных ветвлений, коммуникации между задачами — словом, о DAG’ах, нуждающихся в нетривиальных алгоритмах.

      Читать дальше →
    • Об итогах конкурса MERC-2017: интервью с победителями

        Победители и финалисты конкурса MERC-2017 от Neurodata Lab на площадке Datacombats — это не просто обезличенные строки лидерборда. Это молодые специалисты, с разными профессиональными и исследовательскими интересами, бэкграундом и компетенциями. В качестве завершающего штриха в истории нашего самого первого конкурса мы решили взять у них интервью. Надеемся, что для читателей блога этот материал станет источником для размышлений, каким он явился и для нас как организаторов конкурса.
        image
        Читать дальше →
      • Как построить классификатор изображений на основе предобученной нейронной сети

        main image

        Сейчас происходит процесс демократизации искусственного интеллекта — технология, которая недавно считалась привилегией ограниченного числа крупных компаний, становится все более доступной для отдельных специалистов.

        За последние годы появилось большое количество моделей, созданных и обученных профессионалами с использованием большого количества данных и огромных вычислительных мощностей. Многие из этих моделей находятся в открытом доступе, и любой может использовать их для решения своих задач совершенно бесплатно.

        В этой статье мы разберем, как предобученные нейронные сети могут быть использованы для решения задачи классификации изображений, и оценим плюсы их использования.

        Предсказание класса растения по фото


        В качестве примера мы рассмотрим задачу классификации изображений из конкурса LifeCLEF2014 Plant Identification Task. Задача заключается в том, чтобы предсказать таксономический класс растения, основываясь на нескольких его фотографиях.
        Читать дальше →
        • +13
        • 3,9k
        • 4
      • Цифровой маркетинг в режиме одного окна: разбираем облачные продукты SAS

          Меня зовут Максим, и я работаю консультантом по клиентской аналитике в компании SAS (это не спецназ и не авиакомпания, а институт). Мы оцениваем применимость новых технологий в бизнес-процессах различных отраслей и на основе этого делаем проекты. В том числе в цифровом маркетинге. Самыми интересными результатами нашей работы я буду делиться с вами в этой и последующих публикациях.

          Сегодняшний герой — облачный продукт для цифрового маркетинга SAS Customer Intelligence 360, который позволяет централизованно собирать и обрабатывать данные о клиентах. Разбор возможностей и примеры работы — под катом.

          Читать дальше →
          • +13
          • 1,6k
          • 2
        • Об итогах конкурса MERC-2017: победители и комментарии

            Подошел к концу и объявляется закрытым первый конкурс по машинному обучению MERC-2017 от Neurodata Lab, проведенный на собственной площадке Datacombats (вскоре мы представим обновленную, полноценную версию платформы). Время подвести некоторые итоги и прокомментировать результаты. С визуализацией статистики вы можете ознакомиться в предыдущем посте нашего блога.
            image
            Читать дальше →
          • Анализируй это — Lenta.ru


              Анализируй это. Lenta.ru (часть 1)


              What, How, Why


              Для тех кому лень читать — ссылка на датасет внизу статьи.

              What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".

              Читать дальше →
            • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

              Подробнее
              Реклама
            • Введение в обучение с подкреплением: от многорукого бандита до полноценного RL агента

              • Перевод
              Привет, Хабр! Обучение с подкреплением является одним из самых перспективных направлений машинного обучения. С его помощью искусственный интеллект сегодня способен решать широчайший спектр задач: от робототехники и видеоигр до моделирования поведения покупателей и здравоохранения. В этой вводной статье мы изучим главную идею reinforcement learning и с нуля построим собственного самообучающегося бота.


              Читать дальше →
            • AlphaGo Zero совсем на пальцах

                Завтра искусственный интеллект поработит Землю и станет использовать человеков в качестве смешных батареек, поддерживающих функционирование его систем, а сегодня мы запасаемся попкорном и смотрим, с чего он начинает.

                19 октября 2017 года команда Deepmind опубликовала в Nature статью, краткая суть которой сводится к тому, что их новая модель AlphaGo Zero не только разгромно обыгрывает прошлые версии сети, но ещё и не требует никакого человеческого участия в процессе тренировки. Естественно, это заявление произвело в AI-коммьюнити эффект разорвавшейся бомбы, и всем тут же стало интересно, за счёт чего удалось добиться такого успеха.

                По мотивам материалов, находящихся в открытом доступе, Семён sim0nsays записал отличный стрим:


                А для тех, кому проще два раза прочитать, чем один раз увидеть, я сейчас попробую объяснить всё это буквами.

                Сразу хочу отметить, что стрим и статья собирались в значительной степени по мотивам дискуссий на closedcircles.com, отсюда и спектр рассмотренных вопросов, и специфическая манера повествования.

                Ну, поехали.
                Читать дальше →
              • Анализ Cisco CDR и логов Microsoft Exchange Server c помощью Splunk



                  Сегодня электронная почта и телефонные звонки являются основными средствами коммуникации в бизнесе среде. Каждое сообщение или звонок могут потенциально принести доход компании, а один сотрудник может в день написать несколько сотен сообщений или совершить около сотни звонков. В данной статье мы расскажем, как с помощью Splunk можно анализировать логи Microsoft Exchange Server и Cisco Call Manager, а также чем это может быть полезно.
                  Читать дальше →
                • Стоит ли использовать табличную модель SSAS?


                    Нельзя просто так взять и ответить на этот вопрос, не приняв во внимание целый ряд факторов.

                    Многие думают, что необходимо переходить на табличную модель, ибо она новее и лучше. Но часто это нецелесообразно или даже невозможно в принципе. Однако поговорим об этом чуть позже.

                    Многомерная модель


                    Многомерная база данных имеет определенную структуру и позволяет нам генерировать отчеты очень быстро. Когда-то, для создания многомерных баз данных, многомерная модель была единственным решением. Эта модель не менялась со времен SQL Server 2005. Если посмотреть что нового в каждом выпуске Analysis Services, то станет ясно, что большинство новшеств связано именно с табличной моделью.

                    Табличная модель


                    Табличная модель появилась в SQL Server 2012 и активно развивается, а каждая последующая версия включают новые возможности.

                    Табличная модель работает на другом движке (xVelocity) и она разработана для быстрого выполнения колоночных запросов, потому что использует колоночное хранение (многомерные модели используют строковое хранение), в дополнение к хорошему сжатию данных. Данные хранятся в оперативной памяти (режим in-memory), поэтому очень важно, чтобы на сервере было много памяти и очень быстрый процессор. Диски для табличной модели не так важны. Одним из основных преимуществ табличной модели является то, что некоторые запросы в ней работают быстрее (например, очень быстро работают с измерениями на основе distinct count) и она имеет высокую степень сжатия — 1/10 (ниже приведена ссылка с описанием принципа сжатия), в то время как в многомерной модели лишь 1/3. Степень сжатия указана примерная, разумеется, она может колебаться, в зависимости от данных.
                    Читать дальше →
                  Самое читаемое