• Отчет о старте Atos IT Challenge

    Есть ли у вас та штука, что называется pet project или side project? Тот самый проект, который бы вы делали в свое удовольствие и для себя, для саморазвития или расширения портфолио. Лично у меня долгое время не было ничего, что можно было бы показать. Однако, в рамках стартовавшего этой осенью конкурса Atos IT Challenge 2018, у меня как раз появилась возможность начать такой проект.

    Читать дальше →
  • Анализируй это — Lenta.ru


      Анализируй это. Lenta.ru (часть 1)


      What, How, Why


      Для тех кому лень читать — ссылка на датасет внизу статьи.

      What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".

      Читать дальше →
    • Введение в обучение с подкреплением: от многорукого бандита до полноценного RL агента

      • Перевод
      Привет, Хабр! Обучение с подкреплением является одним из самых перспективных направлений машинного обучения. С его помощью искусственный интеллект сегодня способен решать широчайший спектр задач: от робототехники и видеоигр до моделирования поведения покупателей и здравоохранения. В этой вводной статье мы изучим главную идею reinforcement learning и с нуля построим собственного самообучающегося бота.


      Читать дальше →
    • Полёты на падающих снежинках

        1. Вступление


        В очень сильно нагруженных порталах или API может возникать потребность в применении алгоритмов машинного обучения, например, с целью классификации пользователей. В рамках данной заметки будет показан процесс реализации некоторых высокопроизводительных линейных моделей, а также даны объяснения основных теоретических принципов.

        Читать дальше →
        • +10
        • 4,2k
        • 2
      • Стоит ли использовать табличную модель SSAS?


          Нельзя просто так взять и ответить на этот вопрос, не приняв во внимание целый ряд факторов.

          Многие думают, что необходимо переходить на табличную модель, ибо она новее и лучше. Но часто это нецелесообразно или даже невозможно в принципе. Однако поговорим об этом чуть позже.

          Многомерная модель


          Многомерная база данных имеет определенную структуру и позволяет нам генерировать отчеты очень быстро. Когда-то, для создания многомерных баз данных, многомерная модель была единственным решением. Эта модель не менялась со времен SQL Server 2005. Если посмотреть что нового в каждом выпуске Analysis Services, то станет ясно, что большинство новшеств связано именно с табличной моделью.

          Табличная модель


          Табличная модель появилась в SQL Server 2012 и активно развивается, а каждая последующая версия включают новые возможности.

          Табличная модель работает на другом движке (xVelocity) и она разработана для быстрого выполнения колоночных запросов, потому что использует колоночное хранение (многомерные модели используют строковое хранение), в дополнение к хорошему сжатию данных. Данные хранятся в оперативной памяти (режим in-memory), поэтому очень важно, чтобы на сервере было много памяти и очень быстрый процессор. Диски для табличной модели не так важны. Одним из основных преимуществ табличной модели является то, что некоторые запросы в ней работают быстрее (например, очень быстро работают с измерениями на основе distinct count) и она имеет высокую степень сжатия — 1/10 (ниже приведена ссылка с описанием принципа сжатия), в то время как в многомерной модели лишь 1/3. Степень сжатия указана примерная, разумеется, она может колебаться, в зависимости от данных.
          Читать дальше →
        • SAS: мы анализировали данные и обучали модели задолго до того, как это стало модным



            Наша аналитическая платформа работает в WalMart, Bank of America, Bank of China, Сбербанке, МТС. SAS как предмет преподают в МГУ, ВШЭ, МИФИ, МГТУ им. Баумана, МЭИ, МИИТ и других ВУЗах. А под катом — наша краткая история-знакомство, с которой мы хотим открыть наш блог на Хабре.
            Читать дальше →
          • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

            Подробнее
            Реклама
          • «Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience)

            • Tutorial
            Приветствую коллеги! Пришло время продолжить наш спонтанный мини цикл статей, посвящённый основам машинного обучения и анализа данных.

            В прошлый раз мы разбирали с Вами задачку применения линейной регрессии к открытым данным правительства Москвы, а в этот раз данные тоже открыты, но их уже пришлось собирать вручную.

            Итак, сегодня мы с Вами поднимем животрепещущую тему – обращения граждан в органы исполнительной власти Москвы, нас с вами сегодня ждет: краткое описание набора данных, примитивный анализ данных, применение к ним модели линейной регрессии, а также краткая отсылка к учебным курсам для тех, кто совсем ничего не поймет из материала статьи. Ну и конечно же останется пространство для самостоятельного творчества.

            Напомню, что наша статья рассчитана в первую очередь на начинающих любителей Python и его распространённых библиотек из области DataScience. Готовы? Тогда, милости прошу под кат.


            Читать дальше →
          • Диагностика промышленных электродвигателей и генераторов по спектру потребляемого тока и предотвращение аварий


              Анализатор спектра тока

              Представьте себе ТЭЦ с турбинами, скажем, 50–60-х годов выпуска. Это примерно половина мощностей нашей страны. Там есть огромные насосы с электродвигателями и такие же огромные генераторы, которые тоже суть электродвигатели, только «перевёрнутые». У них нет встроенной телеметрии, и диагностируются они методами последовательных обходов. Это было нормальным на конец 70-х, но не сегодня.

              На ТЭЦ, на крупных буровых, на насосных станциях и во множестве других мест, где отказ электродвигателя или генератора обходится очень дорого, как правило, есть специальные люди, которые имеют огромный опыт обслуживания конкретно этого экземпляра оборудования. Например, там может быть дедушка, который по звуку запуска определяет состояние движка. Или мужик-нос, который умеет обнюхивать насос так, что чувствует даже малейшие утечки масла.

              Современная диагностика делается немного иначе — в основном по вибродатчикам. Проблема вибродатчиков в том, что их нужно поставить на железку, а железка на той же буровой или подлодке не очень-то доступна. Поэтому мы очень живо исследовали тему изучения снятия данных с движка путём снятия информации с питающего контура. Электромагнитное поле передаёт куда больше информации, которую раньше считали шумом. Теперь его можно анализировать.
              Читать дальше →
            • RNN: может ли нейронная сеть писать как Лев Толстой? (Спойлер: нет)

              • Tutorial
              При изучении технологий Deep Learning я столкнулся с нехваткой относительно простых примеров, на которых можно относительно легко потренироваться и двигаться дальше.

              В данном примере мы построим рекуррентную нейронную сеть, которая получив на вход текст романа Толстого «Анна Каренина», будет генерировать свой текст, чем-то напоминающий оригинал, предсказывая, какой должен быть следующий символ.

              Структуру изложения я старался делать такой, чтобы можно было повторить все шаги новичку, даже не понимая в деталях, что именно происходит внутри этой сети. Профессионалы Deep Learning скорее всего не найдут тут ничего интересного, а тех, кто только изучает эти технологии, прошу под кат.
              Читать дальше →
            • Визуализация процесса обучения нейронной сети средствами TensorFlowKit

                Hint
                Перед прочтением этой статьи советую ознакомиться с предыдущей статьей о TensorFlowKit и поставить star репозиторию.

                Я не люблю читать статьи, сразу иду на GitHub
                GitHub: TensorFlowKit
                GitHub: Example
                GitHub: Другое
                TensorFlowKit API
                Посeтив репозиторий, добавьте его в «Stars» это поможет мне написать больше статей на эту тему.

                image

                Начиная работать в сфере машинного обучения, мне было тяжело переходить от объектов и их поведений к векторам и пространствам. Сперва все это достаточно тяжело укладывалось в голове и далеко не все процессы казались прозрачными и понятными с первого взгляда. По этой причине все, что происходило внутри моих наработок, я пробовал визуализировать: строил 3D модели, графики, диаграммы, изображения и тд.

                Говоря об эффективной разработке систем машинного обучения, всегда поднимается вопрос контроля скорости обучения, анализа процесса обучения, сбора различных метрик обучения и тд. Особая сложность заключается в том, что мы (люди) привыкли оперировать 2х и 3х мерными пространствами, описывая различные процессы вокруг нас. Процессы внутри нейронных сетей происходят в многомерных пространствах, что серьезно усложняет их понимание. Осознавая это, инженеры по всему миру стараются разработать различные подходы к визуализации или трансформации многомерных данных в более простые и понятные формы.

                Существуют целые сообщества, решающие такого рода задачи, например Distill, Welch Labs, 3Blue1Brown.

                Читать дальше →
              Самое читаемое