• Автоэнкодер в задачах кластеризации политических событий

      image
      Я не люблю читать статьи, смотрю demo и код
      Демо TensorBoard Projector

      1. Работает в Chrome.
      2. Открываем и нажимаем на Bookmarks в нижнем правом углу.
      3. В верхнем правом углу можем фильтровать классы.
      4. В конце статьи есть GIF картинки с примерами использования.

      Проект на GitHub

      Отступление от темы
      В данной статье, пойдет речь о средствах машинного обучения, подходах и практических решениях. Анализ проводится на базе политических событий, что не является предметом обсуждения данной статьи. Убедительная просьба не поднимать тему политики в комментариях к этой статье.

      Уже несколько лет подряд алгоритмы машинного обучения находят применение в различных областях. Одной из таких областей может стать и аналитика различных событий в политической сфере, например: прогнозирование результатов голосования, разработка механизмов кластеризации принятых решений, анализ деятельности политических акторов. В этой статье я постараюсь поделиться результатом одного из исследований в этой области.

      Постановка задачи


      Современные средства машинного обучения позволяют трансформировать и визуализировать большой объем данных. Этот факт позволил провести анализ деятельности политических партий путем трансформирования голосований за 4 года в самоорганизуемое пространство точек отображающее поведение каждого из депутатов.

      Каждый политик самовыразился по факту двенадцати тысяч голосований. Каждое голосование может принимать одно из пяти вариантов (не пришел в зал, пришел но пропустил голосование, проголосовал “за”, “против” или воздержался).

      Наша задача — трансформировать все результаты голосования в точку в трехмерном евклидовом пространстве отражающую некую взвешенную позицию.
      Читать дальше →
    • Фейс-контроль для питомцев

      • Перевод
      • Tutorial
      Компьютерщики, с днём вас! Пусть и не совсем официальным. Недавно мы провели опрос в нашем сообществе Microsoft Developer и выяснили, что у многих из вас есть котики. Поэтому решили сегодня рассказать вам о создании IoT-дверцы для животных с распознаванием мордочки (+ туториал).

      Читать дальше →
    • Из спутниковых снимков в графы (cоревнование SpaceNet Road Detector) — попадание топ-10 и код (перевод)

        Привет, Хабр! Представляю вам перевод статьи.



        Это Вегас с предоставленной разметкой, тестовым датасетом и вероятно белые квадраты — это отложенная валидация (приват). Выглядит прикольно. Правда эта панорама лучшая из всех четырех городов, так вышло из-за данных, но об этом чуть ниже.


        0. TLDR


        Ссылка на соревнование и подробное описание.


        Быстрая картинка сайта, кому лень ходить.


        Мы закончили предварительно на 9-м месте, но позиция может измениться после дополнительного тестирования сабмитов организаторами.


        Также я потратил некоторое время на написание хорошего читаемого кода на PyTorch и генераторов данных. Его можно без застенчивости использовать для своих целей (только поставьте плюсик). Код максимально простой и модульный, плюс читайте дальше про best practices для семантической сегментации.


        Кроме того, не исключено, что мы напишем пост про понимание и разбор Skeleton Network, которую в итоге использовали все финалисты в топе соревнования для преобразования маски изображения в граф.


        Суть соревнования
        Суть соревнования на 1 картинке

        Читать дальше →
        • +32
        • 4,6k
        • 2
      • Deep Learning in Natural Language Processing

          image

          Лаборатория нейронных сетей и глубоко обучения МФТИ открывает курс Deep Learning in Natural Language Processing. Он стартует 21 февраля и будет проходить каждую среду в 19:00 в 105 БК, необходимо зарегистрироваться. Длительность курса — 10 занятий, их проведёт сотрудник лаборатории Валентин Малых (madrugado). Курс открыт для всех желающих углубить свои знания в Deep Learning и Natural Language Processing. Занятия также будут транслироваться в режиме онлайн в Youtube-канале лаборатории.
          Читать дальше →
          • +18
          • 4,8k
          • 2
        • Незадача коммивояжера и жёлтый октябрь

            Главнокоммивояжер Аристарх поглядывал на Пророка, покручивая дубинкой от снежных троллей — ходовым сезонным товаром — 11% отклонение прогноза продаж на 10 дней в среднем (MAPE) впечатлило и, как у нас в чате говорят, зашло в роли baseline. Если он так же хорош, как и их Цукерберг, то сразу в прод — таков был первый порыв. Пророк поглядывал на главнокоммивояжера, прищурив правый глаз. Такой серьезный, в костюме, и верит в то, что инновации апплодисментами встретят и сразу же примут — мысль в голове вертелась, постепенно обретая форму. А Вы в курсе, юноша, скольким коллегам и контрагентам со своими нововведениями немилы станете? Они же Вас невзлюбят сразу, к гадалке не ходи! В общем, порыв жил обычным циклом инноваций.


            image


            В дисциплине управления проектами стейкхолдерами называют всех, кого проект коснется (а также тех, кто может оказать на него влияние). Люди они разные, со своими интересами, ожиданиями, и чаяниями. Закрыть глаза в надежде, что и проекта не заметят — весьма опрометчиво (вспоминается неприглашенная колдунья). Boston Consulting Group оценивает долю IT проектов, почивших по не-техническим причинам, в 75%. Последние две редакции свода знаний по управлению проектами (PMBOK) выделяют процессы по управлению стейкхолдерами в отдельную область знаний под счастливым номером 13 и настоятельно рекомендуют учитывать связи между ними, центры влияния, а также культуру общения для повышения шансов на успех.


            Мы покажем, как оценить стейкхолдеров с помощью машинного обучения. Выделим группы похожих между собой людей и решим задачу кластеризации — сегментации клиентов в терминах маркетинга — в социальных структурах, которые построим из: 1) потоков сообщений и 2) эмоциональной окрашенности текста. Для этого заглянем в переписку, любезно предоставленную г-жей Клинтон, способом, предложенным в журнале Биоинформатика.

            Читать дальше →
          • Алгоритмы подсказки слов в телефонной клавиатуре vs. Защита персональных данных

              Языковые модели


              В виртуальных клавиатурах мобильных телефонов повсеместно используются алгоритмы подсказки слов по первым введённым буквам и автоматического исправления опечаток в них. Функция нужная, так как печатать на телефоне неудобно. Однако она часто раздражает пользователей своей «глупостью».

              В основе алгоритма подсказок лежит языковая модель, предсказывающая вероятность следующего слова в тексте относительно предыдущих слов. Обычно модель строится по статистике n-грамм — последовательностей из n слов, которые часто соседствуют друг с другом. При таком подходе хорошо угадываются только короткие распространённые словосочетания.

              Нейронные сети с задачей предсказания слов справляются лучше. Например, нейросетевой алгоритм в состоянии понять, что после слов «Linus is the best» должно идти слово «programmer», а после «Shakespair is the best» — «writer». У n-граммной модели для этой задачи, скорее всего, не хватит статистики: даже если в обучающих текстах встречалась информация о Торвальдсе и Шекспире, скорее всего она не была сформулирована ровно этими же словами в том же порядке.

              О рекуррентных нейронных сетях для языковых моделей пишут много. Например, с помощью простого туториала по TensorFlow можно посмотреть, при каких условиях какие слова будут предсказываться.

              Важный момент: предсказания модели сильно зависят от обучающей выборки. На скриншотах ниже показаны примеры подсказок для обычной, профессиональной и неформальной лексик.
              Читать дальше →
            • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

              Подробнее
              Реклама
            • Datalore: открываем бета-версию приложения для анализа данных на Python

                Привет, Хабр!

                В рядах инструментов JetBrains пополнение. Мы запускаем открытую бета-версию Datalore — умной веб-среды для анализа и визуализации данных на языке Python.

                Машинное обучение уверенно захватывает мир: алгоритмы интеллектуального анализа данных стоят за современными коммерческими разработками и исследованиями. Мы разработали приложение, с которым решать задачи машинного обучения легко и приятно: все необходимые инструменты data science доступны из коробки, а умный редактор кода на Python облегчает процесс анализа данных.


                Читать дальше →
              • Роботы вместо лучших сотрудников: машинное обучение по ответам экспертов

                Один из текущих проектов Devim — разработка сервиса скоринга для микрофинансовой организации (МФО). Проект был выполнен нашей Data Science командой Андреем Давыденко и Дмитрием Гореловым datasanta. Мы рассказываем о том, какие решались задачи, какие факторы принимались во внимание, а также о полученных результатах. В основе предложенного на данный момент решения — подход, при котором автоматическая обработка заявок выполняется с учётом вероятности отказа/одобрения похожих существующих заявок андеррайтерами (экспертами). Такой подход позволил выполнить проект в сжатые сроки и принять во внимание некоторые особенности бизнес-целей. В числе интересных результатов: как оказалось, решения андеррайтеров при выдаче займов могут быть с высокой точностью спрогнозированы статистической моделью (AUC>0.93).


                Надеемся, что публикация будет интересна не только специалистам по скорингу, но и всем, кто интересуется машинным обучением и его применением на практике.


                Материал подготовлен Data Science командой Devim

                Читать дальше →
                • +20
                • 3,6k
                • 7
              • Приглашаем на Cradle: Rave. И нет, это не дискотека

                  С 16 по 18 февраля в Сколково мы будем проводить Cradle: Rave. Это самое большое мероприятие Сбербанк Технологий, которое объединит все, чем мы занимаемся — Artificial Intelligence, Machine learning, чат-боты, квантовые технологии, DevOps, IoT, блокчейн, big data, мобильную разработку. По последним двум темам организуем хакатоны с денежными призами, по блокчейну — джем-сессию в экзотическом формате «печа-куча», а приправим все россыпью интересных докладов и митапов. Подробности под катом.


                  Читать дальше →
                • Соревнование Pri-matrix Factorization на DrivenData с 1ТБ данных — как мы заняли 3 место (перевод)

                  Привет, Хабр! Представляю вашему вниманию перевод статьи "Animal detection in the jungle — 1TB+ of data, 90%+ accuracy and 3rd place in the competition".


                  Или чему мы научились, как выигрывать призы в таких соревнованиях, полезные советы + некоторые мелочи


                  TLDR



                  Суть соревнования — например, вот это случайное видео с леопардом. Все видеоролики длятся 15 секунд, а их 400 тысяч...



                  Заключительные результаты в 3 часа ночи, когда конкурс закончился — я был в поезде, но мой коллега засабмитил заявку за 10 минут до окончания конкурса


                  Если вам интересно узнать как мы справились, чему научились, и как вам участвовать в подобном, то прошу под кат.

                  Читать дальше →
                  • +40
                  • 5,8k
                  • 5
                Самое читаемое