• DataTalks #8: изучение пользователей

      Всем привет! 25 ноября в Минске состоялась восьмая встреча белорусского сообщества аналитиков DataTalks. В этот раз речь шла о том, как исследовать покупателей/игроков/клиентов и на основе полученных данных делать выводы, полезные для бизнеса и пользователей. В этот раз встречу посетили более 200 участников из Беларуси и России.

      Под катом вы найдете записи выступлений:

      — «Как быстро и просто исследовать продукт с помощью пользователей?» — Софья Чебанова, руководитель лаборатории исследования пользовательского опыта Wargaming.
      — «Как меняется покупатель?» — Валентин Соколовский, глава направления по работе с розницей Nielsen Belarus.
      — «Удовлетворенность пользователей: от индивидуального мнения к бизнес-решению» — Ирина Малова, руководитель отдела исследований Wargaming; Андрей Ярмола, руководитель отдела Data Science Wargaming; Екатерина Яворская, специалист отдела исследований Wargaming.
      — «Данные с человеческим лицом» — Амельков Александр, директор исследовательской компании Amelkov.by.
      — «Medtech и кросс-дисциплинарные проекты на стыке IT и профессиональной медицины» — Роман Громов, сoоснователь и соинвестор проектов Ariadna (computer assisted surgery) & ARRM.IO (gesture recognition platforms for mobile platforms).
      — «Мне не нужно мнение – я хочу знать, как ты себя поведешь: 10 способов улучшить интервью с пользователем» — Тамара Кулинкович, совладелец «Студии Сорокина и Кулинкович».


      Читать дальше →
    • Материалы открытого курса OpenDataScience и Mail.Ru Group по машинному обучению и новый запуск

        Недавно OpenDataScience и Mail.Ru Group провели открытый курс машинного обучения. В прошлом анонсе много сказано о курсе. В этой статье мы поделимся материалами курса, а также объявим новый запуск.



        Кому не терпится: новый запуск курса — 5 февраля, регистрация не нужна, но чтоб мы вас запомнили и отдельно пригласили, заполните форму. Курс состоит из серии статей на Хабре (Первичный анализ данных с Pandas — первая из них), дополняющих их лекций на YouTube-канале, воспроизводимых материалов (Jupyter notebooks в github-репозитории курса), домашних заданий, соревнований Kaggle Inclass, тьюториалов и индивидуальных проектов по анализу данных. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_open.

        Читать дальше →
      • Как анализировать тональность твитов с помощью машинного обучения на PHP

        • Перевод
        Всем доброго!

        Что ж, как и обещали, делимся с вами очередным материалом, который мы изучали в рамках подготовки нашего курса по PHP. Надеемся, что он окажется для вас и интересным, и полезным.

        Вступление

        В последнее время кажется, что все и каждый говорят о машинном обучении. Ваши ленты в социальных сетях забиты сообщениями об ML, Python, TensorFlow, Spark, Scala, Go и т. д .; и если у нас с вами есть что-то общее, то вы можете поинтересоваться, а что насчет PHP?

        Да, как насчет машинного обучения и PHP? К счастью, кто-то был достаточно сумасшедшим, чтобы не только задать этот вопрос, но и разработать универсальную библиотеку машинного обучения, которую мы можем использовать в нашем следующем проекте. В этом посте мы рассмотрим PHP-ML — библиотеку для машинного обучения на PHP — и мы напишем класс анализа тональности, который мы сможем позже использовать для нашего собственного чата или твит-бота. Основными задачами этого поста являются:

        • Изучение общих понятия, касающиеся машинного обучения и анализа тональности текста
        • Обзор возможностей и недостатков PHP-ML
        • Определение задачи, которую мы будем решать.
        • Доказательство того, что попытка машинного обучения на PHP не является абсолютно безумной целью (опционально)


        Читать дальше →
        • +34
        • 7,3k
        • 5
      • Netflix подбирает оптимальные обложки фильмов для каждого зрителя

        • Перевод
        Из блога Netflix Technology

        Много лет основной целью системы персональных рекомендаций Netflix было выбрать правильные фильмы — и вовремя предложить их пользователям. С тысячами фильмов в каталоге и разносторонними предпочтениями клиентов на сотнях миллионов аккаунтов критически важно рекомендовать точные фильмы каждому из них. Но работа системы рекомендаций на этом не заканчивается. Что можно сказать о новом и незнакомом фильме, который вызовет ваш интерес? Как вас убедить, что он достоин просмотра? Очень важно ответить на эти вопросы, чтобы помочь людям открывать для себя новый контент, особенно незнакомые фильмы.

        Один из вариантов решения проблемы — принять в учёт картинки или обложки для фильмов. Если картинка выглядит убедительно, то она служит толчком и неким визуальным «доказательством», что фильм достоин просмотра. На ней может быть изображён известный вам актёр, захватывающий момент вроде автомобильной погони или драматическая сцена, передающая суть фильма или сериала. Если мы покажем идеальную обложку фильма на вашей домашней странице (как говорится, картинка стоит тысячи слов), то возможно, только возможно, вы решитесь выбрать этот фильм. Это просто ещё одна вещь, в которой Netflix отличается от традиционных медиа: у нас не один продукт, а более 100 млн разных продуктов, а каждый из пользователей получает персональные рекомендации и персональные обложки.


        Главная страница Netflix без обложек. Так исторически наши алгоритмы рекомендаций видели страницу
        Читать дальше →
        • +23
        • 6,6k
        • 6
      • Лекции Техносферы. Нейронные сети в машинном обучении


          Представляем вашему вниманию очередную порцию лекций Техносферы. На курсе изучается использование нейросетевых алгоритмов в различных отраслях, а также отрабатываются все изученные методы на практических задачах. Вы познакомитесь как с классическими, так и с недавно предложенными, но уже зарекомендовавшими себя нейросетевыми алгоритмами. Так как курс ориентирован на практику, вы получите опыт реализации классификаторов изображений, системы переноса стиля и генерации изображений при помощи GAN. Вы научитесь реализовать нейронные сети как с нуля, так и на основе библиотеке PyTorch. Узнаете, как сделать своего чат-бота, как обучать нейросеть играть в компьютерную игру и генерировать человеческие лица. Вы также получите опыт чтения научных статей и самостоятельного проведения научного исследования.

          Читать дальше →
          • +53
          • 17k
          • 6
        • Ммм, длинные выходные!
          Самое время просмотреть заказы на Фрилансим.
          Мне повезёт!
          Реклама
        • Сверточная сеть на python. Часть 2. Вывод формул для обучения модели


            В прошлой статье мы рассмотрели концептуально все слои и функции, из которых будет состоять будущая модель. Сегодня мы выведем формулы, которые будут отвечать за обучение этой модели. Слои будем разбирать в обратном порядке — начиная с функции потерь и заканчивая сверточным слоем. Если возникнут трудности с пониманием формул, рекомендую ознакомиться с подробным объяснением (на картинках) метода обратного распространения ошибки, и также вспомнить о правиле дифференцирования сложной функции.
            Читать дальше →
          • Время — деньги. Как мы учили Яндекс.Такси точно рассчитывать стоимость поездки


              Любой из нас перед покупкой продукта или услуги старается узнать точную цену. Понятно, что порой случаются истории, когда финальная стоимость сильно превышает запланированную. И если с ремонтом машины или квартиры это уже стало привычным, то в остальных случаях разница между ожиданием и реальностью скорее раздражает.

              До недавнего времени стоимость поездки в такси тоже была плавающей. Даже онлайн-сервисы рассчитывали сумму лишь примерно — окончательная стоимость формировалась только в конце пути. Тариф, как правило, включает три компонента: стоимость посадки (иногда с включенными километрами и/или минутами), стоимость километра и стоимость минуты. Конечно, можно было рассчитать примерную цену за поездку и раньше, но в конце она могла измениться из-за того, что, например, по пути водитель задержался в пробке. Понятно, что пассажирам это не всегда нравилось.

              Кажется, нет ничего проще, чем использовать данные маршрутизатора в Яндекс.Навигаторе и данные Пробок, чтобы Яндекс.Такси с самого начала рассчитало точную цену, которая не менялась бы по окончании поездки. Но на самом деле на стоимость влияет огромное число факторов, не только тариф. Важно не просто уметь её рассчитывать. С одной стороны, стоимость должна быть привлекательной для пользователя, причём с учётом не только текущей ситуации на дороге, но и, например, пробок, которых на маршруте пока нет, но которые скоро возникнут. С другой, цена должна быть такой, чтобы водители не потеряли в заработке, даже если путь из точки А в точку Б оказался длиннее или дольше, чем планировалось. В этой статье мы расскажем, как решали задачу и как искали сбалансированный алгоритм, выгодный всем участникам платформы Яндекс.Такси.
              Читать дальше →
            • Учим машину разбираться в языках

              • Перевод
              Хабр, привет! Мы уже рассказывали вам несколько раз про нашу интеллектуальную службу распознавания речи — LUIS. И в этих историях всегда была одна проблема: LUIS крутой, но не понимает русский язык. Сегодня всё изменится. Под катом вы узнаете о методе добавления поддержки дополнительных языков в LUIS с помощью службы Translation Cognitive API.


              Читать дальше →
              • +19
              • 3,7k
              • 1
            • История победы на международном соревновании по распознаванию документов команды компании SmartEngines

                Привет, Хабр! Сегодня мы расскажем о том, как нашей команде из Smart Engines удалось победить на международном конкурсе по бинаризации документов DIBCO17, проводимом в рамках конференции ICDAR. Данный конкурс проводится регулярно и уже имеет солидную историю (он проводится 9 лет), за время которой было предложено множество невероятно интересных и безумных (в хорошем смысле) алгоритмов бинаризации. Несмотря на то, что в своих проектах по распознаванию документов при помощи мобильных устройств мы по возможности не используем подобные алгоритмы, команде показалось, что нам есть что предложить мировому сообществу, и в этом году мы впервые приняли решение участвовать в конкурсе.


                Читать дальше →
              Самое читаемое