Быстрый старт в изучении анализа данных и машинного обучения от МФТИ и Яндекса

    Почему анализ данных


    Потребность в анализе данных вышла далеко за пределы технологических и интернет-компаний. Методы машинного обучения все активнее используются в совершенно различных областях, вплоть до оптимизации маршрутов транспорта. С их помощью создаются новые лекарства и автомобили без водителя, подбирается музыка под настроение, находятся потенциальные спутники жизни.

    Специалист по анализу данных или data scientist – одна из самых востребованных профессий сегодняшнего дня. За реальных практиков, умеющих получать значимые результаты в сжатые сроки, идет настоящая борьба, и стоимость таких специалистов взлетает до небес.

    Также интерес подогревают государственные и коммерческие структуры, которые не только говорят об этих специальностях, но и уже готовятся к проведению первых олимпиад по ним.

    Что же скрывается за этими словами, все ли понимают их значение? К сожалению, нередко к ним относятся как к некому волшебному ингредиенту, который решит все проблемы. Не осознаются ни границы его применения, ни порядок действий, чтобы использовать их «здесь и сейчас».

    Пришла пора внести ясность в этот вопрос.

    image



    Где можно научиться этому сейчас


    Анализ данных – область знаний, по которой понимание “как этому учить” только формируется. Ведущие вузы создают магистерские программы, но, к сожалению, не всегда успевают за новыми подходами и инструментами.

    Поэтому самое правильное место для обучения – это высокотехнологичные компании, в которых работа с данными есть сама суть бизнеса. И одной из таких компаний, без сомнения, является Яндекс.

    Объединив усилия ведущих ученых из МФТИ и реальных исследователей-практиков из Яндекса, мы подготовили специализацию по машинному обучению и анализу данных, которая позволит вам освоить новую профессию и сделать первые шаги в этой интереснейшей области.

    А учить этому будут:
    • Константин Воронцов – доктор физико-математических наук, профессор РАН, заведующий отделом Интеллектуальных систем ФИЦ ИУ РАН, преподаватель ШАД
    • Вадим Стрижов – доктор физико-математических наук, доцент МФТИ, ведущий научный сотрудник ФИЦ ИУ РАН
    • Евгений Рябенко – кандидат физико-математических наук, доцент МФТИ, преподаватель ВМК МГУ, ШАД, data scientist Yandex Data Factory
    • Евгений Соколов – преподаватель ВМК МГУ, ВШЭ, ШАД, руководитель исследовательской группы Yandex Data Factory
    • Виктор Кантор – старший преподаватель ФИВТ МФТИ, преподаватель ШАД, руководитель исследовательской группы Yandex Data Factory
    • Эмели Драль – преподаватель ФИВТ МФТИ, РУДН, data scientist Yandex Data Factory


    Как проходит обучение и как устроен курс


    Наша специализация состоит из пяти курсов и финального проекта.
    • В первом курсе мы расскажем основные факты из математики, без которых сложно что-либо понять в анализе данных, и научим программировать на языке Python.
    • Во втором займёмся обучением на размеченных данных или обучением с учителем — разберёмся, как по набору примеров строить предсказывающие модели и оценивать их качество.
    • В третьем курсе мы поговорим о поиске структуры в данных: как делать кластеризацию, как понижать размерность данных и искать аномалии.
    • Четвёртый курс посвящён искусству превращения данных в выводы: мы освоим методы статистического анализа и планирования экспериментов.
    • В пятом курсе мы подробно разберём несколько крупных типовых задач анализа данных, таких как прогнозирование временных рядов или анализ текстов.

    Каждый из курсов мы постарались сделать предельно насыщенным и лаконичным – таким, чтобы человек смог освоить его в среднем темпе за месяц. Таким образом, на прохождение всей специализации в среднем темпе уйдет полгода. Однако реальная скорость зависит только от мотивации и настойчивости слушателя!

    Для курса были отобраны только те методики и инструменты, которые хорошо работают на практике и используются реальными исследователями в ежедневной работе. Многие данные, с которыми придется работать во время курса, взяты из настоящих проектов – только так можно понять и прочувствовать, “как оно бывает на самом деле”.

    Финальный проект позволит применить полученные знания к реальным данным одной из практических областей: электронная коммерция, социальные медиа, информационный поиск, бизнес-аналитика и др. Работа над проектом даст возможность самостоятельно пройти все этапы анализа данных – от подготовки данных до построения финальной модели и оценки её качества. В результате в портфолио появится проект, который смело можно будет указать в резюме и показать работодателю на собеседовании.

    Как и во всех курсах на платформе Coursera, основу составляют видеоматериалы, которые чередуются с различными видами активностей – от тестов, которые позволяют проверить знания и понимание, до программируемых заданий с автоматической проверкой и заданий на взаимную оценку.

    Понимая, что слушатели могут начать обучение с очень разным бэкграундом, первый курс специализации мы сделали вводным, решающим две задачи. Во-первых, он помогает освежить знания о базовых математических понятиях, которые нам понадобятся в дальнейшем. А во-вторых, получить базовые навыки работы с языком Python и специальными библиотеками для анализа данных.

    Чтобы сохранить практическую направленность специализации, и не утонуть в формализме, даже в первом курсе многие понятия вводятся «на пальцах», с упором на интуитивное понимание. Приверженцы математического формализма могут пока обратиться к онлайн-курсам от кафедры дискретной математики на Coursera или национальной платформе открытого образования. Также совсем скоро на Лектории МФТИ появятся полные строгие курсы по математическому анализу, линейной алгебре и дифференциальному исчислению.

    Идеальная цель всего нашего проекта — сделать так, чтобы слушатели могли пройти собеседование на позицию data scientist (уровня, соответствующего их профессиональному опыту). При этом наша аудитория не обязательно хочет менять работу, кому-то будет достаточно обновить методический инструментарий и получить более эффективные решения своих стандартных рабочих задач. Но, в любом случае, выпускник специализации должен соответствовать входным стандартам нашей профессии.

    Когда и как можно начать


    Специализация уже доступна и обучение на ее первом курсе начнется 9 февраля. Как и для остальных специализаций на платформе Coursera, для нашей есть обязательное условие со стороны платформы: если слушатель хочет пройти всю специализацию и иметь возможность выполнить выпускной проект, нужно пройти все курсы в режиме подтверждения личности.

    Большая часть материалов курсов специализации доступна бесплатно, однако ряд заданий, прохождение которых нужно для получения сертификата, помечены “замком” и доступны только после оплаты. Если слушатель хочет получить доступ ко всем заданиям и сертификату, но не имеете возможности оплатить их, можно воспользоваться программой финансовой поддержки (Coursera Financial Aid). Для получения помощи от Coursera, он должен заполнить краткую заявку с описанием своего финансового положения и причиной для зачисления на курс. Очень схожая практика используется при запросе финансовой помощи при поступлении в американские вузы. В прошлом году более 100 тысяч заявок было одобрено. Чтобы подать заявку, нужно пройти по ссылке под кнопкой “Зарегистрироваться” на странице специализации.

    Вперед к новым знаниям – начать учиться!

    P.S. Для тех, кто хотел бы получить поддержку тьютора во время прохождения курса и персональную сдачу экзаменов с получением удостоверения государственного образца о профессиональной переподготовке, мы прорабатываем специальную программу. Если вам это интересно – предлагаем заполнить небольшую анкету

    UPD: добавили информацию о содержании курсов специализации и ее целях
    UPD 2: студентам МФТИ специализация в полном объеме доступна бесплатно. Чтобы активировать эту возможность нужно на почту mooc@phystech.edu написать.
    Поделиться публикацией
    Комментарии 41
    • +3
      Эхх… как хорошо было в физтехе, можно было играть в квейк2 с против препода на пиво, качать с инета на дискетки (пока его не отрубили за перебор траффика).
      Трава была зеленая, а инет был adsl.
      • 0
        Забыл добавить, что работали там на NT, и под ней можно было играть без логина в систему, лишь прожав ctrl+alt+del на логинформе.
        Долгопрудый, мелкое здание, 2 (3?) этаж…

        Я кстати свой диплом физтеха оттуда так и не забрал… 14 лет спустя он еще там?)
      • +1
        «Большая часть материалов курсов специализации доступна бесплатно, однако ряд заданий, прохождение которых нужно для получения сертификата, помечены “замком” и доступны только после оплаты»

        Очень жаль. В других курсах позволялось пройти курс с подтверждением личности, а оплатить позже. Здесь так не получится.
        • +2
          Это требование Coursera ко всем специализациям, которые стартуют после 19 января. И у авторов курса по сути есть выбор: либо делать задания, которые не будут учитываться в финальной оценке, либо делать их доступными только в режиме подтверждения личности. В наших курсах мы как раз пытались нащупать баланс между первыми и вторыми.
          • +1
            Спасибо. Не знала о таком нововведении. Тем более жаль, что столько курсов испортили (
            • +1
              Ну всем хочется кушать. Даже Курсэре. А почему испортили то?
              • +1
                Потому что без таких домашних заданий сложно себя оценить, без обратной связи мотивация ниже.

                Я не знаю, как сделано сейчас в других курсах — заглянула только в содержание этого, — но когда по итогам блока ты не получаешь обратной связи, не участвуешь в оценке других людей и тебя никто не оценивает, это практически превращает курс в самостоятельное обучение. Так называемые self-paced курсы. Мне кажется, должна очень большая сила воли, чтобы пройти полностью подобный курс, если его тема только не нужна вот прям щас по какой-то причине (работа, диплом и т.п.).

                К тому же система peer review способствовала обучению у других студентов. Я помню, что не менее интересно, чем слушать лекции, было смотреть чужие идеи в курсе Design and Creation of Artifacts. Или соревноваться с другими студентами в качестве решения задач в курсе Discrete Optimization. Без этого подобные курсы много теряют — поэтому мне кажется, что их испортили.
                • +3
                  Так задания на programming assignment и peer review никуда не делись! Ровно как и обратная связь на форумах.
                  Был изменен порядок предоставления доступа к этим услугам. И логика у Coursera тут следующая:
                  • Если ты специалист и тебе нужен этот курс для профессионального развития — то ты найдешь 50 баксов чтобы заплатить за полное его прохождение (а заплатив эти 50 баксов, будешь при этом более мотивирован
                  • Если ты студент (или живешь бедно) и у тебя нет денег — то ты найдешь время чтобы заполнить заявление на финансовую поддержку, и получив ее (а пока дают практически всем, кто пишет), будешь при этом более мотивирован
                  • Если ты не хочешь платить, и не хочешь просить финансовой поддержки — значит мотивация твоя не настолько велика, и ты можешь пока удовлетвориться открытой частью курса (видео, заданиями, форумом итд).

                  И в принципе, их рассуждения мне кажутся достаточно логичными. В конце концов, им же нужно кормить штат в 150 человек
                  Хотя мы в целом придерживаемся более широкой концепции открытости. Именно поэтому поддерживаем такие проекты как Лекторий МФТИ (http://lectoriy.mipt.ru/) и другие схожие начинания.
                  • +1
                    Насчёт 50 баксов — это немного преуменьшено: мне предлагает заплатить €73, что на текущий момент составляет около $$82-83.
                    Или это мне для Германии специальную цену дают?
                    • 0
                      Специальную :) В России — 4329 рублей это примерно 54 usd
                      • 0
                        Я не жалуюсь, просто интересно: Почему Ваш курс дороже других?
                        Все другие курсы, которые я смотрел стоят одинаково, по €45. Например: «Введение в машинное обучение» от ВШЭ или «Machine Learning» от Стэнфордского Университета или «Welcome to Game Theory» от Университета Токио)
                        • 0
                          Ну мы выбрали самую низкую из цен, которую Coursera хотела предложить. Вначале было что-то около 6к.
                          • 0
                            Спасибо за ответ. Похоже на странный (старый) курс рубля у Courser-ы
                            • 0
                              Они просто скидку делают дополнительную для России.
            • +2
              И не только это. Ответы на вопросы которые без замка тоже не принимают к проверке.
          • 0
            > Большая часть материалов курсов специализации доступна бесплатно, однако ряд заданий, прохождение которых нужно для получения сертификата, помечены “замком” и доступны только после оплаты.

            Простите, а где можно свободно распространяемый контент посмотреть?
            На странице курса нашёл только кнопку «зарегистрироваться» с переводом на страницу оплаты.
            • +4
              Для этого нужно перейти на страницу непосредственно курса (например www.coursera.org/learn/mathematics-and-python). Там можно сразу же записаться и попасть внутрь курса.
          • –2
            Этот курс бесплатный?
            • +3
              Короткий ответ: почти. А подробный ответ есть в тексте.
              • 0
                Короткий ответ: почти нет.
                Лекции можно посмотреть бесплатно.
                Все задания, начиная с самого первого «установите питон» платны.
              • 0
                Скажите, пожалуйста, когда планируется перезапуск специализации?
                Интересуюсь, потому что до конца весны не будет времени проходить специализацию.
                • +2
                  После перехода к системе «когорт» специализация перезапускается по сути раз в месяц. Так что не беспокойтесь — сможете начать и весной
                  • Благодарю за ответ!
                    А если оплачивать каждый курс по отдельности(или при помощи подачи на финансовую помощь), то каждый из курсов также будет доступен в конце весны?
                    • +1
                      Каждый курс будет перезапускаться раз в месяц — не волнуйтесь.
                  • Благодарю за ответ!
                    А если оплачивать каждый курс по отдельности(или при помощи подачи на финансовую помощь), то каждый из курсов также будет доступен в конце весны?
                • 0
                  Тарас, а есть ли возможность студентам и выпускникам МФТИ посещать данные занятия/смотреть бесплатно?
                  • 0
                    Да, студентам МФТИ вся специализация доступна бесплатно. Чтобы эту опцию активировать нужно написать на почту mooc@phystech.edu и запросить доступ для себя
                  • НЛО прилетело и опубликовало эту надпись здесь
                    • +2
                      Во-первых, это естественно, когда ведущие университеты делают образовательные проекты в активно развивающихся областях. Мы вот в прошлом году начали плотнее прощупывать новые форматы по вовлечение людей в биоинформатику(http://genehack.ru/) и глубокое обучение /deep learning (http://deephack.me).

                      Во-вторых мне кажется немного странным сравнивать форматы обучения, которые вы перечислили среди желающих «заработать деньги на машинном обучении». Деньги гораздо проще заработать проводя краткосрочные курсы очного обучения в корпоративном секторе.
                      Наша же задача — создать открытый инструмент обучения (и выбрав платформу — мы вынуждены были принять ряд ее правил), который поможет мотивированным людям получить новые знания и умения.

                      И тот факт что по курсу есть уже 100 первых одобренных заявок на финансовую помощь, говорит о том, что эти самые «мотивированные люди» разобрались что делать и уже начали учиться.
                      • НЛО прилетело и опубликовало эту надпись здесь
                        • 0
                          1) Степик — это хорошо и они молодцы. Вопрос в том, что аудитория степика и курсэры отличается на несколько порядков. Ровно как узнаваемость в профессиональной и академической среде
                          2) Безусловно, чтобы гарантированно быть на что-то годным, лучше взять золото на межнаре по математике, поступить на Физтех, поучится в ШАД и на кафедре Яндекса, а потом еще PhD в MIT/Caltech/Standford. Проблема в том — что по такому пути могут пойти далеко не все. Какой будет полезный выход из специализации — узнаем месяцев через 7-8 думаю. Но для этого надо начать -что мы и делаем.
                          • НЛО прилетело и опубликовало эту надпись здесь
                            • +1
                              1) На курсэре 17 млн пользователей. На степике — «20872 активных учащихся». Это цифры про разное — но даже с этим учетом, порядки реально между ними
                              2) Узнаваемость бренда курсэры и степика.
                              3) А что касается инструментов — призываю riabenko для комментариев
                              • НЛО прилетело и опубликовало эту надпись здесь
                              • +2
                                Применяются. И sklearn, и vowpal wabbit, и caret, что угодно. Ничего игрушечного в них нет, это отличные инструменты, использующие проверенные математические модели. Для очень многих задач анализа данных их вполне достаточно.
                      • 0
                        А бесплатная специализация только для студентов или аспирантам и сотрудникам тоже доступна?
                        • 0
                          Аспиранты — это же PhD students ), т.е. им тоже доступно.
                          • 0
                            Я аспирант ФУПМа, мне отказали в бесплатном курсе.
                            • 0
                              Update status: перепроверили и доступ дали. Спасибо!)

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое