Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)


    Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
    Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:
    • The Data Scientist’s Toolbox — базовый курс в специализации и посвящен обзору различных инструментов специалиста по анализу данных. Количество материалов невелико и курс может быть пройден за 3-4 часа.
    • R Programming — базовый курс в специализации и посвящен основам работы с язык программирования R.
    • Getting and Cleaning Data — также является базовым курсом в специализации и посвящен очень важной теме подготовки и обработки сырых входных данных к дальнейшему анализу.
    • Exploratory Data Analysis — курс посвящен исследовательскому анализу данных и визуализации данных с помощью языка R и таких популярных пакетов для визуализации как lattice и ggplot2.
    • Reproducible Research — курс рассказывает о такой важной теме в анализе данных как Reproducible Research. Рассматриваются пакет knitlr для языка R, а также язык разметки R Markdown.
    • Statistical Inference — формально курс посвящен теме статистического вывода, но по сути является курсом по основам статистики и теории вероятностей. Подано все в очень скомканной и сумбурной форме. Один из самых неоднозначных курсов в данной специализации. Надеюсь, что в будущих версиях курс будет серьезно переработан.
    • Regression Models — курс посвящен теме регрессионного анализа. К курсу также есть вопросы по теме проработанности материала и надежда, что создатели курса обратят внимание на комментарии студентов и серьезно переработают курс в будущем.
    • Practical Machine Learning — курс посвящен основам машинного обучения.
    • Developing Data Products — курс посвящен разработке современных продуктов в теме анализа данных. Рассматриваются такие популярные фреймворки как Shiny и Slidify.
    • Mathematical Biostatistics Boot Camp 1 — первая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.
    • Mathematical Biostatistics Boot Camp 2 — вторая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.

    Далее рассмотрим курсы, которые помогут улучшить общие навыки, необходимые для специалиста по анализу данных:
    • Intro to Hadoop and MapReduce (Udacity) — курс посвящен основам работы с Hadoop и большими наборами данных.
    • Data Wrangling with MongoDB (Udacity) — речь в данном курсе пойдет о работе с данными в такой популярной сейчас NoSQL базе данных как MongoDB.
    • Programming Foundations with Python (Udacity) — курс посвящен основам языка программирования Python, который стремительно набирает популярность среди специалистов по анализу данных.
    • Introduction to Databases (Coursera — Stanford University) — курс рассказывает о работе с реляционными источниками данных, а также о работе с другими популярными форматами хранения данных (XML, JSON)

    Теперь перейдем к курсам, которые посвящены теории вероятностей и статистике. Безусловно знание данных дисциплин будет полезно каждому, кто претендует на звание специалиста по анализу данных. В некоторых случаях разделение курсов на категории достаточно условно, так как многие курсы охватывают различные аспекты, связанные с анализом данных. Далее представлен список курсов в данной категории:
    • Probabilty and Statistics (Khan Academy) — отличный набор базовых вещей по статистике и теории вероятностей от Khan Academy.
    • Case-Based Introduction to Biostatistics (Coursera — Johns Hopkins University) — курс прдеставляет в доступной форме основы статистики и теории вероятностей с примерами из биостатистики.
    • Probabilistic Graphical Models (Coursera — Stanford University) — небольшой курс по теории вероятностей.
    • Statistics: Making Sense of Data (Coursera — University of Toronto) — еще один курс по основам статистики.
    • Data Analysis and Statistical Inference (Coursera — Duke University) — отличный курс по анализу данных, в котором доступно рассказывается об основах теории вероятностей и статистики.
    • Statistics One (Coursera — Princeton University) — неплохой курс по основам статистики. Материал подается на доступном уровне и не требует от слушателя специальных знаний для усвоения материала.
    • Statistics in Medicine (Stanford Online) — основы статистики на основе примеров из медицины.
    • Statistics for Medical Professionals (CME) (Stanford Online) — основы статистики на основе примеров из медицины.
    • Stat_2.1x — Introduction to Statistics: Descriptive Statistics (edX — BerkleyX) — первая часть из серии курсов по статистике и теории вероятностей. Первая часть посвящена описательной статистике.
    • Stat_2.2x — Introduction to Statistics: Probability (edX — BerkleyX) — вторая часть из серии курсов по статистике и теории вероятностей. Вторая часть посвящена основам теории вероятностей.
    • Stat_2.3x — Introduction to Statistics: Inference (edX — BerkleyX) — третья часть из серии курсов по статистике и теории вероятностей. Третья часть посвящена теме статистического вывода.
    • 6.041x Introduction to Probability — The Science of Uncertainty (edX — MITx) — курс по теории вероятностей от MIT.
    • Explore Statistics with R (edX — KIx) — новый курс по работе со статистическим языком программирования R. Первая сессия данного курса начинается 9 сентября 2014 года.
    • Intro to Statistics (Udacity) — еще один курс по основам статистики.
    • Statistics (Udacity) — достаточно простой курс по теории вероятностей и статистике.

    Далее следует список курсов, которые посвящены различным аспектам темы анализа данных, таким как машинное обучение, обработка естественного языка, нейронным сетям, рекомендательным системам, анализу социальных сетей, искусственному интеллекту и другим:
    • Data Analysis (Coursera — Johns Hopkins University) — курс по анализу данных с использованием языка R длительностью 8 недель.
    • Introduction to Data Science (Coursera — University of Washington) — курс длится 8 недель. Один из наиболее популярных онлайн-курсов по основам Data Science.
    • Machine Learning (Coursera — University of Washington) — отличный курс, который длится 10 недель по машинному обучению от University of Washington.
    • Machine Learning (Coursera — Stanford University) — один из наиболее известных курсов по Machine Learning, ведет его профессор Стэнфордского Университета Andrew Ng. Курс длится 10 недель. Курс достаточно простой и понятный, не требует каких-то специальных знаний для его успешного прохождения, при этом охватывает достаточно много направлений Machine Learning.
    • Natural Language Processing (Coursera — Stanford University) — один из самых популярных онлайн-курсов по обработке естественного языка от Стэнфордского Университета.
    • Introduction to Recommender Systems (Coursera — University of Minnesota) — введение в рекомендательные системы. Нельзя сказать, что курс тщательно проработан, но курсов по данной не так много, так что он может быть интересен тем, кто занимается тематикой рекомендательных систем.
    • Neural Networks for Machine Learning (Coursera — University of Toronto) — курс по применению нейронных сетей в машинном обучении.
    • Natural Language Processing (Coursera — Columbia University) — еще один курс, посвященный теме обработки естественного языка.
    • Social Network Analysis (Coursera — University of Michigan) — курс посвящен популярной теме анализа данных социальных сетей.
    • Statistical Learning (Stanford Online) — курс, посвященный основам обучения с учителем (Supervised learning) в машинном обучении.
    • SABR101x Sabremetrics: Introduction to Baseball Analytics (edX — BUx-Boston University) — в курсе объясняются многие аспекты Data Science и Big Data на основе анализа спортивной статистики (в данном случае бейсбола).
    • PH525x Data Analysis for Genomics (edX — HarvardX) — достаточно простой курс по теме анализа данных.
    • 15.071x The Analytics Edge (edX — MITx) — курс с отличным материалом по теме анализа данных и машинному обучению.
    • Learning From Data (edX — CaltechX) — один из лучших курсов по машинному обучению. Доступно раскрываются многие темы машинного обучения.
    • CS188.1x Artificial Intelligence (edX — BerkleyX) — наверное один из самых интересных онлайн-курсов по теме искусственного интеллекта. В курсе используется язык программирования Python.
    • Intro to Data Science (Udacity) — введение в Data Science от Udacity.
    • Machine Learning 1—Supervised Learning (Udacity) — первая часть из серии курсов по машинному обучению от Udacity. Первая часть посвящена теме обучения с учителем (Supervised learning).
    • Machine Learning 2—Unsupervised Learning (Udacity) — вторая часть из серии курсов по машинному обучению от Udacity. Вторая часть посвящена теме обучения без учителя (Unsupervised learning).
    • Machine Learning 3—Reinforcement Learning (Udacity) — третья часть из серии курсов по машинному обучению от Udacity. Третья часть посвящена популярной методике машинного обучения Reinforcement Learning.
    • Exploratory Data Analysis (Udacity) — курс по визуализации данных с использованием языка R.
    • Artificial Intelligence for Robotics (Udacity) — введение в тему программирования искусственного интеллекта на примере беспилотного автомобиля.
    • Intro to Artificial Intelligence (Udacity) — курс по основам искусственного интеллекта.
    • CS109 Data Science (Harvard) — видеолекции курса по основам Data Science от Harvard Extension School

    Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №2 (16 — 23 июня 2014)
    Метки:
    • +24
    • 22,3k
    • 5
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 5
    • +1
      Может сейчас вообще не в тему выскажусь, но всё же. Принципиально материалы только на английском языке? Если нет, то у ШАД есть выложенные видеолекции по этой теме (их, правда, сильно больше, чем на 4 недели). Даже на хабре как-то был пост.
      • 0
        Нет, абсолютно не принципиально на английском, на русском тоже отлично. Я как раз-таки и рассчитывал, что в комментариях вспомнят какие еще есть материалы и расширят данный список. Да, у ШАД отличные видеолекциии, я их сам смотрел с удовольствием. Жалко, что они не как курсы оформлены, чтобы еще задания были какие-то по лекциям.
        • 0
          Для этого, я так понимаю, есть сам ШАД :)

          А, ещё есть отличный сайт с говорящим адресом: machinelearning.ru, хоть и навигация по нему не столь очевидна.
      • +2
        Пост для добавления в избранное :)
        • 0
          Может есть смысл добавить в хаб — habrahabr.ru/hub/artificial_intelligence/

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.