Открытые бесплатные курсы на технические темы
77,29
рейтинг
10 октября 2013 в 11:07

Разное → Алгоритмы в биоинформатике, онлайн-курс tutorial

Секвенирование генома человека десять лет назад явилось причиной вычислительной революции в биологии. Оно стало стимулом для создания бо́льшего числа новых алгоритмов, чем в любой другой фундаментальной области науки.

21 октября мы с Филлипом Компо и Павлом Певзнером из Университета Калифорнии запускаем онлайн-курс по алгоритмам в биоинформатике на Coursera. Уже до 21 октября можно посмотреть содержание первой главы курса и порешать задачи на нашем новом образовательном проекте Stepic, над которым работает команда широко известного в узких (биоинформатических) кругах проекта Розалинд.

Секвенирование генома является лишь одной из сотен биологических задач, которые стали неразрывно связаны с вычислительными методами, необходимыми для их решения. В этом курсе будут рассмотрены алгоритмические идеи, которые являются фундаментальными для понимания современной биологии. Такие вычислительные понятия, как динамическое программирование и теория графов, помогут изучить алгоритмы, применяемые в широком спектре биологических задач: сборке геномов, сравнении последовательностей ДНК и белков, поиске регуляторных мотивов, анализе перестроек генома, идентификации белков, восстановлении дерева жизни и многих других. На протяжении всего курса, участники будут применять реальные алгоритмы из биоинформатики к реальным генетических данным.


Каждая глава курса содержит отдельно взятую биологическую тему. Например, первая глава посвящена поиску точек начала репликации (позиций в геноме, с которых ДНК начинает делиться в клетке), и как эту с первого взгляда сугубо биологическую задачу можно решить с помощью простого программирования и анализа геномных последовательностей.

Программа курса по неделям


  1. Поиск точек начала репликации: Where Does DNA Replication Begin? (Algorithmic Warm-up)
  2. Вычислительная масс-спектрометрия: How Do We Sequence Antibiotics? (Brute Force Algorithms)
  3. Поиск часто повторяющихся последовательностей (регуляторных мотивов): Which DNA Patterns Act As Cellular Clocks? (Greedy and Randomized Algorithms)
  4. Сборка геномов: How Do We Assemble Genomes? (Graph Algorithms)
  5. Геномные перестройки: Are There Fragile Regions in the Human Genome? (Combinatorial Algorithms)
  6. Выравнивание строк: How Do We Compare Biological Sequences? (Dynamic Programming Algorithms)
  7. Быстрый поиск подстроки, индексирование строк: How Do We Locate Disease-Causing Mutations? (Combinatorial Pattern Matching)

Вступительное видео профессора Певзнера




Massive Open Online Research


Важной составляющей курса являются открытые научные задачи, сформулированные к каждой главе. Дискуссию по каждой задаче будет курировать ведущий учёный-биоинформатик в каждой конкретной области. Например, открытые задачи из первой главы курса курируют Михаил Гельфанд (ИППИ РАН, МГУ), Uri Keich (University of Sydney) и Glenn Tesler (UCSD).

Ссылки по теме


Автор: @vyahhi
Stepik.org
рейтинг 77,29
Открытые бесплатные курсы на технические темы
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Комментарии (42)

  • +3
    Записался. Послушал первую лекцию.
    Класс! Огромное вам спасибо!
  • +4
    Посмотрел первую лекцию. Видно, что преподаватель болеет за свой топик, и рассказывает хорошо. Думаю, что во многом помогает то, что говорит он перед живой аудиторией. Многие преподаватели на курсере записывают лекции в студии, и они от этого получаются немного суховатыми. Записался, попробую следить. Я так понимаю это первый курс где авторы наши соотечественники (хоть и работающие в США)?
    • +2
      Насколько мне известно, да.
      • +2
        По квантовой физике тоже русский профессор читает.
        Я первые пару минут не мог понять что за знакомый акцент, а потом глянул на фамилии преподавателей…
    • 0
      вот ксттаи пример www.coursera.org/course/calcsing того как препод записывает не перед аудиторие, но это очень интересный курс, там все начиная от препода и заканчивая анимацией просто заставляет тебя заинтересоваться матаном -)
  • +1
    Какая загруженность по часам у этого курса? Какой необходимый минимум нужно уделять времени для успешного прохождения?
    • +1
      Зависит от начальных знаний в алгоритмах и умения программировать, так как самая времязатратная (но и самая интересная) часть курса – это упражнения на программирование (programming assignments). В среднем, думаю, нужно рассчитывать на 6-10 часов в неделю.
    • +1
      Сейчас прохожу курс биоинформатики тех-же авторов на стэпике(у нас оно в университетской программе), по времени затрачиваемому на практические задания могу примерно так оценить: конкретно само кодирование алгоритмов отнимает совсем мало времени(в среднем, решение задачи представляет собой скрипт ~40-50 строк на питоне), но не всегда сходу понятно, что вообще надо делать и как это сделать так, чтобы посчиталось за разумное время. У меня чистого времени уходит не больше 3-4 часов в неделю(но у нас нету видеокурса, с ним возможно больше времени тратилось-бы).
  • +1
    Русский язык?
    • +3
      На данный момент английский. Подумываем о переводе курса на русский.
      • 0
        Было бы отлично. Ибо таким как я трудно будет, а посмотреть хочеться.
        • +1
          Вы уверены, что на русском будет легче?:)
          • 0
            По поводу терминологии не уверен, но в общем-то — да.
      • 0
        Николай, нужно обязательно перевести. И Розалинд тоже. Непорядок, когда создатели курса — русские люди, а курс делают не на русском :)
  • +2
    Круто! Поздравляю вас и всю команду, Николай!
  • НЛО прилетело и опубликовало эту надпись здесь
  • +3
    Я в восторге! Спасибо!
    Посещал в прошлом году курс по Алгоритмам в биоинформатике в ПОМИ РАН (СПб) — было очень интересно. Николай Вяххи — отличный преподаватель. Был рад увидеть его среди авторов этого онлайн-курса.
  • +2
    Скромный вопрос: а там субтитров на русском не предвидется?
    • +4
      Хотелось бы, конечно, но не уверен, что мы успеем сделать качественный перевод к началу курса…

      Но идея очень хорошая! Я создал гуглдок с имеющимися английскими субтитрами к первой лекции – docs.google.com/document/d/1yTHW4Dr0pzMwjTnDo-FVky84N0mDShHWPYTdI8iTIvg/edit. Возможно, найдутся желающие поучаствовать в этом нелёгком деле перевода биоинформатики на русский язык. Тогда мы будем добавлять переведённые субтитры к курсу по мере их появления.
    • 0
      Субтитры к первой лекции перевели всего за одну ночь! Так что, судя по всему, русские субтитры к курсу будут. Вторую лекцию для перевода я добавлю в ближайшее время.
  • 0
    Посмотрел первую лекцию, включил второую и ничего не понял, даже перехоад от первой ко второй. Почитал форум — ничего не понял. почитал википедию по многим ключевым словам из топиков и тоже ничего не понял.

    Хотя что то я все таки понял — мне в биоинформатику дорога закрыта из за отсуствия хоть каких в этой области.

    Я конечно могу искать строки в подстроках, считать число вхождения символов в строки и может быть даже что то делать графами, но это ли биоинформатика? Нет! Без понимания как это связано с непосредственно биологией — это не биоифноматика. Чудес не бывает :(
    • 0
      А что именно вы не поняли? Какие ключевые слова?
      • 0
        Кортинка в начале второго эпизода, я вообще не понял, что это и о чем это. Т.е. я примерно понимаю что говорит лектор но для меня это в большинстве своем звучит как набор слов.
    • +2
      Почитайте материалы к курсу на Степике (ссылка в посте есть), там вполне достаточные пояснения по биологической части.
  • +2
    Мегареспект. Розалинд — один из немногих примеров реально трендсеттерских проектов на постсоветском пространстве, превращающий MOOC в MOOR, реальный фронтир на стыке ИТ, онлайн-образования и биологии, как в других сферах Viewdle, Enable Talk, Petcube, как первый краудфандинг в геронтологии и другие вещи, не имеющие на момент запуска мировых аналогов. В свете того, что биоинформатика и биотех у нас хронически в загоне, а госвузы продолжают катиться в мировом образовательном рейтинге из топ-1000 в тартарары, это вообще уникальный пример.
  • +2
    Это отличный курс и его готовит отличная команда. Рекомендую всем.

    И если честно, я очень горд, что именно Лекториум (www.lektorium.tv) пригласили для производства части роликов. Да-да, первые два ролика (на сером фоне) были сняты в 239 (Питер). А часть про теорию графов снимали в Кёнингсберге (Калининград). Но это появится чуть позже.
  • +1
    Великолепно, спасибо!

    «Впитываю» в этой области последние 6 лет — конца-края нет.
    Но уже из первых двух Coursera лекций почерпнул для себя много, что, надеюсь, поможет мне ответить на некоторые мои производственные вопросы.
  • +1
    Здорово! Удачи вам. Надеюсь, у курса появится отличное комьюнити, благодаря которому за пару итераций получится отточить содержание и темп.
  • 0
    На курс записался из интереса, но очень бы хотелось услышать ваше мнение о вот этом блоге: madhadron.com/?p=263
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Пришлите мне личным сообщением свой код, я посмортю в чём может быть ошибка. Уже несколько сот человек сдало эти задачи без проблем.
  • +1
    Было бы здорово, если бы лектор слегка поработал над своим акцентом. Я думаю, не очень сложно поправить произеношение «r» и «w», которые у него часто произносятся неправильно.
  • +1
    а английские субтитры доступны для правок со стороны сообщества? там часто попадаются явные ляпы распознавания, типа «sell users» вместо «cell uses»
    • НЛО прилетело и опубликовало эту надпись здесь
      • +1
        этот гугл-док для русских субтитров, а я спрашиваю про английские. Там есть ссылка на гугл-док английских, но не для редактирования.
        • 0
          Добавил гуглдок с английскими субтитрами для корректуры – docs.google.com/document/d/182WiZl2xB0pkhFgPMVafN1leqDT8Tt5LFl2cYC4a7VE, спасибо!

          В первый гуглдок docs.google.com/document/d/1yTHW4Dr0pzMwjTnDo-FVky84N0mDShHWPYTdI8iTIvg добавил вторую лекцию для перевода.
          • +1
            ок, внёс правки в субтитры второй лекции.
            А ещё вот вопрос не в тему: я для решения «Frequent Words Problem» смог изобразить только самый примитивный код, у которого время O(|Text|^2 · k), а более оптимальные варианты (типа тех что тут упомянуты) даже не представляю, как могут выглядеть. Там в комментариях написали, что где-то в следующих главах это будет показано, но может, вы можете посоветовать — где можно насчёт этого самостоятельно просветиться?
            • 0
              Ключевое слово для решения за O(|Text| · k) – хеш-таблица.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное