Алгоритмы в биоинформатике, онлайн-курс

  • Tutorial
Секвенирование генома человека десять лет назад явилось причиной вычислительной революции в биологии. Оно стало стимулом для создания бо́льшего числа новых алгоритмов, чем в любой другой фундаментальной области науки.

21 октября мы с Филлипом Компо и Павлом Певзнером из Университета Калифорнии запускаем онлайн-курс по алгоритмам в биоинформатике на Coursera. Уже до 21 октября можно посмотреть содержание первой главы курса и порешать задачи на нашем новом образовательном проекте Stepic, над которым работает команда широко известного в узких (биоинформатических) кругах проекта Розалинд.

Секвенирование генома является лишь одной из сотен биологических задач, которые стали неразрывно связаны с вычислительными методами, необходимыми для их решения. В этом курсе будут рассмотрены алгоритмические идеи, которые являются фундаментальными для понимания современной биологии. Такие вычислительные понятия, как динамическое программирование и теория графов, помогут изучить алгоритмы, применяемые в широком спектре биологических задач: сборке геномов, сравнении последовательностей ДНК и белков, поиске регуляторных мотивов, анализе перестроек генома, идентификации белков, восстановлении дерева жизни и многих других. На протяжении всего курса, участники будут применять реальные алгоритмы из биоинформатики к реальным генетических данным.


Каждая глава курса содержит отдельно взятую биологическую тему. Например, первая глава посвящена поиску точек начала репликации (позиций в геноме, с которых ДНК начинает делиться в клетке), и как эту с первого взгляда сугубо биологическую задачу можно решить с помощью простого программирования и анализа геномных последовательностей.

Программа курса по неделям


  1. Поиск точек начала репликации: Where Does DNA Replication Begin? (Algorithmic Warm-up)
  2. Вычислительная масс-спектрометрия: How Do We Sequence Antibiotics? (Brute Force Algorithms)
  3. Поиск часто повторяющихся последовательностей (регуляторных мотивов): Which DNA Patterns Act As Cellular Clocks? (Greedy and Randomized Algorithms)
  4. Сборка геномов: How Do We Assemble Genomes? (Graph Algorithms)
  5. Геномные перестройки: Are There Fragile Regions in the Human Genome? (Combinatorial Algorithms)
  6. Выравнивание строк: How Do We Compare Biological Sequences? (Dynamic Programming Algorithms)
  7. Быстрый поиск подстроки, индексирование строк: How Do We Locate Disease-Causing Mutations? (Combinatorial Pattern Matching)

Вступительное видео профессора Певзнера




Massive Open Online Research


Важной составляющей курса являются открытые научные задачи, сформулированные к каждой главе. Дискуссию по каждой задаче будет курировать ведущий учёный-биоинформатик в каждой конкретной области. Например, открытые задачи из первой главы курса курируют Михаил Гельфанд (ИППИ РАН, МГУ), Uri Keich (University of Sydney) и Glenn Tesler (UCSD).

Ссылки по теме


Метки:
Stepik.org 47,45
Открытые бесплатные курсы на технические темы
Поделиться публикацией
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама
Комментарии 42
  • +3
    Записался. Послушал первую лекцию.
    Класс! Огромное вам спасибо!
    • +4
      Посмотрел первую лекцию. Видно, что преподаватель болеет за свой топик, и рассказывает хорошо. Думаю, что во многом помогает то, что говорит он перед живой аудиторией. Многие преподаватели на курсере записывают лекции в студии, и они от этого получаются немного суховатыми. Записался, попробую следить. Я так понимаю это первый курс где авторы наши соотечественники (хоть и работающие в США)?
      • +2
        Насколько мне известно, да.
        • +2
          По квантовой физике тоже русский профессор читает.
          Я первые пару минут не мог понять что за знакомый акцент, а потом глянул на фамилии преподавателей…
      • 0
        вот ксттаи пример www.coursera.org/course/calcsing того как препод записывает не перед аудиторие, но это очень интересный курс, там все начиная от препода и заканчивая анимацией просто заставляет тебя заинтересоваться матаном -)
      • +1
        Какая загруженность по часам у этого курса? Какой необходимый минимум нужно уделять времени для успешного прохождения?
        • +1
          Зависит от начальных знаний в алгоритмах и умения программировать, так как самая времязатратная (но и самая интересная) часть курса – это упражнения на программирование (programming assignments). В среднем, думаю, нужно рассчитывать на 6-10 часов в неделю.
          • +1
            Сейчас прохожу курс биоинформатики тех-же авторов на стэпике(у нас оно в университетской программе), по времени затрачиваемому на практические задания могу примерно так оценить: конкретно само кодирование алгоритмов отнимает совсем мало времени(в среднем, решение задачи представляет собой скрипт ~40-50 строк на питоне), но не всегда сходу понятно, что вообще надо делать и как это сделать так, чтобы посчиталось за разумное время. У меня чистого времени уходит не больше 3-4 часов в неделю(но у нас нету видеокурса, с ним возможно больше времени тратилось-бы).
          • +1
            Русский язык?
            • +3
              На данный момент английский. Подумываем о переводе курса на русский.
              • 0
                Было бы отлично. Ибо таким как я трудно будет, а посмотреть хочеться.
                • +1
                  Вы уверены, что на русском будет легче?:)
                  • 0
                    По поводу терминологии не уверен, но в общем-то — да.
                • 0
                  Николай, нужно обязательно перевести. И Розалинд тоже. Непорядок, когда создатели курса — русские люди, а курс делают не на русском :)
              • +2
                Круто! Поздравляю вас и всю команду, Николай!
                • НЛО прилетело и опубликовало эту надпись здесь
                • +3
                  Я в восторге! Спасибо!
                  Посещал в прошлом году курс по Алгоритмам в биоинформатике в ПОМИ РАН (СПб) — было очень интересно. Николай Вяххи — отличный преподаватель. Был рад увидеть его среди авторов этого онлайн-курса.
                  • +2
                    Скромный вопрос: а там субтитров на русском не предвидется?
                    • +4
                      Хотелось бы, конечно, но не уверен, что мы успеем сделать качественный перевод к началу курса…

                      Но идея очень хорошая! Я создал гуглдок с имеющимися английскими субтитрами к первой лекции – docs.google.com/document/d/1yTHW4Dr0pzMwjTnDo-FVky84N0mDShHWPYTdI8iTIvg/edit. Возможно, найдутся желающие поучаствовать в этом нелёгком деле перевода биоинформатики на русский язык. Тогда мы будем добавлять переведённые субтитры к курсу по мере их появления.
                      • 0
                        Субтитры к первой лекции перевели всего за одну ночь! Так что, судя по всему, русские субтитры к курсу будут. Вторую лекцию для перевода я добавлю в ближайшее время.
                    • 0
                      Посмотрел первую лекцию, включил второую и ничего не понял, даже перехоад от первой ко второй. Почитал форум — ничего не понял. почитал википедию по многим ключевым словам из топиков и тоже ничего не понял.

                      Хотя что то я все таки понял — мне в биоинформатику дорога закрыта из за отсуствия хоть каких в этой области.

                      Я конечно могу искать строки в подстроках, считать число вхождения символов в строки и может быть даже что то делать графами, но это ли биоинформатика? Нет! Без понимания как это связано с непосредственно биологией — это не биоифноматика. Чудес не бывает :(
                      • 0
                        А что именно вы не поняли? Какие ключевые слова?
                        • 0
                          Кортинка в начале второго эпизода, я вообще не понял, что это и о чем это. Т.е. я примерно понимаю что говорит лектор но для меня это в большинстве своем звучит как набор слов.
                        • +2
                          Почитайте материалы к курсу на Степике (ссылка в посте есть), там вполне достаточные пояснения по биологической части.
                        • +2
                          Мегареспект. Розалинд — один из немногих примеров реально трендсеттерских проектов на постсоветском пространстве, превращающий MOOC в MOOR, реальный фронтир на стыке ИТ, онлайн-образования и биологии, как в других сферах Viewdle, Enable Talk, Petcube, как первый краудфандинг в геронтологии и другие вещи, не имеющие на момент запуска мировых аналогов. В свете того, что биоинформатика и биотех у нас хронически в загоне, а госвузы продолжают катиться в мировом образовательном рейтинге из топ-1000 в тартарары, это вообще уникальный пример.
                          • +2
                            Это отличный курс и его готовит отличная команда. Рекомендую всем.

                            И если честно, я очень горд, что именно Лекториум (www.lektorium.tv) пригласили для производства части роликов. Да-да, первые два ролика (на сером фоне) были сняты в 239 (Питер). А часть про теорию графов снимали в Кёнингсберге (Калининград). Но это появится чуть позже.
                            • +1
                              Великолепно, спасибо!

                              «Впитываю» в этой области последние 6 лет — конца-края нет.
                              Но уже из первых двух Coursera лекций почерпнул для себя много, что, надеюсь, поможет мне ответить на некоторые мои производственные вопросы.
                              • +1
                                Здорово! Удачи вам. Надеюсь, у курса появится отличное комьюнити, благодаря которому за пару итераций получится отточить содержание и темп.
                                • 0
                                  На курс записался из интереса, но очень бы хотелось услышать ваше мнение о вот этом блоге: madhadron.com/?p=263
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                    • 0
                                      Пришлите мне личным сообщением свой код, я посмортю в чём может быть ошибка. Уже несколько сот человек сдало эти задачи без проблем.
                                    • +1
                                      Было бы здорово, если бы лектор слегка поработал над своим акцентом. Я думаю, не очень сложно поправить произеношение «r» и «w», которые у него часто произносятся неправильно.
                                      • +1
                                        а английские субтитры доступны для правок со стороны сообщества? там часто попадаются явные ляпы распознавания, типа «sell users» вместо «cell uses»
                                        • НЛО прилетело и опубликовало эту надпись здесь
                                          • +1
                                            этот гугл-док для русских субтитров, а я спрашиваю про английские. Там есть ссылка на гугл-док английских, но не для редактирования.
                                            • 0
                                              Добавил гуглдок с английскими субтитрами для корректуры – docs.google.com/document/d/182WiZl2xB0pkhFgPMVafN1leqDT8Tt5LFl2cYC4a7VE, спасибо!

                                              В первый гуглдок docs.google.com/document/d/1yTHW4Dr0pzMwjTnDo-FVky84N0mDShHWPYTdI8iTIvg добавил вторую лекцию для перевода.
                                              • +1
                                                ок, внёс правки в субтитры второй лекции.
                                                А ещё вот вопрос не в тему: я для решения «Frequent Words Problem» смог изобразить только самый примитивный код, у которого время O(|Text|^2 · k), а более оптимальные варианты (типа тех что тут упомянуты) даже не представляю, как могут выглядеть. Там в комментариях написали, что где-то в следующих главах это будет показано, но может, вы можете посоветовать — где можно насчёт этого самостоятельно просветиться?
                                                • 0
                                                  Ключевое слово для решения за O(|Text| · k) – хеш-таблица.

                                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                        Самое читаемое