Pull to refresh

Метилирование ДНК и биоинформатика

Reading time 3 min
Views 11K
После прочтения вводной статьи portah о биоинформатике, в частости технологиях Chip-Seq и RNA-Seq, мне крайне понравилась идея пополнения, по мере сил, русскоязычных статей о биоинформатике, и особенно о ее «практической» составляющей. Поэтому я предлагаю этот краткий обзор pipeline для анализа метилома по технологии Illumina 450K Human Methylation.

За время жизни организма последовательность нуклеотидов его ДНК в общем остается неизменной (подробнее о генах, геноме и ДНК см., например, эту статью). Тем не менее существуют процессы, позволяющие влиять на геном, его работу и даже передающиеся по наследству. Эти процессы называются эпигенетическими изменениями.

Одним из основных эпигенетических механизмов является метилирование ДНК. Метилирование — это изменение молекулы ДНК путем присоединения метильной группы (-СH3) к нуклеотиду C, причем необходимо, чтобы за С следовал нуклеотид G. Последовательность нуклеотидов -CG- называется СpG динуклеотидом, или CpG сайтом. Метилирование происходит не во всех клетках одновременно, поэтому говорят о проценте метилирования определенного CpG сайта.

Метилирование ДНК является одним из важных механизмов регулирования экспрессии генов. Показано, что с изменением профиля метилирования связаны такие заболевания, как различные виды рака, диабет первого и второго рода, шизофрения и т.д. Поэтому важно уметь анализировать профиль метилирования генома.

На данный момент распространено несколько методов для количественных измерений профиля метилирования. Одним из наиболее распространенных является серия микрочипов компании Illumina. Я остановлюсь подробнее на описании чипа Illumina 450K Infinium Array и анализе данных, полученных с его помощью.

Чип 450K позволяет измерить уровень метилирования примерно 486000 CpG сайтов, более или менее равномерно распространенных по геному. Не вдаваясь в биолого-химические подробности функционирования чипа, технологию можно кратко описать следующим образом. Каждый CpG сайт измеряется с помощью двух флуоресцентных проб. Флуоресцентный сигнал проб пропорционален соответственно количеству метилированных и неметилированных CpG сайтов в тестируемом образце. Чип позволяет тестировать до 12 биологических образцов одновременно.

Итак, на выходе мы имеем таблицу значений, в которой количество строк равно количеству CpG сайтов, а количество столбцов — количеству анализируемых биологических образцов. С этого момента начинается собственно биоинформатика.

Пайплайн для анализа данных с помощью языка R и библиотеки Bioconductor имеет примерно следующие пункты (с указанием соответствующих пакетов из Bioconductor):

1. Выбор шкалы измерений (Бета или М значение). Подробнее здесь.

2. Подстройка цветового баланса (color channel balance adjustment). Часть CpG сайтов измеряется с помощью проб одного цвета, а часть с помощью двух. Эта проблема устраняется с помощью нормализации сигналов двух проб в каждом биологическом образце.

3. Фоновая поправка (background correction). Каждый слот для биологических образцов на чипе имеет разный дефолтный фон. Поэтому для выравнивания значений между образцами необходима коррекция фона.

4. Нормализация между образцами (between-sample normalization). Применяются в основном квантильная нормализация и SVN нормализация (пакет lumi).

5. Тестирование на групповой эффект (batch effect) с помощью анализа принципиальных компонент.

6. Коррекция пиков (peak based correction).

7. Коррекция на групповой эффект с помощью пакетов ComBat и SVA.

8. Тестирование на статистическую значимость с помощью линейных моделей, пермутаций, или обычных тестов для проверки гипотез (пакеты limma и multtest).

9. Анализ данных с помощью различных алгоритмов machine learning (не буду перечислять, тут целый океан возможностей).

10. Корреляция с данными экспрессии генов и SNP (methylation Quantitative Trait Loci). Рекомендуется к использованию пакет matrixEQTL.

Приношу извинения за сумбур — это следствие попытки изложить все в одной краткой обзорной статье. Если кому-то будет интересно, я опишу процесс построения pipeline в нескольких более детальных статьях с примерами кода на R.
Tags:
Hubs:
+18
Comments 6
Comments Comments 6

Articles