Анализ генома бактерий. Продолжение

    В предыдущей статье, обсуждение получилось слишком крикливым. Но мы открыли свой сайт и там будет более расширенная информация (где? — пишите письма). Я обещал написать продолжение о своем эксперименте, поэтому те кто заинтересовался проблематикой построения эволюционных деревьев — прошу под кат.

    №1. Отбор всех гомологичных последовательностей (паралогов)


    В прошлой статье мы сравнивали эволюционные деревья построенные по 16S и 23S генам. Мой же метод отличается тем, что предлагает сравнивать то, что в организмах не мутировало. В ранних статьях на хабре я предлагал использовать тРНК, т.к. это наиболее консервативные последовательности. Но это давало не так много информации. Поэтому я задался вопросом — а как вообще найти все те последовательности, которые в организмах не мутировали? Чтобы сделать это за реальное время, я пошел на маленькую хитрость. Дело в том, что прежде чем какая нибудь ДНК-последовательность передастся по наследству, она наверняка (если она полезная) будет представлена в геноме несколькими копиями. Т.е. речь идет о паралогах.

    Если в пределах одного организма в результате хромосомной мутации произошло удвоение гена, то его копии называют паралогами.

    Так вот если найти все паралоги в одном организме, то если происходило наследование то они передавались другим организмам. Нам лишь нужно потом отобрать те которые не успели мутировать.

    Т.е. мы делаем следующие:
    1. Ищем в каждой ДНК (геноме организма) то, что вообще имеет дубликаты от 50 до 150 символов
    2. Для каждого найденного дубликата ищем по всем организмам его вхождения, т.е. узнаем и составляем базу как ВСЕ множество паралогов входит в множество геномов организма

    (чтобы не отвлекаться от сути, как это сделать, я расскажу или отдельной статьей или скорее, при вашем интересе, со временем напишу статью на нашем сайте)

    №2. Собственно построение эволюционного дерева


    Как строить эволюционное дерево по моей методике я уже рассказывал. Поэтому сосредоточимся на результатах кросс-проверки. Напомню, что кросс-проверка двух деревьев построенному по гену 23S рРНК и построенному по гену 16S рРНК являющиеся последним результатом проекта The All-Species Living Tree, дала следующие распределение ошибок (по сравнению с предыдущей статьей, переведенно в проценты от общего числа рассматриваемых пар видов):



    Я надеялся, что мой подход даст лучшие результаты, но увы он дал примерно такие же по качеству — но другие по сути. Вначале о качестве, тут кросс проверка делалась так. Так как было найдено около миллиона вхождений паралогов в геном организма, т.е. имеется миллион записей вида «ДНК последовательность ID такой-то входит в организм такой-то», то для кросс-проверки я разделил это множество случайным образом на две выборки. Построил по ним деревья и тем же способом сравнил построенные деревья. Получилось следующие:



    Таким образом, по сути доверие к этим деревьям примерно одинаковое. И то и другое правильно примерно на 50%.

    Конечно, дело похоже в том, что информации в геномах не так много, чтобы лишь по половине выборки можно было бы получить сходство. Поэтому я подумал, как можно более экономно распорядится имеющейся информацией. И подумал, что можно сделать такой кросс-анализ. Взять всю имеющуюся информацию построить полное дерево, и сравнить его с половинчатыми деревьями. Т.е. взять весь миллион записей и сравнить их вначале с одним полумиллионом, а потом со вторым. На рисунке ниже образы деревьев (а по ссылки в полном разрешении) построены по полной выборки, а красным цветом отображены те узлы, которые достаточно стабильны — т.е. при кросс-анализе не дали не одной ошибки.

    Как видим, не так все плохо, часть ветвей полностью красные, но чем ближе к корню, тем меньше информации и положение видов в дереве не проходит проверку.

    Но что интересно, я затем сверил полученное мной дерево и дерево проекта The All-Species Living Tree (после приведения к одному составу). Оказалось, что они совпадают всего на 25%.

    И у меня возник важный вопрос интерпретации, может кто то подскажет, что это могло бы означать. Получается, что и моему методу построения деревьев можно доверять и также видимо можно доверять и классическом методу, используемому в проекте The All-Species Living Tree. Они по уровню совпадений не отличаются существенно. Но почему же они не совпадают между собой? Они получаются показывают как бы два варианта одного и того же. Но как может быть одновременно две полуистины, совпадающие только на 25%?


    Полно-размерный формат можно посмотреть здесь и здесь.

    Еще я подумал о том, что несовпадения появляются неслучайные, и где-то на уровне семейств организмов. На втором варианте изображения дерева видно, что виды кластеризуются по группам, и внутри группы есть много совпадений, в то время как положение самих групп между собой неточно.

    Тут два варианта — или действительно мало пока данных, мало секвенированных промежуточных видов. Или, все же действительно, на уровне выше семейств у них нет общего предка, и эволюция идет не по Дарвину? Как минимум пока у нас нет надежных данных о том, что вообще существовал общий предок.
    Поделиться публикацией
    Похожие публикации
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама
    Комментарии 7
    • +6
      ОН ВЕРНУЛСЯ
      • 0
        Надо спросить у Создателей…

        (это я все еще в состоянии аффекта от просмотра «Прометей» :-) )
        • 0
          А как быть атеистам?
          • 0
            Атеизм стал распространяться на возможные инопланетные расы с более высоким уровнем развития?
            • 0
              Естественно, тем более в зеленных человечков верить не серьезно — «почему космос молчит?»
        • +1
          Но как может быть одновременно две полуистины, совпадающие только на 25%?

          Мое мнение — тут как с теорией света в физике — оба варианта верны на определенных выборках, но в общем просто подход не может описать реальную модель (а абсолюбто верная модель еще не придумана), поэтому пока приходится довольствоваться не совпадающими моделями, каждая из которых позволяет покрыть какой-то подмножество «истины».
          • 0
            Ну, так это все на одной и той же выборки организмов (точнее только с анализом одинаковой)… отличается только набор анализируемых генов — в классическом варианте — рРНК, которая мутирует, а моем варианте все то, что не успело мутировать. Так что разные законы наследования для мутируемой и не мутировавшей части? Ерунда какая-то получается, хотя указывает как бы на это…

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.