филогенетическое дерево

advertisement
Обзор математических
задач сравнительной
геномики
Адигеев М.Г.
Ростов-на-Дону, 2010
План доклада
O Основные понятия: гены,
хромосомы, геном.
O Выравнивание хромосом
O Другие метрики
O Медиана
O Филогенетический анализ
2
Основные понятия
O Геном = совокупность хромосом.
O Каждая хромосома = последовательность
нуклеотидов. Хромосома может быть
линейной (linear) или кольцевой (circular).
O Отдельные участки нуклеотидной
последовательности образуют гены.
O В математических моделях хромосомы
представляются в виде цепочек либо
нуклеотидов, либо сразу генов — в
зависимости от стоящей задачи.
3
Выравнивание
последовательностей
O Рассматриваются преобразования,
действующие на отдельные нуклеотиды
и участки хромосомы
O Надо: сопоставить последовательности
друг с другом таким образом, чтобы
были по максимуму сопоставлены
одинаковые участки
4
Выравнивание
последовательностей
A
C
G
G
A
A
C
–
T
–
A
–
G
G
T
A
T
C
A
A
C
C
5
Алгоритмы выравнивания
O Точечная
матрица (dot
matrix)
6
Алгоритмы выравнивания
O Алгоритм Нидлмана-Вунша (глобальное
выравнивание)
O Алгоритм Смита-Уотермана (локальное
выравнивание)
Матрица замещений:
+ штраф за разрыв
7
Другие метрики
Хромосома – последовательность генов.
Можно представить
перестановкой:
Или в виде графа:
Но есть несколько важных «но»…
8
Но № 1
У хромосомы нет различия между началом и
концом.
9
Но № 2
Бывают циклические (закольцованные)
хромосомы
10
Но № 3
Надо учитывать ориентацию каждого гена в
последовательности
Поэтому рассматривают перестановки
элементов со знаками
11
Breakpoint distance
Разрыв (точка разрыва, breakpoint) - ситуация, когда в
одной из хромосом гены g и h расположены рядом
(смежны, adjacent), а другая хромосома не содержит
ни gh, ни –h–g.
«Разрывная» метрика = количество таких разрывов.
12
Transposition distance
Транспозиция —перенос фрагмента хромосомы в том же
порядке в другое место хромосомы.
Транпозиционная метрика = (минимальное) количество
транспозиций, преобразующих один геном в другой.
13
Медиана геномов
O A и B – два генома, для которых мы хотим
найти общего предполагаемого предка
O Принцип экономии (parsimony principle)
O Выберем метрику. Пусть d(X,Y) –
расстояние между геномами X и Y
O d(A, X) + d(B,X)  min
O Вводим «внешний» геном (outgroup) C
14
Медиана геномов
d(A, X) + d(B,X)+ d(C,X)  min
15
Алгоритмы нахождения
медианы
O Структура алгоритма и его сложность
зависит от используемой метрики и вида
генома:
 Одна или несколько хромосом
 Вид хромосом: линейные, кольцевые,
смешанные
O Для большинства вариантов задача
является NP-трудной
16
Алгоритмы нахождения
медианы
17
Алгоритмы нахождения
медианы
Алгоритмы основаны на сведении к другим
задачам:
O Задача коммивояжёра
При решении с помощью ДП: O(n22n)
O Задача целочисленного программирования
Сложность: O(2n)
O Задача о максимальном паросочетании.
Сложность: O(n3)
18
Пример
O Метрика: разрывная (breakpoint distance)
O Тип генома: мультихромосомный
O Тип хромосомы: смешанная
O Пусть Г — множество всех генов из
заданных геномов.
19
Пример
O Построим граф G, у которого вершины гены
и их инверсии: g, –g.
O Все вершины соединены рёбрами, и вес
ребра (g, h) равен 3–u(g, h), где u(g, h)
показывает, в скольких геномах (A, B, C)
гены –g и h смежны.
O Для каждого гена g вводим ребро (g, –g) с
весом Z.
20
Задача коммивояжера
21
Пример
O Решаем задачу коммивояжёра
O Получаем решение вида
g1, -g1, g2, -g2,…,gn,-gn.
O В этом случае медиана задаётся
последовательностью g1,g2,…gn.
22
Пример
23
Пример
Исключение:
O Разрывная метрика
O Мультихромосомный геном
O Смешанные или чисто линеные хромосомы
Существует полиномиальный алгоритм
(сведение к задаче о максимальном
паросочетании)
24
Филогенетическое дерево
O Обобщение задачи о
медиане: ищем не
одного предка, а
множество
предполагаемых
предков (видов).
O Строим дерево
родственных связей –
филогенетическое
дерево
25
Филогенетическое дерево
Математическая формулировка:
O Даны геномы G1, G2,…,Gn.
O Построить дерево:
 G1, G2,…,Gn – листья
 Внутренние вершины – надо найти
O Минимизировать суммарный вес дерева
O Можно ограничиться вариантом: у всех
внутренних вершин степень = 3
26
Филогенетическое дерево
27
Филогенетическое дерево
Два варианта:
O Малая филогенетическая задача:
Дерево известно
Надо найти геномы для внутренних вершин
O Большая филогенетическая задача:
Дерево тоже не известно
Сводится к задаче о дереве Штейнера
28
Способы решения
O Перебор всех вариантов и выбор
наилучшего
Факт: в уже заполненном филогенетическом дереве геном,
которым помечена внутренняя вершина, является
медианой относительно соседних вершин
Поэтому порядок решения МФЗ такой:
1. Инициализируем внутренние вершины.
2. Решаем задачи о медианах от листьев к «корню».
3. Если геномы изменились – повторяем п.2.
29
Способы решения
O Сразу строить решение (дерево и геномы)
Пока есть только эвристические алгоритмы…
Например: построить граф разрывов (breakpoint graph) и с
помощью набора преобразований построить для него
дерево, близкое к оптимальному.
30
Способы решения
31
Основные источники
O
O
O
O
O
O
O
Fertin G, Labarre A, Rusu I, Tannier E, Vialette S: Combinatorics of
Genome Rearrangements. MIT Press; 2009.
Mount D.W. Bioinformatics. Sequence and genome analysis. Spring
Harbor Press, May 2002.
Blanchette M., Bourque G., Sankoff D. Breakpoint Phylogenies.
[10.1.1.84.6956.pdf]
Tannier E., Zheng C., Sankoff D. Multichromosomal median and halving
problems under different genomic distances. [1471-2105-10-120.pdf]
Sankoff D., El-Mabrouk N. Genome Rearrangement. [jiangbook.pdf]
Niklas Eriksen Combinatorics of Genome Rearrangements and
Phylogeny. [lic.pdf]
Jason D. Bakos, Panormitis E. Elenis, A Special-Purpose Architecture for
Solving the Breakpoint Median Problem. IEEE Trans. On Very Large Scale
Integration (VLSI) SYSTEMS, Vol. 16, No. 12, December 2008.
32
Download