ГЛАВА 5 МЕТОДЫ АНАЛИЗА ЭВОЛЮЦИОННЫХ ОТНОШЕНИЙ МЕЖДУ ПОСЛЕДОВАТЕЛЬНОСТЯМИ ГЕНЕТИЧЕСКИХ МАКРОМОЛЕКУЛ Для

advertisement
ГЛАВА 5
МЕТОДЫ АНАЛИЗА ЭВОЛЮЦИОННЫХ ОТНОШЕНИЙ МЕЖДУ
ПОСЛЕДОВАТЕЛЬНОСТЯМИ ГЕНЕТИЧЕСКИХ МАКРОМОЛЕКУЛ
Для выяснения филогенетических взаимоотношений между
различными видами организмов и уточнения времени их дивергенции
используются методы определения эволюционных дистанций, основанные на
сравнении нуклеотидных последовательностей гомологичных генов или
аминокислотных последовательностей соответствующих белков. В
определенной мере по степени сходства нуклеотидных последовательностей
гомологичных генов организмов различных видов можно судить о степени
филогенетического родства представителей этих видов.
Визуализация
филогенетических отношений осуществляется с
помощью дендрограммы – чертежа, отражающего родственные связи между
генетическими макромолекулами. По структуре дендрограмма напоминает
разветвлённое дерево.
Нами изложены только общие принципы основных методов
построения дендрограмм, сами же математические алгоритмы этих методов
сложны для восприятия и воспроизведения. В настоящее время
дендрограммы строятся исключительно при помощи специальных
компьютерных программ.
В качестве объектов для демонстрации основных достоинств и
недостатков наиболее широко используемых методов построения
дендрограмм нами были выбраны нуклеотидные последовательности мРНК,
кодирующих аденилатциклазы актиномицетов: Mycobacterium tuberculosis
H37Rv (Rv1625c /AF017731/ и Rv1264 /BX842576/), Mycobacterium bovis
(Mb1295 /NC_002945/ и Mb1651c /BX248339/), Streptomyces coelicolor
(sco4928 /AL939121/ и cya /X74768/), Corynebacterium glutamicum (NCg10306
/NC_003450/ и Cg10311 /AP005274/), Streptomyces griseus (CyaA /AB018557/),
Thermobifida fusca (Tfus1956 /NZ_AAAQ01000037/) и Brevibacterium
liqefaciens (cya /X57541/) и цианобактерий: Anabaena cylindrica (cya
/D55650/), Anabaena variabilis (cyaA /D17710/), Anabaena sp. (cyaA /D89622/,
cyaB1 /D89623/, cyaB2 /D89624/, cyaC /D89625/ и cyaD /D89626/), Spirulina
platensis
(cyaG
/D49531/),
Nostoc
sp.
(all0661
/AP003583/),
Thermosynechococcus elongatus (tll2280 /AP005376/) и Synechocystis sp. (cyaA
/D90902/).
Для построения дендрограмм нами был использован пакет программ
MEGA 3 (Molecular Evolutionary Genetics Analysis).
Частями дендрограммы являются 1) корень, 2) ветви и 3)
последовательности. Взаимное расположение ветвей называется топологией.
Длина ветви – расстояние от корня или от последнего разветвления до её
конца. Под дендрограммой обычно указывается её масштаб – отрезок,
равный определенному эволюционному расстоянию (рис.5.1).
Существует несколько форм построения дендрограмм: традиционная
(рис.5.1, 5.4, 5.5, 5.6), радиальная (рис.5.2, 5.3) и круговая. Среди всех ныне
существующих методов построения дендрограмм выделяются две основные
группы: а) дистанционно-матричные методы; и б) дискретные методы.
корень
группы ветвей
(кластеры)
последовательности
длина ветви
Thermosynechococcus
Anabaena CyaA
Synechocisticus
CGl. 0306
SpirCyaG
Nostoc
MtCya
Mb1651c
Mb1295
Mt1264
SCoel.
масштаб
BLiq
0.2
Рис. 5.1. UPGMA-дендрограмма в традиционной форме, построенная на основании
эволюционных дистанций, вычисленных методом p-distance.
5.1. ДИСТАЦИОННО-МАТРИЧНЫЕ МЕТОДЫ
Эти методы создают дендрограммы по принципу объединения
наименее
отличающихся
последовательностей
или
групп
последовательностей. Для этого последовательности выравниваются и
попарно сравниваются друг с другом, после чего высчитываются их
эволюционные дистанции с помощью одного из вышеописанных методов
(см. главы 1-3). Нами с этой целью использовался сравнительно простой
метод p-distance. Созданная на основе вычисленных эволюционных
дистанций числовая матрица данных преобразуется в графическую модель
эволюционного дерева (дендрограмму) на основе принципов кластерного
анализа. Пары наименее различающихся последовательностей объединяются
в кластеры первого порядка, наименее различающиеся кластеры первого
порядка – в кластеры второго порядка и т.д. В этом заключается принцип
действия так называемых дистанционно-матричных методов.
Еще раз хочется подчеркнуть, что перед определением эволюционных
дистанций последовательности выравниваются. Из этого следует вывод, что
размер и характер выборки может существенно повлиять на значения
коэффициентов сходства за счёт изменения распределения участков, по
которым проводится сравнивание. Зачастую корректность выравнивания
последовательностей и метод вычисления эволюционных дистанций
оказывают гораздо большее влияние на топологию и длины ветвей
дендрограммы, чем собственно метод её построения.
03
06
M
tC
ya
l.
CG
CGl. 0311
Thermosynechococcus
na
riabilisD
Anabaena Va
a
Cy
ae
ab
An
Метод связывания ближайших соседей (Neighbour-joining – NJ).
Это самый распространенный дистанционно-матричный метод. В начале
построения NJ-дедрограммы
выбирается
одна
из
последовательностей
и
An
сравнивается поочередно со
ab
ae
na
всеми
остальными.
По Anab
C
ae
ya
na
C
результатам
сравнений
Cy
lin
dr
ica
определяется её «ближайший
Ana
bae
na C
сосед».
После
этого
yaB
Mb1651
c
2
определяется сходство между
Anabaena CyaB1
данной
парой
SpirCyaG
s
последовательностей и всей
icu
cist
No
echo
n
y
sto
S
остальной выборкой. Далее
A
a
c
Cy
a
n
такая
же
процедура
ae
ab
n
A
производится
для
всех
Mb
129
оставшихся
5
последовательностей, но уже
Рис.5.2. NJ-дендрограмма в радиальной форме,
без определенной ранее пары.
построенная на основании эволюционных
Описанный
выше
цикл
дистанций, вычисленных методом p-distance.
повторяется
до
момента
исчерпания выборки.
В конечном итоге получается дендрограмма без корня, которая лучше
воспринимается в радиальной или круговой форме. При построении
дендрограммы NJ-методом в традиционной форме местом «мнимого корня»
264
Mt1
BLiq
TFus. 1
956
SG
ris
.
.
oel
SC
0.1
MtC ya
264
M t1
B L iq
TF u s. 1
956
SG
r is .
na
Mb1
295
ae
Ther mosy nech ococ cus
ab
ilis
a V aria b aD
Cy
An
An abaen
является наибольшее расстояние между двумя последовательностями. При
создании матрицы учитываются различия в скоростях эволюции
последовательностей
генетических макромолекул. В
результате
этого
удается
An
ab
избежать внесения помех в
ae
na
Cy
расчеты
и
ошибочного
l in
dr
c
A
ic
51
na
кластерирования,
но
a
16
ba
b
en
M
aC
исключается
возможность
ya
aG
C
Cy
r
i
Sp
применения
принципа Anabaena
CyaB
2
«молекулярных часов», то есть
Nostoc
1
aB
Cy
при использовании NJ метода Anabaena
нельзя рассчитать примерное
icus
cist
CCGl. 0311
ch o
e
G
n
время
дивергенции
между
Sy
l.
03
aA
y
C
06
a
изучаемыми
гомологичными
n
e
a
ab
генами.
An
.
o el
Метод
минимальной
SC
эволюции (Minimum evolution
– ME). По своей сути ME-метод
является
усложненной
модификацией
NJ-метода. Рис. 5.3. ME-дендрограмма в радиальной форме,
Особенностью
ME-метода построенная на основании эволюционных
является
то,
что
на дистанций, вычисленных методом p-distance.
промежуточном этапе строится множество дендрограмм, полученных на
основе алгоритма, аналогичного таковому в NJ-методе. Все эти
промежуточные дендрограммы отличаются друг от друга лишь первой парой
последовательностей, то есть в каждой из дендрограмм процесс построения
начинается с новой пары и приводит к некоторым изменениям в длинах
ветвей. На заключительном этапе из всех построенных ранее дендрограмм в
качестве конечной выбирается та, в которой общая сумма длин ветвей имеет
наименьшее значение. Разработчики данного метода исходили из
предположения, что наиболее правильный вариант дедрограммы должен
отражать принцип минимума эволюционных расстояний.
0.1
Метод
попарного
невзвешенного
кластирования
с
арифметическим усреднением (Unweighted pair-group method using
arithmetic averages – UPGMA). С помощью метода UPGMA можно
построить дедрограмму с корнем. Пары последовательностей, между
которыми эволюционные дистанции минимальны, группируются в первую
очередь и оказываются на соседних ветвях дендрограммы. Эволюционное
расстояние между двумя парными последовательностями равно двойной
длине их ветви. Расстояние между двумя группами последовательностей
равно среднему от коэффициентов сходства каждой последовательности из
одной
группы
с
каждой
последовательностью из другой.
Anabaena CyaA
Synechocisticus
При
построении
Anabaena CyaB1
Anabaena CyaB2
дендрограммы этим методом
Thermosynechococcus
Anabaena CyaD
скорость эволюции для всех
Anabaena Variabilis
MtCya
последовательностей
Mb1651c
SpirCyaG
принимается единой (работает
Nostoc
Anabaena CyaC
принцип «молекулярных часов»).
Anabaena Cylindrica
В связи с этим, использовать
CGl. 0311
CGl. 0306
UPGMA рекомендуется только
Mb1295
Mt1264
для выяснения эволюционных
BLiq
TFus. 1956
отношений между генами в одном
SGris.
SCoel.
филогенетическом
ряду
организмов.
В
обратном
0.05
случае,
когда
скорости Рис.5.4. UPGMA-дендрограмма в традиционной
мутационных замен в выборке форме, построенная на основании эволюционных
значительно
варьируют, дистанций, вычисленных методом p-distance.
UPGMA-дендрограмма не сможет отразить истинных филогенетических
связей.
5.2. ДИСКРЕТНЫЕ МЕТОДЫ
Дискретные
методы
имеют
дело
непосредственно
с
последовательностями
MtCya
нуклеотидов
или
Mb1651c
аминокислот, а не с их
Spirulina
Nostoc
коэффициентами сходства.
Str. coelicolor
Сам
же
алгоритм
Mb1295
Mt1264
вычисления эволюционных
Thermosynechococcus
дистанций встроен в метод
Anabaena CyaA
Anabaena Cylindrica
построения дендрограммы.
Corynebacterium
Один из этих методов Рис.5.5. Дендрограмма, построенная MP-методом в
называется
методом традиционной форме (только топология).
максимальной
экономии
(Maximum parsimony – МР). В этом методе весь массив выровненных
последовательностей анализируется целиком.
Свое название этот метод получил из-за того, что с его помощью
можно
построить
дендрограммы
на
основании
сравнения
последовательностей только по наиболее информативным положениям. К
ним относятся те положения в выровненных последовательностях, в которых
минимум два разных нуклеотида (или две разные аминокислоты)
встречаются хотя бы два раза. Первый этап MP-метода заключается в
определении индексов сходства по наиболее информативным положениям и
построении дендрограмм со всеми возможными топологиями на основании
этих индексов. На втором этапе для каждой последовательности
рассчитывается минимальное число нуклеотидных (или аминокислотных)
замен в наиболее информативных положениях, которые могли бы привести к
существующей дивергенции. Эта процедура производится для всех
возможных топологий. В результате из всех дендрограмм, построенных на
первом этапе, выбирается та, в которой общая сумма возможных замен для
всех последовательностей является минимальной.
В связи со спецификой данного метода, его обычно используют для
выяснения родственных отношений между эволюционно близкими генами
(белками) с примерно одинаковой скоростью эволюции. Также на
достоверность полученных данных влияет общая длина последовательностей
(желательно – более 5 – 10 тысяч нуклеотидов) и их количество (от 4 до 20).
Большинство исследователей предпочитают отражать на MP-дендрограммах
только топологию.
5.3.
СТАТИСТИЧЕСКОЕ
ПОДТВЕРЖДЕНИЕ
КОРРЕКТНОСТИ
ДЕНДРОГРАММ
Для
статистического
подтверждения
Mb1295
Mt1264
корректности
Str. coelicolor
дендрограмм
было
Corynebacterium
MtCya
предложено
много
Mb1651c
методов, однако большая
Thermosynechococcus
Anabaena CyaA
часть из них основана на
Anabaena Cylindrica
алгоритме
бутстрэп
Spirulina
Nostoc
(bootstrap). Для каждого
метода построения дендрограмм существует несколько специальных
разновидностей
bootstrap Рис.5.6. MP-дендрограмма с рис.5 после обработки
тестом bootstrap.
метода. Общий его принцип состоит в создании нескольких сот новых
последовательностей из случайным образом перемешанных участков
исходных, и построении на основании сравнения новых последовательностей
множества дендрограмм с использованием того же метода. Если положение
ветви в одной из новых дендрограмм соответствует её положению в
исходной, индекс BCL (bootstrap confidence level) данной ветви принимает
значение 1, в обратном случае BCL – 0. Такая процедура выполняется для
каждой вновь построенной дендрограммы (то есть, несколько сот раз), и
каждый раз индексы BCL определяются для всех ветвей. Далее для каждой
ветви вычисляется среднее значение BCL (результат деления суммы
значений всех индексов на количество дендрограмм). После этого строится
согласованная с тестом вootstrap дендрограмма, в которой средние значения
BCL для каждой ветви должны быть больше 0,95.
Следует отметить, что корректные результаты вышеописанный
статистический тест даёт только если исследуемые последовательности
содержат достаточное число нуклеотидов (или аминокислот). Интересной
особенностью Bootstrap теста для UPGMA-дендрограмм является удаление
корня.
В
процессе
случайного
«перемешивания»
участков
последовательностей нарушается порядок их расположения, в результате
чего последовательность с относительно большим числом нуклеотидов
проявляет низкое сродство со всеми относительно короткими
последовательностями. Таким образом, тест Bootstrap должен применяться
только для выборок с примерно одинаковыми длинами последовательностей.
5.4. СРАВНИТЕЛЬНЫЙ
АНАЛИЗ ДЕНДРОГРАММ, ПОЛУЧЕННЫХ РАЗНЫМИ
МЕТОДАМИ
На рис.5.2, рис.5.3 и рис.5.4 (NJ, ME и UPGMA-дендрограммы,
соответственно) мРНК аденилатциклаз спирулины и ностока, а также двух
ферментов микобактерий (Mtcya и Mb1651c) располагаются на одной общей
ветви, отделенной от ветви всех остальных актиномицетов и ветви всех
остальных цианобактерий. Подобная картина, только с меньшим числом
последовательностей, наблюдается и на рис.5.1 (UPGMA-дендрограмма).
Ранее нами показано, что аминокислотные последовательности
активных центров аденилатциклаз спирулины, ностока, Mtcya и Mb 1651с
проявляют большое сходство как между собой, так и с аналогичными
участками аденилатциклаз человека. Этот факт даёт основания для
предположения
о
возможности
латерального
переноса
генов-
предшественников данных мембраносвязанных аденилатциклаз от
многоклеточных животных к циано- и микобактериям.
На рис.5.5 (MP-дендрограмма) мРНК аденилатциклаз спирулины,
ностока и двух ферментов микобактерий расположены на одной ветви.
Однако после обработки этой дендрограммы тестом bootstrap (рис.5.6) мРНК
аденилатциклаз актиномицетов полностью отделяются от аналогичных
мРНК цианобактерий. С большой долей вероятности можно полагать, что
это связано с разницей в длине мРНК аденилатциклаз актиномицетов (в
среднем 1200 нуклеотидов) и цианобактерий (в среднем 2150 нуклеотидов), а
также с нарушением выравнивания последовательностей, то есть, с утерей
«зёрен сходства» между ними.
В заключение хочется отметить, что теоретические и статистические
основы всех вышеописанных методов визуализации филогенетических
взаимоотношений между молекулами биополимеров были неоднократно
проверены с помощью компьютерных симуляций. Согласно результатам этих
исследований, NJ, ME, UPGMA и MP методы позволяют строить
дендрограммы, которые с высокой степенью вероятности отражают
истинные филогенетические отношения.
Тем не менее, среди всего многообразия методов построения
дендрограмм следует выбирать только те, которые отвечают целям и задачам
исследования, то есть, могут корректно (с учетом
особенностей
сравниваемых последовательностей) работать с данной конкретной
выборкой.
Download