d S

advertisement
Что такое Ka, Kn, Ks, dN, dS?
Екатерина Ермакова
Алматы, апрель 2006
Ka, Kn, Ks, dN, dS : этимология
K  constant
d  distance
S, s  synonymous
N, n  nonsynonymous
a  amino acid altering
Нуклеотидные замены
в кодирующих областях генов распределены
неравномерно.
Нуклеотидные сайты испытывают различную
функциональную нагрузку:
•
•
•
•
•
альтернативный сплайсинг
вторичная структура РНК
структура белков
сайты связывания
…
Типичная задача
Сравнить скорость и паттерн эволюции
нескольких групп кодирующих участков
генома, например:
• постоянно и альтернативно
сплайсируемые участки
• гены, экспрессируемые в сердце и гены,
экспрессируемые в пятках
Точечные замены
в кодирующей области
синонимичные несинонимичные
полезные
нейтральные
вредные
Универсальный генетический код
T
T
C
A
G
C
A
G
TTT
Phe
TCT
Ser
TAT
Tyr
TGT
Cys
T
TTC
Phe
TCC
Ser
TAC
Tyr
TGC
Cys
C
TTA
Leu
TCA
Ser
TAA
Стоп
TGA
Стоп
A
TTG
Leu
TCG
Ser
TAG
Стоп
TGG
Trp
G
CTT
Leu
CCT
Pro
CAT
His
CGT
Arg
T
CTC
Leu
CCC
Pro
CAC
His
CGC
Arg
C
CTA
Leu
CCA
Pro
CAA
Gln
CGA
Arg
A
CTG
Leu
CCG
Pro
CAG
Gln
CGG
Arg
G
ATT
Ile
ACT
Thr
AAT
Asn
AGT
Ser
T
ATC
Ile
ACC
Thr
AAC
Asn
AGC
Ser
C
ATA
Ile
ACA
Thr
AAA
Lys
AGA
Arg
A
ATG
Met
ACG
Thr
AAG
Lys
AGG
Arg
G
GTT
Val
GCT
Ala
GAT
Asp
GGT
Gly
T
GTC
Val
GCC
Ala
GAC
Asp
GGC
Gly
C
GTA
Val
GCA
Ala
GAA
Glu
GGA
Gly
A
GTG
Val
GCG
Ala
GAG
Glu
GGG
Gly
G
Что такое dN и dS?
dS (dN) — это число (не)синонимичных замен,
фиксировавшихся в кодирующей
последовательности в процессе эволюции,
поделенное на суммарный
(не)синонимичный потенциал
последовательности.
Это функции двух моментов времени (t0,t), но
существующие методы позволяют оценить
эти функции только если t «сейчас», а t0 —
момент расхождения двух ортологов или
дупликация.
А остальные?
Ka = Kn = dN
Ks = dS
ω = dN/dS = Ka/Ks = Kn/Ks
ω не зависит от времени,
это отношение скоростей
Нейтральные замены: на что делим?
Не все нуклеотидные замены в геноме нейтральны.
Чтобы извлекать информацию из количества «активных» замен,
нужно нормировать их количество на «фоновый уровень»
нейтральных замен.
Какие замены считаются нейтральными - это параметр эволюционной
модели.
Нуклеотидные замены, которые на практике считают нейтральными:
• замены в некодирующих участках: интронах, межгенных областях,
в т.ч. псевдогенах и повторах;
• синонимичные замены в кодирующих областях.
dN = ωρμ
dS = ρμ
dN/dS = ω
μ — фоновый уровень мутаций
ρ — давление отбора на уровне РНК
ω — давление отбора на уровне белка
dN/dS критерий: отбор на уровне
аминокислотной последовательности
• dN/dS < 0 отрицательный отбор
• dN/dS = 0 нейтральная эволюция
• dN/dS > 0 положительный отбор
«Жадные» (parsymony) оценки dN и dS
Основанные на эволюционных путях:
• Nei & Gojobori 1986 (однопараметрическая модель)
• Ina 1995 (двупараметрическая модель)
«Жадные» (parsymony) оценки dN и dS
Основанные на учёте вырожденности позиций в кодонах:
• Pamilo - Bianchi - Lee 1993 • Comeron 1995
ATT
ATC
ATA
ATG
Ile
Ile
Ile
Met
ACT
ACC
ACA
ACG
Thr
Thr
Thr
Thr
AAT
AAC
AAA
AAG
Третья позиция кодона ATG невырождена,
AAA — 2-вырождена, ATA — 3-вырождена,
ACA — 4-вырождена
Asn
Asn
Lys
Lys
«Наиболее правдоподобные»
(maximum likelyhood) оценки dN и dS
Yang & Nielsen 2000
PAML (http://abacus.gene.ucl.ac.uk/software/paml.html)
Единица эволюции — кодон.
Метод Ины (Ina 1995)
• простой, но основную «асимметрию»
учитывает
• быстро работает на длинных
выравниваниях, позволяет делать
bootstrap и оценивать точность
• допускает усовершенствования
Метод Ины: подготовка выравнивания
• выравниваем две достаточно длинных
кодирующих нуклеотидных
последовательности (≥ 300 п.н.)
• кодоны с делециями выбрасываем
Метод Ины: допущения
• рассматриваемые последовательности
ортологи или паралоги из одного
организма
• с момента расхождения организмов
(для ортологов) или с момента дупликации
(для паралогов) две рассматриваемые
последовательности эволюционировали
с одинаковой скоростью
Метод Ины: (не)синонимичный
потенциал
Каждая позиция нетерминального кодона обладает
синонимичным потенциалом s и несинонимичным
потенциалом n, s+n=1. В общем случае (не)синонимичный
потенциал позиции в кодоне — это вероятность получить
(не)синонимичную замену кодона мутацией нуклеотида в
этой позиции. Если замена основания в одной из позиций
кодона (при прочих фиксированных) приводит к
несинонимичной замене кодона, эта позиция называется
несинонимичной, для неё s=0, n=1. Если же любая замена
основания в данной позиции приводит к синонимичной
замене кодона, эта позиция называется синонимичной, для
неё s=1, n=0.
Метод Ины: двупараметрическая
модель эволюции (Kimura)
 — скорость транзиций
 — скорость
трансверсий
R = /
Метод Ины: s и n могут быть выражены через R
Метод Ины: число нуклеотидных различий между
кодонами
Метод Ины: оценивание dN, dS и ω
S* — среднее арифметическое суммарных синонимичных потенциалов
выравненных последовательностей
STs* — количество транзиций, наблюдаемых в выравнивании
STv* — количество наблюдаемых трансверсий
Наблюдаемые частоты синонимичных различий — транзиций и
трансверсий — в синонимичных позициях:
PS* = STs*/S*
QS* = STv*/S*
Оценка dS* для dS получается применением к PS* и QS* поправки
Кимуры на множественные замены:
dS* = –1/2 ln(1 – 2 PS* – QS*) – 1/4 ln(1 –2 QS*)
Оценка dN* для dN строится аналогично.
Параметр ω оценивается как dN*/dS*.
Метод Ины: оценивание R = /
R = 2 ln(1 – 2 P3* – Q3*) / ln(1 –2 Q3*) – 1
P3* и Q3* — наблюдаемые частоты транзиций
и трансверсий в третьих позициях кодонов
выравнивания
Нуклеотидные замены в постоянных и
альтернативных участках альтернативно
сплайсируемых генов человека и мыши
dN
Участки кодирующей области:
C — постоянные
A — альтернативные
AN — N-концевые альтернативные
AI — внутренние альтернативные
AC — С-концевые альтернативные
Слева — гены разделены
на 3 равные группы по скорости
Справа — все альтернативно
сплайсируемые гены (3029 штук)
Нуклеотидные замены в постоянных и
альтернативных участках альтернативно
сплайсируемых генов человека и мыши
dS
Нуклеотидные замены в постоянных и
альтернативных участках альтернативно
сплайсируемых генов человека и мыши
ω
Download