Выравнивание последовательностей

advertisement
Выравнивание
последовательностей
Простое взвешивания
+1 : вес совпадения
 -μ : штраф за несовпадение
 -σ : штраф за делецию/вставку

Вес выравнивания = #совпадения – μ(#несовпадений) – σ
(#делеций/вставок)
Алгоритм
↑→ = -б
= 1 если совпадение
= -µ если несовпадение
si,j = max
si-1,j-1 +1 if vi = wj
s i-1,j-1 -µ if vi ≠ wj
s i-1,j - σ
s i,j-1 - σ
Identity
AC C TG A G – AG
AC G TG – G C AG
mismatch
indel
Identity = 70%
Измерение схожести
– Идентичность
– Консервативность
Матрицы весов
Для ДНК составим (4+1) x(4+1) матрицу весов δ.
Для белков размер матрицы (20+1)x(20+1).
Дополнительные строка и столбец нужны для
включения gap символа.
Это упростит алгоритм следующим образом:
si-1,j-1 + δ (vi, wj)
si,j = max
s i-1,j + δ (vi, -)
s i,j-1 + δ (-, wj)
Создание матриц весов
Матрицы создаются на основе
экспериментальных данных.
 Выравнивания – представления белков,
различающихся мутациями.
 Некоторые из этих мутаций менее
пагубно влияют на функцию белка, и,
соответственно, штраф δ(vi , wj), будет
меньше прочих.

Пример матрицы весов
A
R
N
K
A
5
-2
-1
-1
R
-
7
-1
3
N
-
-
7
0
K
-
-
-
6
• Несмотря на то, что R
и K разные
аминокислоты, их пара
имеет положительный
вес.
• Почему? Обе
являются
положительно
заряженными
полярными
аминокислотами
Консервативность

Замены аминокислот, сохраняющие
физико-химические свойства белков.
– Полярные на полярные
 аспартат  глутамат
– Неполярные на неполярные
 аланин  валин
– Прочие похожие
 лейцин на изолейцин
Типы матриц весов

Матрицы замен аминокислот
– PAM
– BLOSUM

ДНК матрицы
PAM

Point Accepted Mutation (Dayhoff et al.)
 1 PAM = PAM1 = 1% аминокислот мутировали.
– Однако после 100 PAMов эволюции, не все остатки
изменятся
 Некоторые остатки мутируют несколько раз
 Некоторые остатки вернутся к начальному
состоянию
 Некоторые вообще не изменятся
PAMX
PAMx = PAM1x
– PAM250 = PAM1250
 PAM250 широко используемая матрица:

Ala
Arg
Asn
Asp
Cys
Gln
...
Trp
Tyr
Val
A
R
N
D
C
Q
Ala
A
13
3
4
5
2
3
Arg
R
6
17
4
4
1
5
Asn
N
9
4
6
8
1
5
Asp
D
9
3
7
11
1
6
Cys
C
5
2
2
1
52
1
Gln
Q
8
5
5
7
1
10
Glu
E
9
3
6
10
1
7
Gly
G
12
2
4
5
2
3
His
H
6
6
6
6
2
7
Ile
I
8
3
3
3
2
2
Leu
L
6
2
2
2
1
3
Lys ...
K ...
7 ...
9
5
5
1
5
W
Y
V
0
1
7
2
1
4
0
2
4
0
1
4
0
3
4
0
1
4
0
1
4
0
1
4
1
3
5
0
2
4
1
2
15
0
1
10
BLOSUM

Blocks Substitution Matrix
 Веса извлекаются из статистики
выравниваний родственных белков
 Название отображает расстояние между
белками выборки
– BLOSUM62 была создана на выборке
последовательностей с 62% identity
Матрица весов BLOSUM50
Локальное выравнивание
• Задача глобального выравнивания – найти
наиболее весомый путь между вершинами (0,0)
и (n,m) графа.
• Задача локального выравнивания – найти
наиболее длинный путь среди всех путей
между вершинами (i,j) и (i’, j’).
• В графе с ребрами с отрицательными весами
локальное выравнивание может давать более
высокий результат нежели глобальное

Глобальное выравнивание
--T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC
| || | || | | | |||
|| | | | | ||||
|
AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C

Локальное выравнивание – лучше находит
консервативные сегменты.
tccCAGTTATGTCAGgggacacgagcatgcagagac
||||||||||||
aattgccgccgtcgttttcagCAGTTATGTCAGatc
Как?
Local alignment
Global alignment
Время работы - O(n4)
Мини-Глобальное
выравнивание
сегмента
Решение – free ride
Yeah, a free ride!
Вершина
(0,0)
Алгоритм локального
выравнивания

Наибольшее значение si,j – лучший вес
локального выравнивания.

Рекурсия:
0
si,j = max
si-1,j-1 + δ (vi, wj)
s i-1,j + δ (vi, -)
s i,j-1 + δ (-, wj)
Лишь одно отличие
от глобального
выравнивания.
Взвешивание делеций/вставок:
простой подход.

Фиксированный штраф σ за каждую
делецию/вставку:
– -σ за одну делецию,
– -2σ за две делеции подряд,
– -3σ за три делеции подряд, и т.д.
Афинный штраф за gap

В природе, серии последовательных k
делеций происходят чаще, чем k
одиночных событий:
Более
предпочтительно
Обычное взвешивание
оценит эти два
Менее
выравния одинаково предпочтительно
Gaps

Gap – непрерывный пропуск в одной из
последовательностей.

Вес гэпа длины x:
-(ρ + σx)
где ρ >0 - штраф за открытие гэпа, а σ – штраф за
продолжение гэпа.
ρ >> σ
Афинный штраф за гэпы
-ρ-σ за одну делецию 1 indel
– -ρ-2σ за две делеции 2 indels
– -ρ-3σ за три делеции 3 indels, etc.
–
Добавление ребер афинных штрафов.
Сложность возрастает с
O(n2) до O(n3)
Как бы сделать
попроще?
3-leveled Manhattan
ρ
δ
δ
σ
δ
ρ
δ
δ
σ
The 3-leveled Manhattan Grid
Переключение между уровнями
Уровни:
– Основной уровень для диагональных ребер
– Нижний уровень для горизонтальных ребер
– Верхний уровень для вертикальных ребер
 Штраф за переход с основного уровня на
верхний или нижний (с шагом) (-r- s)
 Штраф за проход по верхнему или нижнему
уровню (-s)

Алгоритм 3-х уровнего
подхода
si,j =
max
s i-1,j - σ
s i-1,j –(ρ+σ)
Продолжит гэп в w (делеция)
Начать гэп в w (делеция): с
середины
si,j =
max
s i,j-1 - σ
s i,j-1 –(ρ+σ)
Продолжить гэп в v (вставка)
si,j =
max
Начать гэп в v (вставка): с середины
Совпадение или несовпадение
si-1,j-1 + δ (vi, wj)
Закончить делецию: сверху
s i,j
Закончить вставку: снизу
s i,j
Download