Предсказание мембранной разметки альфа-спиральных мембранных белков Роман Сутормин

advertisement
Предсказание мембранной
разметки альфа-спиральных
мембранных белков
Роман Сутормин
sutor_ra@mail.ru
Примерный план
• Мембранные белки
• Методы предсказания мембранной
разметки
• Дальнейшее развитие
Мембранные белки
Бета-слойные белки
составляют около 10%
всех мембранных белков.
Функции
• транспорт строительного материала
• запасание энергии, создание перепада
концентраций вдоль мембраны
• передача сигналов между клетками
• преобразование энергии света (в
бактериях)
• сортировка белков между отделами
клетки и т.д.
• вывод продукта из клетки, …
[транс-] мембранность
Кол-во
белков
(NCBI)
Предсказ. как
мембранные,
Pedant System
Классифицир. как
трансмембранные,
Saier-Paulsen
Escherichia coli K12
4237
1035 (24%)
351 (8.3%)
Bacillus subtilis 168
4105
1134 (28%)
290 (7.1%)
Mycoplasma genitalium
G-37
484
140 (29%)
26 (5.4%)
Buchnera sp APS
564
118 (21%)
14 (2.5%)
Drosophila
melanogaster
14148
4854 (34%)
639 (4.5%)
Homo sapiens NCBI
26979
5602 (21%)
805 (2.0%)
Геномы
Pedant System - http://pedant.gsf.de/
Saier-Paulsen classification - http://www.membranetransport.org/
Все белки
25000
20000
15000
PDB:
Мембранные белки
40000
35000
5000
0
Дата
04
.0
3.
25
04
.0
5.
27
04
.0
7.
29
04
.0
9.
30
04
.1
1.
18
05
.0
1.
27
05
.0
3.
31
05
.0
5.
26
05
.0
7.
25
05
.0
9.
26
05
.1
1.
28
06
.0
1.
27
06
.0
3.
24
04
.0
3.
25
04
.0
5.
27
04
.0
7.
04 29
.0
9.
30
04
.1
1.
18
05
.0
1.
27
05
.0
3.
31
05
.0
5.
26
05
.0
7.
25
05
.0
9.
05 26
.1
1.
28
06
.0
1.
27
06
.0
3.
24
PDB
700
600
30000
500
400
300
10000
200
100
0
Дата
количество мембранных белков – около 1,6% всех белков,
количество бета-слойных белков – около 20% всех мембранных.
(информация взята с ресурса PDBTM)
Задача предсказания
Задачу поставили Kyte и Doolittle еще в 1982
Реальные
мембранные
сегменты
Метод
предсказания
Предсказанные
мембранные
сегменты
Критерий правильности
предсказания разметки
1) однозначное
соответствие
сегментов
2) соответствие
положений в
каждой паре
Качество предсказания:
1 - правильно
0 - нет
Оценка качества = усреднение по известным белкам
Зачем
• пространственная структура
• информация для понимания
метаболических путей
• предсказание функции по структуре
• улучшение гомологического поиска
Сравнение качества
ConPred
ENSEMBLE
Rost
THUMBUP
Усреднени
е
MEMSAT
65,2
72,8
-
81,0
73,0
HMMTOP
63,8
72,9
66,0
73,0
68,9
TMHMM
60,9
71,9
72,0
68,0
68,2
PHDhtm
-
67,0
67,0
-
67,0
PRED-TMR
-
-
58,0
-
58,0
TMAP
45,7
-
-
67,0
56,4
SOSUI
59,4
-
49,0
-
54,2
DAS
34,8
-
39,0
-
36,9
Различные критерии соответствия сегментов:
ConPred – расст. между центрами предск. и действит. сегмента <=11 остатков
Ensemble - перекрывание предск. и действ. сегментов >=9 остатков
Rost - перекрывание предск. и действ. сегментов >=3 остатков
THUMBUP - перекрывание предск. и действ. сегментов >=5 остатков
Метод DAS
Карта локальных выравниваний
(Dense Alignment Surface)
Библиотечный белок
RReM – матрица весов пар
аминокислот, отражающая
перепредставленные пары в
белковой последовательности
на расстоянии 10 аминокислот.
Аккомулированные весовые
профили усредняются по всем
библиотечным белкам.
Мембранные сегменты - области,
где профиль больше парога.
Анализируемый белок
Метод SOSUI
Карта разделения
Гидрофобность
Амфифильность
слабо полярные (Trp, Ter)
сильно полярные
(Lys, Arg, His, Glu, Gln)
Метод TMAP
Для 7756 сегментов, описанных
в SwissProt как “FT TRANSMEM”
взяты (-15,+15) области вокруг
средних позиций.
Pei  f ei / f i
Алгоритм для выравнивания:
1) для каждой позиции каждой
последоват-ти вычисл. Pm и Pe как
среднее по окну длиной 15 и 4;
2) для каждого столбца вырав-я
Pm и Pe усредняются в соотв. с
весом последовательности
3) 8 подряд идущих столбцов с Pm
больше 1.23 – кандидат для TM
4) на краях кандидатов добавл-ся
столбцы, где Pm>1.17
5) точное положение краев
устанавливается там, где Pe>1.08
6) очень длинные сегменты
разрезаются и т.д.
Pmi  f mi / f i – величины propensity
Метод PRED-TMR
- величины propensity аминокислот в мембране похожи на TMAP
- на краях propensity вычисляется отдельно для каждой позиции
9
[ k 5 i ]
P   Peseq
,i
k
left
i 0
Вес сегмента, длины l
начинающегося с k-ой
позиции.
9
k
[ k  4 i ]
Pright
  Peseq
,i
i 0
len
k ,len
k
k  len
Pseg
 f ( Pleft
, Pright
)   Pmseq[ k i 1]  e
l  21
i 1
Применяется жадный алгоритм, находящий сегменты с
наибольшим весом.
Метод PHDhtm
Query
Sequence
Nonoptimized
Filtering
(длинные сегменты
разрезаются,
короткие – удаляются
или склеиваются)
Метод TMHMM, часть 1
(от TransMembrane HMM, где HMM = Hidden Markov Model)
-N-I-E-T-L-L-F-M-V-A-V-W-S-W-W-G-R-T-Y-l-l-l-l-m-m-m-m-m-m-m-m-m-m-m-l-l-l-l-
m
l
L-L-F-M-V-A-V-W-S-W-W
/
\
-N-I-E-T
G-R-T-Y-
pij – вероятности переходов
между состояниями
bs(a) – вероятности символов
в состояниях
P( seq ) 
bl ( N ) pll bl ( I ) pll bl ( E ) pll bl (T ) plm 
 bm ( L) pmmbm ( L) pmm   bm (W ) pml 
 bl (G ) pll bl ( R) pll bl (T ) pll bl (Y )
- Алгоритм (Баума-Велча) обучения по размеченным последоват-ям;
- Алгоритм (Витерби) максимизации вероятности по разметке.
Метод TMHMM, часть 2
Схема скрытой марковской модели:
Каждая из трех петель:
Каждый из двух мембр. сегментов:
Метод HMMTOP
Метод MEMSAT
Устроен очень схожим с HMM образом.
Исп. схожий с HMM граф динамического программирования (ДП).
Модель включает 5 состояний:
- внешняя петля,
- внутренняя петля,
- внутр. часть TM-сегмента
- средняя часть
- внешняя часть
Есть веса букв в каждом состоянии и штрафы за смену состояний.
Метод работает с частотным профилем множественного
выравнивания, и есть локальный вариант, где можно его задать.
Разработан метод FwdBck
Был разработан метод, совмещающий преимущества:
- HMM
- дополнительная эволюционная информация
(множественное выравнивание)
В основе лежит не алгоритм Витерби поиска наилучшей разметки
(как TMHMM и HMMTOP), а алгоритм Forward-Backward.
m
l
L-L-F-M-V-A-V-W-S-W-W
/ /
\
-N-I-E-T-L
G-R-T-Y-
Можно оценить вероятность данной буквы находиться в каждом
состоянии не зависимо от остальных букв.
FwdBck, продолжение
Схема TMHMM
+
Работа с частотным
профилем (множ.выр.),
делеции усиливают
петлевой частотный фон
(т.к. в мембранных
сегментах делеций мало)
Алгоритм Forward-Backward
Тестовая выборка
Задача:
Структурные выравнивания мембранных белков + TM сегменты
1) Взяли 442 мембранных белка (+ структуры) с PDBTM;
2) Проcеяли дубли по правилу identity<95% (CLUSTALW);
3) Кластеризовали методом ближайшего соседа (Neighbor
joining) с нижним попрогом identity=20%;
4) Поднимали парог для кластеров с размером >20 белков;
5) Для каждого из 11 кластеров (55 белков) проделали структурное
выравнивание (алгоритм MAMMOTH);
6) Для каждого из 55 белков по структуре установили TM-сегменты
(алгоритм TMDET);
7) Чтобы избежать ошибок в определении положения мембраны
вокруг белковой структуры по краям предсказанной мембраны
были введены области толщиной 5 ангстрем;
8) На выравниваниях построены TM-ядра (если в столбце 60%
букв лежат в мембране, то столбец – мембранный.
Тестовая выборка (2 часть)
Типичная картина TM-ядер в кластерах:
TM-ядра выделены рамочкой, K – аминокислоты в 5-ти ангстремных слоях
на поверхности мембраны , V – аминокислоты внутри мембраны.
Точками выделены столбцы, выравниванию в которых можно доверять.
Некоторые ядра были изъяты (если они не покрыты точками на 60% или
если длина <5 столбцов). В двух кластерах были выкинуты 6 ядер.
Осталось 56 TM-ядер.
Проверка качества
Проверялось качество трех методов предсказания:
- MEMSAT
- FwdBck (разработанный нами)
- HMMTOP, результаты усреднялись по выравниванию
Критерий: пара сегментов соответствия пересекается хотя бы
по 7-ти аминокислотам.
(Если предсказанный сегмент не покрывался на 60%
точками достоверных столбцов, то он не рассматривался).
Результаты
MEMSAT: 0.82
FWDBCK: 0.91
HMMTOP: 0.73
Download