реферат - Kodomo

advertisement
Алгоритм пространственного выравнивания
белков SAP
Введение
В отличии от ДНК, белки имеют большое количество возможных
структур. Это возникает в связи с широким спектром функций выполняемых
ими в клетках живых организмов (напротив, у днк основная функция хранение информации). Но даже если взять несколько очень близких белков,
мы обнаружим различия в длине и ориентации подструктур. Задача
трехмерного сравнения сложна для компьютеров. Все это осложняет
выполнение этой задачи.
Структурное выравнивание белков является очень важным
инструментом для понимания эволюционного сходства между беками,
предсказания их структуры и функций. Например, в проектах по изучению
полных
геномов
организмов,
недостаточно
лишь
сходства
последовательностей белков, т.к. в некоторых случаях при низкой
идентичности последовательностей ( ниже 20%), структуры данных белков и
функции имеют высокий уровень сходства. Таким образом, сравнение
структур в некоторых ситуациях является более мощным аналитическим
средством для выяснения функций белков при аннотации, чем сравнение
последовательностей. Другое применение алгоритмы пространственных
выравниваний находят в различных ресурсах (SCOP, CATH, FSSP) для
распределения белков по структурным классам (помимо программного
сравнения в них используется ручная аннотация или ее комбинация с
программными методами).
Наиболее простой подход для сравнения структуры двух белков
основывается на смещении координат одного белка как твердого тела
относительно координат другого, при этом происходит поиск
«совпадающих» атомов. Но, к сожалению, подобная процедура легко
реализуема лишь в случае белков с высокой идентичностью первичной
структуры или при перемещении эквивалентных подструктур на большие
расстояния. Для решения этой проблемы можно одну из структур разбить на
несколько частей, и перемещать их как независимые объекты. В результате
получается серия локальных выравниваний, в которых может затеряться
общая картина, т.к. мы придаем подвижность каждой части относительно
других. Было создано большое количество подходов, которые, учитывая
локальные свойства структур, строят глобальную картину сходств (1,2). Эти
методы определяют сходства последовательностей двух белков, базируясь на
структурных особенностях, которое потом используется для создания
трехмерного наложения координат атомов. В основном, подобные методы
используются для локального сравнения расположения групп, входящих в
состав связывающих карманов и активных центров, Один из данных методов
использует алгоритм геометрического хэширования.
Алгоритм геометрического хэширования (в двумерном случае, Рис.
1)[1]:
Рис. 1. Схема алгоритма геометрического хэширования в двумерном случае
Имеется две фигуры (белки): А и В. Выбирают в каждой структуре по
две точки: (i,j) в составе структуры А, (m,n) – в В. Обе структуры
центрируют: точку i и m располагают в начале координат(координаты точек:
i (0;0), m (0;0)) , при этом пара точек j и n располагается на вертикальной оси
( j (0;x1), n(0,x2)) (в случае трехмерного пространства необходимо
использовать три пары точек, для уникального расположения белковых
структур). Всем атомам каждой структуры назначаются уникальные
идентификаторы (hash-ключ), которые являются номером ячейки, в которой
лежит каждый атом (атомы с номерами i, j, m и n не учитываются). Для
простоты разбора алгоритма разобьем каждую ось на одинаковые по длине
фрагменты и припишем им буквенные обозначения (от А до H – ось абсцисс,
A-F – ось ординат). Тогда для белка А запишем следующие идентификаторы:
СD, CE, FE, GF, HE, HD, HB, GA, FA;
для В:
AD, BC, CC, CD, CE, FE, GF, HE, GC, GB, FA.
После чего ищем совпадения (отмечены красным цветом). Мерой
сходства является количество совпадений (в разобранном примере равно 6).
Процедуру повторяем, перебирая все возможные комбинации четырех
атомов (в случае трехмерного пространства, т.е. в реальной задаче сравнения
двух белков, все возможные тройки по три точки в каждом белке). По
значению совпадений определяем наиболее удачное выравнивание.
SAP
Новый алгоритм SAP, предложенный в работе [1] представляет
модифицированную версию SSAP алгоритма, предложенного ранее тем же
автором. SSAP один из первых методов, основывающихся на использовании
локального структурного вида и применявшихся для создания основы
классификации CATH. Его модифицированная версия (SAP) значительно
упрощена и использует итерационный алгоритм.
В обоих методов (SSAP, SAP) используется подход аналогичный
алгоритму динамического программирования, используемому для сравнения
белковых последовательностей [2].
Стоит отметить, что при простом сравнении последовательностей
белков нет разницы между аминокислотами одного типа (с точки зрения
алгоритма), а в случае сравнения структур белков аминокислотный остаток в
центре белка и аналогичный (в плане типа аминокислоты) ему на
поверхности не одно и то же. Но в алгоритме выравнивания
последовательностей можно учесть разницу в положении остатка (в таком
виде его можно будет применять для сравнения структур), например,
учитывая локальное структурное окружение каждого остатка.
Описание алгоритма
Двойное динамическое программирование
Для работы алгоритма сравнения структур необходимо иметь некую
функцию, оценивающую каждый остаток. В самом простом случае она
может оценивать вторичную структуру, которой принадлежит данный
остаток, и степень «погружения» аминокислотного остатка в белок. Но, к
сожалению, данная мера не всегда будет работать адекватно. Так, например,
в случае если у нас есть два соседних β-тяжа (т.е. вторичная структура
одинакова), степень погружения аминокислотных остатков из этих β-тяжей
тоже аналогична, устроенная таким способом мера не сможет отличить два
остатка. Можно добавить в эту меру еще и топологию (т.е. включить в
оценку истинное трехмерное отношение между остатками).
Это сложная вычислительная задача, т.к. невозможно специфически
сравнить два структурных окружения без определения в этих структурах
эквивалентных атомов в двух белках. Разберем пример (Рис. 2).
Предположим у нас есть два β-тяжа (А и В), находящиеся в двух
сравниваемых белках в одинаковом порядке (А – ближе к N-концу белка, В –
к С-концу), оба тяжа находятся в составе одного β-листа. Возьмем
произвольную точку в А. Если оба тяжа лежат против α-спирали (у двух
белков одинаковая топология βαβ или ββα , тогда точка в А в двух белках
будет иметь одинаковый вес. Но если в одном из белков α-спираль лежит
после тяжей (ββα), а в другом между тяжами (βαβ), тогда точки в двух белках
в тяже А будут топологически неэквивалентны. Для уменьшения вклада
положения α-спирали в вышеописанном примере , перед оценкой окружения
β-тяжей, необходимо определить, что две α-спирали неодинаковы. Если бы
все это было известно заранее (для все остатков), то проблема сравнения
была бы решена еще до первого шага. Чтобы разорвать этот порочный круг
(для сравнения остатков (для поиска идентичных остатков) необходимо знать
структурное окружение, а чтобы дать оценку структурного окружения
остатка надо знать идентичные остатки) принято делать следующее
предположение: пусть что тяж А в двух белках идентичны, тогда определим
насколько эквивалентны окружения этих структур. В приведенном примере
(Рис. 2)[1], если предполагают, что эквивалентны только В β-тяжи, тогда
предположение, что два А β-тяжа эквивалентны будет поддержано с низким
весом. Но, если обе α-спирали тоже эквивалентны (т.е. оба белка имеют
одинаковую топологию ββα или βαβ), тогда эквивалентность β-тяжей А будет
поддержана с большим весом. Эти оценки могут быть получены для каждой
пары остатков и записаны в матрицу весов, а затем лучшее решение может
быть извлечено. Аналогично это работает и с отдельными остатками (с точки
зрения алгоритма, не важно что сравнивать: структуры или аминокислотные
остатки, главное, чтобы была разумная мера для взвешивания сходства. Т.е.
можно выбрать два остатка и предположить, что они эквиваленты, тогда ).
Рис. 2. Примеры топологии структур
Алгоритм построения основного выравнивания (или динамическое
программирование) применяется на двух индивидуальных уровнях: на
первом уровне находится наибольший вес (наилучшее выравнивание), при
предположении, что i и j остатки эквивалентны, а затем (на втором уровне)
производится поиск: какие пары из всех возможных формируют наилучшее
выравнивание. Подобный двухуровневый поиск (в совокупности с базовым
алгоритмом) получил название двойного динамического программирования.
Обратимся к рисунку 3 [1] для разъяснения механизма работы
алгоритма. На рисунке два белка (А и В) представлены схематически.
Выбирается пара позиций (i в белке А, m в белке В). обе структуры
центрируются, точкой их пересечения являются аминокислотные остатки с
ранее выбранными номерами. Структуры ориентируются по локальному
расположению Сα атомов вблизи выбранной точки. При таком наложении
структур вычисляется взаимосвязь между всеми парами атомов (например, n
и j), например, просто вычисляется расстояние между парами атомов (dij) или
с применением более сложных функций. Значения для каждой пары
сохраняется в матрицу, поиск оптимального пути проводится с помощью
алгоритма динамического программирования. Алгоритм повторяется для
всех возможных пар i, m. Общий результат извлекается при помощи второго
динамического программирования.
Рис. 3. Схема работы алгоритма двойного динамического программировани
Т.е. алгоритм двойного динамического программирования вычисляет
наилучший путь в матрице, сформированной путем суммирования лучших
путей в каждой матрице R для каждой пары i, j остатков (одна такая матрица
продемонстрирована на Рис. 3). Это может быть формализовано. Определим
функция Z, приравнивающая нулю все элементы, не лежащие на
оптимальном пути. Тогда двойное динамическое программирование
представляет:
𝑖𝑗
𝑆 = 𝑍(∑∀𝑖 ∑∀𝑗 𝑍( 𝑅)
(1)
Ненулевые элементы в матрице S и представляют пространственное
выравнивание.
Выбор остатков и итерации
Критерий выбора остатков:
Время работы алгоритма двойного динамического программирования
пропорционально
четвертой
степени
длины
сравниваемых
последовательностей (если два белка имеют одинаковую длину), т.к.
необходимо построить выравнивания для каждой пары. Но, к счастью,
перебором всех пар можно пренебречь, предварительно оценив локальную
структуру и окружение, и в действительности из потенциальных пар
исключается большинство элементов. Выбор базируется на типе вторичной
структуры (α-спираль или β-тяж) и доступности растворителю данного
остатка («погруженности» остатка в белок), но также используются и
элемент сходства аминокислотных остатков (чтобы можно было оценить
вклад любого сходства последовательностей).
Оценка доступности растворителю а.о.:
Оценка экспозиции остатка в раствор производится согласно
стандартного метода, предложенного в 1994 году [3]. Разница экспозиций в
растворитель двух остатков (в сравниваемых белках) нормализовалась с
помощью Гаусовской преобразующей функции:
(2),
где Aei представляет оценку доступности растворителю остатка i в белке А,
В
ej – j-ого остатка в белке В. данная функция применяется для получения
инвертированного значения и нормализации (как результат небольшая
разница дает высокий вес).
Локальная структура:
Вторичные
структуры
оцениваются
косвенно
с помощью
среднеквадратичного отклонения (RMSD) расстояния между C-α атомами в
сравниваемых структурах с очень маленьким шагом. А именно:
(3),
где 2L+1 размер окна, di,j наблюдаемое расстояние между остатками i,j в
сравниваемых белках. Данная величина si,j нормализуется и инвертируется с
помощью выше описанной функции (2).
Итеративный алгоритм
Базовый алгоритм используется в итеративной форме, с использованием
эвристики на первом шаге. На последующих циклах, результат сравнения,
базирующийся на этом выборе, используется для улучшения следующих
шагов. Ранее при работе этого алгоритма исходно выбиралось большое
количество потенциально эквивалентных остатков и постепенно их
количество снижалось до 20. Но после модификации алгоритма картина
поменялась: выбирается небольшое количество остатков (20-30) и
постепенно их количество увеличивается.
Примеры применения
Для тестирования SAP лучше всего использовать маленькие белки. Автор
статьи для этого использовал два небольших белка, принадлежащих группе
β/α флаводоксин и хемотаксин-Y (PDB: 4fxn и 3chy). Процент идентичных
аминокислотных остатков меньше 24%.
ALIGN calculates a global alignment of two sequences
version 2.2u
Please cite: Myers and Miller, CABIOS (1989) 4:11-17
unknown 160 bp
158 aa vs.
unknown 150 bp
149 aa
using matrix file: BLOSUM50, gap open/ext: -14/-4
23.1% identity in 160 aa overlap;
Global score: 15
10
20
30
40
50
unknow -FXAPDBIDCHAINSEQENCEM-KIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDV
:::::::::::::::::: : . . . .
: ... . . : :
:... ..
unknow CHYAPDBIDCHAINSEQENCEADKELKFLVVDDFSTMRRIVRNLLKELG--FNNVEEAED
10
20
30
40
50
60
70
80
90
100
110
unknow NIDELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGKKVALFGSYGWGDGKWMRD
..: : . .
: ...: . . .
... : . .:
::
. ...:
unknow GVDALNKLQAGGYGF-VISDWNMPNMDGLELLKTI--RADGAMSALPVLMVTAEAKKENI
60
70
80
90
100
110
120
130
140
150
unknow FEERMNGYGCVVVETPLIVQNEPDEAEQDCIEFGKKIANI
.
. : . ::. :. . . .. ..
..:
.
unknow IAAAQAGASGYVVK-PFTAATLEEKLNKIFEKLG-----M
120
130
140
Это два белка с низкой гомологией последовательностей, но с очень высоким
сходством структур (Рис. 4).
Рис. 4. Структуры белков флаводоксина (4fxn) и хемотаксин-Y (3chy)
После 10 циклов применения SAP программа нашла решение, в
котором 102 C-α атома оказались эквивалентными, 82,4% выбранных
остатков лежали на полученном выравнивании или по-другому сходимость
была неполная. Об этом сообщается в выходных данных в строке “Percents
sel on aln”. Среди этих 102 остатков 62,75% были выбраны как пары для
сравнения. Этот показатель является оценкой качества выравнивания, но он
никогда не приближается к 100%. Но можно с уверенностью сказать, если
этот параметр меньше 50%, то стоит относиться с осторожностью при
интерпретации результатов.
Ниже приведен пример данного выравнивания (Рис.5). В вертикальном
виде записаны последовательности белков, также присутствует информация
о «погруженности» остатка в ядро белка (* - частично «погруженные», ** сильно «погруженные»), указаны номера аминокислотных остатков и
величина вклада данной пары в выравнивание. Также имеется
дополнительная информация, например,RMSD для этих 102 атомов.
Рис. 5. Выдача программы SAP при сравнении двух β/α белков.
Список литературы
1.
2.
3.
Protein structure comparison using iterated double dynamic programming,
W. Taylor, Protein Science 654-665;
A general method applicable to the search for similarities in the amino acid
sequence of two proteins, Neeleman, S. B. and Wunsch, C. D. J. Mol. Biol.
48, 443–453;
Secondary structure formation in model polypeptide chains. Aszódi A,
Taylor WR. 1994. Protein Eng 7:633–644.
Download