Система автоматической классификации пространственных

advertisement
УДК 004(06) Информационные технологии
А.В. АЛЕКСЕЕВСКИЙ, М.А. ГРИБКОВ1, М.А. КОРОТКОВА1,
С.А. СПИРИН
Научно-исследовательский институт физико-химической биологии
им. А.Н. Белозерского, МГУ
1Московский инженерно-физический институт (государственный университет)
СИСТЕМА АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ
ПРОСТРАНСТВЕННЫХ СТРУКТУР БЕЛКОВЫХ
МАКРОМОЛЕКУЛ НА ОСНОВЕ ВЫДЕЛЕНИЯ
ГЕОМЕТРИЧЕСКОГО ЯДРА
В
работе
предлагается
методика
автоматической
классификации
пространственных структур на основе выделения геометрического ядра.
Описывается программная реализация разработанного метода в виде web-сервиса
и база данных геометрических ядер, созданная на основе результатов его
использования.
Трехмерные структуры белковых доменов оказываются гораздо более
консервативными, чем их аминокислотные последовательности. Этот
хорошо известный факт приводит к мысли о целесообразности проверки
эволюционных связей в белковых семействах на основе сравнения
трехмерных структур. Это одна из причин, по которым в современной
биоинформатике большое внимание уделяется проблеме анализа родства
пространственных структур белковых макромолекул и включающих их
комплексов.
Формирование семейств пространственных структур – одна из
важнейших задач при работе в данном направлении. Существует ряд
работ [1-5], в которых предлагаются различные подходы к проблеме
формирования семейств и описания их общих признаков. В том числе, в
основе широко известных баз данных CATH и SCOP лежит
классификация по сходству пространственных структур отдельных
доменов белков.
В данной работе предлагается подход к проблеме классификации
пространственных структур на основе выделения геометрического ядра
семейства. Под геометрическим ядром понимается подмножество атомов,
пространственное расположение которых консервативно для всех
структур, входящих в семейство. Для алгоритмического определения
пространственной
консервативности
используются
данные
о
множественном пространственном выравнивании семейства структур.
Под пространственным выравниванием семейства структур родственных
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 2
185
УДК 004(06) Информационные технологии
белков понимается введение такой общей для всех белков индексации Calpha атомов, что атомы с одинаковыми индексами в разных структурах
расположены одинаково. Точные критерии сходства могут варьироваться
в зависимости от конкретного приложения.
В рамках работы нами разработан ряд специальных алгоритмов. В том
числе, быстрый алгоритм нахождения т.н. “массивного” геометрического
ядра семейства и статистический алгоритм выделения подсемейств по
принципу максимизации их геометрического ядра.
Разработанные методики реализованы в виде web-сервиса Life Core,
используемого как в научных, так и в учебных целях на базе НИИФХБ
им. Белозерского, МГУ. На основе данных, полученных при помощи Life
Core заполняется база данных геометрических ядер различных семейств
пространственных структур. Такая база данных может быть полезна
многим научным коллективам, занимающимся изучением родства
геометрических структур макромолекул.
Список литературы
1. Escalier V. et. al. Pairwise and Multiple Identification of Three-Dimensional Common
Substructures in Proteins // Journal of Computational Biology, 1998. Vol. 5. No. 1. pp. 41-56.
2. http://smi-web.stanford.edu/projects/helix/LPFC/
3. Gerstein M., Altman R.B. Using a measure of structural variation to define a core for the
globins // Comput Appl Biosci, 1995. No. 11(6). pp. 633-644.
4. SCOP: a structural classification of proteins database for the investigation of sequences
and structures / A.G. Murzin, S.E. Brenner, T. Hubbard, C. Chothia // J. Mol. Biol., 1995. No. 247.
pp. 536-540.
5. CATH - a hierarchic classification of protein domain structures / C.A. Orengo, A.D.
Michie, S. Jones, D.T. Jones, M.B. Swindells, J.M. Thornton // Structure, 1997. No. 5 (8):1093108.
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 2
186
Download