Отчет о результатах анализа множественного

advertisement
Отчет о результатах анализа множественного выравнивания
последовательностей белков, гомологичных белку Каталаза II
Бурков Б.
Аннотация
Проведен анализ семейства каталаз, представителем которого является белок Cate_Ecoli
(Каталаза II). С помощью первичных последовательностей, а также данных 3D-структур белки
семейства изучены на предмет наличия значимых для их функционирования позиций и
оформленных подсемейств. Это позволяет сделать некоторые выводы о самом исходном белке.
Введение.
О белке
Исходный белок представляет собой оксидоредуктазу II (т.е. его функция состоит в
расщеплении перекиси водорода до воды и кислорода). Длина белка – 753 а. к. о., в его состав
входят 2 аннотированных домена – Catalase и Catalase-related (соответственно 81-469 а. к. о. и
514-567 а. к. о.). Белок существует в виде тетрамера из четырех одинаковых субъединиц.
О множественном выравнивания последовательностей гомологичных белков
Множественное выравнивание последовательностей гомологичных белков должно отражать
совпадение остовов полипептидных цепей и, во вторую очередь, сходство происхождения и
функций соответствующих остатков.
Программы множественного выравнивания при его построении руководствуются
исключительно соображениями наибольшего веса и не способны отличить области, где нет
никакого сходства последовательностей, кроме чисто статистического, от областей, где
выравнивание действительно есть. Это может приводить при кластеризации к сдвигу
соответствующих участков в последовательностях. С некоторыми проявлениями удается
бороться с переменным успехом (например, динамическая кластеризация в Muscle), с другими –
хуже. В любом случае, программы множественного выравнивания не в состоянии правильно
выровнять неконсервативные с точки зрения радикалов, но консервативные по остову петли и
тяжи. Все это означает, что их работа нуждается в «ручной» проверке.
О выполненной работе
С помощью сервиса PDBsum был проведен сравнительный анализ нескольких PDB-структур
белков семейства, на основании полученных данных были выделены консервативные петли и
тяжи. Далее было откорректировано выравнивание полных последовательностей (AC
последовательностей были получены из seed Pfam [часть последовательностей отсеяна],
поисковой системой SRS были найдены полные последовательности, выровнены Muscle) в
соответствии с тем, что вставки в петлях и стрэндах должны быть в минимальном количестве.
По исправленному выравниванию был составлен паттерн для поиска по семейству. С его
помощью было найдено 583 белка семейства, не нашлось 182. Перепредсказания нет.
Материалы и методы
Найдено
паттерном
Не найдено
паттерном
Всего
Семейство по
данным Pfam
583
Другие белки
Всего
-
583
182
*
*
*
21 представитель семейства получен из выборки seed (файл Annotation) банка Pfam.
Затем удалены 2 последовательности – претендент на фрагмент и случайная.
Полноразмерные последовательности белков выборки получены с помощью SRS.
Множественное выравнивание построено с помощью Muscle, файл сохранить забыл, есть уже
отредактированное.
Выравнивание размечено (и отредактировано) вручную с использованием программы
GeneDoc на основании вторичных структур нескольких белков при помощи PDBSum,
известной из пространственной структуры; (б) наличия консервативных участков в
выравнивании (и редакции отдельных очевидных ляпов); (в) аннотации отдельных
аминокислотных остатков, взятой из того же PDBSum.
Паттерн построен по 6 позициям, которые весьма консервативны в данном seed (и в
центре – каталитические остатки), но не настолько консервативны в целом по семейству,
вследствие чего наблюдается некоторое недопредсказание.
Профиль описывает участок выравнивания, где, собственно, есть выравнивание:) и
находит все семейство без перепредсказания (по крайней мере, при поиске по Swiss-Prot,
прогнать по TrEMBL я не успел, прошу прощения).
Последовательности выборки разбиты на две подгруппы на основании функции (разные
изозимы каталазы: 1, 2 и, в одном случае, 3), SDP подтверждает это разделение, что
касается доменной структуры, везде, кроме двух каталаз 2 (моей из E.Coli и из Bacillus
Subtilis) домен 1, а в этих двух есть еще Catalase-related.
Для поиска диагностических признаков использовались доменная архитектура по
данным Pfam, сервис SDPpred, сервис SVETKA, редактор GeneDoc, в частности,
раскраска по консервативности в подгруппах.
.
Результаты
1. Семейство и выборка
Изучаемое семейство состоит из белков, содержащих домен Catalase. Функция домена –
расщепление перекиси до воды и кислорода.
В банке Pfam к этому семейству отнесено 699 последовательностей. Белки семейства
встречаются у [эукариот – xxx], [бактерий - yyy], [архей – zzz].
По данным Pfam, белки бывают 2 различных доменных архитектур (См. выше).
Для исследования составлена выборка из 19 представителей семейства. Отбирались
полноразмерные последовательности – не фрагменты.
2. Множественное выравнивания полноразмерных последовательностей белков
выборки представлено в файле AnnotationEdited.msf. Домен Pfam соответствует участку от
81 до 541 позиции выравнивания (выделен по Cate_Ecoli, выравнивание есть не по всей его
длине, т.к. у других белков семейства этот домен короче). В выравнивании отмечены
элементы вторичной структуры в последовательности Secondary, определенные по
пространственной структуре белка. Выравнивание отредактировано вручную на участках
~240-260 а.к.о., т.к. там программа разорвала спираль/спирали (по разным PDB считается поразному).
Биологически обоснованное выравнивание, по моей оценке, отмечено в выравнивании в
позициях 81-468.
Паттерн семейства: N-N-x-P-x-F-[FY]-x-x-D. Он составлен по позициям, начиная с 201
выравнивания.
Download