3. Структурные домены: определения, методы нахождения

advertisement
Домены
Определения
Методы разделения структуры
на домены
Классификации
Что такое “домен”?
Три определения:
•По функции
•По структуре
•По последовательности
Функциональный домен
(биохимия/биоинженерия)
Минимальная часть полипептидной цепи,
которая
(i) достаточна в эксперименте для
сохранения одной из активностей
целого белка
(ii) может автономно свернуться в
правильную, нативную структуру
Derbyshire et al., PNAS, 94, 1146611471(1997)“Genetic definition of
a protein-splicing domain:
Functional mini-inteins support
structure predictions and a model
for intein evolution”
Рекомбиназа A из Mycobacterium
tuberculosis (790 а.о.) содержит интеин
(440 а.о.) – мобильный элемент,
обладающий способностью автономно
вырезаться из полипептидной цепи
(явление белкового сплайсинга)
Интеин обладает также эндонуклеазной
активностью
По сходству последовательностей
с другими более изученными интеинами,
в т.ч. интеином с расшифрованной
РСА структурой (1VDE),
была высказана гипотеза о том, что
за две разные активности отвечают
разные домены.
При этом за белковый сплайсинг отвечает
домен, который составлен из N-концевого и
C-концевого участков полипептидной цепи
Для проверки гипотезы авторы
создали 21 конструкт генов
интеина, в которых удалены
разные внутренние участки
полипептидной цепи.
Конструкты были встроены в ген
другого белка
(тимидилатсинтазы, TS) и
экспрессировались в E.coli
Активность проверялась по
наличию нативного белка TS (без
вставки интеина)
Результат: белковый сплайсинг сохранялся
в тех случаях, когда удаленный участок не
затрагивал первые 96 и последние 35 а.о.
Вывод авторов: функциональный домен
автономного белкового сплайсинга состоит
из остатков 1-96 и 406-440 (всего 131 из
полных 440)
Структура гомологичного белка PI-SceI – хоминг
эндонуклеазы из дрожжей (PDB код 1VDE)
Эндонуклеаза
186-405
Интеин
1-181,
416-454
Площадь контакта
доменов не такая уж и
маленькая.
Белок димеризуется
Последовательность интеина консервативна.
Об этом свидетельствуют доменные архитектуры трех
белков из разных грибов, описанные в PFam
Доменная структура белка PI-SceI
Доменная структура полноразмерного белка VMA1
Доменная структура полноразмерного белка TFP1
(аннотирован по сходству)
Эволюционный домен
(биоинформатика: последовательности)
Длинный непрерывный участок полипептидной
цепи, который
(i) эволюционирует существенно
других участков
медленнее
(ii) замечен в перемешивании доменов (domain
shuffling)
Белки, содержащие два эволюционных домена: гомеодомен
и OAR домен (N-концевые участки не показаны)
Гомеодомены активно перемешивались в
эволюции.
Об этом можно судить по 65(!) различным
доменным архитектурам гомеобелков,
представленным в банке Pfam
Гомеодомен
Парный домен и гомеодомен
Lim домены и гомеодомен
Гомеодомен, продолженный
Лейциновой молнией
POU домен и гомеодомен
Два гомеодомена
PBX-домен и гомеодомен
OAR- домен, обнаруженныйтолько в
некоторых гомеодоменных
транскрипционных факторах
• Консервативность наблюдается
• В перемешивании доменов пока не замечен
• Образует структурный домен? - нет аргументов за;
против – слишком короткий
• Функция не установлена
Пример консервативности, которую
трудно характеризовать как домен:
гексапептид антеннапедиа
Структурный домен
(биоинформатика: 3D структуры)
Обособленная в пространстве часть
белка, его структурная единица, имеющая
(i) сравнительно мало контактов с другими
частями белка
(ii) собственное гидрофобное ядро
Пептидаза, а за одно и
димеризационный
домен
Двудоменный
транскрипционный
фактор – репрессор
из бактериофага
P22 (PDB код
1QAR):
два оче-видных
домена связаны
гибким линкером
ДНК-связывающий домен
P22 репрессор
димеризуется ….
… и связывается с
ДНК
Сайт связывания –
палиндром.
Весь комплекс
обладает (неполной)
симметрией 2го
порядка
ATTTAAGACTTCTTAATT
Домен белка XXX
(жизнь)
Часть белка, названная доменом
• Субъективизм
• Образность
• Традиция
В полимеразах обычно определяют три
домена: fingers, palm, thumb
Product RNA
Fingers
Template RNA
Thumb
NTP
Palm
Разные определения часто
дают похожие результаты!
Но не всегда…
Парный домен из
транскрипционного фактора
PAX5 человека (PDB 1K78)
19-81A
82-90A
91-142A
Эволюционный домен (PAX в Pfam)
включает оба структурных домена
(126 а.о.)
Полипептидные цепи обоих структурных
доменов имеют общую топологию
(- одинаковое число спиралей,
- одинаковы межспиральные взаимодействия,
- одинаковый порядок следования спиралей
вдоль цепи;
* минорные элементы вторичной структуры не в
счет!)
N-концевой структурный домен парного домена
хорошо совмещается с C-концевым
Синий – N-концевой
Зеленый – C-концевой
Совмещение – по двум
спиралям, всего по14
C атомам
Rmsd = 0.5 Å
Структурные домены парного домена
одинаково расположены на ДНК
Карта локального сходства последовательностей
двух структурных доменов эволюционного домена
PAX/Prd из белка PAX5 человека
Достоверного
сходства
последователь
ностей не
наблюдается
При этом последовательности PAX/prd
доменов консервативны по всех длине
Структурные домены
Методы детектирования
На чем основаны методы
• Домен имеет собственное гидрофобное
ядро (пример: алгоритм DETECTIVE
Swindells, 1995)
• Домен – это часть белка, внутри которой
много контактов аминокислотных
остатков, а между доменами – мало
контактов (пример: алгоритм DOMAK,
Siddiqui&Barton, 1995)
Siddiqui&Barton, 1995:
DOMAK
Сверху – вниз, от целого – к части!
• Предпосылки: домен состоит из одного
или двух непрерывных участков
полипептидной цепи
• Число контактов остатков внутри домена
больше чем число междоменных
контактов
Формализация
• Два остатка контактируют если расстояние
между ними меньше 5Å
• Если белок разбит на две части, A и B, то
определяется индекс разделенности:
SplitValue=(intA/extAB)*(intB/extAB)
intA – число пар контактирующих остатков из A;
intB – число пар контактирующих остатков из B;
extAB – число пар контактирующих остатков,
один из A, а другой – из B
Пример. Структура 1CD4. Часть A: N-конец полипептидной
цепи до остатка i; часть B – от (i+1) до C-конца
График зависимости
индекса разделенности
от номера граничного
остатка
Деление по остатку 97 (пик на графике)
В алгоритме DOMAK проверяются
следующие разделения на части A и B
Алгоритм
• К полной цепи применяются методы 1 и 2. Выбирается
разделение с лучшим индексом
• К полученным двум доменам применяется та же
процедура. В случае, когда домен состоит из двух
сегментов, применяется также метод 3.
• Алгоритм останавливается в зависимости от пороговых
значений:
– MDS – минимальный размер домена (в числе остатков)
– MSS - минимальный размер сегмента
• Отдельная процедура предусмотрена для сегментов,
длина которых между MDS и MSS
• Найденные домены проверяются на “компактность”;
некомпактные – сливаются в один
Swindells, 1995
DETECTIVE
Снизу – вверх, наращивание частей!
Предпосылки: каждый домен имеет свое гидрофобное
ядро.
(1) Построение кластеров гидрофобно
взаимодействующих неэкспонированных
остатков
• Отбираются остатки, которые
– Слабо экспонированы (<7%)
– Принадлежат спиралям или тяжам
– Более 75% контактов их атомов с другими атомами
классифицируются как гидрофобные
Контактом считается сближение “тяжелых” атомов
на сумму vdW радиусов + 1 ангстрем
Гидрофобным контактом считается контакт
углеродов
Два остатка из отобранных считаются
взаимодействующими гидрофобно
если число гидрофобных межатомных
контактов превосходит число
негидрофобных межатомных контактов
Строится граф:
• Вершина – отобранный остаток
• Ребро соединяет вершины, если
соответствующие остатки гидрофобно
взаимодействуют
• Связные компоненты графа, содержащие
5 или более остатков, называются
гидрофобными ядрами
Граф гидрофобных контактов
(пример)
Гидрофобные ядра – еще не домены!
Для получения доменов применяется
многоходовая процедура чистки-слияния
Алгоритм демонстрируется на примере (см. рис.)
(1) найдено 3 кластера – 1й, 2й и 3й
(2) остатки, окруженные “чужими” вычищаются
(3) кластеры меньше чем из 5и остатков вычищаются
(4) заливка некластеризованных остатков
(5) оставшиеся некластеризованные остатки присоединяются
по контактам к кластерами предыдущего шага
(6) - (8) опять прочистка, заливка и присоединение хвостов
Структурная классификация
доменов
• SCOP (Murzin, Benner, Hubbard, Chotia,
1995)
• CATH (Orengo et al., 1993, 1997)
• FSSP (Holm&Sander, 1993)
• другие
Structural Classification of
Proteins, SCOP
• Экспертное выделение доменов
• Экспертная классификация
Уровни классификации в SCOP
•Класс
•Укладка (fold) – сходная топология
•Суперсемейство – структурная гомология (?)
•Семейство – сходство последовательностей
и/или хорошее пространственной выравнивание
цепей
•Белок – б.м. ортологичные белковые домены
•Вид – конкретный белок
Классы
Основные
• Альфа-спиральные домены
(202 фолда)
• Бета-структурные домены
(141)
• Альфа/бета структурные домены (a/b)
(бета-альфа-бета структурные единицы)
(130)
• Альфа+бета домены (a+b)
(260)
(разделенные альфа спиральные и бета-структурные области)
Специфические
•Многодоменные белки
(сложные домены)
(40)
•Мембранные
(кроме белков иммунной системы)
(42)
•Маленькие
(72)
Формально собранные классы
Спирализованные спирали
(6)
Низкое разрешение
(22)
Пептиды, фрагменты
(111)
Искусственные белки
(41)
Разница между a/b и a+b
a/b:
- Спирали и тяжи вместе
образуют глобулу
-Часто спираль соединяет два
тяжа как показано на рис. ниже
1TPH Triosephosphate isomerase
from Chicken (Gallus gallus) 1TPH
Разница между a+b и a/b
a+b:
- Спирали и тяжи более или
менее разобщены
- Часто спирали образуют свое
маленькое ядро
- Мотивы -- как на
предыдущем слайде встречаются
редко
2ACT. ACTINIDIN
(SULFHYDRYL PROTEINASE)
Каталаза
Флаводоксин
(C-концевой домен)
Общая укладка (фолд).
Хорошее совмещение полипептидных цепей невозможно, но
что-то общее в расположении элементов вторичной структуры
прослеживается… Говорят: “общая топология”
Общая топология у двух
доменов характеризуется
• Хорошим выравниванием элементов вторичной
структуры при котором
• сопоставленные элементы вторичной
структуры одинаково контактируют в
пространстве между собой
• что-то еще нужно сказать про одинаковое
взаимное расположение элементов вторичной
структуры; но не известно (боюсь, что не
только мне) адекватных проверяемых
формулировок …
Сравнение топологий каталазы (1CF9, Cконцевой домен) и флаводоксина (1AG9)
Вторичная структура
C-концевого домена
Каталазы 1CFG
Вторичная структура
флаводоксина 1AG9
S4 H2 S5 - S1 S2 S3 H2 S2 H1 S1 - H1 –
| | |
| | | | |
|
S4 H2 S5 h1 - - S3 H2 S2 H1 S1 S1’ H1 h1
SCOP 1.67 release: 24037 PDB Entries (15 May 2004).
65122 Domains.
Class
Number of
folds
Number of
superfamilies
Number of
families
All alpha proteins
202
342
550
All beta proteins
Alpha and beta proteins
(a/b)
Alpha and beta proteins
(a+b)
Multi-domain proteins
Membrane and cell
surface proteins
Small proteins
141
280
529
130
213
593
260
386
650
40
40
55
42
82
91
72
104
162
Total
887
1447
2630
Class Architecture Topology
Homologous superfamily, CATH
• Белок делится на домены автоматически при
согласованных результатах трех алгоритмов:
– DETECTIVE (Swindells, 1995),
– PUU (Holm & Sander, 1994)
– DOMAK (Siddiqui and Barton, 1995).
• При несовпадении результатов алгоритмов –
решение о доменах за экспертом
Первичная классификация
автоматическая (алгоритм SSAP, Taylor &
Orengo 1989).
При отказах программы решение
принимает эксперт
CATH: уровни классификации
• Класс: основные all-alpha, all-beta, alha-beta
• Архитектура: сходное пространственное
расположение элементов вторичной структуры
без учета их последовательности
• Топология (укладка): сходное взаимное
расположение вдоль цепи и в пространстве
элементов вторичной структуры
• Суперсемейство: предположительно или
несомненно гомологичные домены
• Семейство: сходные последовательности (>35%
identity и выровненные участки покрывают >60%
длины)
В каждой структурной классификации –
свои “причуды”
CATH: два (?!!!) “домена” (?!!!)
(красный и зеленый) в структуре
токсина перфринголизин О из
патогенной бакетрии Clostridium
Perfringens (PDB код 1PFO)
Вот что может автоматика ?!
(В базе SCOP это один домен)
SCOP: этот полипептид был классифицирован как
один структурный домен класса all alpha (???) (белок транскрипционный фактор из Listeria monocytogenes,
регулирующий основные гены вирулентности)
Человеческий фактор (?)
В последнем релизе
разделен на два домена
http://www.bio.cmu.edu/courses/03231/ProtStruc/ProtStruc.htm
DALI, Distance matrix
ALIgnment
Структурные мотивы
Вторичная и супервторичная
структура домена
Download