структура белков

advertisement
Введение в молекулярное моделирование нано- и биоструктур
ст.н.с. И.В. Упоров (каф. Хим. Энзимологии, комн. 104, 939-3407)
доцент А.В. Головин (ф-т биоинженерии и биоинформатики, 939-5305)
Программа курса - 7 лекций, 2 практических занятия, зачѐт.
• Компьютерное моделирование нанобиоструктур является важным
инструментом исследования свойств этих объектов и способствует более
глубокому осмыслению структурно-функциональных особенностей этих
объектов.
• Нанобиообъекты построены из составляющих блоков – пептидов и белков,
нуклеиновых кислот, искусственных и биологических мембран.
• Задачей компьютерного моделирование является построение моделей
пространственной структуры каждого из составляющих блоков, и затем
сборка этих объектов в цельную систему с использованием инструментов
компьютерной графики и расчетных методов.
• Построенная структура может быть исследована на устойчивость к
внешним факторам, способность выполнять предназначенную функцию и
оптимизирована с помощью компьютерных методов.
План лекций.
1. Биоинформатика (предмет и методы исследований, основные разделы, банки
данных последовательностей и пространственных структур биополимеров)
2. Методы определения сходства пространственной структуры белков (структурноконсервативные участки)
3. Математические методы выравнивания последовательностей символов (матрицы
стоимости аминокислотных замен, парное выравнивание и оценка его достоверности,
множественное выравнивание, метод ClustalW, дендрограммы)
4. Поиск гомологичных последовательностей белков в базах данных (Методы
сканирования баз данных последовательностей FASTA, BLAST, достоверность
найденных гомологов)
5. Сравнительное предсказание третичной структуры белка на основе первичной
структуры (стратегия и детали)
6. Современные методы выравнивания последовательностей белков (HMM) и
предсказания белковых структур
7. Методы моделирования пространственной структуры нуклеиновых кислот
8. Основные представления молекулярной механики и молекулярной динамики
биополимеров (Потенциальная энергия биополимеров, поиск локальных минимумов,
методы моделирования динамики биополимеров )
9. Примеры известных белковых машин и основные принципы их
функционирования. Построение наноструктур с помощью нуклеиновых кислот.
Практическое занятие
• Знакомство с услугами, предоставляемыми ExPASy Molecular Biology Server
(http://us.expasy.org/)
• Поиск последовательностей белков на этом сервере
• Ознакомление с работой и основными функциями программы молекулярной
графики pyMol
• Ознакомление с программой молекулярной динамики GROMACS.
• Построение структуры белка методом моделирования по гомологиям
• Построение структуры низкомолекулярного соединения и подготовка системы
белок-субстрат к проведению молекулярно-динамического расчѐта.
• Проведение МД расчѐта и анализ полученных траекторий.
Структура пероксидазы табака
X-ray structure (2006), Homology modeling (1998) (63% идентичности)
RMSD = 1.3Å
Структура формиат дегидрогеназы из Moraxella sp.C2
X-ray structure (2GSD, 2006), Homology modeling (2001) (84% идентичности)
RMSD = 0.93Å
Структура формиат дегидрогеназы из Candida boidinii
X-ray structure (2FSS, 2007), Homology modeling (2001) (47% идентичности)
RMSD = 2.6Å
Биоинформатика
Применение компьютерных методов для обработки, хранения и извлечения биологической
информации. Fredj Tekaia, Institut Pasteur, даѐт следующее определение биоинформатике:
"The mathematical, statistical and computing methods that aim to solve biological problems
using DNA and amino acid sequences and related information»
Сравнение последовательностей биополимеров ДНК или белков – основное действие
биоинформатики.
Применение этой операции к различным объектам, содержащим последовательности биополимеров
составляет суть «новых биоинформатик»:
Сравнительная геномика (comparative genomics) – сравнительный анализ геномов различных
организмов. Только 168 генов человека не имеют близких гомологов у собаки или мыши, из
которых лишь 12 обретены в ходе эволюции. Ортологичные гены человека и мыши идентичны на
80% (Coller H.A., Kruglyak L. Science 322, 380(2008).)
Функциональная геномика (functional genomics) – анализ функций генов и их участков, аннотация
секвенированных геномов;
Протеомика (proteomics) – изучение активности и взаимодействия между всеми продуктами генов
(белками);
Структурная геномика – определение пространственной структуры продуктов генов (несколько
десятков(!!!) структур в одном проекте);
…..
Возраст биоинформатики – основные теоретические представления и методы разрабатывались с
60х годов ХХ века в работах Margaret O. Dayhoff, Russell F. Doolittle, Walter M. Fitch, Andrew D.
McLachlan и других. Однако сам термин биоинформатика появился в 1991 году.
Химическая структура природных аминокислот
Образование пептидной связи
H
+
H3N
C
R1
H
O
C
+ +H3N
O-
C
R2
+
C
O-
H
H O
O
H3N
C
R1
C
N
C
H R2
O
+ H2O
C
O-
Пространственная структура природных аминокислот
Процесс сворачивания полипептидной цепи
первичная
Расплавленная
глобула
Нативная глобула
“The Structures of Life” www.nigms.nih.gov/news/publist.html.
Количество известных последовательностей белков
Банк белковых последовательностей UniProtKB/SwissPROT (http://us.expasy.org) выпуск 57.13 (2.3.2010)
содержит 515203 последовательность (181334896
аминокислот) извлечѐнных из 187376 публикаций
• Описание функции белка
• Доменная структура
• Посттрансляционные
модификации
• Изоформы
• Литературные ссылки
• Минимальный уровень
избыточности
• Высокий уровень
связности с другими БД
UniProtKB/TrEMBL выпуск 40.15 (2.3.2010) 10,494,564 последовательностей
(3,383,305,599 аминокислот).
Table of the most represented species (12042 total)
Number
1
2
3
4
5
6
7
8
9
10
Frequency
20265
16224
8876
7483
6558
5748
4974
4368
4258
4137
Species
Homo sapiens (Human)
Mus musculus (Mouse)
Arabidopsis thaliana (Mouse-ear cress)
Rattus norvegicus (Rat)
Saccharomyces cerevisiae (Baker's yeast)
Bos taurus (Bovine)
Schizosaccharomyces pombe (Fission yeast)
Escherichia coli (strain K12)
Bacillus subtilis
Dictyostelium discoideum (Slime mold)
Taxonomic distribution of the sequences
On 16.03.2010 , "ENTREZ
Genome Project" site at National
Center for Biotechnology
Information, NLM, NIH,
(http://www.ncbi.nlm.nih.gov)
reports complete genomes:
 Eukaryotae - 3451
 Bacteria - 3138
 Archaea - 161
Within Eukaryota
Статистика расшифрованных геномов (по особям и записям)
http://www.ncbi.nlm.nih.gov
J.C. Venter, Nature 464, 676 (2010)
Человеческий геном состоит из 3.2 миллиарда пар оснований и содержит
20,000-25,000 генов (L.D. Stein, Nature, 2004), из которых 2,912 генов
ферментов (P. Romero et al., Genome Biology, 2004).
В 2001 компания “Celera Inc.” опубликовала draft версию человеческого генома. В 2003 году
консорциум исследовательских институтов объявил о завершении секвенирования человеческого
генома. Расшифрованный геном состоял лишь из половины молекул ДНК, содержащихся в
нормальной клетке.Эта ДНК была выделена не от одного человека , а от разных лиц различной
национальности и проживающих в разных странах.
Dr. J. Craig Venter
(http://www.jcvi.org/)
9/4/07 последовательность диплоидного
генома , состоящего из ДНК из обоих
наборов хромосом, от каждого из
родителей, была опредена и
опубликована. Этот геном принадлежит
только одному человеку - Dr. Venter.
1/25/08 сотрудники JCVI сообщили о
синтезе генома Mycoplasma genitalium
(485 genes, 583,000 base pairs) с
“водяными знаками” (VenterInstitvte,
CraigVenter, HamSmith, GlassandClyde
and CindiandClyde).
11/6/08 опубликован диплоидный набор
ещѐ трѐх человек – нигерийца, китайца и
европейца, больного раком.
Nature 464, 670 (2010)
Встречаемость аминокислот в белковых последовательностях
Ala
Arg
Asn
Asp
Cys
(A)
(R)
(N)
(D)
(C)
7.79
5.26
4.24
5.30
1.56
Gln
Glu
Gly
His
Ile
(Q)
(E)
(G)
(H)
(I)
3.92
6.58
6.93
2.27
5.91
Leu
Lys
Met
Phe
Pro
(L)
(K)
(M)
(F)
(P)
9.60
5.93
2.38
4.03
4.85
Ser
Thr
Trp
Tyr
Val
(S)
(T)
(W)
(Y)
(V)
6.89
5.48
1.16
3.10
6.70
Разнообразие пространственной структуры белков.
Пространственная (третичная) структура белка определяет его функцию.
Molecular Conceptor v. 2.11, Synergix ltd., USA
Четыре уровня белковой архитектуры
Molecular Conceptor v. 2.11, Synergix ltd., USA
Пространственная (третичная) структура белков
Знание третичной структуры белков существенно углубляет наше понимание о
том, как этот белок (фермент) работает (функция) и обеспечивает твѐрдую
почву для последующих попыток модификации этой функции увеличение/уменьшение стабильности (температурной, pH, др.) и/или
субстратной специфичности).
Глобулярные белки представляют наибольший интерес. Структура белков
(взаимное положение тяжѐлых атомов в пространстве) определяется
экспериментально – методами рентгеноструктурного анализа, методом
многомерного ЯМР.
В последние годы появились работы, посвящѐнные определению формы
макромолекулярных комплексов методом криоэлектронной микроскопии.
Структуры макромолекул собраны в базы данных, основной из которых
является Protein Data Bank (PDB), поддерживаемая Research Collaboratory
for Structural Bioinformatics (RCSB).
Банк белковых структур. Protein Data Bank
(PDB)
http://www.rcsb.org/pdb
Research Collaboratory for Structural Bioinformatics
Каждая структура имеет свой идентификатор (4 символа) и ей соответствует
файл, в котором приведены координаты тяжѐлых атомов.
Структура PDB файла. (Brookhaven Protein Data Bank)
HEADER
COMPND
COMPND
SOURCE
AUTHOR
………
HELIX
HELIX
………
ATOM
ATOM
ATOM
ATOM
……
END
OXIDOREDUCTASE(ALDEHYDE(D),NAD+(A))
06-JUL-94
2NAD
NAD-DEPENDENT FORMATE DEHYDROGENASE (E.C.1.2.1.2)
2 (HOLO FORM) COMPLEXED WITH NAD AND AZIDE
(METHYLOTROPHIC BACTERIUM PSEUDOMONAS SP. 101)
V.S.LAMZIN,Z.DAUTER,V.O.POPOV,E.H.HARUTYUNYAN,K.S.WILSON
2NAD
2NAD
2NAD
2NAD
2NAD
1 H1A GLY A
2 H1 LEU A
2NAD 194
2NAD 195
281
282
283
284
CB
CG
CD1
CD2
LEU
LEU
LEU
LEU
55
59
A
A
A
A
36
36
36
36
LEU A
GLY A
59
67
65.524
64.771
64.749
63.336
5 LEFT-HANDED
1 3/10 FOR RES 63 - 67
35.308
34.257
34.636
34.097
0.941
1.735
3.209
1.458
1.00
1.00
1.00
1.00
14.15
17.41
28.05
22.50
2NAD
2NAD
2NAD
2NAD
2
3
4
5
6
584
585
586
587
Поступления в базу данных пространственных структур биополимеров
На 9.03.2010 в базе данных PDB (http://www.rcsb.org) было депонировано
63956 структур, из них более 59183 белковых структур.
Динамика роста количества разрешѐнных структур
Распределение разрешѐнных структур по экспериментальным
методам
Molecular Conceptor v. 2.11, Synergix ltd., USA
Преимущества метода рентгеноструктурного анализа.
• принципиально достижимо
высокое разрешение. Разрешение
выше 1Å позволяет определять
степень протонирования а/к
остатков в белках
• возможность разрешать
структуры объектов большого
размера (вирусная капсида,
рибосома, фотосинтетический
реакционный центр, т.д.),
состоящих из нескольких десятков
тысяч атомов.
Molecular Conceptor v. 2.11, Synergix ltd., USA
Ограничения метода рентгеноструктурного анализа биомолекул
20 человеколет на GroEL
Molecular Conceptor v. 2.11, Synergix ltd., USA
Схема рентгеноструктурного исследования
Molecular Conceptor v. 2.11, Synergix ltd., USA
Наработка и очистка белка
Выращивание кристалл(а/ов)
Molecular Conceptor v. 2.11, Synergix ltd., USA
Снятие рентгенограмм кристаллов
Регулярный
Кристалл
Размером
От 0,3 мм
Molecular Conceptor v. 2.11, Synergix ltd., USA
Определение координат тяжѐлых атомов биомолекулы
Molecular Conceptor v. 2.11, Synergix ltd., USA
Protein Structure Initiative (NIGMS, NIH, USA, 2001-2010, 2011-2015 ?)
Выбор объекта
Экспрессия белка
$750M
С высоким выходом Высокоэффективная
очистка
Кристаллизация
Новая структура каждые 2 дня!
GroEL за 2 месяца.
4 крупных и 6 малых центров разрешили за 7 лет более
3000 белковых структур (40% новых структур)
Полуавтоматическая
Валидация стр-ры,
публикация
Помещение в PDB
Service R.B., Science 319, 1610 (2008)
Отбор кристаллов,
Сбор данных
Полуавтоматическое
Разрешение структуры
Многомерная ЯМР спектроскопия
Преимущества:
• молекулы в растворе
(тяжѐлая вода), не нужно
выращивать кристалл
• положения атомов
водорода м.б. определены
• информация о динамике
атомов м.б. определена
В белках 103 – 104 протонов
Метильные и метиленовые группы
0,8-3,5 ppm, ароматические,
индольные и иммидазольные
кольца 6,5-8 ppm
В ДНК/РНК Н-2/Н-8 пуринов 8,49 ppm, Н-5 пиримидинов 6,3-6,6
ppm, Н-6 8,0-8,5 ppm, метильная
группа тимидина 2,3-2,4 ppm.
Molecular Conceptor v. 2.11, Synergix ltd., USA
Bruker Biospin AVANCE 1000
The World’s First 1 Gigahertz NMR Spectrometer
World’s First 1 Gigahertz NMR
Spectrometer based on unique
23.5 Tesla Standard-Bore,
Persistent Superconducting
Magnet (12-tonne, 4.5-metre-tall
machine)
Dr. Lyndon Emsley,
European Centre for High
Field NMR (CRMN) in Lyon,
France.
Nature 463,605(2010).
€11.7-million (US$16.3-million)
http://www.bruker-biospin.com/av1000-dir.html
Ограничение метода многомерного ЯМР
Molecular Conceptor v. 2.11, Synergix ltd., USA
• Структура белков < 300 а/к остатков м.б. Определена этим методом, что
составляет менее половины известных белковых последовательностей.
Известны примеры разрешения структур белков из 700 а/к.
• Дороговизна получения образцов с изменѐнным изотопным составом
(13С, 19F, 31P)
• Невысокая точность разрешения структуры
Физические принципы метода ядерного магнитного резонанса
Характерные спектры
химических групп и
соединений
Molecular Conceptor v. 2.11, Synergix ltd., USA
Сбор данных
Анализ,
Соотнесение
(assignment)
Molecular Conceptor v. 2.11, Synergix ltd., USA
Sequential NOEs ("NOESY walks") in aromaticH1'/H5 region of TWJ-TC acquired in D20 at 30'C
with a 300 ms mixing time. (A) Strand 1
connectivities. (B) Strand 2 connectivities.
Leontis, N. et al., Biophysical Journal, 68, 251
(1995).
Определение координат атомов молекулы
Molecular Conceptor v. 2.11, Synergix ltd., USA
Для структур разрешѐнных методом многомерного
ЯМР представлено 10-20 структур. Усреднѐнная
структура имеет наибольшую достоверность.
Электронная микроскопия
Определяется форма крупных
межмолекулярных комплексов
методом диффракции
электронных пучков.
Типичное разрешение этого
метода 3-5 Å не позволяет
определять координаты
атомов.
Molecular Conceptor v. 2.11, Synergix ltd., USA
Образцы в
замороженном
состоянии, что
предотвращает
радиационные
повреждения и
удерживает их в
нативном
состоянии.
Количество новых фолдов в банке белковых структур
Голубым цветом количество «новых» фолдов, оранжевым количество «старых» фолдов.
PSI ставит своей целью разрешение структур с новыми фолдами в ущерб биологической
значимости белка, что вызывает критику оппонентов.
Актуальность разработки методов моделирования белковых структур
Увеличивающийся разрыв между определѐнными первичными структурами
белков (11,000,000 в базе SWIS-PROT/TrEMBL) и количеством разрешѐнных белковых
структур (59,000 из которых только около 5,500 непохожи друг на друга) указывает на
необходимость разработки методов предсказания третичных структур белков.
Поскольку в настоящее время отсутствуют надѐжные теоретические методы*
прямого предсказания третичной структуры белков из первичной, методы
предсказания должны основываться на структурах известных белков.
Это подразумевает, что структуры неизвестного и опорного (reference) белков
должны быть похожи или гомологичны. О степени гомологичности белков судят по
степени идентичности их первичных структур.
Анализ эволюционно связанных белков показал, что при небольших
эволюционных расстояниях степень их гомологичности, определѐнная по первичной
структуре, достаточно высока.
При возрастании эволюционного расстояния гомология по последовательности
становится трудно уловимой, однако укладка полипептидной цепи (фолд/folding)
остаются схожими.
Суть моделирования третичной структуры по гомологиям – выравнивание
последовательностей моделируемого и опорного белков с последующим переносом
элементов структуры опорного белка на моделируемый.
* В работе Qian et al., Nature 450, 259-264(2007) была аккуратно de novo предсказана
третичная структура белка из 112 а/к остатков. ROSETTA@HOME сеть включает более 70,000
компьютеров.
Структурная схожесть эволюционно далѐких белков
Molecular Conceptor v. 2.11, Synergix ltd., USA
Сравнение двух пространственных структур.
Цель этой операции – найти в двух белках участки полипептидной цепи имеющие
схожую укладку и расположенные в пространстве друг относительно друга
одинаковым образом. Критерием схожести структур служит среднеквадратичное
отклонение (Root Mean Square Deviation) координат атомов одного белка от
второго при пространственном наложении (суперпозиции) друг на друга.
Сервер http://www.ebi.ac.uk/Tools/structural.html представляет множество методов
анализа структуры белков.
Метод автоматической суперпозиции белковых структур
Для сравниваемых белков строится матрица расстояний между С атомами.
Суперпозиция структур субтилизина Карлсберга.
A2Q
BE8
BH6
GCI
MEE
MPT
SBC
SCJ
ST3
A2Q
0.0
0.49
0.49
0.80
0.41
0.78
0.48
0.37
0.76
BE8
0.49
0.0
0.36
0.83
0.53
0.82
0.41
0.50
0.82
BH6
0.49
0.36
0.0
0.82
0.55
0.82
0.47
0.52
0.81
GCI
0.80
0.83
0.82
0.0
0.81
0.40
0.87
0.76
0.25
MEE
0.41
0.53
0.55
0.81
0.0
0.78
0.55
0.35
0.78
MPT
0.78
0.82
0.82
0.40
0.78
0.0
0.85
0.73
0.37
SBC
0.48
0.41
0.47
0.87
0.55
0.85
0.0
0.53
0.85
SCJ
0.37
0.50
0.52
0.76
0.35
0.73
0.53
0.0
0.73
ST3
0.76
0.82
0.81
0.25
0.78
0.37
0.85
0.73
0.0
Если две структуры накладываются друг
на друга с RMSD < 1Å и области
наложения покрывают по крайней мере
50% первичной структуры это эти
структуры обладают схожим фолдингом.
При суперпозиции нескольких структур
друг на друга схожие области образуют
структурно-консервативные области
(structure conserved regions). Эти области
составляют каркас, на основе которого
строится пространственная модель белка.
SBC:
BE8:
BH6:
MEE:
A2Q:
SCJ:
GCI:
MPT:
ST3:
AQTVPYGIPLIKADKVQAQGFKGANVKVAVLDTGIQASHPDLNVVGGASF
AQTVPYGIPLIKADKVQAQGFKGANVKVAVLDTGIQASHPDLNVVGGASF
AQTVPYGIPLIKADKVQAQGYKGANVKVGIIDTGIASSHTDLKVVGGASF
AQSVPYGISQIKAPALHSQGYTGSNVKVAVIDSGIDSSHPDLNVRGGASF
AQSVPYGVSQIKAPALHSQGYCGSNVKVAVIDSGIDSSHPDLKVAGGASM
AQSVPYGISQIKAPALHSQGYTGSNVKVAVIDSGIDSSHPDLNVRGGASF
AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGIS-THPDLNIRGGASF
AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGIS-THPDLNIRGGASF
GQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGIS-THPDLNIRGGASF
SBC:
BE8:
BH6:
MEE:
A2Q:
SCJ:
GCI:
MPT:
ST3:
VAGE-AYNTDGNGHGTHVAGTVAALDNTTGVLGVAPSVSLYAVKVLNSSG
VAGE-AYNTDGNGHGTHVAGTVAALDNTTGVLGVAPSVSLYAVKVLNSSG
VSGE-SYNTDGNGHGTHVAGTVAALDNTTGVLGVAPNVSLYAIKVLNSSG
VPSETNPYQDGSSHGTHVAGTIAALNNSIGVLGVAPSASLYAVKVLDSTG
VPSETNPFQDNNSHGTHVAGTVAALNNSIGVLGVAPCASLYAVKVLGADG
VPSETNPYQDGSSHGTHVAGTIAALNNSIGVLGVSPSASLYAVKVLDSTG
VPGE-PSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASG
VPGE|PSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASG
VPGE-PSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGADG
SBC:
BE8:
BH6:
MEE:
A2Q:
SCJ:
GCI:
MPT:
ST3:
SGSYSGIVSGIEWATTNGMDVINMSLGGASGSTAMKQAVDNAYARGVVVV
SGSYSGIVSGIEWATTNGMDVINMSLGGASGSTAMKQAVDNAYARGVVVV
SGSYSAIVSGIEWATQNGLDVINMSLGGPSGSTALKQAVDKAYASGIVVV
SGQYSWIINGIEWAISNNMDVINMSLGGPTGSTALKTVVDKAVSSGIVVA
SGQYSWIINGIEWAIANNMDVINMSLGGPSGSAALKAAVDKAVASGVVVV
SGQYSWIINGIEWAISNNMDVINMSLGGPTGSTALKTVVDKAVSSGIVVA
SGSVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVV
SGSVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVV
RGAISSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVV
Выравнивание
последовательностей
субтилизина
Карлсбега согласно
определѐнным SCR
Математические методы выравнивания
последовательностей символов
Структурирование информации о белковых последовательностях в банках
данных позволяет эффективно осуществлять поиск по базе данных. Помимо
простого текстового поиска, обеспечивается возможность поиска гомологов,
т.е. последовательностей близких в определѐнном смысле к нашему запросу.
Как определить близость двух последовательностей?
Выравнивание (alignment) одной последовательности относительно другой
позволяет количественно характеризовать степень гомологичности двух
последовательностей.
RKYLESNGHTLVVTSDKDG-PDSVF
ANWLKDQGHELITTSDKEGE-TSEL
Выравнивание двух (или более) последовательностей позволяет определить
консервативные аминокислотные позиции или участки. Эта информация
может быть использована как при построении моделей структуры белков, так
и при оценке функциональных свойств белков, последовательность которых
определена, а функция неизвестна. Для двух последовательностей можно
построить множество выравниваний (22N/sqrt(2 N) выравниваний для двух
последовательностей длиной N а/к остатков).
Стоимость выравнивания (alignment score)
Для количественной характеристики выравнивания необходимо ввести
количественную характеристику выравнивания стоимость выравнивания S (alignment
score), которая бы отражала степень выполнения наших требований к выравниванию
двух аминокислотных последовательностей. Стоимость выравнивания вычисляется как
сумма элементов матрицы весов выравнивания (Scoring Matrix), которая количественно
учитывает «стоимость» (cost) замены одной аминокислоты на другую. Принято
считать, что чем легче (по каким-либо критериям) замена, тем выше еѐ стоимость.
Замена аминокислоты на саму себя «стоит» максимально и одинаково для всех
аминокислот.
RKYLESNGHTLVVTSDKDG-PDSVF
ANWLKDQGHELITTSDKEGE-TSEL
S = SRA+SKN+SYW+SLL+SEK+…+SGG+Sgap+Sgap+SDT..
Чем больше величина S, тем более оптимально совмещены две последовательности
согласно нашим критериям. Как выбрать элементы матрицы ? Какая информация
может быть привлечена для конструирования этой матрицы?
Матрицы весов замены аминокислот (scoring matrices)
Фундаментальная значимость матриц замен:
1. Используются во всех операциях выравнивания
2. Выбор той или иной матрицы может существенно изменить результат
выравнивания
3. Матрицы замен концентрируют количественные характеристики
эволюционных процессов на молекулярном уровне
4. Понимание основных принципов построения матрицы замен помогает сделать
правильный выбор, соответствующий постановке задачи
Схожесть и Удалённость
1. Матричные элементы представляют собой либо стоимость замены одной
аминокислоты на другую (удалѐнность), либо являются мерой схожести замены
2. Удалѐнность, как понятие, используется при построении дендрограмм
(филогенетических деревьев); понятие схожести используется при поиске по
базам данных.
3. Логика алгоритмов не меняется: оптимизация схожести есть тоже самое, что
минимизация удалѐнности (эволюционного расстояния)
4. Матрицы схожести и удалѐнности могут взаимно однозначно соотнесены,
использую определѐнные математические преобразования
Идентичная матрица (Aminoacid identity matrix)
Генетическая матрица (Codon Substitution Matrix) – диагональные
элементы равны 9, если для превращения кодона, соответствующего данной
аминокислоте, в другую необходимо заменить одну пару оснований ДНК/РНК, то
соответствующий элемент равен 3, если две пары, то 1, если все основания, то 0.
Генетический код (кодоны природных аминокислот)
AUG – start
UAA
UAG - end
UGA
TACTCGTAATTCACT
ATGAGCATTAAGTGA
AUGAGCAUUAAGUGA
SerIleLys
Физико-химическая матрица (Chemical Similarity Scoring Matrix) –
отражает в количественной форме насколько аминокислоты похожи друг на
друга с точки зрения их физико-химических свойств (полярность,
гидрофильность/гидрофобность, размер).
Эволюционные матрицы PAMxxx и BLOSUMxx
Dayhoff матрица (PAM120, PAM250). Чем больше число в конце названия матрицы,
тем более удалѐнные гомологии можно определить при еѐ использовании. Элемент Mij
пропорционален вероятности аминокислоте в строке “i” мутировать в аминокислоту в
столбце “j” спустя определѐнное эволюционное время ХХPAM (Percentage of Acceptable
Point Mutations).
1. Выравнивание последовательностей (накопленных к концу 80х годов прошлого
столетия)по крайней мере 85% идентичных.
2. Установление эволюционных соотношений между последовательностями (71
филогенетическое дерево).
3. Определение количества замещений аминокислоты одного типа на а/к остатки всех
типов во всех выравниваниях (матрица Aij).
4. Расчѐт мутируемости аминокислоты mj, относительной склонности аминокислоты
типа “j” к мутации.
5. Вычислить элементы матрицы вероятностей мутации по формулам Mij=mjAij /( i
Aij), Mjj=1-mj
6. Вычислить Log Odds матрицу Sij=log(Mij/fi), fi – частота появления аминокислоты
“i” в последовательностях.
Ala
Ser
Lys
Gly
Asp
Tyr
Pro
(A)
(S)
(K)
(G)
(D)
(Y)
(P)
7.70
7.01
5.95
6.90
5.27
3.13
4.88
Gln
Arg
Thr
Met
His
Cys
Val
(Q)
(R)
(T)
(M)
(H)
(C)
(V)
3.92
5.22
5.55
2.37
2.26
1.61
6.65
Leu
Glu
Asn
Trp
Phe
Ile
(L)
(E)
(N)
(W)
(F)
(I)
9.56
6.50
4.30
1.19
4.07
5.86
Свойства матрицы вероятностей мутаций
1.
2.
3.
Сумма всех элементов mj равна 1. Вероятность что аминокислота мутирует
порядка (менее) 1%. Вероятность остаться неизменной порядка 99%.
Матрица вероятности мутаций, M1, устанавливает единицу измерения
эволюционных изменений: 1 PAM (Accepted Point Mutation per 100 residues).
Различные белковые семейства демонстрируют различные скорости PAM. IG
kappa chain C region – 37 PAM/100 миллионов лет, Hemoglobin alpha
chain – 12, Trypsin – 5.9, Plastocyanin – 3.5, Cytochrome c – 2.2.
Последовательное применение M1 к последовательности приводит к
эволюционным изменениям в 2, 3, 4... PAM. При каждом применении M1
будет мутировать в среднем только одна аминокислота из 100. Разработаны
методы вычисления матрицы PAMXX для любого эволюционного периода XX.
При стремлении XX к бесконечности, все столбцы матрицы становятся
одинаковыми и представляют из себя частоту встречаемости аминокислот в
природе.
Изначально матрица строилась на основании 1572 наблюдаемых замен. 39 замен
из 190 не были наблюдены. Наибольшее число замен наблюдалось для пары GluAsp 83. (Atlas of Protein Sequence and Structure, Suppl 3, 1978, M. O. Dayhoff, ed. National
Biomedical Research Foundation, 1979.)
1 PAM evolutionary distance
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gly
His
Ile
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A 9867 2
9 10
3
8 17 21
2
6
4
2
6
2 22 35 32
0
2 18
R 1 9913 1
0
1 10
0
0 10
3
1 19
4
1
4
6
1
8
0
1
N 4
1 9822 36
0
4
6
6 21
3
1 13
0
1
2 20
9
1
4
1
D 6
0 42 9859 0
6 53
6
4
1
0
3
0
0
1
5
3
0
0
1
C 1
1
0
0 9973 0
0
0
1
1
0
0
0
0
1
5
1
0
3
2
Q 3
9
4
5
0 9876 27
1 23
1
3
6
4
0
6
2
2
0
0
1
E 10
0
7 56
0 35 9865 4
2
3
1
4
1
0
3
4
2
0
1
2
G 21
1 12 11
1
3
7 9935 1
0
1
2
1
1
3 21
3
0
0
5
H 1
8 18
3
1 20
1
0 9912 0
1
1
0
2
3
1
1
1
4
1
I 2
2
3
1
2
1
2
0
0 9872 9
2 12
7
0
1
7
0
1 33
L 3
1
3
0
0
6
1
1
4 22 9947 2 45 13
3
1
3
4
2 15
K 2 37 25
6
0 12
7
2
2
4
1 9926 20
0
3
8 11
0
1
1
M 1
1
0
0
0
2
0
0
0
5
8
4 9874 1
0
1
2
0
0
4
F 1
1
1
0
0
0
0
1
2
8
6
0
4 9946 0
2
1
3 28
0
P 13
5
2
1
1
8
3
2
5
1
2
2
1
1 9926 12
4
0
0
2
S 28 11 34
7 11
4
6 16
2
2
1
7
4
3 17 9840 38
5
2
2
T 22
2 13
4
1
3
2
2
1 11
2
8
6
1
5 32 9871 0
2
9
W 0
2
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0 9976 1
0
Y 1
0
3
0
3
0
1
0
4
1
1
0
0 21
0
1
1
2 9945 1
V 13
2
1
1
3
2
2
3
3 57 11
1 17
1
3
2 10
0
2 9901
Верхняя строка – оригинальные а/к остатки, левый столбец – их эволюционные замены.
Элемент этой матрицы есть вероятность мутации а/к остатка в колонке «j» на остаток в «i» в
течении эволюционного времени в 1 PAM (1 Accepted Point Mutation per 100 amino acids).
Т.о., 0.56% вероятность того, что Asp будет мутирован на Glu. Все элементы матрицы умножены
на 10,000. (Fig. 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M. O. Dayhoff, ed.
National Biomedical Research Foundation, 1979.)
250 PAM evolutionary distance
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gly
His
Ile
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A 13
6
9
9
5
8
9 12
6
8
6
7
7
4 11 11 11
2
4
9
R 3 17
4
3
2
5
3
2
6
3
2
9
4
1
4
4
3
7
2
2
N 4
4
6
7
2
5
6
4
6
3
2
5
3
2
4
5
4
2
3
3
D 5
4
8 11
1
7 10
5
6
3
2
5
3
1
4
5
5
1
2
3
C 2
1
1
1 52
1
1
2
2
2
1
1
1
1
2
3
2
1
4
2
Q 3
5
5
6
1 10
7
3
7
2
3
5
3
1
4
3
3
1
2
3
E 5
4
7 11
1
9 12
5
6
3
2
5
3
1
4
5
5
1
2
3
G 12
5 10 10
4
7
9 27
5
5
4
6
5
3
8 11
9
2
3
7
H 2
5
5
4
2
7
4
2 15
2
2
3
2
2
3
3
2
2
3
2
I 3
2
2
2
2
2
2
2
2 10
6
2
6
5
2
3
4
1
3
9
L 6
4
4
3
2
6
4
3
5 15 34
4 20 13
5
4
6
6
7 13
K 6 18 10
8
2 10
8
5
8
5
4 24
9
2
6
8
8
4
3
5
M 1
1
1
1
0
1
1
1
1
2
3
2
6
2
1
1
1
1
1
2
F 2
1
2
1
1
1
1
1
3
5
6
1
4 32
1
2
2
4 20
3
P 7
5
5
4
3
5
4
5
5
3
3
4
3
2 20
6
5
1
2
4
S 9
6
8
7
7
6
7
9
6
5
4
7
5
3
9 10
9
4
4
6
T 8
5
6
6
4
5
5
6
4
6
4
6
5
3
6
8 11
2
3
6
W 0
2
0
0
0
0
0
0
1
0
1
0
0
1
0
1
0 55
1
0
Y 1
1
2
1
3
1
1
1
3
2
2
1
2 15
1
2
2
3 31
2
V 7
4
4
4
4
4
4
4
5
4 15 10
4 10
5
5
5 72
4 17
Элементы матрицы есть вероятности (x100) мутации а/к остатка из столбца “j” в
аминокислоту из строки “i” за время 250PAM. 13% вероятность Ala уцелеть за такой
эволюционный период на своѐм месте в последовательности.
По истечению 256PAM только одна аминокислота из пяти осталась бы неизменной.
48% Trp, 41%o Cys and 20% His сохранились, но только 7% Ser остались бы
неизменными на своѐм месте. (Fig. 83. Atlas of Protein Sequence and Structure, Suppl 3, 1978,
M. O. Dayhoff, ed. National Biomedical Research Foundation, 1979.)
BLOSUM матрица (Block Substitution Matrix) получена из анализа множественных
локальных (без разрывов и вставок) выравниваний тесно связанных
последовательностей (S. Henikoff and J. G. Henikoff (1992). Amino acid substitution
matrices from protein blocks. Proc. Natl. Acad. Sci. 89: 10915- 10919). BLOSUMxx –
матрица, полученная из анализа локальных выравниваний, с xx% идентичности.
1250000 замен использовалось при расчѐте вероятностей. Самая редкая замена
набдюдалась 2369 раз. Хорошая статистика.
Sij
ln(Mij/qiqj)
Рекомендации по использованию матриц весов
• PAM и BLOSUM матрицы более предпочтительны по сравнению
с единичной, генетической или физико-химическими матрицами;
• PAM250 (PAM256) рекомендуется как оптимальная матрица для
нахождения гомологов среди эволюционно разнесѐнных белков;
• При проведении локального выравнивания рекомендуется
использовать три матрицы PAM40, PAM120 и PAM250, младшие
PAM выявят короткие участки с высокой степенью идентичности,
старшие PAM матрицы выявят более протяжѐнные участки с
меньшей степенью идентичности;
• При поиске локального выравнивания с использованием
программы BLAST BLOSUM62 наиболее эффективна.
Стоимость вставок (gap, indel)
Sk
gap
= -a –b*(k-1) a,b >0, обычно b
a
Матрица сравнения двух последовательностей
ACFGSTVIQN и CFGHASTVQN
(единичная матрица весов замен)
A C F G S T V I Q N Основное требование к построение
C 0 1 0 0 0 0 0 0 0 0
F 0 0 1 0 0 0 0 0 0 0
G 0 0 0 1 0 0 0 0 0 0
H 0 0 0 0 0 0 0 0 0 0
A 1 0 0 0 0 0 0 0 0 0
S 0 0 0 0 1 0 0 0 0 0
T 0 0 0 0 0 1 0 0 0 0
V 0 0 0 0 0 0 1 0 0 0
Q 0 0 0 0 0 0 0 0 1 0
N 0 0 0 0 0 0 0 0 0 1
алгоритмов выравнивания – простота
программной реализации, умеренные
требования к ресурсам компьютера
и высокая скорость обработки
информации.
S.A. Needleman and C.D. Wunsch (1970, J.
Mol. Biol. 48:443).
Обработка матрицы сравнения (1ая фаза)
Направление обработки матрицы – из нижнего правого угла
в верхний левый.
A
C
F
G
S
T
V
I
Q
N
A
C
F
G
S
T
V
I
Q
N
C
0
1
0
0
0
0
0
0
0
0
C
0
1
0
0
0
0
2
2
1
0
F
0
0
1
0
0
0
0
0
0
0
F
0
0
1
0
0
0
2
2
1
0
G
0
0
0
1
0
0
0
0
0
0
G
0
0
0
1
0
0
2
2
1
0
H
0
0
0
0
0
0
0
0
0
0
H
0
0
0
0
0
0
2
2
1
0
A
1
0
0
0
0
0
0
0
0
0
A
1
0
0
0
0
0
2
2
1
0
S
0
0
0
0
1
0
0
0
0
0
S
0
0
0
0
5
0
2
2
1
0
T
0
0
0
0
0
1
0
0
0
0
T
3
3
3
3
3
4
2
2
1
0
V
0
0
0
0
0
0
1
0
0
0
V
2
2
2
2
2
2
3
2
1
0
Q
0
0
0
0
0
0
0
0
1
0
Q
1
1
1
1
1
1
1
1
2
0
N
0
0
0
0
0
0
0
0
0
1
N
0
0
0
0
0
0
0
0
0
1
Обработка матрицы сравнения (2ая фаза)
Обработанная матрица
A
C
F
G
S
T
V
I
Q
N
A
C
F
G
S
T
V
I
Q
N
C
7
8
6
5
4
3
2
2
1
0
C
7
8
6
5
4
3
2
2
1
0
F
6
6
7
5
4
3
2
2
1
0
F
6
6
7
5
4
3
2
2
1
0
G
5
5
5
6
4
3
2
2
1
0
G
5
5
5
6
4
3
2
2
1
0
H
5
5
5
5
4
3
2
2
1
0
H
5
5
5
5
4
3
2
2
1
0
A
6
5
5
5
4
3
2
2
1
0
A
6
5
5
5
4
3
2
2
1
0
S
4
4
4
4
5
3
2
2
1
0
S
4
4
4
4
5
3
2
2
1
0
T
3
3
3
3
3
4
2
2
1
0
T
3
3
3
3
3
4
2
2
1
0
V
2
2
2
2
2
2
3
2
1
0
V
2
2
2
2
2
2
3
2
1
0
Q
1
1
1
1
1
1
1
1
2
0
Q
1
1
1
1
1
1
1
1
2
0
N
0
0
0
0
0
0
0
0
0
1
N
0
0
0
0
0
0
0
0
0
1
Если максимальный элемент не найден на пересечении прилегающих частичных строке
и столбце, то вставляется разрыв (gap). Если максимальный элемент расположен n
ниже, то вставляется n разрывов в первую (горизонтальную) последовательность.
Штраф за разрыв (gap penalty) вычитается из элементов прилегающих строк и столбцов,
за исключением диагонального.
ACFG—-STVIQN
-CFGHASTV-QN
Проверка значимости выравнивания
Компьютерные методы строят выравнивания с максимальным попарным
совпадением последовательностей аминокислот (оптимизируют стоимость
выравнивания S). Насколько полученное выравнивание значимо, т.е. насколько оно
отображает эволюционную близость последовательностей (гомологичность)? Как
отделить значимое выравнивание от случайного, полученного случайным
совпадением коротких участков последовательностей?
Human alpha haemoglobin (141 aa) vs. Human myoglobin (153 aa) Score=179.
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQ
:: ..
: ..::::.:. ..:.:.: :.: . :.: . : .: .:.
..:..
GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASED
VKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLP
.: :: .: .::.. . . .. .....:.. :: : ..
....:.:.. .:... :
LKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHP
AEFTPAVHASLDKFLASVSTVLTSKYR-----..:.........: :. .. ..:.:.
GDFGADAQGAMNKALELFRKDMASNYKELGFQG
Chicken lysozyme (129 aa) vs. Bovine ribonuclease (124 aa) Score = 30.
KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS
: .
:: ..:. .:. . . .. :.....:. :.. . ... .. .. ....
KETA----AAKFERQHMDSSTSAASSSNYCNQMMKSRNLTKDRCKPVNTFVHESLADVQA
RWWCNDGRTP--GSRNLCNIPCSALLSSDITASVNCAKKIVSDGDGMNAWVAWRNRCKGT
:.. ... .... : ..:.. .: .. ...:
.. .. .:
:.:.
V--CSQKNVACKNGQTNCYQSYSTMSITDCRET-GSSKYPNCAYKTTQANKHIIVACEGN
DVQAWIRGCRL
.
. ..
PYVPVHFDASV
Статистическая проверка значимости попарного выравнивания
1. Случайным образом переставить буквы в одной или обеих
последовательностях
2. Провести выравнивание «переставленных» последовательностей
3. Вычислить стоимость этого выравнивания
4. Повторить шаги 1-3 много раз (10000) и построить распределение
стоимостей выравнивания.
Для белков в 100-200 аминокислотных остатков стоимость выравнивания (S)
превосходящее 15.0 S.D. (S.D. дисперсия значений стоимости выравнивания при
случайных перестановках последовательностей) свидетельствует о почти
«идеальном» выравнивании, если S > 5.0 S.D., то можно говорить о «хорошем»
выравнивании, при котором более 70% остатков вторичной структуры выравнены
корректно. Выравнивания со стоимостью менее 5.0 S.D. ненадѐжны.
Поиск гомологичных последовательностей
• Задана последовательность :
SVKMSCKASGITLAYFIFSWVKQRSGQGLEWIGEIYPGSGRVFYNENFRGKATL
TADISSNIAHMQLSSLTSDDSAVYICA требуется найти белковую
последовательность, которая содержит этот полипептид:
• Идѐм на http://us.expasy.org -> Similarity searches [BLAST] -> BLAST
(http://us.expasy.org/tools/blast/)
• Анализируем результат. Особое внимание надо обратить на величины
Score (S) и Expect (E). Величина E ( а точнее 1.0 –exp(-E) ) равна
вероятности того, что в результате поиска в банке последовательностей
будет найдено по крайней мере одно парное локальное выравнивание со
значением оценки выше S, сформированное случайным образом.
Фактически величина E характеризует достоверность выравнивания – чем
она меньше, тем более достоверно выравнивание. Короткие участки в
выравнивании с низким значением процента идентичности
характеризуются большими значениями E, т.е. высока вероятность того,
что они случайны.
• BLAST (Basic Local Alignment Search Tool) позволяет находить локальные
выравнивания. FASTA алгоритм строит глобальные выравнивания.
Оценка достоверности локального выравнивания (BLAST)
Предположим, что нами получено локальное (без пробелов) парное
выравнивание двух последовательностей длиной m и n остатков с
результатом (score) S. Какова вероятность того, что наше выравнивание
достоверное, т.е. не есть результат случайного сочетания букв в одной из
последовательностей? Было показано, что число локальных выравниваний
(высоко результативных пар/High-Scoring Segment Pairs/HSP) определяется
E значением для результата S (E-value for the score S) :
E = Kmn e-
S
K и есть некоторые параметры, определѐнные для метода поиска и
матрицы весов замены аминокислот (PAM или BLOSUM), элементы которых
в общем случае представимы в виде:
Sij = ln(Mij/qiqj)/
Где qi частота встречаемости аминокислотного остатка типа j, Mij
вероятности мутации аминокислотного остатка типа j в остаток типа i.
Оценка достоверности локального выравнивания (BLAST)
продолжение
Более осмысленно ввести битовое значение результата, определяемое по
формуле:
S’ = ( S – lnK) / ln(2)
Тогда для E значения получаем следующее выражение:
E = mn 2-S’
Вероятность отсутствия HSP с результатом не менее S равна exp(-E).
Вероятность нахождения хотя бы одного HSP с результатом не менее S
определяется P значением (P-value)
P = 1 – e-E
Чем меньше эта величина, тем выше шанс, что выравнивание проявляет
истинную гомологию между последовательностями, а не является
результатом случайного выпадения символов в последовательности.
При поиске по базам данных последовательностей m длина задаваемой
цепочки, n количество аминокислот во всей базе данных.
Множественное выравнивание последовательностей
Необходимость проведения множественных выравниваний
• Нахождение сходных участков последовательностей для целых семейств белков
(diagnostic patterns);
• Демонстрация гомологии;
• Предсказание участков вторичной и третичной структуры белков;
• Поиск праймеров для проведении PCR (полимеразная цепная реакция)
экспериментов;
• Наглядная информация при проведении эволюционных исследований
Простое обобщение методов парных
выравниваний на несколько а/к
последовательностей (>8) приводит к
неразумным требованиям на
используемые компьютерные ресурсы
http://www.techfak.uni-bielefeld.de/bcd/Curric/MulAli/mulali.html
Прогрессивный (эвристический) метод множественного выравнивания
•гомологичные последовательности
эволюционно связаны. В качестве
старта использовать набор парных
выравниваний.
• Сначала выровнять наиболее
близкие последовательности, а
затем, постепенно, добавлять в это
выравнивание удалѐнные
последовательности.
Этот метод работает в большинстве
типичных случаев случаев (при
степени идентичности
последовательностей более 25%) и
реализован в методе
множественного выравнивания
ClustalW (Thompson, Higgins &
Gibson, 1994, Nucleic Acids
Research, 22, pp. 4673-4680).
http://geoff.biop.ox.ac.uk/papers/rev93_1/Figure5.ps
ClustalW алгоритм
1. Построение всех парных выравниваний и
дистанционной матрицы (расстояние между
двумя последовательностями ~ 1.0-identity)
2. Построение направляющего дерева
(дендрограммы), т.е. определение групп
близких последовательностей и топологии их
связности
3. Прогрессивное выравнивание групп
последовательностей. Выравнивание
профиль/последовательность и
профиль/профиль
Особенности ClustalW
1. Каждой последовательности присваивается еѐ
вес, пропорциональной еѐ «уникальности»
2. В процессе прогрессивного выравнивания
используются различные матрицы весов а/к
замен в соответствие с «удалѐнностью»
последовательностей друг от друга
3. Стоимость вставок варьируется в зависимости
от позиции и меньше в участках, претендующих
на роль петель (области гидрофильных а/к
остатков)
4. Стоимость «ранних» вставок понижается при
последующих выравниваниях, что способствует
появлению новых разрывов в этих областях
Множественное выравнивание последовательностей
cериновыx протеазx His57-Asp 102-Ser195
CTRB_HUMAN
CTR2_CANFA
CTRB_BOVIN
CTRB_RAT
CTRA_BOVIN
CTRA_GADMO
CTRL_HUMAN
TRY2_BOVIN
TRY2_CANFA
TRY1_HUMAN
TRY1_RAT
TRY2_RAT
TRY1_CANFA
TRY1_BOVIN
TRYP_PIG
TRY2_XENLA
TRY1_XENLA
TRY1_CHICK
TRY2_CHICK
EL3B_HUMAN
EL3A_HUMAN
CAC3_BOVIN
EL2_MOUSE
EL2_RAT
EL2_PIG
EL2A_HUMAN
CLCR_HUMAN
WGRRITDVMICAG--ASGVSSCMGDSGGPLVCQKD-GAWTLVGIVSWGSWGSKITDLMVCAG--ASGVSSCMGDSGGPLVCQKD-GAWTLVGIVSWGSWGSRVTDVMICAG--ASGVSSCMGDSGGPLVCQKN-GAWTLAGIVSWGSWGSKITDVMTCAG--ASGVSSCMGDSGGPLVCQKD-GVWTLAGIVSWGSWGTKIKDAMICAG--ASGVSSCMGDSGGPLVCKKN-GAWTLVGIVSWGSWGNKISDLMICAG--AAGASSCMGDSGGPLVCQKA-GSWTLVGIVSWGSWGSSITDSMICAG--GAGASSCQGDSGGPLVCQKG-NTWVLIGIVSWGTYPGQITNNMICAGFLEGGKDSCQGDSGGPVACNG-----QLQGIVSWGYYPGQITENMICAGFLEGGKDSCQGDSGGPVVCNG-----ELQGIVSWGYYPGKITSNMFCVGFLEGGKDSCQGDSGGPVVCNG-----QLQGVVSWGDYPGEITSSMICVGFLEGGKDSCQGDSGGPVVCNG-----QLQGIVSWGYYPGKITDNMVCVGFLEGGKDSCQGDSGGPVVCNG-----ELQGIVSWGYYPGQISSNMMCLGYMEGGKDSCQGDSGGPVVCNG-----ELQGVVSWGAYPGQITSNMFCAGYLEGGKDSCQGDSGGPVVCSG-----KLQGIVSWGSYPGQITGNMICVGFLEGGKDSCQGDSGGPVVCNG-----QLQGIVSWGYYPGEITKNMFCAGFLAGGKDSCQGDSGGPVVCNG-----QLQGVVSWGYYPGEITANMICVGYMEGGKDSCQGDSGGPVVCNG-----QLQGVVSWGYYPGRITSNMICIGYLNGGKDSCQGDSGGPVVCNG-----QLQGIVSWGIYPGRITSNMICIGYLNGGKDSCQGDSGGPVVCNG-----QLQGFVSWGIWGSSVKKTMVCAG-GD-IRSGCNGDSGGPLNCPTEDGGWQVHGVTSFVSA
WGSTVKKTMVCAG-GY-IRSGCNGDSGGPLNCPTEDGGWQVHGVTSFVSG
WGITVKKTMVCAG-GD-TRSGCNGDSGGPLNCPAADGSWQVHGVTSFVSA
WGSSVKSSMVCAG-GDGVTSSCNGDSGGPLNCRASNGQWQVHGIVSFGSS
WGSSVKTNMVCAG-GDGVTSSCNGDSGGPLNCQASNGQWQVHGIVSFGST
WGSTVKTNMICAG-GDGIISSCNGDSGGPLNCQGANGQWQVHGIVSFGSS
WGSSVKTSMICAG-GDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFGSR
WGFRVKKTMVCAG-GDGVISACNGDSGGPLNCQLENGSWEVFGIVSFGSR
Структура бычьего химотрипсина (1ACB)
Структура центра связывания химотрипсина и трипсина
Дендрограмма (филогенетическое дерево) сериновых протеаз
Universal and Eukaryote Phylogenetic Trees Based on 16s rRNA
Mitchell L. Sogin (http://www.tolweb.org/)
Гомологическое моделирование третичной структуры
белка на основе первичной структуры
Стратегия построения пространственной структуры белков методом моделирования
по гомологиям:
 Определения круга гомологичных белков;
 Нахождение структурно-консервативных элементов в структуре гомологов (SCRs);
 Выравнивание последовательности модельного белка с последовательностями
гомологов, с учѐтом наличия SCR;
 Присвоение координат атомов остатков, входящих в SCR, соответствующим
атомам модельного белка согласно выравниванию;
 Предсказание конформации петель, соединяющих SCR, а также N- и С-концов
пептидной цепи белка;
 Поиск оптимальной конформации боковых остатков аминокислот модельного
белка, отличающихся от остатков опорного белка;
 Использование методов регуляризации структуры (энергетическая минимизация и
молекулярная динамика) для уточнения молекулярной структуры с целью устранения
стерических напряжений созданных при построении моделей.
Присвоение координат атомов
В первую очередь присваиваются координаты атомам полипептидной цепи.
Затем присваиваются координаты атомам боковых цепей. Благоприятный случай,
когда аминокислота модельного белка совпадает с соответствующей кислотой белкагомолога. В этом случае конформация боковой цепи остаѐтся неизменной. Если
боковая цепь аминокислоты модельного белка короче, чем соответствующая цепь
аминокислоты гомолога, более короткая цепь повторяет насколько это возможно более
длинную (торсионные углы одинаковы). Если же аминокислота модельного белка
более длинная, то начальный ход повторяет ход боковой цепи в белке-гомологе, а
последующие атомы цепи помещаются в развѐрнутую (extended) конформацию,
вероятно вызывая сильные напряжения в структуре модельного белка.
Поиск конформации соединяющих петель
После того, как присвоены координаты
атомам, составляющим петли, мы имеем
модельную структуру, которая нуждается в
приведении еѐ в соответствие со
следующими требованиями:
 Геометрия пептидной цепи модельной
структуры должна быть регулярной (трансконформация пептидных групп, близкие к
равновесным значения валентных углов и
дли связей);
 Атомы не должны перекрываться, т.е.
расстояния между несвязанными атомами
не должны быть существенно меньше, чем
сумма их ван-дер-ваальсовских радиусов;
 Боковые цепи аминокислот должны
находиться в равновесной конфигурации;
Если в молекуле имеются дисульфидные
мостики (Cys-Cys связи), то расстояния
между соответствующими атомами серы
должны быть приведены в соответствие с
геометрией;
 В структуру должны быть помещены
необходимые простетические группы.
Построение пространственной структуры D-amino-acid
oxidase из Trigonopsis variabilis (Yeast)
В качестве опорного белка была использована пространственная структура D-Amino
Acid Oxidase из Rhodotorula gracilis (PDB идентификатор 1C0L)
Типичная процедура регуляризации модельной структуры белка
1.
2.
3.
4.
5.
6.
7.
Энергетическая минимизация участков сочленения SCR и петель с упором на
восстановление нормальной геометрии пептидных связей;
Энергетическая минимизация пептидной цепи и боковых остатков петель;
Энергетическая минимизация боковых цепей аминокислот, принадлежащих SCR,
подвергшихся замене при присваивании координат;
Энергетическая минимизация всех боковых остатков белка;
Энергетическая минимизация (500-1000 шагов) всей структуры модельного белка;
Молекулярная динамика модельного белка в вакууме на протяжении 20-50 пикосекунд;
Финальная энергетическая минимизация структуры белка (200-500 шагов).
Результатом этой процедуры будет белковая структура с правильной стереохимией (длины
валентных связей и значения валентных углов не будут существенно отличаться от равновесных
значений), с отрицательной энергией несвязанных взаимодействий (свидетельство того, что не
наблюдается перекрытие ван-дер-ваальсовских радиусов атомов), с отрицательной энергией
электростатических взаимодействий (произошло сближение противоположно заряженных атомов)
и с ненулевой энергией водородных связей (в молекуле установились водородные связи).
Дальнейшая регуляризация структуры приведѐт к еѐ улучшению с точки зрения стереохимии, но
при этом возрастут искажения структуры активного центра (центра связывания) вашей структуры.
Модельная структура построена и отрелаксирована. Она обладает участками структурноконсервативных областей, унаследованных от белков гомологов, правильной стереохимией
(результат регуляризации). Дальнейшие манипуляции с этой структурой (подгонка геометрии
активного центра, точечные мутации) зависят от цели исследований. Полученную структуру
надо рассматривать как средство иллюстрации результатов вашей работы
(объяснения экспериментальных фактов, гипотезы).
Download