Формат PDB

advertisement
Формат PDB
… - формат, используемый для хранения информации о структуре макромолекул,
полученной с помощью методов X-Ray кристаллографии, NMR спектроскопии и криоэлектронной микроскопии.
Представляет собой текстовый файл в ASCII кодировке. Может содержать только
следующие символы:
пробельный символ
символ конца строки
Каждый файл содержит набор строк, длиной 80 символов. (80 символов и после них
обязательный символ конца строки. Программистам следует учитывать, что в разных
операционных системах символ конца строки может записываться по-разному.)
Записи
HEADER
Содержит уникальную информацию о макромолекуле.
1-6
11-50
51-59
63-66
“HEADER”
Класификация
Дата размещения файла. День когда
координаты были получены PDB.
ID файла, уникальный в рамках PDB
--String
Datetime ( DD-MM-YY)
String
SEQRES
1-6
8-10
12
14-17
20-22, 24-26,
28-30, … , 68-70
“SEQRES”
Номер записи SEQRES для текущего chain’a
Начинается с 1 и увеличивается для каждой
строчки данного chain’a. Сбрасывается на 1,
когда начинается новый chain’a.
ID chain’a
Количество остатков в CHAIN’e
Названия остатков
--Integer
Char
Integer
String
HELIX
SHEET
LINK
Данная запись описывает дисульфидные мостики и прочие подобные связи. Описывает
только те связи, которые нельзя выделить исходя из первичной структуры.
1-6
13-16
18-20
22
23-26
43-46
48-50
52
53-56
74-78
“LINK ”
Название 1ого атома в связи
Название 1ого остатка
ID 1ого CHAIN’a
Номер 1ого остатка в 1ом CHAIN’e
Название 2ого атома в связи
Название второго остатка
ID 2ого CHAIN’a
Номер 2ого остатка во 2ом CHAIN’e
Длина связи
--String
String
Char
Integer
String
String
Char
Integer
Real(5.2)
MODEL
Означает начало молекулы (ее части), когда в файле присутствует несколько молекул
одинаковой структуры или молекула разбита на части. Изначально использовалось для
хранения нескольких различных молекул в одном файле, однако сейчас используется
также для хранения частей одной молекулы, которые при определенных трансформациях
эту молекулу и составляют. Часто встречается в файлах, содержащих структуры,
полученные с помощью NMR спектрографии.
Используется только в том случае, если в файле более одной модели. Нумерация
начинается с 1 . Структура всех моделей должна быть одинакова. Максимальное число
атомов в модели – 99.999 .
Каждая MODEL должна закрываться ENDMDL .
1-6
11-14
“MODEL”
Номер модели
--integer
ATOM
Представляет атомные координаты для стандартных аминокислот и нуклеотидов. Также
содержит информацию о размере и температурный фактор. ( В кристаллографии
неточность в положении атомов повышается с неупорядоченностью кристалла.
Неупорядоченность бывает статическая и динамическая. Статическая
неупорядоченность проявляется, когда существует несколько различных конформаций,
каждая из которых является устойчивой. Динамическая неупорядоченность связана с
тепловым движением атома. ) Записи атомов для протеинов перечислены от амино- к
карбоксильному терминусу. Нуклеиновые кислоты перечисляются от 5” к 3” терминусу.
Конец записей ATOM для текущей аминокислоты завершается записью TER. У атомов
отсутствует уникальный идентификатор. Индексация может начинаться с любого числа.
1-6
7-11
13-16
18-20
22
23-26
31-38
39-46
47-54
55-60
61-66
77-78
X, Y, Z измеряются в ангстремах.
“ATOM”
Номер атома в рамках
текущей модели
Название атома
Название остатка
ID CHAIN’a
Номер остатка
X
Y
Z
Размер атома
Температурный фактор
Химический элемент
--Integer
String
String
Char
Integer
Real(8.3)
Real(8.3)
Real(8.3)
Real(6.2)
Real(6.2)
String
HETATM
1-6
7-11
13-16
18-20
22
23-26
31-38
39-46
47-54
55-60
61-66
77-78
“HETATM”
Номер атома в рамках текущей
модели
Название атома
Название остатка
ID CHAIN’a
Номер остатка
X
Y
Z
Размер атома
Температурный фактор
Химический элемент
--Integer
String
String
Char
Integer
Real(8.3)
Real(8.3)
Real(8.3)
Real(6.2)
Real(6.2)
String
Записи ATOM и HETATM очень похожи. Различие между ними в том, что традиционно записи
ATOM используют для обозначения атомов белков и нуклеиновых кислот. HETATM же
используется для обозначения атомов в маленьких молекулах.
Если температурный фактор не указан, то он равен 0, если нет записи ANISOU.
TER
Обозначает конец записей ATOM, HETATM для текущего chain’a.
ENDMDL
Обозначает конец записей для текущей MODEL.
CONECT
Связи между атомами одного chain’a, которые нельзя выделить исходя из первичной структуры.
Одна запись присоединяет не более 4 атомов к одному, указанному первым.
1-6
7-11
12-16
17-21
22-26
27-31
“CONECT”
Номер атома
Номера связанных с ним атомов
--integer
Integer
Integer
Integer
integer
Связи могут повторяться, а могут и не повторяться. Например, записи
CONECT
CONECT
CONECT
1
4
5
4
1
1
5
Эквивалентны между собой
CONECT
1
4
5
Download