Построение карт поверхностей спиральных

advertisement
Построение карт поверхностей
спиральных молекул биополимеров
белков и нуклеиновых кислот
Афанасьев О.А.1, Зрелов П.В.1, Иванов В.В.1,
Полозов Р.В.2, Степаненко В.А.1., Чиргадзе Ю.Н.3
1) Объединенный институт ядерных исследований, Лаборатория
информационных технологий
2) Институт теоретической и экспериментальной физики РАН
3) Институт белка РАН
Эта работа выполнена при поддержке гранта РФФИ 07-07-00234
Введение
В 60-х годах ХХ века были получены
первые данные о структуре белков на
уровне отдельных атомов. В 1971 г.
был основан Всемирный банк белков
(PDB), в который вошли 7 белков. В
настоящее время их число
превысило 50 тысяч. Эти данные
получают на основании дифракции
рентгеновских лучей на специально
выращенных кристаллах с точностью
1.5-2 А и записывают в виде PDBфайлов/1/. В дальнейшем эту
информацию представляют в виде
схем, 3-D моделей и карт.
Рис. 1,2. Результаты 3D моделирования
фрагмента молекулы ДНК.
Этих данных не только много но, они имеют сложную структуру: фрагменты,
цепочки, остатки, атомы. По этой причине важно иметь интерфейс для
выбора их цветовой раскраски, масштаба и угла зрения при любом способе
визуализации. Созданный комплекс программ картографирования
развивает идеи, ранее реализованную в программе Surface/2/ для
глобулярных белков на случай работы в 32-разрядных ОС Windows и Linux
для спиральных структур в цилиндрической проекции с использованием
вычислительной мощности среды распределенных вычислений из
нескольких сотен ПК/3/.
Табл.1 Статистика Всемирного банка PDB (июль 2009 г.)
Постановка задачи
ƒ - перенос программы Surface в единую среду Delphi/4/ OC
Windows и Lazarus/5/ в ОС SciLinux;
ƒ - ориентация атомов фрагмента вдоль оси Z и радиальное
проектирование их центров на поверхность цилиндра с
постоянными радиусами Ван-дер-Ваальса в заданном масштабе
карты;
ƒ Изменение логики работы прграммы и интерфейса меню для
работы с ДНК/РНК в цилиндрической проекции;
ƒ - выделение расчетной части программ картографирования и
перенос их в среду распределенных вычислений с целью
организации массового счета в пакетном режиме;
ƒ - разработка новых алгоритмов и написание программ
картографирования 2-цепочечнойДНК/РНК для построения
молекулярной поверхности атомов в районе бороздок
(дополнительно упорядочиваются атомы атомы из задней
полусферы с отрицательными расстояниями до оси Z );
ƒ - исследование возможности работы программами
картографирования а ОС SciLinux.
Методы решения
Перевод программы Surface для
картографирования глобулярных
(комочки) белков затруднялся
требованием сохранить все режимы
работы и интерфейс программы.
Недостаток Surface в том, что атомы
имеют разные размеры и сильные
искажения на карте в равновеликой
овальной проекции Аитова-Хаммера.
Гномонический вариант этой проекции
используется в астрономии.
Рис. 3. Система координат на карте в
проекции Аитова-Хаммера.
Рис. 4. Карта атомов глобулярного белка с
двумя ядрами (γ-кристиллин из хрусталика
глаза теленка).
Основные параметры
программы Surface:
-
до 20000 тысяч атомов;
до 1700 остатков;
До 100 надписей, меток и адресов
раскраски для полярных, заряженых и
атомов главной СА-цепи.
Масштабирование вырезанного
фрагмента карты, возможность
измерения расстояния между центрами
пары атомов в пространстве,
наложение двух карт, вращение вокруг
любой оси остались без изменений.
Уменьшили только Max число разбиений
сетки на карте до 1000.
Рис. 5. Пример наложения карты схемы САцепочки атомов на карту рельефа
поверхности глобулярного белка .
Рис. 6. Результат 3-D молелирования того же
фрагмента глобулярного белка с двумя
ядрами (γ-кристиллин из хрусталика глаза
теленка).
Дополнительно :
-была сделана визуализация СА-атомов на схеме модели;
- изменена раскраска атомов и оснований;
- сохранение карт белков сделали в сжатом JPG-формате, что
позволило в 7 раз меньше использовать места на диске.
- т.к. при большом числе атомов или мелком разбиении сетки на
карте программа требует больших вычислительных мощностей,
попытка использования Wine/6/ для запуска Windows программы
под ОС Linux без изменений (в режиме эмуляции) оказалась не
очень удачной, но доступной;
- программу можно запускать в любой папке с 32-разрядной
версией Windows или Linux при наличии только программы и файла
данных ( ранее с Dos Extender требовалось 5 файлов и в заданном
месте ).
Особенности картографирования
спирализованных белков, ДНК и РНК
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
- изменение ориентации фрагмента молекулы вдоль оси Z;
- выбор вместо атомов СА атомов фосфора Р для определения
координат центра тяжести по осям и радиуса окружающей сферы;
- ликвидация сильной зависимости формы атомов от расстояния;
- использование цилиндрической системы координат на карте вместо
проекции Аитова-Хаммера;
- возможность изменения масштаба карты вдоль оси Z;
- изменение меню программы, палитры и логики раскраски атомов.
Это связано с интерфейсом программы Surface, где координаты атомов
пересчитываются в правую обратную декартовую систему координат
(совпадающую с в центром моментов инерции по всем осям). Дальше с
помощью функций FP_to_XY и
XY_to_FP осуществляется переход
в сферическую систему координат или систему координат на карте
Аитова-Хаммера с масштабом сторон 1:2 с помощью массива
коэффициентов в узлах сетки размером N*(N+N). Это осуществляется в
процедуре TabCalc и позволяет упорядочивать атомы по их удаленности
от центра координат с учетом радиусов Ван-дер-Ваальса.
Схема построения
цилиндрической проекции
Формула перехода в сферическую систему координат
ƒ В этом случае координаты точки в Р(х,y) в проекции АитоваХаммера получаем по формулам (2) с учетом того, что Р(х0,y0) –
центр карты на экране дисплея, а целочисленные координаты
0<=x<=720; 0<=y<=360
ƒ соответствуют точкам на карте.
Пример построения и искажения равновеликой
проекции (Галл)
Рис. 7.
Рис. 8.
Вид искажений в равноугольной(Меркатор) и
равнопромежуточной (Кассини) проекциях на примере
карты Земли
Рис. 9.
Рис. 10.
Новая SC-проекция
Т.к. расстояния между атомами на карте вычисляются в X,Y,Zдекартовых координатах из массива, мы применили псевдоконформное преобразование первого типа для сферы на
прямоугольник с соотношением сторон 1:2 по формулам (3) в
предположении, что координаты всех атомов проецируются на
сферу ортогонально Z не из центра, а с постоянным шагом
вдоль оси Z вверх( зависит от числа разбиений сетки на сфере).
Мы назвали преобразование по формулам (3) SС-проекция
(Sphere to Cylinder). Первым в картографии комфорное
преобразование для участков Земли применил великий
Эйлер(1777 г.), такими также являются проекции Меркатера и
стереометрическая.
ƒ Как видно на рис. 11 и 12,
преобразование (3) сохраняет
углы во внутренней области
карты, имеет незначительные
искажения в верхней и нижней
ее частях, в сравнении с
известными в картографии
цилиндрическими проекциями.
По вертикальной шкале Z мы
имеем расстояния в
ангстремах, а по горизонтали –
угол поворота φ относительно
начального положения в
радиальной плоскости к оси Z.
ƒ
ƒ Рис.11. Результат SСпреобразования системы
координат.
ƒ Рис. 12. Вид карты рельефа
белкового комплекса ДНК в SСпроекции (со шкалой).
Масштабирование и сохранение формы
атомов на карте
Для сохранения округлой формы и размеров атомов
независимо от расстояния до оси Z и масштаба в
процедуру TabCalc были введены поправки на углы
видимости атома в горизонтальном и вертикальном
направлениях по формулам (4) и (5). Для этого в
двойном цикле ( с постоянным смещением по сетке
сферической проекции в вертикальном направлении и
с перебором по всем атомам молекулы в
ортогональном направлении к оси Z) производится
упорядочивание атомов в узлах выбранного слоя
сетки. Масштабирование карты по оси Z необходимо
для учета пропорций между размером атомов и всего
фрагмента с целью нанесения точной шкалы в
ангстремах. Для 1 витка В-ДНК обычно вводится
множитель scale=1,5.
Формулы для вычисления углов
где i ─ номер слоя сетки;
S ─ коэффициент масштабирования;
RS ─ радиус сферы вкруг фрагмента
r ─ радиальное расстояние атома до оси Z;
Zi = Z-координата, приведенная к заданному слою.
Радиусы атомов (Ван-дер-Ваальса) тоже изменяем
RA=RA * r * S/Rs.
Тогда, как и раньше, расстояние поверхности молекулы
в заданной точке сетки находится в цикле и
запоминается в массивах:
где
j ─ номер столбца сетки;
q ─ номер слоя сетки;
k ─ номер атома.
На рис.13 представлен один и
тот же фрагмент белка с
поворотом относительно оси
Y на 90 градусов в SCпроекции и в проекции
Аитова-Хаммера. Изменение
формы атомов вблизи оси Z
в SC-проекции дает
возможность исключить
экранирование больших
участков изображения.
Рис. 13. Карта белка в проекциях
Аитова-Хаммера (верхний
рис.) и SC-проекции с
поворотом относительно оси
Y на 90 градусов.
Рис. 14. Пример масштабирования карты В-ДНК с белком
(А) и увеличенный ее фрагмент с фоном (В). Цвет для
атомов белка в данном случае выбирался вручную.
А
В
Картографирование атомов в бороздках В-ДНК
позволяет проследить рельеф вдоль
молекулы относительно оси Z. Это
принципиально важно для изучения
промоторных участков на ДНК. Для этого
пришлось коренным образом переделать
процедуру ТabCalc еще раз. Это
обусловлено необходимостью
одновременного проецирования атомов из
выбранной точки на оси Z в прямом и
обратном направлении для каждого
радиального направления сетки. При этом
пришлось изменить значение «горизонта
видимости» с нулевого уровня в сторону
отрицательных значений и должным
образом проектировать атомы с обратных
направлений на сетку для компенсации
эффекта смещения их центров
относительно точки на оси Z (рис. 15). Это
увеличило время картографирования в
версии программы DNA-RNA-Z-groove
почти на 80 %.
С целью картографирования в сети
распределенных вычислений
ƒ для среды ОС SciLinux были выделены модули
программ для проведения основных расчетов в
пакетном режиме(без графического интерфейса)/4/.
ƒ Это организовано на основе скрипт-программ в ОС
Linux и с использованием временных файлов
программ картографирования с целью продолжения
работы в течение нескольких сеансов. Т.о. после
проведения массовых расчетов на нескольких сотнях
компьютеров в сети в течение короткого времени мы
получаем массив результатов для визуализации,
анализа и печати карт в последующих сеансах работы
на персональном компьютере. Таким образом были
созданы программы Prot-Z-compact и DNA-RNA-Zcompact. (Другой докладчик об этом подробно !)
Выводы и рекомендации
ƒ
ƒ
ƒ
ƒ
ƒ
- Созданный комплекс программ расширяет возможности исследования и
визуализации большого класса белковых комплексов на разных уровнях
(атомы, основания, цепочки, рельеф). По сути дела, биологи впервые
получили возможность изучать атомы поверхности молекул достаточно
сложной формы.
-Разработана методика и созданы программы ускорения процесса
картографирования в 32-разрядных версиях ОС Windows, Linux и в сети
распределенных вычислений.
-Создана оригинальная цилиндрическая SC-проекция, которая позволяет
изучать структуру спирализованных белков, ДНК и РНК.
- Впервые разработан алгоритм и программа визуализации атомов в
бороздках B-ДНК.
Дополнительно созданы диалоговые программы редактирования PDBфайлов с возможностью выбора цепочки и длины фрагмента
последовательности атомов.
Отладка программ производилась с использованием фрагментов разной
длины из PDB-файлов для белков, ДНК, РНК. Для картографирования двойной
спирали ДНК рекомендуется производить выравнивание по длине цепочек атомов
и иметь ввиду, что полный виток спирали наблюдается при наличии не менее 15
нуклеотидных последовательностей в каждой цепочке ДНК (порядка 300 атомов) .
В принципе, можно исследовать и фрагмент одной спирали, но не менее чем из 3-х
нуклеотидов. Это ограничение на длину фрагмента справедливо и для белков в
программах Surface2008, Prot-Z.
Благодарю за внимание !
Download