Моделирование третичной структуры крупнозернистых и

advertisement
Московский Государственный Университет имени М. В. Ломоносова
Факультет биоинженерии и биоинформатики
Моделирование третичной структуры
крупнозернистых и полноатомных РНК
дипломная работа
Выполнил:
студент 5 курса ФББ МГУ
Попов В.
Научный руководитель:
к. х. н. Головин А. В.
2012
Содержание
1. Аннотация.................................................................................................3
2. Обзор литературы ....................................................................................5
РНК: структурные особенности............................................................................6
Элементы вторичной структуры РНК ................................................................11
Мотивы третичной структуры РНК ....................................................................14
Методы моделирования РНК...............................................................................18
Моделирования вторичной структуры ...............................................................21
Программы, моделирующие третичную структуру ..........................................23
3. Методы исследования............................................................................25
Предыдущие работы лаборатории в данном направлении...............................25
Библиотека одноцепочечных фрагментов РНК .................................................25
Язык программирования Perl ..............................................................................28
Пакет программ для молекулярного моделирования Gromacs ........................28
Моделирование неканонических нуклеотидов..................................................30
Метод моделирования отжига .............................................................................30
Моделирование крупнозернистой модели РНК ................................................31
Моделирование полноатомной модели РНК......................................................32
4. Результаты работы и их обсуждение....................................................34
Моделирование рибозима типа hummerhead .....................................................35
Моделирование тРНК...........................................................................................38
Моделирование 5S субъединицы рРНК .............................................................40
Обсуждение результатов. Достоинства и недостатки. Перспективы ..............43
5. Выводы....................................................................................................47
6. Список цитируемой литературы ..........................................................48
2
1. Аннотация
Цель данной работы - моделирование полноатомных третичных структур
РНК. Важность предсказания таких структур состоит в понимании взаимосвязи
между структурными и функциональными особенностями РНК. В то время как
экспериментальные методы установления структуры являются дорогостоящими
и трудоемкими, становится не удивительным то постоянное внимание, которое
уделяется моделированию трехмерной структуры РНК in silico, особенно с
учетом возрастания возможностей вычислительное техники.
Моделированию третичной структуры РНК проводится на основании
знания вторичной структуры с использованием промежуточной
крупнозернистой модели, в которой каждый нуклеотид представлен одним
атомом фосфора. Конечно, в идеале было бы желательно основываться только
на первичной структуре и оценке ее энергии, но этого недостаточно для
разработки программы, воспроизводящей третичную структуру РНК. Более
того, знания только вторичной структуры зачастую недостаточно для точного
моделирования, так как она по сути представляет собой только информацию о
водородных связях в молекуле РНК. Но при этом вторичная структура ничего
не говорит о правильности участков в которых водородных связей нету.
Новизна данной работы заключается в том, что для решения проблемы
моделирования используются данные о структуре одноцепочечных участков
структур, находящихся в банке PDB, т. е. определенных с помощью методов
ЯМР или РСА. Такой подход позволяет моделировать одноцепочечные участки
с высокой точностью, т. к. одним из самых трудных трудных моментов в
предсказании третичной структуры РНК является именно моделирование
3
петель и хвостов. Также следует отметить значимость промежуточной
крупнозернистой структуры - ее использование позволяет существенно
экономить время на создание полноатомной модели, т. к. становится
возможным в реальном времени вносить коррективы в сам процесс
моделирования.
Помимо программного аспекта моделирования, в работе анализируются
основные факты из молекулярной биологии, которые связаны с образованием
вторичной и третичной структур РНК. Сравнение структур, полученных с
помощью написанной программы, со структурами из банка PDB, показывает
высокую точность модели, что говорит о качестве проделанной работы.
Результатом дипломной работы является общедоступный сервис, который
располагается в сети Интернет по адресу http://dualopt1.cmm.msu.ru:8080/ .
4
2. Обзор литературы
В настоящее время факт, что РНК является одной из основных
биологических макромолекул со множеством функций во всех этапах клеточной
жизни, является общепризнанным. Кроме широкоизвестных функций
информационной, транспортной и рибосомальной РНК, многие некодирующие
РНК, как известно, выполняют важные каталитические функции, которые
имеют решающие значение для выживания организма: так, малые
интерферирующие РНК принимают участие в процессах РНК-интерференции,
понижая экспрессию специфических генов1; транспортно-матричные РНК
участвуют в терминации трансляции неполных, не содержащих стоп-кодонов
мРНК или в случае, если на на участках мРНК содержится несколько идущих
подряд «редких» кодонов, что вызывает длительную задержку рибосомы2 .
Другие малые некодирующие РНК регулируют стабильность мРНК и
трансляцию с нее путем образования новых межнуклеотидных ковалентных пар
с мРНК3 , а микроРНК, как показали недавние исследования, могут быть
связаны с образованием опухолей, выступая в качестве опухолевых
супрессоров 4 или онкогенов 5.
Такое удивительное разнообразие форм и функций РНК может быть
использовано для биомедицинских и технологических исследованиях, в т.ч. при
разработке лекарств. Например, взаимосвязь РНК-интерференции и
сайленсинга генов в настоящее время используется в качестве инструмента для
разработки лекарств для противовирусной терапии6. Очевидно, что много
открытий в этой области еще впереди, учитывая множество некодирующих
транскриптов, постоянно открываемых в геноме человека. Функции многих
таких РНК еще не выявлены, поэтому, по всей видимости, все новые и новые
5
регуляторные механизмы будут открываться.
Структурные особенности РНК имеют важное значение в выполняемых
биологических функциях, потому что сама по себе последовательность не
может обеспечить достаточную функциональную информацию. Таким образом,
одной из целей в структурной биологии РНК является поиск ответа на вопрос:
как структура и динамика молекулы РНК приводит к таким специфическим
функциям, как в свободной форме, так и во взаимодействии с различными
молекулами в клетке?
РНК: структурные особенности
Молекула РНК является биополимером, мономер которого называется
(рибо)нуклеотидом. При полном гидролизе при нагревании в присутствии
хлорной кислоты рибонуклеиновых кислот в гидролизате обнаруживают
пуриновые и пиримидиновые основания, рибозу и фосфорную кислоту,
следовательно, каждый нуклеотид содержит 3 различных компонента: азотистое
основание, пятичленный сахар рибозу и остаток фосфорной кислоты. Пентозу
соединяет с основанием N-гликозидная связь, фосфатная группа соединяет
рибозы в цепочку, образуя связи с 3' атомом углерода одной рибозы и в 5'
положении другой. Мононуклеотиды могут образовываться при гидролизе РНК
в присутствии 3’- и 5’-экзонуклеаз 7. Соединение азотистого основания и
рибозы, или нуклеозид, легко образуется из мононуклеотида при
гидролитическом отщеплении фосфорной кислоты в присутствии щелочи или
при участии ферментов нуклеотидаз8. Фосфатные группы при физиологическом
рН отрицательно заряжены, поэтому РНК in vivo является полианионом9.
Полинуклеотидная цепь молекулы РНК имеет на одном конце почти
всегда свободный монофосфорный эфир, который принято обозначать как 5'конец; на противоположном конце цепи такой фосфат отсутствует, а содержится
нуклеотид со свободными 2'- и 3'-гидроксильными группами.
6
В соответствии с моделью Д. Уотсона и Ф. Крика, предложенной в 1953 г.
на основании ряда аналитических данных, а также методом РСА было
показано, что РНК транскрибируется как полимер четырёх оснований: аденина,
цитозина, гуанина и урацила. Однако, после процесса транскрипции возможны
химические модификации как сахара, так и азотистого основания. Всего в РНК
насчитывается около 100 разных видов таких модификаций нуклеотидов10
(только для тРНК список модифицированных оснований приближается к 5011),
причем наиболее частой модификацией сахара является метилирование в 2'-О
положение12. Из модификаций азотистых оснований можно отметить
псевдоуридин, который характеризуется С-гликозидной связью между урацилом
и рибозой, или гипоксантин, деаминированный гуанин, нуклеозид которого
носит название инозина. Доля модифицированных нуклеотидов может
составлять до 10% от числа всех нуклеотидов в молекуле13 .
Канонические азотистые основания: аденин, цитозин, гуанин, урацил (слева направо)
Неканонические азотистые основания: 5-метилцитозин, псевдоуридин, гипоксантин, 4тиоурацил (слева направо)
Рис. 1. Пример канонических и неканонических структурных элементов РНК
7
Для РНК характерны разнообразные пространственные структуры, в
которых азотистые основания одной и той же цепи могут взаимодейстовать
между собой в соответствии с правилами Чаргаффа14
15
путем образования
водородных связей: по 2 между аденином и урацилом и по 3 между цитозином
и гуанином (т. н. Уотсон-Криковские пары). Однако возможны и другие
взаимодействия: wobble-пары, обусловленные взаимодействием между
инозином и аденином, цитозином или урацилом, а также между гуанином и
урацилом; Хугстиновские взаимодействия, которые обусловлены
взаимодействие азотистых оснований в син- и анти- конформациях, в отличии
от канонических Уотсон-Криковских и wobble-пар, в которых азотистые
основания принимают только анти-конформацию. Положение сахара
относительно водородных связей между нуклеотидами позводяет различать
прямое и обратное взаимодействие. Следует отметить, что Хугстиновские пары
встречаются реже, чем другие типы взаимодействий. Длина водородных связей
между основаниями моежт меняться в диапазоне от 2,8 до 3,1 Å.
8
Уотсон-Криковские пары
Wobble- (слева) и Хугстиновское (справа) взаимодействия
Обратные взаимодействия: Уотсон-Криковское (слева) и wobble (справа)
Рис. 2. Примеры парных взаимодействий между нуклеотидами в РНК
Еще одним типом взаимодействий, стабилизирующим дуплекс, является
стекинг16, обусловленный межмолекулярным перекрыванием p-орбиталей
между π-сопряженными системами ароматичеких колец азотистых оснований.
9
При образовании дуплексного участка в РНК обе цепи полинуклеотидов в
имеют строго определенное пространственное расположение, при котором
азотистые основания находятся внутри, а фосфорильные и углеводные
компоненты - снаружи.
Двойная спираль - важный структурный элемент РНК. В отличии от ДНК,
которая может образовывать дуплексы нескольких типов, из которых самые
распространенные A-, B- и Z- формы, в молекулах РНК встречается спираль
только A-формы17 . Конформационная невыгодность образовании спирали типа
B-формы обусловлена наличием 2’-гидроксильной группы сахара у РНК18.
Существенным отличием А-формы от В-формы является то, что в А-форме
пары оснований сдвинуты к периферии спирали почти на половину её радиуса.
Большая бороздка при этом становится глубже и уже, а малая бороздка
оказывается шире и более плоской19 . Вторым следствием наличия 2'гидроксильной группы состоит в том, что эта гидроксильная группа может
взаимодейстовать с близлежащими остатками фосфорной кислоты и
образовывать новые связи в молекуле РНК20 .
10
Рис. 3. Схематичные модели дуплексов A-формы (слева) и B-форма (справа)
Элементы вторичной структуры РНК
Молекулы РНК представляют собой единичные полинуклеотидные цепи.
Отдельные участки молекулы РНК могут соединяться и образовывать двойные
спирали. Однако зачастую спаривание оснований бывает неполным, поэтому в
результате внутримолекулярной гибридизации оснований формируются
различные элементы вторичной структуры, например, стебли, петли и
псевдоузлы21 .
Выделяют следующие типы взаимодействий, определяющие вторичную
структуру РНК22:
-водородные связи;
-гидрофобные взаимодействия;
-электростатические взаимодействия;
11
-Ван-дер-Ваальсовы взаимодействия.
Вторичная структура биологических РНК часто может быть
единственным образом описана с использованием стеблей и петель. Зачастую
эти элементы или их комбинации могут быть классифицированы дальше: так,
выделяют тетралупы, псевдопетли, шпильки и другие элементы. Наиболее
распространённым элементом вторичной структуры РНК является двойная
спираль. Следует отметить, что 2’-гидроксильной группы сахара также может
являться причиной образования вторичных взаимодействий23 .
12
Одноцепочечный тяж
Дуплекс (спираль)
Спираль и обособленный
концевой нуклеотид
Выпетливание
Петля
Шпилька
Симметричные
выпетливания
Симметричные петли
Ассиметричные петля и
выпетливание
Соединение двух, трех и четырех спиральных элементов соответственно
Рис. 4. Примеры элементов вторичной структуры РНК
13
Широкоизвестным примером вторичной структуры РНК является модель
тРНК, предложенная Р. Холли24, плоское изображение которой напоминает
клеверный лист. В настоящее время, когда известна первичная структура
большинства тРНК, последовательность почти всех природных тРНК
укладывается в эту схему «клеверного листа»25.
Рис. 5. Модель вторичной структуры тРНК в виде клеверного листа
Мотивы третичной структуры РНК
«Рабочая» форма одноцепочечной молекулы РНК часто обладает
третичной структурой26, которая образуется на основе элементов вторичной
структуры. Выделяют 3 типа таких взаимодействий27:
-между спиральным и одноцепочечным участками;
-между двумя спиральными участками;
-между двумя одноцепочечными тяжами;
Простыми примерами третичных взаимодействий между элементами
вторичной структуры являются псевдопетли, т. н. kissing-взаимодействия между
двумя шпильками, а также взаимодействия шпилька-петля.
14
Любопытно, что дуплекс не является единственно возможным типом
спирали в РНК: помимо дуплексов, встречаются еще триплексы. В области
малой бороздки триплексы встречаются чаще, потому что конформация малой
бороздки геометрически и энергетически оптимально подходит для такого
взаимодействия между нуклеотидами28 .
псевдоузел
kissing-взаимодействие
шпилька-петля
Рис. 6. Примеры третичных взаимодействий между элементами вторичной структуры
Спиральные участки в РНК могут образовывать еще т. н. квадруплексы структуры, образованной четырьмя нуклеотидами, обычно остатками гуанина,
однако, встречаются и другие основания: аденин, цитозин и урацил.
Квадруплексы могут стабилизироваться водородными связями между
комбинациями Хугстиновских и Уотсон-Криковских нуклеотидный пар, а также
одновалентными катионами29 , чаще всего калия K+, которые располагаются в
центральном канале квадруплекса.
Одну из главных ролей в образовании и стабилизации третичной
структуры РНК играет коаксиальный (или спиральный) стекинг 30. Такой
стекинг образуется при взаимодействии нескольких близко расположенных
дуплексных элементов РНК, причем стабилизация такого взаимодействия
связана с образование стекинг-пар между различными спиралями31 . Впервые
коаксиальный стекинг был отмечен у тРНК32, также он свойственнен почти
всем видам молекул РНК33.
15
Различные катионы, как металлов, так и органические, также важны для
термодинамической стабилизации третичной структуры РНК34. Среди наиболее
значимых ионов можно отметить одновалентные: калия K+ и натрия Na+,
двувалентные: кальция Ca2+, магния Mg2+ и марганца Mn2+, органические
полиамины: спермидин и спермин35 . Роль катионов особенно важна в
электростатической стабилизации дуплексных участков, где сильны силы
отталкивания между отрицательно заряженными атомами фосфора36.
Выше представлены всего лишь несколько типов взаимодействий,
стабилизирующих третичную структуру РНК. Следует понимать, что
описанные мотивы получены на основе анализа уже расшифрованных структур
РНК, и, по всей видимости, следует ожидать описание новых взаимодействий,
важный для описания третичной структуры РНК.
16
CGC-триплекс (слева) и U4-квадруплекс (справа)
Стекинг-взаимодействие между различными дуплексами в молекуле тРНК
Рис. 7. Примеры взаимодействий, стабилизирующих третичную структуру РНК
17
Методы моделирования РНК
Проблема моделирования РНК имеет двоякий интерес: с одной стороны это практическое применение, основанное на предсказании третичной
структуры исходя из известной последовательности. С другой стороны академический интерес изучения фолдинга РНК. Актуальность моделирования
прежде всего связана с тем, что открытие все новых и новых молекул РНК
происходит быстрее, чем происходит определение их трехмерной структуры с
использованием методом ЯМР или РСА. Более того, можно и вовсе обойтись
без физических методов определения структуры, потому в лабораторных
условиях денатурированные РНК обратно ренатурируют37 , что показывает
однозначное соответствие между первичной и третичной структурами РНК.38
Существует два фундаментальных подхода к моделированию РНК:
первый - основан на понимании физико-химических процессов, лежащих в
основе фолдинга; второй подход использует данные трехмерного строения
других структурах, содержащихся в различных банках (базах) данных. В
частности, второй подход используют для прогнозирования строения
макромолекул при моделиронии процесса эволюции.
Предсказание структуры с использованием исключительно законов
физики и химии иногда называет также неэмпирическим, или ab initio, методом.
Данный подход основан на термодинамической гипотезе Амфинсена39 , согласно
которой нативная структура биомолекулы соответствует глобальному
минимуму свободной энергии системы. Соответственно, выдвигаемая модель
фолдинга сводится к имитированию конформационных изменений молекулы и
поиску конформации с величиной свободной энергии, близкой к значению
глобального минимума, где энергия каждой конформации рассчитывается как
сумма потенциальной энергии внутримолекулярных взаимодействий с энергией
взаимодействия макромолекулы с растворителем 40.
18
Метод ab initio имеет серьезные ограничения. Главную проблему в 1968 г.
установил Левинталь41, который отметил при исследовании фолдинга белков,
что если бы ренатурация, то есть сворачивание молекулы в конформацию с
минимумом свободной энергии, происходила бы случайно, то такое блуждание
по конформациям длилось бы очень долго. Такой аргумент Левинталя
действителен и для проблемы предсказания структуры РНК42. Следовательно,
для моделирования РНК возможны всего две стратегии: 1) либо сокращать
число анализируемых конформаций до приемливого уровня или 2) разработать
метод, который будет симулировать физико-химические процессы фолдинга,
которые происходят in vitro.
Полноатомная модель макромолекулы имеет большое количество
степеней свободы (3Nатомов-5), что делает практически невозможным прямой
поиск минимума энергии, т.к. функция, описывающая энергию молекулы, будет
являться функцией очень многих переменных, что делает практически
невозможной ее минимизацию, поверхность потенциальной энергии будет
обладать множеством локальных минимумов, что не позволяет сделать оценку
каждого локального минимума с целью определить один глобальный минимум.
Кроме того,некоторые компоненты функции свободной энергии системы
(например, энтропия) не могут быть подсчитаны точно, поэтому применение
неэмпирическиого метода оправдано лишь для небольших молекул. Однако,
можно существенно сократить число степеней свободы молекулы с
использованием крупнозернистой (coarse-grained) модели, в которой группа
атомов заменяется на один центр взаимодействия43. Еще одним преимуществом
крупнозернистой модели заключается в том, что ей соответствует более гладкая
поверхность потенциальной энергии, чем полноатомной модели, и из-за
меньшего числа локальных минимумов энергии вероятность попасть найти
глобальный минимум при моделировании увеличивается. Тем не менее
необходимо подчеркнуть, что подобные упрощения модели и функции энергии
молекулы обычно приводят к снижению точности моделирования: на
19
сегодняшний день нельзя ожидать правильности предсказания структуры и
энергии макромолекулы, состоящей более чем из 100 остатков.
Следует отметить, что современные методы ab initio моделирования в
принципе не способны рассчитать нативную конформацию РНК44. Это связано
с тем, например, что время образования структуры типа шпилька in vivo
составляет несколько микросекунд45, в то время как производительность
современных компьютеров для рассчетов полноатомных структур длиной
порядка 100 нуклеотидов в приемлимое время недостаточно. Конечно, можно
увеличить время итерации при моделировании, однако, это чревато заметным
ухудшением результирующей структуры.
Дополнительной трудностью моделирования РНК, которая обычно
отсутствует при моделировании белков, является высокая плотность заряда в
молекуле46, а ионные взаимодействия играют большую роль в стабилизации
третичной структуры РНК47 , и игнорирование этого факта может негативно
сказаться на моделирование.
Другим подходом к моделированию является использование принципов
эволюции. Эволюционно-общие, или гомологичные, молекулы сохраняют ту же
третичную структуру48, несмотря на накопление расходящихся мутаций, также
структурные расхождения происходят намного медленее, чем изменение
последовательности, хотя эти два процесса тесно связаны между собой49 .
Сравнительных анализ РНК это и показал: вторичные и третичные структуры,
как правило, обладают большим постоянством, чем собственно
последовательность50 . Поэтому консервативные элементы структуры можно
использовать в качестве паттернов для моделирования.
Однако, и этот метод не лишен ограничений. Первое, с чем можно
столкнуться - это отсутствие структуры, которую можно использовать в
качестве шаблона. Кроме того, каждому нуклеотиду моделируемой молекулы
20
должен быть приведен в соответствие остаток в структуре-образце, но высокое
сходство последовательностей не является обязательным условием для
успешного применения гомологичного моделирования51 . Тем не менее,
зачастую высокая схожесть последовательности означает и схожесть самой
структуры. Еще одно ограничение связано с физико-химическим факторами
раствора (буфера), который использовался при установлении структуры52. Для
РНК это особенно важно, т.к. связывание катионов металлов является одним из
ключевых факторов для образования стабильной третичной структуры53.
Наибольший успех в моделировании достигается при совместном
использовании обоих подходов. Такой тип моделирования называется de novo
или гибридным моделированием. De novo моделирование имеет те же
недостатки, что и ab initio: высокие вычислительные затраты, трудность с
конформационным отбором. Тем не менее, до сих пор в таких «слепых» тестах
как CASP54, de novo моделирование выигрывает у обоих «чистых» подходов55.
В настоящем исследовании используется именно de novo моделирование.
Моделирования вторичной структуры
Получение правильной вторичной структуры РНК - первый этап на пути
успешного моделирования третичной структуры. Важность этого этапа состоит
в том, что именно верное определение элементов вторичной структуры РНК
позволит добиться биологически целесообразной третичной структуры, в
противном случае правильное моделирование третичной структуры
маловероятно.
Определение вторичной структуры РНК представляет собой задачу
нахождения всех канонических Уотсон-Криковских и неканонических пар
нуклеоитидов. За почти тридцать лет активного изучения вторичной структуры
РНК было разработано множество программных решений, которые используют
2 основных подхода: минимизации свободной энергии структуры с различными
21
термодинамическими параметрами, а также использование РНК с уже
известной вторичной структурой (гомология).
Считается, что нативная структура РНК соответствует минимуму
свободной энергии, поэтому программы для моделирования решают задачу
определения энергии вторичной структуры. Одной из первых программ,
работающих по такому принципу, была программа Mfold, разработанная в 1981
Цукером и Стиглером. В ее основе лежат динамические алгоритмы поиска
множества пар спаренных оснований, что приводит к минимуму свободной
энергии. Mfold использует термодинамические параметры, экспериментально
полученные при температуре ~37 oC. Затем эти параметры используются для
вычисления потенциальной энергии системы, которая аппроксимируется как
сумма независимых слагаемых, образованных энергией спаренных оснований и
одноцепочечных тяжей. Экспериментальное определение параметров не
позволяет с достаточной точностью использовать такой подход для все
вторичных структур, поэтому предлагаются различные модификации,
например, экспериментальные: при определение термодинамических
параметров провести 2’-ацилирование в сахаре РНК, что позволит избежать
непредвиденных вторичных образований в молекуле РНК.
Особым случаем является предсказание пседвоузлов, для которых
разрабатываются отдельные алгоритмы с использованием динамического
программирования, но, к сожалению, эти алгоритмы не являются
исчерпывающими, и их точность сильно падает при увеличении длины
последовательности. Важность правильного рассчета псевдоузлов чрезвычано
важна: вероятность их образования возрастает с увеличеним длины
последовательности. Также следует отметить, что в настоящее время еще не
разработан подход, количественно оценивающий вероятность ошибочного
моделирования вторичной структуры.
22
Информация о некоторых программах, моделирующих вторичную
структуру РНК, приведена в таблице 1. 56 57 58 59 60 61 62 63
Программа
Краткая информация
Ссылка
De novo моделирование
Mfold/UNAfold
Вторичная структура рассчитывается как структура с минимумом
свободной энергии, причем энергия вычисляется с использованием
экспериментальных термодинамических параметров.
56
RNAfold
В отличии от Mfold, рассчетной структуре не всегда соответствует
минимум свободной энергии. Считается, что энергия моделиремой
структура лежит вблизи минимума свободной энергии.
57
RNAstructure
Экспериментальный рассчет термодинамических параметров для
вычисления функции энергии может происходить с использованием
модифицированных молекул РНК, что теоретически дает более
точный результат, чем Mfold.
58
MPGAfold
Для прогнозирования возможного направления образования
вторичной структуры РНК используются генетические алгоритмы
вкупе с параллельным вычислением.
59
Kinefold
Для моделирования используется метод стохастической симуляции
фолдинга РНК; отдельныое внимание уделено псевдоузлам, для
рассчета которых используются топологические и геометрические
ограничения.
60
Pknots
Предсказание вторичной структуры с использованием
динамического программирования с аппроксимацией
термодинамических параметров для моделирования псевдоузлов.
61
Моделирование с использованием множественного выравнивания
RNAalifold
Построение вторичной структуры происходит на основе уже
известных вторичных структур РНК с использованием
множественного выравнивания, что позволяет определять
псевдоузлы.
62
Dynalign
Вторичная струкура моделируется не только с использованием
множественного выранивания, но также с оптимизацией свободной
энергии структуры.
63
Таблица 1. Краткая информация о некоторых доступных программах, моделирующих
вторичную структуру РНК.
Программы, моделирующие третичную структуру
В отличии от успехов, достигнутых в области моделирования структуры
белков, программы для моделирования третичной структуры РНК все еще
находятся на ранней стадии своего развития. В настоящее время такие
23
программы требуют ручной корректировки процесса моделирования, в
противном случае успешно моделируются лишь небольшие молекулы РНК.
Информация о некоторых программах, моделирующих третичную
структуру РНК, приведена в таблице 2. 64 65 66 67 68
Программа
Краткая информация
Ссылка
Программы, работающие в автоматическом режиме
iFoldRNA
Крупнозернистая трехатомная модель (по 1 атому на остаток
фосфорной кислоты, рибозу и азотистое основание) воссоздается
на основе вторичной структуры. В процессе моделирования
используется молекулярная динамика вкупе с силовым полем
собственной разработки.
64
FARNA
FARNA создавалась как подобие известнго сервиса de novo
моделирования белков Rosseta. Крупнозернистая одноатомная
модель моделируется на основе вторичной структуры с
используется метод Монте-Карло. При оптимизации структуры
могут использоваться данные о структуре большой субъединицы
рРНК.
65
NAST
Воссоздается крупнозернистая одноатомная модель, где псевдооснованию соответствует атом C3 на основе вторичной структуры
с возможным указанием третичных контактов. Для уточнения
модельной структуры могут использоваться данные расположения
C3 атомов из третичной структуры рибосомы
66
Программы, допускающие ручную корректировку
RNA2D3D
Программа воссоздает полноатомную третичную структуру на
основе вторичной. Возможно указание контактов для
моделирования коаксиального стекинга.
67
Assemble
Третичная структура РНК моделируется на основе вторичной
структуры. Отличительная черта программы - внесение
собственных данных, таких как дополнительные нуклеотидные
пары или торсионные углы.
68
Таблица 2. Краткая информация о некоторых доступных программах, моделирующих
третичную структуру РНК.
24
3. Методы исследования
Предыдущие работы лаборатории в данном направлении
В основе данного исследования лежат несколько работ, выполненных
ранее в лаборатории под руководством к. х. н. Головина А. В., из которых
особенно следует отметить дипломную работу 2008 г. по теме моделирования
крупнозернистых моделей РНК, выполненную Г. Спешиловым. Результатом
этой работы являлся сервис, который на основании вторичной структуры РНК
воспроизводил третичную крупнозернистую структуру. Однако, качество
моделирования, особенно одноцепочечных фрагментов, оставалось невысоким.
Библиотека одноцепочечных фрагментов РНК
Моделирование структур РНК происходит с учетом дистантных и
угловых ограничений в петлевых и хвостовых участках молекулы. Информация
об этих ограничениях берется из библиотеки одноцепочечных фрагментов РНК.
Данная библиотека была сгенерирована с использованием структур из банка
RNA STRAND69 и соответствующих им структур из банка RCSB PDB70 .
Банк RNA STRAND содержит информацию о вторичных структурах РНК.
Для работы были отобраны только те структуры РНК (в формате CT), которым
есть соответствующая третичная структура в банке RCSB PDB, причем
отбираются только те пары, которые описывают только молекулы РНК, но не
гибридные молекулы, например, РНК-ДНК или РНК-белок. Также критерием
выбора являлось количество остатков в структуре - оно должно быть более 20.
Количество таких структур оказалось равным 270.
25
Для анализа файла из банка RNA STRAND было условно представлено,
что в молекуле РНК есть только 3 элемента вторичной структуры: дуплексный
участок, петля (куда входят выпетливания, внутренние петли и мультипетли) и
хвост. Детектирование элементов вторичной структуры основано на анализе
CT файла - одного из вида представления вторичной структуры РНК. Такой
файл В CT файле есть указание на длину последовательности L, а также на
идентификатор соответствующей записи в банке PDB. Каждый нуклеотид
описывается одной строчкой. Первым символом является порядковый номер
нуклеотида в данной записи, далее - его обозначение, потом связанные с ним в
5’- 3’- положении соответственно, пятым символом описывается связанный
нуклеотид (или ставится 0, если связи нет), на последней позиции ставится
порядковый номер нуклеотида в исходной последовательности. Таким образом,
остаток, относящийся к дуплексу, на пятой позиции будет иметь значение,
отличное от нуля. Другие нуклеотиды будут образовывать одноцепочечные
элементы: находящиеся в начале или конце структуры - хвосты, остальные петли. Схематично пример такого анализа показан ниже:
26
# File PDB_00286.ct
# RNA SSTRAND database
# External source: RCSB Protein Data Bank 1A34
1
2
A
A
0
1
2
3
0
0
1
2
петля (хвост)
3
4
5
6
7
8
A
A
A
A
A
A
2
3
4
5
6
7
4
5
6
7
8
9
17
16
15
14
13
12
3
4
5
6
7
8
дуплекс
9 A
10 A
11 U
8
9
0
10
0
12
0
0
0
9
10
11
петля
12
13
14
15
16
17
U
U
U
U
U
U
11
12
13
14
15
16
13
14
15
16
17
18
8
7
6
5
4
3
12
13
14
15
16
17
дуплекс
18 U
19 U
20 U
17
18
19
19
20
0
0
0
0
18
19
20
петля (хвост)
Таблица 3. Анализ CT файла на наличие петлевых и дуплексных участков
Библиотека одноцепочечных фрагментов РНК представляет собой
множество файлов, содержащих следующую информацию об одноцепочечном
фрагменте крупнозернистой структуры РНК, где каждый нуклеотид
представлен только одним атомом фосфора:
1. Идентификаторы PDB и СТ, которые были использованы для
генерирования данного файла.
2. Тип одноцепочечного фрагмента: петля или хвост.
3. Начальный и конечный номера данного фрагмента в записи PDB,
который был использован для генерирования данного файла.
4. Нуклеотидная последовательность одноцепочечного элемента.
27
5. Нуклеотидная последовательность одноцепочечного элемента плюс по
два нуклеотида с 5’- и 3’- конца одноцепочечного элемента, относящиеся к
дуплексным элементам.
6. Нуклеотидная последовательность пар, относящихся к дуплексным
элементам одноцепочечного элемента.
7. Расстояние и углы между атомами фосфора, которые содержатся в
последовательности из п. 5.
Следует отметить, что отбирались только те петли, длина которых
превышала 3 остатка. Получившаяся библиотека содержит информацию о 233
одноцепочечных фрагментах.
Язык программирования Perl
Поскольку основная часть работы состоит в анализе текстовых файлов
(например, файлов структур из банка PDB или файлов топологии молекул), в
качестве основного языка программирования был выбран Perl. Также одним из
факторов выбора языка программирования являлся тот факт, кто базовые
модули программы уже были написаны именно на Perl.
Одним из преимуществ языка Perl является база сторонних модулей
CPAN для этого языка программирования. В частности, в реализованной
программе используются CPAN - модули Math::VectorReal и Math::MatrixReal
для работы с векторами и матрицами соответственно.
Пакет программ для молекулярного моделирования Gromacs
Моделирование молекул в данном исследовании осуществляется с
помощью пакета программ Gromacs71. Основным фактором выбора данного
пакета является более высокая скорость рассчета структуры анализируемой
28
молекулы по сравнению с другими программами для моделирования72 .
Возможность удобной работы с файлами структур (например, топологиями или
файлами PDB) также является преимуществом Gromacs.
Gromacs позволяет использовать различные силовые поля. В настоящей
работе используются силовые поля семейства AMBER73 , которые хорошо
зарекомендовали себя для моделирования нуклеиновых кислот и белков.
Пользователь может пользоваться не только готовыми силовыми полями, но и
изменять их характеристики. В частности, при моделировании стекингвзаимодействий в спиральных участках РНК используется модифицированное
силовое поле AMBER99SB, о чем более подробно написано ниже.
Возможность сравнения структур путем вычисления RMSD также
является одной из востребованных и полезных функций Gromacs.
Для минимизации энергии структур используется алгоритм L-BFGS74.
Идея данного алгоритма состоит в нахождения корня (нуля) функции энергии
системы, для которой число неизвестных переменных в случае РНК равно
3Nатомов-5, методом Ньютона75. Вычисление проходит с использованием
определителя Гессе (гессиана) матрицы вторых частных производных функции
энергии системы:
⎡
⎢
⎢
⎢
⎢
H( f ) = ⎢
⎢
⎢
⎢
⎢
⎢⎣
∂2 f
∂x12
∂2 f
∂x1x2
∂2 f
∂x2 x1
∂2 f
∂x22


∂ f
∂xn x1
∂ f
∂xn x2
2
2
∂2 f ⎤
⎥
∂x1xn ⎥
⎥
∂2 f ⎥

∂x2 xn ⎥
⎥


⎥
∂2 f ⎥
⎥

∂xn2 ⎥
⎦

Полное вычисление определителя матрицы Гессе является чрезвычайно
ресурсоемкой операцией, однако использование алгоритма L-BFGS упрощает
29
эту задачу, что в конечном счете позволяет найти искомый минимум энергии
системы.
Моделирование неканонических нуклеотидов
Следует отметить, что на данном этапе сервис не может моделировать
неканонические нуклеотиды. Это связано с тем, что запись вторичной
структуры в CT формате позволяет обозначить нуклеотид строчной или
заглавной буквой, т.е. указать на каноничность или неканоничность нуклеотида.
Поскольку строчная буква не определяет нуклеотид явно, то решено было
воссоздавать только аденин, цитозин, гуанин и урацил. Если в заданной
структуре был инозин, то при моделировании он будет заменен на аденин.
Любые нуклеотиды, заданные строчной буквой, т.е. являющиеся
неканоническими, будут заменены на канонические. Однако, такое ограничение
не распространяется на алгоритм поиска по библиотеке одноцепочечных
нуклеотидов, который различает строчную и заглавную букву нуклеотида.
Метод моделирования отжига
Для оптимизации геометрии моделируемой структуры используется
метод моделирования отжига (simulated annealing) 76. В пакете программ
Gromacs температура является кусочно линейной функцией, причем
температура системы не должна изменяться мгновенно (это может негативно
повлиять на результате моделирования), поэтому отжиг осуществляется путем
задания диапазона температур системы, а также скорости изменения
температуры. В алгоритме предполагается, что атомы уже выстроились в
структуру РНК, но ещё допустимы изменения положения отдельных атомов, а
также, что процесс протекает при постепенно понижающейся температуре.
Оптимизация положения происходит с некоторой вероятностью, причём
вероятность уменьшается с понижением температуры. Устойчивое положение
всех атомов в структуре соответствует минимуму энергии атомов, поэтому атом
30
либо переходит в состояние с меньшим уровнем энергии, либо остаётся на
месте, что в итоге обычно приводит к повышению качества структуры77 .
Моделирование отжига происходит при понижении температуры от 500 К
до 350 К (время перехода 1000 пс) и от 350 К до 273 К (время перехода 2000 пс).
Моделирование крупнозернистой модели РНК
Крупнозернистая модель РНК - это первый шаг на пути к созданию
полноатомной модели. Необходимость в такой “промежуточной” модели
обусловлена тем, что из-за несовершенства процесса моделирования
биомолекул результирующая структура может быть далека от реальности.
Поэтому первичное моделирование крупнозернистой модели может сократить
время на вычисление полноатомной модели за счет внесения корректив в сам
процесс вычислений. Важность крупнозернистой модели заключается в том,
что ей соответствует более гладкая поверхность потенциальной энергии, чем
полноатомной модели, и из-за меньшего числа локальных минимумов энергии
вероятность попасть найти глобальный минимум при моделировании
увеличивается.
Моделирования крупнозернистой модели можно разбить на два этапа. На
первом этапе происходит анализ входной структуры РНК в CT-формате и
построение плоской вторичной структуры РНК с использованием утилиты
sir_graph_ng из пакеты Mfold. На втором этапе происходит создание объемной
третичной структуры РНК, при этом пользователь может вручную указать
различные дистантные для модели. Такие пользовательские указания будут
использованы при генерировании файла топологии для пакета молекулярного
моделирования Gromacs.
31
Следует отметить, что структурные ограничения могут вводиться
пользователем не только вручную, - при моделировании может быть
использована библиотека одноцепочечных фрагментов РНК: программный
модуль работы с данной библиотекой автоматически определит
одноцепочечные участки во входной структуре и произведет поиск найденных
петлей по библиотеки и, в случае успешного поиска, вставит найденные
дистантные или угловые ограничения в файл топологии структуры.
Моделирование полноатомной модели РНК
Созданная крупнозернистая модель является “скелетом” из атомов
фосфора, на котором будут воссозданы нуклеотиды. Необходимые для этого
конформации нуклеотидов были взяты из модельного дуплекса РНК A-формы.
Полноатомная модель получается в два этапа. Первый этап - создание
“черновой” модели молекулы РНК: нуклеотиды последовательно
накладываются на фосфатный остов. Вторым этапом является оптимизация
получившейся ранее молекулы путем минимизации энергии с использованием
Gromacs. При этом пользователь может использовать метод моделирования
отжига, с помощью которого можно убрать незначительные неточности
моделирования, что в целом повысит качество результирующей структуры.
Особо следует отметить моделирование стекинг-взаимодействий и
водородных связей в спиральных участках молекулы. Стекинг оснований
задается через использование модифицированного силового поля AMBER99SB
путем увеличение в 5 раз параметра ε потенциала Леннард-Джонса между
взаимодействующими парами азотистых оснований (а точнее, между атомами
азота и углерода, которые образуют электронную π-систему данного азотистого
основания):
32
⎡⎛ σ ⎞ 12 ⎛ σ ⎞ 6 ⎤
Vlj = 4ε ⎢⎜ ⎟ − ⎜ ⎟ ⎥
⎝r⎠ ⎥
⎢⎣⎝ r ⎠
⎦.
Водородные связи в канонических Уотсон-Криковских парах аденинурацил и гуанин-цитозин, а также в wobble-паре гуанин-урацил задаются через
прямое указание дистантных ограничений между соответствующими атомами,
образующими водородную связь, при чем для большей точности в паре аденинурацил и гуанин-урацил используется три дистантных ограничения: двасобственно связанных в водородных связях и третье - между карбонильным
кислородом O4 урацила и углеродом C2 у аденина или азотом N2 у гуанина.
Дистантные и угловые ограничения, заданные для моделирования
крупнозернистой модели, используются и для моделирования полноатомной
модели.
В заключении можно отметить, что весь программный код написан для
работы в UNIX-совместимых операционных системах, однако, адаптация
данного кода для работы в других системах (в частности, семейства Windows)
не должна вызвать особых трудностей. Моделирование производится на
обычном компьютере со следующими характеристика: четырехядерный
процессор Intel Q6600 2.4 ГГц, размер оперативной памяти - 6 Гб ,
операционная система - Ubuntu Linux, причем моделирование является не
единственным процессом, который может быть запущен на этом компьютере.
33
4. Результаты работы и их обсуждение
Результатом дипломной работы является программа, моделирующая
полноатомную третичную структуру РНК на основе входной вторичной
структуры через образование промежуточной крупнозернистой модели.
Воспользоваться программой можно через веб-вервис по адресу http://
dualopt1.cmm.msu.ru:8080/.
Создание полноатомной третичной структуры происходит в несколько
этапов:
-получение плоской вторичной структуры на основе входных данных.
Минимизация энергии образованной вторичной структуры;
-анализ сгенерированной вторичной структуры, автоматический рассчет
третичных взаимодействий. Получение крупнозернистой третичной структуры
и минимизация ее энергии;
-достройка крупнозернистой модели до полноатомной с использованием
мономеров нуклеотидов. Автоматический рассчет взаимодействий между
нуклеотидами. Минимизация энергии полученной полноатомной третичной
структуры;
-оптимизация геометрии полученной полноатомной третичной структуры
методом моделирования отжига.
В качестве примера работы программы ниже будет приведено образцовое
моделирование нескольких структур, относящихся к различным видам РНК.
Это рибозим типа hummerhead, тРНК, а также 5S субъединица рРНК.
Вторичные структуры этих молекул есть в банке RNA STRAND, третичные
структуры для сравнения - в банке RSCB PDB.
34
Самым важным критерием оценки является биологическая точность
получившейся структуры. Количественно этот критерий можно оценить путем
вычисления RMSD между модельной третичной структурой и третичной
структурой, полученной экспериментальными методами. Также следует учесть
скорость моделирования (затраченное компьютерное время).
Моделирование рибозима типа hummerhead
Рибозимы - молекулы РНК, обладающие высокоспецифичной
ферментативной активностью, в т.ч. нуклеазной. В своем строение имеют
антисмысловые участки и участки, осуществляющие ферментативную
реакцию. Вторичная структура рибозимов типа hummerhead напоминает
головку молотка.
Для моделирования рибозима типа hummerhead были использована
вторичная структура RNA STRAND ID PDB_00693, соответствующая третичная
структура имеет PDB ID 1RMN. Длина последовательности равна 49 остаткам.
Рассмотрим отдельно каждый этап моделирования. На первом этапе
происходит рассчет вторичной структуры. Как видно из рисунка, вторичная
структура определена правильно, сходство с головкой молотка прослеживается:
Рис. 8. Модельная вторичная структура рибозима типа hummerhead
35
Правильная вторичная структура, а также использование библиотеки
одноцепочечных фрагментов РНК вкупе с ручным указанием третичных
контактов позволяет воссоздать крупнозернистую структуру:
Рис. 9. Сравнение крупнозернистых моделируемой и образцовой структур
рибозима типа hummerhead. Красным обозначен образец, голубым - модель
Как видно из сравнения с референсной структурой, ход остова РНК
смоделирован правильно, кроме положения части хвостового сегмента: его
структура предсказана также правильно, но его положение относительно всей
остальной молекулы предсказано недостаточно точно. Время моделирования - 3
с, RMSD между моделируемой и образцовой крупнозернистыми структурами
на данном этапе составляет 3.9 Å.
Последним этапом является воссоздание нуклеотидов на модельном
остове. Моделирование на данном этапе происходит без участия пользователя,
т. е. автоматически. Время моделирования - 65 мин (из них моделирование
отжига занимает 61 мин), RMSD между моделируемой и образцовой
полноатомными структурами на данном этапе составляет 7,1 Å.
36
Рис. 10. Сравнение полноатомных моделируемой и образцовой структур
рибозима типа hummerhead. Красным обозначен образец, голубым - модель
Моделирование структуры данного рибозима можно считать успешным.
Неточность расположения хвостового сегмента рибозима по всей видимости
связана со большим количеством атомов фосфора в центральной части
рибозима, что создает значительные силы отталкивания.
Как видно, у полноатомной модели есть неточности, связанные с
расположением отдельных нуклеотизодов. Это связано с неидеальностью
алгоритма достройки крупнозернистой модели до полноатомной. Но в целом,
взаимное положением петель и дуплексных участков правильное, что говорит о
высоком качестве получившейся модели.
37
Моделирование тРНК
тРНК - одноцепочечная РНК с характерной вторичной структурой типа
“кленовый лист”. Основная задача тРНК - транспортровка аминокислот к месту
синтеза белка - рибосоме, а также наращивание полипептидной цепи.
Для моделирования тРНК были использована вторичная структура RNA
STRAND ID PDB_00045, соответствующая третичная структура имеет PDB ID
1EHZ. Последовательность состоит из 76 остатков.
Рассмотрим отдельно каждый этап моделирования. На первом этапе
происходит рассчет вторичной структуры. Как видно из рисунка, вторичная
структура определена правильно, сходство со структурой типа “кленовый лист”
прослеживается:
Рис. 11. Модельная вторичная структура тРНК
Для моделирования крупнозернистой третичной структруры используется
библиотека одноцепочечных фрагментов РНК, а также указание третичных
контактов между петлями тРНК:
38
Рис. 12. Сравнение крупнозернистых моделируемой и образцовой структур
тРНК. Красным обозначен образец, голубым - модель
Исключительную важность при моделировании составляют петлевые
участки тРНК: T-петля является сайтом связывания с рибосомой, D-петля сайтом узнавания аминоацил-тРНК синтетазой, A-петля содержит антикодон.
Правильное взаимное расположение этих петлевых участков обеспечивает
нормальную работу рибосомального комплекса при трансляции.
Сравнивая структуры можно отметить, что получившаяся
крупнозернистая модель очень точно повторяет фосфатный остов нативной
молекулы: верно предсказаны все петли, а также взаимное расположение петель
и дуплексов тРНК друг относитально друга. Время моделирования - 4 с, RMSD
между моделируемой и образцовой крупнозернистыми структурами на данном
этапе составляет 3.7 Å.
Образование полноатомной модели происходит путем воссоздания
нуклеотидов на модельном остове крупнозернистой структуры. Время
моделирования - 83,5 мин (из них моделирование отжига занимает 81 мин),
RMSD между моделируемой и образцовой полноатомными структурами
составляет 5,2 Å.
39
Рис. 13. Сравнение полноатомных моделируемой и образцовой структур
тРНК. Красным обозначен образец, голубым - модель
Сравнение с референсной молекулой показывает, что полноатомная
структура тРНК смоделирована с высокой точностью. Как и при моделировании
рибозима, есть небольшие проблемы с воссозданием отдельных нуклеотидов:
их ориентация относительно других нуклеотидов немного искажена.
Моделирование 5S субъединицы рРНК
5S рРНК - самостоятельный тип рибосомной РНК, присущий рибосомам
всех известных организмов. Значение 5S рРНК-белкового комплекса
заключается в синхронизации работы функциональных центров рибосомы.
40
Для моделирования тРНК были использована вторичная структура RNA
STRAND ID PDB_00000, соответствующая третичная структура имеет PDB ID
0000. Последовательность состоит из 76 остатков.
Рассмотрим первый этап моделирования - рассчет вторичной структуры:
Рис. 15. Модельная вторичная структура 5S рРНК
Как видно из рисунка, вторичная структура содержит 4 петли,
образованных более чем 3 нуклеотидными остатками, а также 3 выпетливания.
Рассмотрим модельную крупнозернистую третичную структуру:
41
Рис. 13. Сравнение крупнозернистых моделируемой и образцовой структур
5S рРНК. Красным обозначен образец, голубым - модель
Как видно из сравнение, получившаяся модель не соответствует реальной
молекуле, RMSD между ними составляет 8,1 Å. Однако, ход боковых
ответвлений предсказан достаточно правильно - это видно при выравнивании
отдельных сегментов молекулы:
RMSD=0,7 Å
RMSD=3,1 Å
RMSD=1,1 Å
Рис. 13. Сравнение отдельных элементов крупнозернистых моделируемой и образцовой
структур 5S рРНК. Красным обозначен образец, голубым - модель
42
Можно заключить вывод, что неточность моделирования вызвана
неправильным взаимным положением сегментов 5S рРНК. Действительно, в
составе рибосомы 5S рРНК находится не обособленно, а во взаимодействии с
другими РНК, белками и катионами металлов, которые, по всей видимости, и
стабилизируют такое взаимное расположение отдельных сегментов третичной
структуру 5S рРНК. Также не удалось верно предсказать все третичные
взаимодейстивия, образованные петля и выпетливания, особенно в центральной
части структуры 5S рРНК. Поскольку воссоздать приемлимую
крупнозернистую модель не удалось, то достройка полноатомной модели не
производилась.
Обсуждение результатов. Достоинства и недостатки.
Перспективы
Следует отметить, что нельзя слепо оценивать качество моделируемой
структуры по величине RMSD при ее сравнение со структурой-образцом из
банка PDB, т. к.существует множество алгоритмов пространственного
сопоставления структур, величина RMSD при использовании которых может
значительно различаться.
Модельную структуру можно считать биологически значимой, если все ее
функциональные участки расположены правильно. Действительно, хвостовой
участок молекулы РНК обычно не имеет функционального значения, а его
положение может сильно колебаться, что может значительно влиять на
величину RMSD, однако, рассчитать положение хвостого участка тяжело,
потому что количество стабилизирующих его положение относительно всей
молекулы связей невелико.
Примеры моделирования показали высокую эффективность
использования связки крупнозернистой структуры и библиотеки
43
одноцепочечных фрагментов РНК как первого этапа на пути моделирования
крупнозернистой структуры. Однако, при воссоздании полноатомной модели
положение нуклеотидов не всегда верное. По всей видимости, это связано с
недостаточной точностью алгоритма достройки нуклеотидов на
крупнозернистой остове, поэтому в будущем данный алгоритм должен быть
доработан и уточнен, например, путем использования равновесной
молекулярной динамики.
Недостаточно точный результат моделирования отдельных элементов
структуры молекулы РКН может быть вызван тем, что мощность библиотеки
одноцепочечных элементов на сегодняшний день относительно невелика.
Увеличить количество записей можно, если использовать другие банки
вторичных и третичных структур РНК. Работа с такими банками требует
большой аккуратности: всегда стоит проверять их выдачу, поскольку она
является автоматизированной.
Также среди недостатков можно отметить, что данный сервис не может
воссоздавать неканонические нуклеотиды. Это связано с тем, что запись
вторичной структуры в CT формате позволяет обозначить нуклеотид строчной
или заглавной буквой. Поскольку такая запись не определяет
последовательность полностью, то решено было воссоздавать только аденин,
цитозин, гуанин и урацил. Если в заданной структуре был инозин, то при
моделировании он будет заменен на аденин. Любые нуклеотиды, заданные
строчной буквой, т.е. являющиеся неканоническими, будут заменены на
канонические. Такое ограничение можно обойти, если применять систему
согласованных обозначений нуклеотидов в анализе CT- и PDB- файлов, а также
файлов пакета молекулярной динамики Gromacs.
Несмотря на точность модельных структур, следует отметить, что они
далеко не равнозначны структурам, полученным методами ЯМР или РСА:
отсутствие различных лигандов, таких как ионы металлов или молекулы воды,
44
следует учитывать при использовании полученных структур в дальнейшей
работе.
Важно отметить, что анализ структур РНК с высоким разрешением,
полученный физическими методами исследования, позволил провести
идентификацию и классификацию вторичных и третичных мотивов РНК, что в
свою очередь крайне важно для разработки программ моделирования РНК. Для
успешного прогнозирования третичной структуры больших РНК (с длиной
последовательности более 100 нуклеотидов) важны методы предсказания
дальних контактов, которые играют большую роль в стабилизировании
третичной структуры РНК. Пример моделирования 5S рРНК наглядно показало
важность этой задачи. Другой возможной причиной возникших неточностей
при моделировании 5S рРНК являлся тот факт, что в рибосоме вся РНК
находится в виде магниевой соли, а катионы Mg2+ при моделировании не
использовались.
Качественное моделирование структур с использование данной
программы порой во многом зависит от третичных контактов, заданных
пользователем. Поэтому чем больше будет использовано таких контактов, и чем
более они будут значимы для правильного пространственного расположения
отдельных сегментов РНК, тем больше будет точность моделируемой молекулы.
Последними тенденциями в области моделирования структуры РНК
является автоматический поиск третичных контактов, но количество ошибок,
сделанных программами на основе таких алгоритмов, не предполагает
масштабного и безопасного использования такого поиска. Однако при
дальнейшем развитии данного сервиса для улучшения качества моделируемых
структур необходимо разрабатывать и внедрять в использование алгоритмы
поиска третичных взаимодействий.
45
Наверное, главным вектором развития данного сервиса является
моделирование не отдельных молекул РНК, различных комплексов: РНК-РНК,
РНК-ДНК, а также РНК-белковых. Хорошо известным примером таких
комплексов является рибосома. Важность моделирования таких комплексов
основана на недостаточной изученности детальной работы рибосомального
комплекса при трасляции, а также все более и более возрастающей значимости
РНК как эндогенного агента при лечении различных болезней, в том числе ВИЧ
или рак, что делает биологическое значение РНК более существенным, чем
когда-либо. Поэтому, в связи с всевозрастающим интересом биоинформатиков к
моделированию РНК в ближайшее время можно ожидать много интересных
решений в этой области.
46
5. Выводы
1. Создана библиотека структур одноцепочечных элементов для
использования при моделировании как крупнозернистых, так и полноатомных
моделей третичных структур РНК.
2. Реализован подход для воссоздания полноатоманых моделей РНК на
базе крупнозернистых с последующей оптимизацией.
3. Разработанные подходы реализованы в виде веб-сервиса по адресу
http://dualopt1.cmm.msu.ru:8080/ .
47
6. Список цитируемой литературы
1
Hannon GJ (2002). RNA interference. Nature 418: 244–51
2
Gillet R, Felden B (2001). Emerging views on tmRNA-mediated protein tagging and ribosome
rescue. Mol. Microbiol. 42: 879–85
3
Masse E, Gottesman S (2002). A small RNA regulates the expression of genes involved in iron
metabolism in Escherichia coli. Proc.Natl Acad.Sci.USA 99: 4620–5
4
Calin GA et al (2002). Frequent deletions and down-regulation of micro-RNA genes miR15 and
miR16 at 13q14 in chronic lymphocytic leukemia. Proc. Natl Acad. Sci. USA 99: 15524–9
5
Hayashita Y et al (2005). A polycistronic microRNA cluster, miR-17-92, is overexpressed in
human lung cancers and enhances cell proliferation. Cancer Res. 65: 9628–32
6
Haasnoot J, Berkhout B (2006). RNA interference:its useas antiviral therapy. Handb. Exp.
Pharmacol. 173: 117–50
7
D'Alessio G, Riordan JF (1997). Ribonucleases: Structures and Functions. Academic Press
8
Elson D (1965). Metabolism of nucleic acids (macromolecular DNA and RNA). Annu. Rev.
Biochem. 34: 449–86
9
Barciszewski J, Frederic B, Clark C (1999). RNA biochemistry and biotechnology. Springer. pp.
73–87
10
Söll D, Rajbhandary U (1995). TRNA: Structure, biosynthesis, and function. ASM Press
11
Levy M, Miller SL (1998). The stability of the RNA bases: Implications for the origin of life.
Proc. Natl. Acad. Sci. USA 95: 7933–7938
12
Kiss T (2001). Small nucleolar RNA-guided post-transcriptional modification of cellular RNAs.
The EMBO Journal 20: 3617–22
13 Adams
R, Knowler JT, Leader DP (1992). The Biochemistry of the Nucleic Acids. Chapman &
Hall
14
Chargaff E (1950). Chemical specificity of nucleic acids and mechanism of their enzymatic
degradation. Experientia 6 (6): 201–209
15
Rudner R, Karkas JD, Chargaff, E (1968). Separation of B. Subtilis DNA into complementary
strands. 3. Direct analysis. Proceedings of the National Academy of Sciences of the USA 60 (3):
921–2
16
Davis DR (1995). Stabilization of RNA stacking by pseudouridine. Nucleic Acids Res. 23(24):
5020–5026
48
17
Bailor MH, Musselman C, Hansen AL, Gulati K, Patel DJ, Al-Hashimi HM (2007).
Characterizing the relative orientation and dynamics of RNA A-form helices using NMR residual
dipolar couplings. Nat Protoc 2(6):1536-46.
18
Gesteland RF (2005). The RNA World, 3rd Edition. Ch. 15 Moore PB - The RNA Folding
Problem. Cold Spring Harbor Monograph Series
19
Hermann T, Patel DJ (2000). RNA bulges as architectural and recognition motifs. Structure 8(3):
47–54
20
Mikkola S, Nurmi K, Yousefi-Salakdeh E, Strömberg R, Lönnberg H (1999). The mechanism of
the metal ion promoted cleavage of RNA phosphodiester bonds involves a general acid catalysis by
the metal aquo ion on the departure of the leaving group. Perkin transactions 2 (8): 1619–26
21
Mathews DH, Disney MD, Childs JL, Schroeder SJ, Zuker M, Turner DH (2004). Incorporating
chemical modification constraints into a dynamic programming algorithm for prediction of RNA
secondary structure. Proc. Natl. Acad. Sci. USA 101 (19): 7287–92
22 Alberts
et al. (1994). The Molecular Biology of the Cell. Garland Science
23
Butcher SE, Pyle AM (2011). The Molecular Interactions That Stabilize RNA Tertiary Structure.
Accounts Of Chemical Research
24
Holley RW, Apgar J, Everett GA et al (1965). Structure of a ribonucleic Acid. Science 147
(3664): 1462–5.
25
Kinouchi M et al (2000). Detection of tRNA Based on the Cloverleaf Secondary Structure.
Genome Informatics 11: 301–302
26
Westhof E, Auffinger P (2000). RNA Tertiary Structure. John Wiley & Sons, Encyclopedia of
Analytical Chemistry, Meyers RA (Ed.): 5222–5232
27 Alberts
et al. (1994). The Molecular Biology of the Cell. Garland Science
28
Doherty EA, Batey RT, Masquida B, Doudna JA (2001). A universal mode of helix packing in
RNA. Nat. Struct. Biol. 8 (4): 339–43
29
Cheong C, Moore PB (1992). Solution structure of an unusually stable RNA tetraplex containing
G- and U-quartet structures. Biochemistry 31(36): 8406–14
30
Noller HF (2005). RNA structure: reading the ribosome. Science 309 (5740): 1508–14
31
Walter AE, Turner DH, Kim J, Lyttle MH, Müller P, Mathews DH, Zuker M (1994). Coaxial
stacking of helixes enhances binding of oligoribonucleotides and improves predictions of RNA
folding. Proc. Natl. Acad. Sci. U.S.A. 91 (20): 9218–22
32
Quigley GJ, Rich A (1976). Structural domains of transfer RNA molecules. Science 194 (4267):
796–806
33
Cate JH, Gooding AR, Podell E, Zhou K, Golden BL, Kundrot CE, Cech TR, Doudna JA (1996).
Principles of RNA packing. Science 273 (5282): 1678–85
34
Pyle AM (2002). Metal ions in the structure and function of RNA. J. Biol. Inorg. Chem. 7 (7–8):
679–90
49
35
Chroboczek J (1985). Interaction of spermidine with viral RNA and its influence on protein
synthesis. Plant Molecular Biology 1(4): 23-30
36
Morrow JR, Andolina CM (2012). Ch. 6. Spectroscopic Investigations of Lanthanide Ion Binding
to Nucleic Acids. Springer
37
Wetmur JG (1976). Hybridization and Renaturation Kinetics of Nucleic Acids. Annual Review of
Biophysics and Bioengineering 5: 337-361
Gesteland RF (2005). The RNA World, 3rd Edition. Ch. 15 Moore PB - The RNA Folding
Problem. Cold Spring Harbor Monograph Series
38
39 Anfinsen
CB (1973). Principles that govern the folding of protein chains. Science 181:223–230
40
Scheraga HA (1996). Recent developments in the theory of protein folding: searching for the
global energy minimum. Biophys Chem 59:329–39
41
Levinthal C (1968). Are there pathways for protein folding? Journal de Chimie Physique et de
Physico-Chimie Biologique 65: 44–45
42
Yakovlev SS, Borisov AN (2011). Goal seeking in the problem of folding RNA tertiary structures.
Automatic Control And Computer Sciences 45/1: 1-10
43
Tozzini V (2009). Multiscale modeling of proteins. Acc Chem Res
44
Hinchcliffe M (2011). In Silico Tools for Gene Discovery, Methods in Molecular Biology. Ch. 19
Bernhart SH - RNA Structure Prediction. Springer Science
45
Gesteland RF (2005). The RNA World, 3rd Edition. Ch. 15 Moore PB - The RNA Folding
Problem. Cold Spring Harbor Monograph Series
46
Braunlin WH (1995). NMR Studies of cation-binding environments on nucleic acids. Adv.
Biophys. Chem. 5: 89–139
47
Draper DE, Grilley D, Soto AM (2005). Ions and RNA Folding. Annu. Rev. Biophys. Biomol.
Struct. 34: 221–43
48
Tinoco I Jr, Bustamante C (1999). How RNA folds. J. Mol. Biol. 293: 271–81
49
Chothia C, Lesk AM (1986). The relation between the divergence of sequence and structure in
proteins. EMBO J 5:823–826
50
Wu M Jr, Tinoco I (1998). RNA folding causes secondary structure rearrangement. Proc. Natl
Acad. Sci. USA 95: 11555–60
51
Chothia C, Gerstein M (1997). Protein evolution. How far can sequences diverge? Nature
385:579–581
52
Kumar S, Ma B, Tsai CJ et al. (2000). Folding and binding cascades:dynamic landscapes and
population shifts. Protein Sci 9:10–19
53
Pyle AM (2002). Metal ions in the structure and function of RNA. J Biol Inorg Chem 7:679–690
54
Ben-David M, Noivirt-Brik O, Paz A et al (2009). Assessment of CASP8 structure predictions for
template free targets. Proteins 77: 50–65
50
55
Westhof E et al (2012). RNA-Puzzles: A CASP-like evaluation of RNA three-dimensional
structure prediction. RNA 18/4: 1-16
56
Zuker M, Stiegler P (1981). Optimal computer folding of large RNA sequences using
thermodynamics and auxiliary information. Nucleic Acids Res. 9: 133–48
57
Hofacker IL, Stadler PF (2006). Memory efficient folding algorithms for circular RNA secondary
structures. Bioinformatics 22: 1172–6
58
Mathews DH (2006). RNA secondary structure analysis using RNAstructure. Curr. Protoc.
Bioinform. chapter 12, p unit 12.6
59
Shapiro B A et al (2001). The massively parallel genetic algorithm for RNA folding: MIMD
implementation and population variation. Bioinformatics 17: 137–48
60
Xayaphoummine A, Bucher T, Isambert H (2005). Kinefold Web server for RNA/DNA folding
path and structure prediction including pseudoknots and knots. Nucleic Acids Res. 33: 605–10
61
Rivas E, Eddy SR (1999). A dynamic programming algorithm for RNA structure prediction
including pseudoknots. J. Mol. Biol. 285: 2053–68
62
Hofacker IL, Fekete M, Stadler PF (2002). Secondary structure prediction for aligned RNA
sequences. J. Mol. Biol. 319: 1059–66
63
Mathews D (2004). Predicting the secondary structure common to two RNA sequences with
Dynalign. Curr. Protoc. Bioinform. chapter 12, p unit 12.4
64
Sharma S, Ding F, Dokholyan NV (2008). iFoldRNA: three-dimensional RNA structure
prediction and folding. Bioinformatics 24: 1951–2
65
Das R, Baker D (2007). Automated de novo prediction of native-like RNA tertiary structures.
Proc. Natl Acad. Sci.USA 104: 14664–9
66
Jonikas MA et al (2009). Coarse-grained modeling of large RNA molecules with knowledgebased potentials and structural filters. RNA 15: 189–99
67
Martinez HM, Maizel JV Jr, Shapiro BA (2008). RNA2D3D: a program for generating, viewing,
and comparing 3-dimensional models of RNA. J. Biomol. Struct. Dyn. 25: 669–83
68
Jossinet F, Ludwig TE, Eric Westhof (2010). Assemble: an interactive graphical tool to analyze
and build RNA architectures at the 2D and 3D levels. Bioinformatics 26 (16): 2057-2059
69 Andronescu
M, Bereg V, Hoos HH, Condon A (2008). RNA STRAND: The RNA Secondary
Structure And Statistical Analysis Database. BMC Bioinformatics: 9(1):340
70
Berman HM et al. (2000). The Protein Data Bank Nucleic Acids Res. 28 (1): 235–242
71
Van Der Spoel D, Lindahl E, Hess B, Groenhof G, Mark AE, Berendsen HJ (2005). GROMACS:
fast, flexible, and free. J Comput Chem 26 (16): 1701–18
72
Hess B, Kutzner C, Van Der Spoel D, Lindahl E (2008). GROMACS 4: Algorithms for Highly
Efficient, Load-Balanced, and Scalable Molecular Simulation. J Chem Theory Comput 4 (2): 435
51
73
Chun W, Chowdhury S, Lee MC, Xiong G, Zhang WR, Cieplak P et al. (2003). A point-charge
force field for molecular mechanics simulations of proteins based on condensed-phase quantum
mechanical calculations. J Computational Chemistry 24 (16): 1999–2012
74
Byrd RH, Lu P, Nocedal J, Zhu C (1995). A Limited Memory Algorithm for Bound Constrained
Optimization. SIAM Journal on Scientific Computing 16 (5): 1190
75
Fletcher R (1987). Practical methods of optimization (2nd ed.). John Wiley & Sons
76
De Vicente J, Lanchares J, Hermida R (2003). Placement by thermodynamic simulated annealing.
Physics Letters 317 (5–6): 415–423
77
Press WH, Teukolsky SA, Vetterling WT, Flannery BP (2007). Simulated Annealing Methods.
Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press
52
Download