Рис.9. База рецептов на сайте FoldIt.

advertisement
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В. ЛОМОНОСОВА
FoldIt-новый метод
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ
Работа студента 4-ого курса
Сливко-Кольчика Георгия
Оглавление
Введение. ..................................................................................................................................................... 2
Достижения FoldIT. ...................................................................................................................................... 3
Интрументы и возможности Foldit............................................................................................................. 5
Попытка сборки белка. .............................................................................................................................11
Выводы. ......................................................................................................................................................15
Список Литературы....................................................................................................................................16
1
Введение.
Одной из главных задач биоинформатики является построение и анализ
структур различных белков. Знание о структуры белка позволяет понять принцип
его работы, иногда функцию, а так же в создании новых лекарств и направленного
дизайна для улучшения работы фермента.
Существуют различные пути определения структуры белка: практические и
теоретические. Практические методы работают с самим белком. В основном
сейчас методами ренгеноструктурного анализа (РС) и ядерно-магнитного
резонанса (ЯМР). Структуры полученные этими методами получаются удачными,
однако, иногда встают проблемы, которые не позволяют пользоваться этими
методами (нельзя закристаллизовать белок или получение неточных структур).
Теоретические методы в свою очередь делятся на 2 категории: построение
структуры белка по гомологии с другим белком и построение структуры, зная его
только первичную последовательность (ab nitio). В случае в построении структуры
по гомологии нужен гомологичный белок, да еще и с известной структурой, а такое
есть не всегда.
Остановимся на методах ab nitio. Существует несколько программ, которые
позволяют построить белок только зная его последовательность: Rosseta, TASSER,
FoldIt. Ab nitio фолдинг проводится в специальном силовом поле (также
упрощённом по сравнению, например, с используемыми в молекулярной
динамике), оценивая огромное количество вариантов укладки сворачиваемой
молекулы по значению потенциальной энергии. Идентификация конформации,
значительно более «низкой» по потенциальной энергии, чем остальные, может
служить признаком конца поиска – аналогично тому, как нативная конформация
с некоторым отрывом отстоит от не свёрнутых промежуточных состояний. Так
считает, к примеру Rosetta 1. Похожий подход используется в программе TASSER 2,
где короткие структурные фрагменты собираются в специализированном силовом
поле, а результат (модель, предположительно близкая к нативной) выбирается
из ансамбля предсказаний с помощью идентификации наиболее плотного
структурного кластера – являющегося, по мнению исследователей, «гнездом»
физически реалистичных моделей. На сегодняшний день Rosetta является одним
из самых используемых теоретических методов. Однако и тут встречается
проблемы. Во-первых, Rosetta пока может сворачивать белки с длиной не больше
120 аминокислот. Во-вторых, программе нужно много вычислительных ресурсов.
Так например, предсказание структуры белка длиной 112 остатков с помощью
метода Rosetta потребовало использования суперкомпьютера и распределённой
сети Rosetta@Home из 70 000 персональных компьютеров 3. В-третьих, есть случаи,
когда Rosetta строила белки неправильно.
2
Создатели решили Rosetta решили, что компьютеру не хватает
человеческого пространственного мышления и интуиции. Поэтому они
предложили эту задачу решать людям и создали программу FoldIt. Чтобы все
люди, даже те которые мало знают о белках, могли решать эту трудоемкую задачу,
создатели превратили программу в красочную игру. Условия игры просты: дается
аминокислотная последовательность, и игрок крутит и вертит ее до тех пор, пока
она не приобретет оптимальную трехмерную структуру. Игроки судят об
оптимальности струры белка по балам, которые обозначают потенциальную
энергию структуры. Чем больше очков получит игрок, тем меньше потенциальная
энергия белка. Чтобы ввести в курс дела новичков, есть несколько тренировочных
задачек-пазлов, решая которые, можно разобраться в основах игры. Чтобы
подогреть активность участников, разработчики создали рейтинг лучших игроков.
Кроме того, решать задачи можно не только в одиночку, но и целой командой.
Достижения FoldIT.
Foldit работает с 2010года. За это время Foldit добился успехов в решении
некоторых задач.
Во-первых, FoldIt стали использовать для оптимизации и проверки уже
известных структур4. Авторы статьи поместили в программу нативную структуру
белка 2kpo предсказанную de novo. Они хотели оптимизировать структуру белка.
Через два часа после добавления белка в программу, структура была изменена
(Рис.1).
Рис.1. Оптимизация белка 2kpo [4]. Слева. Суперпозиция трех структур. Синий экспериментальная модель определенная ЯМР; Зеленый-лучшее предсказание FoldIT; Красныйначальная задача FoldIT. Средина. Процесс оптимизации структуры белка. Справа. Энергия
структуры в процессе решения задачи.
3
Интересно, что программа, которая предсказала эту структуру, попала в локальный
минимум потенциальной энергии белка и зациклилась там. Люди же, увидев
структуру белка, понимали, что ее можно оптимизировать, но для этого им сначала
пришлось сильно увеличить энергию структуры. Но впоследствии уже из
расплетенной структуры они сделали белок с меньшей потенциальной энергии,
чем было изначально. Этот пример показывает, как с помощью человеческой
интуиции можно оптимизировать структуры сделанные ЯМР и предсказанные de
novo. Но это не все успехи FoldIt.
Совсем недавно игрокам Foldit удалось определить 3D структуру белка, которую
более 10 лет не удавалось определить учёным – протеаза ретровируса
иммунодефицита обезьяны (M-PMV)5,6 (Рис.2).
У ученых был данные об рентгеноструктурном анализе, однако они не могли
решить фазовую проблему. Так же у них были результаты по ЯМР. Они решили
добавить одну из возможных структур в FoldIt. Поиск продолжался 3 недели - в
работе над этим белком принимало участие 600 человек из 41 команды сгенерировано 1.25 миллиона моделей из них учёными было отобрано 5000
наиболее "перспективных", которые тестировали, сравнивая с результатами
рентгеновской кристаллографии. Победила в итоге модель созданная командой
The Contenders, давшая почти идеальное совпадение с данными кристаллографии.
Рис.2. Процесс оптимизации структуры M-PMV. [5]a. График показывающий насколько хорошо
совпадает структура с экспериментальными данными. По оси Х отложено количество моделей. По
оси Y отложено логарифм-правдоподобия фазы полученной модели с экспериментальными
данными. b. Первое существенное изменение модели произведенное игроком spvincent (желтая
модель). Красная модель- Начальная ЯМР модель . Синяя модель- позже определенная структура
из кристала. с. Второе существенное изменение модели произведенное игроком grabhorn
(фиолетовая модель).d. Последнее существенное изменение модели произведенное игроком
mimi (зеленая модель).
4
Знания об этом белке могут помочь резко продвинуть исследования ВИЧ и найти
лекарство от СПИДа.
Интрументы и возможности Foldit.
Для решения различных проблем в Foldit представлено различные
инструменты. Но сначала познакомимся с интерфейсом и обозначениями(Рис3).
Рис.3 Интерфейс программы. [4]
1 — слишком близко расположенные атомы;
2 — водородная связь;
3 — гидрофобный аминокислотный остаток; поскольку он не защищен, на нём «висит» желтая
капелька;
4 — гидрофильный аминокислотный остаток;
5 — сегмент основной цепи, имеющий повышенную энергию и поэтому выделенный красным.
6 — «резинки», с помощью которых игроки могут управлять автоматическими инструментами;
7 — «замораживание» белкового основной цепи, сохраняющее данный участок неизменным при
изменениях других областей белка.
8 — панель, на которой показан текущий статус игрока, включая количество заработанных очков;
9 — список лучших игроков-одиночек и лучших команд;
10 — панель дополнительных инструментов и опций;
11 — чат для общения с другими игроками;
12 — «кулинарная книга» для создания новых автоматических инструментов, или «рецептов», по
работе с белком.
5
Итак главными инструментами, которыми пользуются игроки это wiggle и shake
(Рис. 4). Wiggle – градиентная минимизация структуры на подобии, которой
происходит Rosetta. В shake осуществляется комбинаторная укладка различных
ротамеров боковых групп. В некоторых случаях нужно сблизить структуры, тогда
нужно воспользоваться резинками (Рис.3-6). Так же можно регулировать жесткость
этих резинок в зависимости от того как близко должны быть структуры. Функция
freeze позволяет «заморозить» участок структуры, если кажется этот участок уже
сделан хорошо и дальше не хочется его портить
Рис.4. Основные функции связанные с движением белка.
Так же еще одной из важных инструментов является rebuild. Rebuild функция
выполняет фрагментарные вставки с петлями, для поиска различных свободных
областей для конформационных модификаций. Бывают случаи, когда есть
последовательность и структура гомологичной последовательности и тогда
создатели добавляют функцию выравнивания к задаче (Рис.5). Это достаточно
удобная функция т.к. прямо в программе можно производить выравнивание
последовательностей и выравнивание структур.
6
Рис.5. Меню выравнивания. Белок исследуемый изображен толстой цепью. Гомологичный белок
– тонкой цепью с шариками.
Все эти инструменты находились в режиме «движение»(pull mode). Так же игрокам
предоставляется еще три режима. В режиме «подписей»(note mode) игроки могут
делать подписи и заметки для удобства. Режим «структуры» (structure mode)
(Рис.6.) позволяет обозначать в последовательности вторичные структруры. В
последнем четвертом режиме «дизайна» можно добавлять/удалять
аминокислоты, а так же делать мутации (Рис.7).
7
Рис.6. Режим «структуры». Цепь можно заменить на альфа спираль, бета-лист или поворот
Рис.7. Режим дизайна. Остатки в голубом круге-гидрофильные, а в оранжевом-гидрофобные.
8
Чтобы сделать работу не полностью ручной есть полезная вещь, которая
называется «кулинарной книгой» (cookbook) (Рис 3-12). В сookbook можно писать
скрипты - «рецепты» (recipes) на второй внутренней версии языка Lua5 (Рис.8). Lua
является свободно распространяемым, с открытыми исходными текстами на языке
C. Удобство рецептов заключается в том, что каждый игрок может делиться
своими рецептами с другими игроками, добавляя рецепт в базу (Рис. 9). К тому же
можно оценивать скрипты, в последствии чего строится рейтинг самых популярных
рецептов. С помощью рецептов можно создавать новые алгоритмы для
построения структур de novo.
Рис. 8 Скрипт (рецепт) алгоритма Blue Fuse v1.1
Рис.9. База рецептов на сайте FoldIt.
9
Recipes - очень мощный инструмент. Это показывает одно исследование6. Авторы
решили посмотреть, какие рецепты используются чаще всего (Рис.10).
Рис.10. Список самых распространённых рецептов. [7]Цвет значит, как часто пользуется
этой программой тот или иной игрок.
Это оказались рецепты Blue Fuse v1.1 и Quake. Quake циклично упаковывает
боковые цепи и минимизирует углы боковых групп и основной цепи, повышая и
понижая силу ранее установленных резинок. Blue Fuse считается легче, чем Quake.
В Blue Fuse варьируется искусственная функция ограничения: сила отталкивающих
атом-атом взаимодействий. Тем самым циклично повышая и понижая укладку
боковых цепей и выполняя торсионную минимизацию.
Затем авторы обнаружили, что Blue Fuse v1.1
очень похож на протокол работы скрипта
Fast Relax для Rosetta. (Рис. 11)
Рис.11. Сходство протокола Fast Relax для Rosetta
и Blue Fuse для FoldIt [7]
С учетом того, что рецепты можно
просматривать и копировать, то есть
предположение, что можно
эволюционировать алгоритмы для
построения структур всем миром.
10
Попытка сборки белка.
У меня была поставлена задача собрать с помощью Foldit структуру
теоретического белка с длиной 100 аминокислотных остатков из Streptococcus
pneumonia.
Его FASTA:
>R0023 SP18154A, Streptococcus pneumoniae, 100 residues
MRAQSFFLTFSFIRSKIKLALNKGVLNMIEITYIDASKNERTVTFESYEDFERSQQACLIGVADYYPVQK
LTYKGHNLDYHGTYGDIFFYLMKQDLSQYN
Сначала нужно было добавить последовательность в FoldIt. Это оказалось нелегко.
В FoldIt изначально нет функции добавления своей последовательности. Для того
чтобы создать свою головоломку нужно создать свое «соревнование» (Contest).
Эта функция позволяет создать головоломку из определенного списка типов (всего
21). Как создается головоломка можно кидать друзьям/группам эту головоломку и
соревноваться. Для наших целей потребовался тип «Freestyle Design: Variable
Length». В этом типе мы можем вносить мутации в изначальную
последовательность, а так же удлинять и укорачивать цепь. При входе в свою
головоломку выдается последовательность из 57 аланинов. Сначала нужно
довести длину последовательности до 100 аминокислотных остатков с помощью
вставок в последовательность. К сожалению, другого способа я не нашел. Теперь
наша последовательность состоит из 100 аланинов. Теперь скачаем рецепт FASTA
Amino Setter. Он позволяет заменить все аланины начальной структуры на
аминокислоты из FASTA. Теперь появилась заготовка (Рис.12).
Рис. 12. Заготовка для
сбоки белка.
11
Теперь я решил привести в порядок вторичную структуру. Но для этого надо ее
сначала найти и наметить в структуре. Воспользуемся предсказателем вторичной
структуры Jpred. Программа выдала следующее (Рис. 13).
Рис. 13. Выдача Jpred.
Зная, где могут находится элементы вторичной структуры добавим их в Foldit. Для
этого воспользуемся рецептом TVdl set secondary Strucs 1.0. Он позволяет наметить
в последовательности элементы вторичной структуры с помощью structure mode
только автоматически. Затем я решил собрать две крайние альфа спирали (средняя
спираль на этом этапе не выходила спиралью). Для этого я заморозил все кроме
участков с альфа-спираями и включил для каждого участка rebuild. Получилось вот
что (Рис.14).
Рис. 14. Последовательность со свернутыми крайними альфа-спиралями.
12
Дальше я решил запустить Blue Fuse (раз он чаще всего используется). Quake я
решил оставить на потом. До того как запустить Blue Fuse, я посмотрел и решил что
все 4 бета – тяжа должны составлять бета-лист. Поэтому я сначала скрепил
последовательно тяжи резинками, а потом запустил Blue Fuse(Рис. 15). Интересно,
что у меня количество балов получилось достаточно много (9092), но однако мне
не нравится развернутая средняя спираль
Рис.15. Структура белка после Blue Fuse.
Надо исправить эту цепь. Поэтому я все заморозил кроме этого участка цепи и
воспользовался rebuild(Рис.16)
Рис.16. Rebuild средней
спирали. Количество балов
понизилась до нуля.
13
Спираль я сделал, но количество балов понизилось до нуля. Значит,
потенциальной энергии очень много и надо как-то уменьшать. Для этого я снова
запустил Blue Fuse. (Рис.17)
Рис.17. После второго запуска Blue Fuse.
Энергия снова понизилась. Однако количество балов сейчас никак было прежде
(9033 против бывших 9092). Я решил воспользоваться Quake, раз уж она сложнее
Blue Fuse (Рис.18)
14
Рис.18. Структура после Quake. Конечная структура.
Я решил остановится после Quake. Количество балов 9083. Для некоторых белков
максимум около 9500 (в основном 10000-11000), поэтому будем считать, что я
совсем чуть-чуть подошел к правильной структуре белка. У меня много пустого
пространства в белке, а так же есть гидрофобные остатки, которые смотрят наружу.
Из этого я делаю вывод, что до правильной структуры еще далеко, ноуспехи есть.
Выводы.
 Foldit новый и перспективный метод определения трехмерной структуры
белка
 Foldit легкая в понимании программа
 C помощью «рецептов» можно создавать новые алгоритмы для сборки белка
 Белок сложно собрать с нуля одному
 Нужно больше людей для решения такой задачи☺
15
Список Литературы
1) http://boinc.bakerlab.org/rosetta/
2) Zhang T., Skolnick J. (2004). Automated structure prediction of weakly homologous
proteins on a genomic scale. Proc. Natl. Acad. Sci. U.S.A. 101, 7594–7599
3) Qian B., Raman S., Das R., Bradley P., McCoy A.J., Read R.J., Baker D. (2007). Highresolution structure prediction and the crystallographic phase problem. Nature
4) Cooper S, Khatib F, Treuille A, Barbero J, Lee J, Beenen M, Leaver-Fay A, Baker D,
Popović Z, Players F. (2010); Predicting protein structures with a multiplayer online
game. Nature;466(7307):756-60.
5) Gilski M, Kazmierczyk M, Krzywda S, Zábranská H, Cooper S, Popović Z, Khatib F,
DiMaio F, Thompson J, Baker D, Pichová I, Jaskolski M.(2011);High-resolution
structure of a retroviral protease folded as a monomer. Acta Crystallogr D Biol
Crystallogr. 67(Pt 11):907-14
6) Khatib F, DiMaio F; Foldit Contenders Group; Foldit Void Crushers Group, Cooper S,
Kazmierczyk M, Gilski M, Krzywda S, Zabranska H, Pichova I, Thompson J, Popović Z,
Jaskolski M, Baker D. (2011); Crystal structure of a monomeric retroviral protease
solved by protein folding game players.; Nat Struct Mol Biol, 8(10):1175-7. doi:
10.1038/nsmb.2119
7) Khatib F, Cooper S, Tyka MD, Xu K, Makedon I, Popovic Z, Baker D, Players F. (2011);
Algorithm discovery by protein folding game players.; Proc Natl Acad Sci U S A.
108(47):18949-53
8) http://ru.wikiversity.org/wiki/FoldIt_Wiki
16
Download