3. МОДЕЛИРОВАНИЕ СТРУКТУРЫ И ФУНКЦИИ БЕЛКОВ

advertisement
3. МОДЕЛИРОВАНИЕ СТРУКТУРЫ И ФУНКЦИИ БЕЛКОВ
(ИЦиГ СО РАН, ИВМиМГ СО РАН, МТЦ СО РАН, ИТФ СО РАН, ИМ СО РАН)
Цель работы - изучение принципов структурно-функциональной организации белков, природы
физического кода, определяющего взаимосвязи первичной и пространственной структурой белков,
моделирование и предсказание пространственной структуры и специфической функции белков по
аминокислотным последовательностям, изучение роли динамической подвижности и электростатических
взаимодействий в формировании пространственной структуры белков и их функционировании.
3.1 Создание баз данных по пространственной структуре и функции
белков
Белки являются базовыми элементами во всех молекулярно-генетических системах живых
организмов. За счет уникальной пространственной структуры они обеспечивают регуляцию экспрессии
генов, биосинтез, деградацию молекулярных компонент организмов и т.д. В составе различных
макромолекулярных комплексов, таких как РНК-полимеразы, сплайсомы и рибосомы белки
обеспечивают считывание информации от гена к белковой молекуле. В свою очередь, молекулы ДНК и
РНК для своего функционирования также должны иметь уникальную пространственную структуру.
Знание информации о пространственной структуре белков и механизмах их взаимодействия с ДНК и
РНК необходимо для решения широкого круга задач фармакологии, генной и белковой инженерии,
биотехнологии, искусственного синтеза молекулярно-генетических систем. Для решения задач,
связанных с белковым уровнем организации и функционирования генных сетей в системе GeneExpress
создан модуль FastProt.
Основными направлениями работ при разработке FastProt были:
создание формализованной базы данных пространственных структур на основе банка PDB;
создание дочерних баз данных;
создание программ анализа пространственных структур;
создание системы конвертации из базы PDB в новую базу ENPDB;
обеспечение программами визуализации молекул;
интеграция всех ресурсов в единую систему;
обеспечение доступа к системе через Интернет.
На рисунке приведена схема компьютерной системы FastProt по пространственным структурам ДНК,
РНК и белков. Система состоит из связанных между собой блоков. Ядром системы является база данных
пространственных структур EnPDB.
32
3.1.1 Ядро системы FastProt – база данных пространственных структур
Информация о пространственной структуре ДНК, РНК и белков накапливается в Protein Data Bank.
Этот банк данных является единственным в мире официальным источником научной информации об
известных пространственных структурах макромолекул. В PDB содержится информация об
аминокислотной последовательности белка, называемой первичной структурой (это последовательность
символов), информация о вторичной структуре белка (локальной укладке полипептидной цепи в
пространстве в виде альфа-спиралей и бета-нитей), а также информация о координатах атомов,
образующих этот белок. Типичный белок содержит до нескольких тысяч атомов, и для каждого из них
приводятся координаты X,Y,Z. Доступ к этой информации для некоммерческих организаций,
проводящих фундаментальные исследования, свободный и может быть осуществлен через Интернет.
Однако в период создания PDB число расшифрованных структур было невелико. В связи с этим в то
время не стояла задача автоматизированного поиска и доступа к информации по пространственным
структурам. Разработчики PDB сделали акцент на полноту представления структурных данных, методов
и условий экспериментов, при которых эти данные получены, а также функциональных особенностей
макромолекул. Структура же самой базы была выбрана наиболее оптимальной для первичного
накопления данных с учетом возможностей добавления новой информации. Например, информация для
разных макромолекул в PDB разнесена по отдельным файлам, кроме того, существует ряд
зарезервированных полей, которые, как предполагалось, обеспечат «эволюцию» базы вслед за
эволюцией экспериментальных и теоретических технологий извлечения новых знаний.
За последние несколько лет произошел качественный скачок техники синтеза, выделения и
кристаллизации биологических макромолекул. В результате чего увеличилось число расшифрованных
структур. В настоящее время число таких структур достигло более 10000 и продолжает расти,
увеличиваясь каждый год более чем в два раза. Обеспечение эффективного поиска в таких огромных
объемах данных возможно только при использовании современных компьютерных технологий. Одной из
таких технологий для поиска и доступа к молекулярно - биологическими базам данных является SRS.
Эффективное использование SRS напрямую зависит от степени формализации исходных данных.
Поэтому на первом этапе ставилась задача трансформации базы PDB в базу EnPDB, имеющую более
формализованную форму. Данная задача включала в себя следующие подзадачи:
классификация информации, содержащейся в PDB;
выделение значимой информации;
построение алгоритма преобразования;
реализация алгоритма в виде программы конвертации.
Кроме этого ставилась задача создания связей базы EnPDB с другими базами данных и задача
добавления новой информации, расширяющей возможности поиска.
3.1.2 Программы визуализации и анализа
Одной из проблем в использовании информации о пространственной структуре макромолекулы
заключается в том, что она не может быть осмыслена без вспомогательных программных средств.
Наиболее известной среди свободно распространяемых средств визуализации пространственных
структур является программа RasMol. С ее помощью пользователь может визуализировать отдельный
белок на своем компьютере, взяв запись из базы PDB. Таким образом, следующей задачей
осуществления проекта стояла задача интеграции EnPDB с программой визуализации RasMol.
Следует, однако, подчеркнуть, что при решении фундаментальных и практических задач
молекулярной биологии требуется получение гораздо более детальной информации о пространственной
структуре белков, чем просто ее отображение. Например, пользователя может интересовать вопрос о
наличии полостей в пространственной структуре белков. Его может интересовать картина распределения
положительно и отрицательно заряженных остатков на поверхности белков, наличие сходства между
пространственными структурами различных белков, особенности локального окружения активных
центров определенного типа. Информация об этих и многих десятках, если не сотнях, других
исключительно важных особенностей пространственной структуры белков в базе PDB отсутствует. В
связи с этим, ставилась задача разработки программ анализа пространственных структур и их
интеграции с базой EnPDB
Дочерние базы данных.
Следует еще раз особо подчеркнуть огромные объемы информации, уже накопленной в PDB. В
настоящее время суммарный объем файлов PDB составляет более 5 гигабайт. Ожидается, что при
имеющемся темпе роста этом объем данных уже через 10 лет может достигнуть одного терабайта. При
таких объёмах информации расчет одной характеристики из числа перечисленных ранее для всех белков
из PDB является исключительно затратной задачей, требующей многих часов, дней, или даже недель
вычислений на быстродействующих компьютерах. Поэтому, ещё одной важной задачей, которая
33
решалась нами в рамках настоящего проекта, являлось создание семейства дочерних баз данных и их
интеграция с EnPDB. Каждая из дочерних баз данных содержит информацию об отдельных особенностях
белков, хранящихся в EnPDB.
Комплементарные базы данных.
Следует подчеркнуть, что любой белок реально работает во вполне конкретном молекулярно генетическом окружении. Поэтому его функция может быть понята только в контексте той конкретной
клеточной и организменной ситуации, которая характерна для его функционирования. Так, для
понимания функционирования регуляторных белков, контролирующих транскрипцию генов, необходима
информация о сайтах связывания с ДНК. Например, функция ТВР-белка, играющего ключевую роль в
процессах инициации транскрипции, может быть понята только при одновременном рассмотрении
структуры этого белка и структуры соответствующего сайта связывания на ДНК (так называемого
ТАТА-бокса). При изучении механизмов функционирования этого белка требуется огромное количество
дополнительной информации, которая не содержится в базе данных PDB, в том числе информация об
изгибной жесткости того участка ДНК, с которым этот белок взаимодействует, а также об афинности
различных ТАТА-боксов к ТВР-белку. При изучении молекулярных механизмов функционирования
белков исключительно важной является информация о генных сетях, в составе которых эти белки
функционируют. Очень полезную информацию о функции белков дают такие базы данных, как SwissProt
и PIR ( Barker ). Эти базы данных предназначены для накопления информации о первичной структуре
белков и содержащихся в них функциональных сайтах. Не менее ценную дополнительную информацию
о белке можно получить, исследуя первичную структуру кодирующего его гена, которая накапливается в
базах данных EMBL и GeneBank. Наконец, для получения сведения об особенностях регуляции
экспреcсии гена, кодирующего определенный белок, исследователь может использовать базу данных
TRRD, также разрабатываемую в лаборатории Теоретической генетики ИЦиГ СО РАН.
Таким образом, одновременная работа пользователя - молекулярного биолога с большим
количеством баз данных, комплиментарных PDB, будет приводить к принципиально новому качеству
получаемых результатов. Поэтому, следующей важной задачей, решаемой в рамках проекта, была
интеграция базы данных EnPDB с комплиментарными ей базами данных, содержащими самую
разнообразную дополнительную информацию о структурно - функциональной организации
исследуемого белка и особенностях его функционирования в составе молекулярно - генетических систем
клеток.
В настоящее время нами получены первые результаты в перечисленных выше направлениях.
Использование SRS позволило нам быстро создать систему, включающую Интернет - доступный вариант
базы EnPDB, снабжённую средством визуализации пространственных структур, программой анализа
функционально - скоррелированных замен в белках и интегрированную с большим количеством
комплиментарных баз данных. Подробное описание о каждом элементе системы FastProt и перспективах
ее развития, как в целом, так и каждого из ее ресурсов дано ниже.
Применение SRS при создании FastProt.
SRS ( Sequence Retrieval System ) был разработан в Европейской молекулярно-генетической
лаборатории (EMBL), как комплекс программ для обеспечения индексирования, поиска, интеграции
молекулярно - генетических баз данных, а также для универсального доступа к ним. В настоящее время
более 100 основных молекулярно - генетических баз данных уже установлены под SRS. Доступ к
системе SRS осуществляется через Web-интерфейс с помощью браузера, например Internet Explorer или
Netscape Navigator.
В SRS используется объектно-ориентированный язык Icarus. При создании EnPDB на этом языке
описывалась структура базы данных, а именно были описаны поля базы данных, их названия и тип (
числовой, текстовый, идентификатор, дата ). С помощью программы на языке Icarus было проведено
индексирование данных и программировался внешний вид представления базы EnPDB для пользователя.
Индексы были созданы для 40 различных полей базы данных. Средства индексирования данных
позволяют осуществлять быстрый поиск. Исходные данные были расположены в одном текстового
файле, содержащем множество записей EnPDB. Гибкие средства SRS представления данных в виде
HTML-файла позволили нам выполнить интеграцию базы EnPDB на уровне гиперссылок с другими
комплиментарными базами данных и программами, включая программу визуализации пространственных
структур.
Аналогичная работа с помощью SRS проводилась и с другими базами в составе системы FastProt.
3.1.3 База данных EnPDB
Как уже отмечалось выше вся информация о пространственных структурах биологических
макромолекул ДНК, РНК и белков концентрируется в базе PDB. Для каждой макромолекулы в PDB
отводится одна запись, представленная в отдельном текстовом файле с именем, соответствующим ее
идентификатору в PDB. Каждая запись содержит широкий спектр характеристик экспериментов по
34
биологическому и химическому синтезу макромолекулы, описание ее биологической функции на
молекулярном, клеточном и организменном уровне, коллекцию координат атомов, входящих в состав
макромолекулы и другие функциональные и структурные характеристики.
Информацию, накапливаемую в PDB можно классифицировать следующим образом:
• Поисковая – не имеющая биологического смысла, но однозначно определяющая один вход либо их
некоторое число, например, идентификатор записи, дата создания записи и т.д.;
• Поисково-описательная – перечислимая, лаконично выраженная, имеющая биологический смысл,
однозначно определяющая одну макромолекулу или группу макромолекул, объединенных общим
функциональным либо структурным свойством, например, ключевые слова, способ определения
третичной структуры и т.д.;
Описательная – представленная в виде свободного описания особенностей макромолекул, а также
координаты атомов. Прямое использование такой информации для поиска либо затруднительно, либо не
имеет смысла, как в случае координат атомов.
При трансформации PDB в новую базу EnPDB ( http://srs5.bionet.nsc.ru/srs5/ ) нами была отобрана
информация, которая позволяет проводить полноценный поиск и устанавливать связи с другими базами,
содержащими дополнительную информацию о макромолекуле. В EnPDB не была включена информация,
относящаяся к разряду чисто описательной. Это позволило значительно уменьшить объем базы и сделать
ее структуру легко адаптируемой для наиболее полной индексации средствами SRS. Для целей
адаптации также была проведена декомпозиция некоторых полей PDB в ряд новых полей, содержащих
однородную информацию. Например, поле HEADER было разбито на три поля: ID, HEADER и DATA.
Вместе с тем, добавлена была и новая информация. Значительно было расширено количество ссылок
на комплиментарные базы данных. Введены новые поля, характеризующие структурные особенности
макромолекулы: количество альфа-спиралей, бета-нитей, полипептидных цепей, нуклеиновых кислот,
гетероатомов и т.д.. Добавление такой информации позволило провести интеграцию EnPDB с
внутренними базами GeneExpress, на текущий момент времени это базы TRRD и ASPD, а также с рядом
внешних баз данных (Swiss-Prot, Pir, Transfac, EMBL, GeneBank, и пр.). С использованием средств SRS
реализована возможность перехода из EnPDB в эти базы данных с помощью гипертекстовых ссылок.
Кроме этого реализована возможность непосредственного вызова программы визуализации
пространственных структур RasMol (см. рисунок).
Визуализация входа EnPDB с помощью программы RasMol.
Индексация средствами SRS структурной информации обеспечила возможность проводить поиск с
использованием критериев по структурным характеристикам и формировать выборки белков,
35
нуклеиновых кислот или их комплексов, удовлетворяющих данным критериям. Например, работая с
комбинацией полей ProteinAmount (количество белков), DnaRnaAmount (количество нуклеиновых
кислот), HetAmount (количество гетероатомов) возможно создавать запросы на поиск всех записей,
содержащих пространственные структуры: мономерных молекул белков, полисубъединичных белков,
белок-белковых комплексов, комплексов белок-нуклеиновая кислота, комплексов белок-лиганд.
Формирование таких выборок или им подобных является одной из наиболее трудоемких задач в
структурно - функциональном анализе белков.
В общем виде, информацию, содержащуюся в EnPDB можно классифицировать по ее
функциональной нагрузке следующим образом:
Источник происхождения макромолекул и условия экспериментов по их синтезу;
Эксперименты по определению пространственной структуры;
Структурно-функциональная организация макромолекул;
Информация, необходимая для интеграции с другими базами;
Литературные ссылки.
Нами реализован также доступ к PDB несколькими путями. В карточке ENPDB в поле
идентификатора имеется три гиперссылки. Одна из них ведет на соответствующий вход базы PDB,
расположенной в системе SRS5. Вторая ссылка ведет к вызову программы визуализации RasMol. Третья
ссылка ведет на соответствующий вход базы 3D-Atlas.
Таким образом, обеспечивается совместимость с программами визуализации и анализа, которые
работают с оригинальным форматом PDB. Кроме того, пользователь получает доступ к той информации,
которая не была включена в EnPDB.
3.1.4 Дочерняя база данных PDBSite
Важное значение для решения многих задач молекулярной биологии, биотехнологии и
медицины имеют данные по биологически активным сайтам белков. Высокая специфичность
биологической активности белков обеспечивается за счет уникальной структуры активных сайтов,
которые могут иметь весьма сложную организацию. Биологически активные сайты в белках часто
состоят из удаленных друг от друга по первичной структуре аминокислотных остатков, образующих
компактные кластеры в пространственной структуре белка со строго определенной конформацией.
Специфическая структура и конформационные особенности таких сайтов определяются их
пространственным аминокислотным окружением. Например, пространственное аминокислотное
окружение каталитических центров ферментов определяет рельеф углублений в областях связывания
фермента с субстратом, а в антигенных детерминантах белков такие остатки определяют их структуру в
виде выступающих районов на поверхности белка. Для многих природных и мутантных белков были
обнаружены зависимости активностей белков от физико-химических характеристик аминокислотных
остатков, входящих в состав локального окружения функциональных сайтов. Определение
пространственного окружения биологически активных сайтов возможно только при наличии данных по
третичным структурам белков. В базе данных PDB содержится информация по пространственным
структурам белков, для многих из которых приведена разметка аминокислотных остатков, входящих в
состав биологически активных сайтов (участки связывания с лигандами, каталитические центры
ферментов, участки подвергающиеся биохимической модификации и т.д.). Для обеспечения доступа к
этой информации ставилась цель создание дочерней базы данных PDBSite по особенностям
пространственной организации биологически активных сайтов из базы PDB и их пространственного
окружения.
Для достижения данной цели были разработаны оригинальные методы, алгоритмы и
программное обеспечение для расчета пространственного окружения сайтов, указанных в PDB, а также
расчета их структурных и физико-химических характеристик.
Разработанная база PDBSite аккумулирует в себе аминокислотный состав, структурные и физикохимические характеристики сайтов и их пространственного окружения. Интернет-доступ к PDBSite
обеспечивается с помощью SRS. Список полей базы PDBSite и их описание приведено в таблице.
Таблица. Список полей PDBSite и их краткое описание.
Поле
ID
Описание
Идентификатор
Поле
RESNAME
PDBID
PDB Идентификатор
EXPOSE
HEADER
PDB HEADER
ORDER
TITLE
PDB TITLE
AVERAGE
36
Описание
Имена
остатков
сайта
и
окружения
Экспонированность каждого из
остатков сайта и окружения
Порядок приведения физикохимических характеристик сайта и
окружения в таблице значений
Среднее в таблице значений
физико-химических характеристик
KEYWORD
SITE_DESCR
LENGTH
EXPOSURE
CHAIN_ID
POS
PDB KEYWDS
Description of the site
Число остатков в сайте и
остатков его окружения
Средняя экспонированность
остатков сайта и окружения
Chain идентификатор для
сайта и окружения
Позиции остатков сайта и
окружения
SUM
SPATIAL_MOM
ENT
PAIRWISE
COORDINATES
CA_ATOMS
COORDINATES
CENTRE_MASS
DISCONTINUIT
Y
Сумма в таблице значений
Spatial
moment
в
таблице
значений
Попарные расстояния между
остатками
Координаты
C-alpha
атомов
остатков сайта
Координаты
центра
масс
остатков сайта
Discontinuity of the site
Анализ данных базы PDBSite показал наличие закономерностей в распределении
аминокислотного состава в биологически активных сайтах и их пространственного окружения. Были
найдены корреляции между физико-химическими характеристиками аминокислот сайтов и аминокислот
их пространственного окружения. Обнаружились, также хорошие корреляции между свойствами
аминокислот сайтов и аминокислот их окружения. При этом, физико-химические свойства для которых
были высокие значения корреляций часто менялись в зависимости от типа специализации сайтов. На
рисунке приведена корреляция между гидрофильностью сайтов связывания с цинком и аминокислотами
их окружения.
Полученные результаты согласуются с известной точкой зрения о том, что функция сайтов
существенным образом связана со структурой сайтов и их окружением. На основании полученных
результатов можно сделать предположение о том, что функциональная роль окружения сайтов имеет
важное значение уже на стадии первичного распознавания мишени, с которой взаимодействует сайт и
его правильной ориентации относительно данной мишени. В пользу данного предположения
свидетельствует наличие корреляций между физико-химическими характеристиками сайтов и их
окружения. В частности, отрицательные корреляции говорят о возможном компенсирующем действии
характеристик окружения на изменения физико-химических характеристик сайта.
Таким образом, база PDBSite может иметь высокое значение в исследованиях структурнофункциональной организации биологически активных сайтов.
3.1.5 База данных ASPD
В связи с очень быстрым ростом количества информации по аффинной селекции пептидов, на
сегодняшний день остро стоит задача ее накопления в виде базы данных, систематизации и обеспечения
к ней Интернет-доступа, а также интеграции этой базы с другими биологическими информационными
ресурсами.
База по аффинной селекции пептидов создана нами для накопления экспериментальных данных
аффинной селекции пептидов, опубликованных разными авторами. В базе собирается информация об
аминокислотных последовательностях селектированных пептидов, об особенностях молекулы-селектора,
об аффинности и условиях экспериментов, при которых эти данные были получены. Такие данные
представляют большой интерес для фундаментальных исследований взаимодействий между белком и
различными лигандами, а также могут быть использованы в прикладных исследованиях по
конструированию разного рода лекарственных, профилактических и диагностических пептидных
препаратов.
Следует обратить внимание на то, что с развитием такой новейшей технологии аффинной селекции
как фаговый дисплей в печати появились многие сотни и даже тысячи статей, содержащих такую
информацию. Метод фагового дисплея широко применяется для различных целей, например, для
выявления лигандов, активность которых in vitro может в несколько раз превышать активность
37
природных белков, для определения разрывных эпитопов, опознаваемых антителами, для замены
полипептидами небелковых лигандов. Этот метод применялся и in vivo для определения белков,
связывающихся в определённых тканях.
База данных по аффинной селекции пептидов в настоящее время доступна через систему SRS
(http://wwwmgs.bionet.nsc.ru/mgs/gnw/aspd/).
3.2 Пакет программ CRASP
Для изучения и анализа ко-адаптивных замен в аминокислотных последовательностях белковых
семейств нами разработан пакет программ CRASP. Этот пакет программ позволяет выявлять и
анализировать замены аминокислотных остатков в белках, которые происходят коррелированным
образом. В основе анализа лежит предположение о том, что замены пар аминокислотных остатков белка,
между которыми существуют функционально важные взаимодействия, в ходе эволюции происходят
зависимым образом. Соответственно, обнаруженные статистические зависимости между заменами
аминокислот в позициях белка могут указывать на существование функционально важных
взаимодействий между остатками в этих позициях. В частности предполагается, что некоторые из
обнаруженных корреляций могут иметь компенсаторную природу, обусловленную пространственной
близостью остатков в коррелирующих позициях. В итоге, информация о координированных заменах
может быть использована для предсказания контактов аминокислотных остатков в пространственной
структуре белков. Такая информация может быть использована для выявления функционально важных
взаимодействий в белковой глобуле, для планирования мутационных экспериментов в функциональных
участках белка, а так же и для предсказания их пространственной структуры белка.
Другой важной особенностью пакета программ CRASP является возможность выявления и изучения
консервативных физико-химических характеристик белка, т.е. таких параметров, которые имеют
тенденцию поддерживаться на некотором постоянном уровне в ходе эволюции белкового семейства.
Исследованию подобного явления был посвящен ранее ряд работ, в которых оценивалось постоянство
объема гидрофобного ядра белковой глобулы ряда белковых семейств. Результаты анализа позволили
предположить, что подобные характеристики могут отражать важнейшие особенности структурнофункциональной организации белковых молекул.
Разработанный нами пакет программ позволяет:
• выявлять координированные аминокислотные замены на основе оценки коэффициента корреляции
между величинами определенного физико-химического свойства в паре позиций множественного
выравнивания белков;
• анализировать полученную картину корреляций;
38
•
•
выявлять консервативные и вариабельные физико-химические характеристики белка;
оценивать степень консервативности (вариабельности) выявленных характеристик в сравнении с
гипотезой независимых замен остатков в позициях белка.
Разработанная для белков методология анализа коадаптивных замен была расширена для анализа
скореллированных участков в последовательностях ДНК на основе метода поиска парных корреляций
конформационных свойств динуклеотидов.
Пакет CRASP имеет www-интерфейс и доступен пользователям через Internet по адресу
http://wwwmgs.bionet.nsc.ru/mgs/gnw/crasp/. Пакет представляет собой две группы программ: анализа
парных корреляций аминокислотных замен и анализа интегральных характеристик групп позиций белка.
С использованием пакета проведен анализ ряда белковых семейств. Результаты анализа
транскрипционных факторов позволили выявить в гомеодоменах два кластера значимо коррелирующих
позиций. Показано, что ко-адаптивный режим эволюции этих групп позиций направлен на поддержание
постоянства интегральных физико-химических характеристик гомеодоменов, таких как (1) суммарный
заряд остатков в области контакта спиралей H1 и H2 (в кластере остатков I), и (2) линейной комбинации
величин зарядов остатков вблизи сахарофосфатного остова ДНК (в кластере остатков II). Анализ
структуры комплекса гомеодомен-ДНК позволил предположить, что постоянство этих характеристик
может быть важно для поддержания стабильности пространственной структуры гомеодомена, а так же
его ориентации относительно молекулы ДНК.
Исследования сайтов разрезания человеческой топоизомеразой I и элементов heat-shock
позволили выделить важные закономерности конформационных характеристик последовательностей
ДНК. Было показано, что изменение направления гибкости спирали ДНК в районе сайта разрезания
происходит зависимым образом. Было сделано предположение, что конформационный дефект,
вызванный суперспирализацией является особенностью, определяющей место действия топоизомеразы I
(см. рисунок).
39
Пакет CodGen2
В рамках проекта разработан метод автоматической генерации программ для распознавания ДНКсвязывающих мотивов транскрипционных факторов, основанный на одновременном использовании
большого количества методов распознавания: консенсусов, весовых матриц, перцептрона и др.
Исследования по распознаванию ДНК-связывающих доменов транскрипционных факторов показало
высокую
эффективность
предложенного
подхода.
Программа
доступна
по
адресу
(http://wwwmgs.bionet.nsc.ru/mgs/gnw/codgen2/).
3.3 Поиск закономерностей в структурной организации белков
Системой Discovery может решаться также задача поиска 3-х мерных структур генетических
молекул. Пусть для некоторой пространственной структуры String элементы этой пространственной
структуры составляют множество A(String) = {a1,a2,a3,a4,…}. Зададим валентные связи пространственной
структуры двуместными предикатами P1(a,b), P2(a,b), P3(a,b),… , где первый предикат будет задавать
одновалентные связи, второй – двухвалентные, третий – трехвалентные и т.д. Кроме валентности можно
задавать и другие отношения, например, взаимодействия зарядов, но мы для простоты их рассматривать
не будем. В пространственной структуры кроме предикатов должны быть определены еще расстояния
между элементами ρ(a,b). Автоматический поиск подструктур пространственных структур
ответственных, например, за биологическую активность или экспрессию генов, может быть тогда
осуществлен следующим типом правил:
∀String∃a1,a2,a3,a4,…[P1(ai1,ai2) ε11&…& P1(aik-1,ain) ε1n&
P2(aj1,aj2) ε21&…& P2(ajl-1,ajl) ε2l&
P3(ak1,ak2) ε31&…& P3(akm-1,akm) ε3l&
(par1 < ρ(at1,at2) < par2)&…&(pars < ρ(atu,atu+1) < par2s) Þ Activity(String)]
3.4 Изучение распределения на поверхности белков и пептидов
реакционных групп аминокислот, взаимодействующих с заряженными
красителями (с помощью ХПЯ и лазерного импульсного фотолиза)
Решаемые задачи: получение кинетической и спектральной информации о динамических процессах
в нативных белках и в ходе их перестройки, индуцированной ренатурацией. Построение карты
распределения зарядов по поверхности белков на основе анализа их третичной структуры (МТЦ). Расчет
скоростей взаимодействия белков с красителями. Сравнение результатов расчетов с экспериментом.
Построение модели электростатического взаимодействия белков с лигандами, описывающей кинетику
реакций и распределение реакционных сайтов по поверхности белка.
Для проведения данного исследования планировались разработка и комплексное использование
наиболее современных экспериментальных и теоретических методов. В частности, планировалось
использование метода ХПЯ для тестирования доступности различных аминокислотных остатков в
натуральных и денатурированных белках по отношению к внешнему фотовозбужденному красителю.
Полученные результаты. В течении 1-го этапа 2000 года методами химической поляризации ядер и
лазерного импульсного фотолиза проведено исследование следующих фотохимических реакций:
Исследованы механизмы тушения триплетно-возбужденных флавинов ароматическими кислотами.
Показано, что в отличие от ранее сделанных выводов, тушение флавинов тирозином протекает по
механизму переноса электрона, а не переноса атома водорода. Изучено влияние рН среды на механизм и
кинетику фотохимических реакций флавина с аминокислотами.
40
Изучен механизм реакции и механизмы формирования ХПЯ при фотолизе 2,2’-дипиридила с Nацетил тирозином и N-ацетил гистидином. Показано, что в зависимости от рН раствора, тушение
триплетного дипиридила протекает либо по механизму переноса электрона, либо за счет отрыва атома
водорода, либо не является эффективным. На формирование ХПЯ в щелочной среде существенное
влияние оказывает вырожденный электронный обмен между радикалом гистидина и детротонированным
анионом гистидином, а также между анионом тирозина и его нейтральным радикалом.
Изучены кинетика и механизм формирования ХПЯ в реакциях фото-возбужденного 2,2’-дипиридина
с дипептидом триптофан-тирозин и с куриным лизоцимом в естественном и в термически
денатурированном состояниях. Показано, что затухание во времени сигналов триптофана происходит в
результате внутримолекулярного переноса электрона от радикала триптофана к тирозину. Скорость
этого процесса в денатурированном состоянии достаточно высока, а естественном состоянии белка он
неэффективен.
Исследование структуры белков с помощью метода ХПЯ проводится в ряде лабораторий мира, в том
числе в лабораториях П. Хора (Оксфорд, Великобритания), Р. Каптейна (Утрехт, Голландия), Консонни
(Милан, Италия) и других. Нами впервые была применена времяразрешенная модификация этого метода,
позволяющая исследовать реакции и динамические процессы с микросекундным временным
разрешением, в сочетании с методом лазерного импульсного фотолиза. Нами проведено обоснование
количественных аспектов применения метода ХПЯ к изучению структуры белков, получена новую
информацию о механизме фотохимических реакций с участием аминокислот, пептидов и белков, дана
правильная интерпретация результатов, полученных ранее с помощью стационарных методов. В
частности, было показано, что тушение фотовозбужденного флавина тирозином происходит не по
механизму переноса атома водорода, как считалось ранее, а через перенос электрона; что кинетика ХПЯ
в денатурированном состоянии лизоцима определяется внутримолекулярным переносом электрона с
остатков тирозина на радикал триптофана, а не связана с изменением доступности остатков в процессе
денатурации, как это ранее предполагалось в работах Петера Хоре и соавторов из Оксфордского
университета.
3.5 Расчет кинетики укладки олигопептидов на атомном уровне
разрешения и построение поверхности их потенциальной энергии
Решаемая задача - сравнение результатов моделирования с данными экспериментов по
распределению реакционных химических групп на поверхности полипептидов
и построение
теоретической модели их взаимодействия с лигандами с учетом структурной динамики полипептидов.
Построение модели для расчета быстрых переходов в белках на основе с учетом разделения процессов
по временным масштабам их протекания, и комбинированного описании белка с различными
масштабами детализации - атомном, аминокислотном, доменном.
Используя разработанную авторами технику моделирования, основанную на запирании молекулярнодинамической (МД) траектории системы в бассейне притяжения на поверхности потенциальной энергии
(ППЭ).
Проведено комплексное исследование молекулы аланина тетрапептида (ТП), N-acetyl-(Ala)3methulamide, в водном растворе. Данный пептид является кратчайшим белком, который способен
формировать две основные вторичные белковые структуры: бета складку (b-strand) и полный виток
альфа спирали (a-helix). Использовалась изотермическая МД, основанная на уравнениях Ланжевена.
Моделирование проводилось путем внедрения техники запирания в пакет CHARMM (Chemistry
Harvard Molecular Mechanics), широко используемого для исследований биомолекул. Водный раствор
учитывался неявно, - путем внедрения дополнительного потенциала, учитывающего свободную энергию
раствора.
Впервые рассчитана и построена в виде графа связности полная ППЭ ТП. Показано, что она состоит
из 16 воронок, отвечающих различным транс/цис конформациям ТП, и заполняющих эти воронки
бассейнов, отвечающих отдельным конформациям (946 бассейнов и 4930 соединяющих их седел).
Определены барьеры между этими воронками; они составляют 14 Ккал/моль (т.е. 7000К) и более.
Преодоление таких барьеров за приемлемое вычислительное время стало возможным только благодаря
применению техники запирания. Оценки по теории переходного состояния показывают, что при
традиционном подходе потребовалось бы время, как минимум в 103 раз большее, причем только для
наблюдения отдельных актов переходов между транс/цис конформациями, а не для построения всей
ППЭ. В ходе последовательного запирания системы вычислены переходные вероятности, что дало
возможность определить кинетику системы и, в частности, вычислить равновесные заселенности
различных конформеров. Показано, в частности, что из двух основных вторичных структур – альфаспирали и бета-листа - термодинамически более стабильной является не альфа-спираль, которая
представляет основное состояние системы, а бета-лист, расположенный на 0.78 Ккал/моль выше по
энергии, чем альфа-спираль.
41
Download