НОВЫЕ ТЕХНОЛОГИИ В БИОМЕДИЦИНЕ: БИОИНФОРМАТИКА

advertisement
НОВЫЕ ТЕХНОЛОГИИ В БИОМЕДИЦИНЕ:
БИОИНФОРМАТИКА
Арчаков А.И., Поройков В.В., Белкина Н.В., Гусев С.А., Дубанов А.В.,
Иванов А.С., Лагунин А.А., Лисица А.В., Скворцов В.С., Соболев Б.Н.
НИИ биомедицинской химии РАМН, 19832, Москва, Погодинская ул., 10
РЕЗЮМЕ
Биоинформатика – область науки, разрабатывающая и применяющая
вычислительные алгоритмы для анализа и систематизации генетической
информации с целью выяснения структуры и функции макромолекул, с
последующим использованием этих знаний для создания новых лекарственных
препаратов.
В результате исследования структуры геномов микроорганизмов, млекопитающих
и человека появились огромные объемы информации о последовательностях ДНК
и первичной структуре белков. Эта информация стала основой для разработки и
приложения новых математических методов анализа данных и извлечения из них
новых знаний.
Цели биоинформатики, как области науки о жизни:
Анализ геномов, выделение в их составе отдельных генов, их экзонинтронной структуры, сигнальных последовательностей и т.д.;
Предсказание функции генов и экспрессируемых ими продуктов;
Выявление генов - потенциальных мишеней действия новых
лекарств;
Оценка роли отдельных участков аминокислотной
последовательности в функционировании белка;
Построение молекулярных моделей белков и нуклеиновых кислот,
исходя из их последовательностей;
Исследование механизма функционирования макромолекул, исходя
из их молекулярных моделей;
Компьютерное конструирование лекарств, основанное на
рациональном выборе генов-мишеней и молекулярных моделей их
белковых продуктов.
По сути дела, все эти задачи решаются с помощью математического анализа
биологических текстов – последовательностей нуклеиновых кислот и первичной
структуры белков.
Современное понимание биоинформатики подводит нас к мысли о том, что все те
задачи, которые до недавнего времени решались биохимией и молекулярной
биологией в реальных экспериментах, в будущем могут быть решены с той или
иной степенью точности в виртуальных компьютерных экспериментах.
Поэтому основная задача биоинформатики в настоящее время сводится к
разработке новых и адаптации уже существующих методов для работы с
генетической информацией. Решение проблем "разметки" генома, предсказания
функции отдельных генов и их продуктов, построения молекулярных моделей
белков и нуклеиновых кислот служит основой для рационального компьютерного
дизайна новых лекарств. Таким образом, экономической базой биоинформатики
являются фармацевтическая промышленность и биотехнология.
Получение предсказанных компьютерным путем макромолекулфармакологических мишеней для действия лекарственных веществ - с помощью
трансгенных животных и, особенно, растений, с одной стороны, и быстрый
компьютерный поиск с последующим конструированием низкомолекулярных
лигандов с высоким сродством к активным центрам этих молекул, с другой –
способны качественным образом изменить содержание как современной
биотехнологии, так и фармакологии.
1. ВОЗНИКНОВЕНИЕ БИОИНФОРМАТИКИ
Биоинформатика – область науки о компьютерном анализе генетических текстов,
аминокислотных последовательностей, пространственной структуры и функции
белков, являющаяся основой для идентификации макромолекул-мишеней и
выявления их специфических лигандов с целью создания новых лекарств,
превратилась в бурно развивающуюся область биомедицинской науки на стыке
XX-XXI веков (Benton, 1996).
Количество публикаций по биоинформатике, оцененное по информационной
системе MEDLINE, стремительно нарастает в последние годы (рис.1).
Рис.1. Динамика публикаций по биоинформатике, оцененная по
информационной системе MEDLINE
Симптоматично, что на страницах общенаучных журналов Nature и Science,
обладающих одними из наиболее высоких импакт-факторов (превышающих 25), за
последние годы было опубликовано соответственно 199 и 93 публикации,
затрагивающих вопросы биоинформатики.
Из приведенных на рис.1 данных, однако, не следует, что первые работы в данной
области были начаты лишь в 1993 году. Скорее этот период явился результатом
осознания качественного изменения ситуации – перехода от разрозненных
теоретических работ, анализирующих нуклеотидные и аминокислотные
последовательности, пространственную структуру белка, взаимосвязи "структурафункция", "структура-активность"; и попыток рационального конструирования
новых лекарств – к комплексному подходу, охватывающему всю цепочку "от гена
– к лекарству". В результате появился и сам термин (молекулярная)
"биоинформатика".
База для реализации такого комплексного подхода создавалась в течение многих
лет усилиями многочисленных исследователей. Первые работы по теоретическому
анализу аминокислотных последовательностей белков появились уже в
пятидесятых годах вскоре после определения первичной структуры нескольких
белков (Augenstine., 1953; Gamov, 1956). Расшифровка пространственной
структуры инсулина (Hodgkin, 1936), а также гемогобина (Perutz, 1958) и
миоглобина (Kendrew, 1959) методами рентгеноструктурного анализа положила
основу для теоретического анализа взаимосвязей между пространственной
структурой и функциями белка. Широкое внедрение в структурный анализ белка
автоматических секвенаторов в начале 70-х годов существенно увеличило
возможности экспериментального определения аминокислотных
последовательностей. Существенно возрос и объем материала, доступного для
теоретического осмысления.
Параллельно расшифровке аминокислотных последовательностей белков
развивались и исследования структуры нуклеиновых кислот. Накопление
информации происходило достаточно быстро и в 1988 г. был начат проект по
расшифровке генома человека, ставящий своей целью определение полной
последовательности ДНК, составляющей хромосомы человека. Работы по этому
проекту проводятся достаточно успешно и, по существующим оценкам, в 20012002 г.г. геном человека будет расшифрован полностью. Предполагается, что в
результате этих работ число известных мишеней действия лекарств увеличится на
порядок и достигнет 5000 (Investigational Drugs Weekly Highlights, 16 June 1999,
p.20).
Сравнительные оценки размеров геномов человека и других исследованных
организмов приведены ниже:
Человек 3000 млн. оснований (100 тыс.генов)
Мышь 3000 млн. оснований (50-100 тыс. генов)
Дрозофила 165 млн. оснований (15-25 тыс. генов)
Нематода 100 млн. оснований (11.8-13.8 тыс.генов)
Дрожжи (грибы) 14 млн. оснований (8355-8947 генов)
E. coli (бактерия) 4.67 млн оснований (3237 генов)
H. influenzae (бактерия) 1.8 млн. оснований
M. genitalium (бактерия) 0.58 млн оснований
К настоящему моменту полностью расшифрованы геномы ряда микроорганизмов
(Human Genome News, 1998):
Полностью расшифрованные геномы
Организм
Размер генома (Mb)
Число генов
Saccharomyces cerevisiae
12.1
6034
Escherichia coli
4.6
4288
Bacillus subtilus
4.2
~4000
Synechocystis sp.
3.6
3168
Archaeoglobus fulgidus
2.2
2471
Pyrobaculum aerophilum
2.2
N.A.
Haemophilus influenzae
1.8
1740
Methanobacterium
thermoautotrophicum
1.8
1855
Helicobacter pylori
1.7
1590
Methanococcus jannaschii
1.7
1692
Aquifex aolicus
1.5
1508
Borrelia burgdorferi
1.3
863
Treponema pallidum
1.1
1234
Mycoplasma pneumoniae
0.8
677
Mycoplasma genitalium
0.6
470
Treponema pallidum
1.14
Chlamydia trachomatis
1.05
Plasmodium falciparum Chr2
1
Rickettsia prowazekii
1.1
Helicobacter pylori
1.64
Leishmania major chr1
.27
Thermotoga maritima
1.8
Sphingomonas aromaticivorans
Pyrococcus furiosus
2.1
Halobacterium halobium
1.7
Clostridium acetobutylicum
4.1
Deinococcus radiodur ans
3
В настоящее время большая часть расшифрованных аминокислотных
последовательностей белков "транслирована" с нуклеотидных
последовательностей, соответствующих кодирующим областям геномов.
Насколько точной должна быть расшифровка нуклеотидных последовательностей,
чтобы эти данные можно было использовать в прикладных целях? – Большинство
авторов работ по секвенированию, проводимых в настоящее время, стремится к
тому, чтобы частота ошибок была не более чем 1 на 10000 пар нуклеотидных
оснований, а в некоторых случаях считается необходимым достичь точности 1 на
100000. Однако, индивидуальные различия составляют в среднем 1 на 500 пар
оснований, поэтому при реализации проекта по полному секвенированию генома
считается, что 1 ошибка на 1000 – более адекватная оценка приемлемой точности.
В то же время, для повышения надежности и выявления возможных
индивидуальных различий наиболее биологически- или медицински-значимые
области генома должны быть исследованы более тщательно, но использование
более грубого стандарта для других участков генома существенно снижает
стоимость расшифровки генома человека в целом.
Накопление огромного количества аминокислотных и нуклеотидных
последовательностей привело к возникновению биоинформатики – области
науки, направленной на их сравнительный анализ с целью определения
структурно-функциональных взаимоотношений и выявления мишеней
действия новых лекарств. Существенно, что для значительного числа белков,
кодируемых расшифрованными генами, не известны ни физиологическая роль в
организме, ни их месторасположение в клетке. Во многих случаях невозможно
даже сказать, экспрессируются ли эти белки в процессе нормальной
жизнедеятельности. Ответ на последний вопрос дает новая область науки –
протеомика, которая определяет экспериментально всю совокупность белков,
встречающихся в отдельных клетках и тканях у человека (в норме и при
патологии), млекопитающих и микроорганизмов.
Дополнительную к протеомике информацию получают теоретическими
методами с помощью биоинформатики, анализирующей нуклеотидные и
аминокислотные последовательности, на основе которой в последние годы
сформировалась вся цепочка исследований "от гена - к лекарству":
анализ генома человека в норме и при патологиях либо анализ
генома патогенных микроорганизмов;
выявление генов, кодирующих макромолекулы – потенциальные
мишени новых лекарств;
анализ аминокислотных последовательностей макромолекулмишеней, выдвижение гипотез о их функции, если последняя не
определена в эксперименте;
экспериментальное определение или компьютерное построение
моделей пространственной структуры макромолекулы-мишени;
поиск в базах данных низкомолекулярных органических веществ
потенциальных лигандов, моделирование их взаимодействия с
макромолекулой-мишенью и сравнительная оценка прочности
связывания в комплексе.
Биоинформатика – бурно растущая область науки, что легко проиллюстрировать,
например, по количеству web-сайтов в Интернете, содержащих данное ключевое
слово, которое, согласно поисковой системе Alta Vista, в октябре 1999 года
составляет 134630 web-сайтов. Возможно, наиболее важными среди них являются
web-сайты, содержащие информацию по нуклеотидным и аминокислотным
последовательностям, которые будут рассмотрены ниже более подробно.
В то же время, несмотря на достигнутые успехи в расшифровке
пространственной структуры биологических макромолекул, разрыв между
количеством данных о нуклеотидных и аминокислотных
последовательностей и числом расшифрованных трехмерных структур
стремительно растет (рис.2-4).
Рис. 2. Рост числа записей в базе данных по нуклеотидным
последовательностям (EMBL) с 1985 по 1999 годы.
Рис.3. Рост числа аминокислотных последовательностей в базах данных PIR
(1), SWISS-PROT (2) и числа трехмерных структур в базе данных PDB (3) с
1986 по 1999 гг.
Рис.4 Число записей на октябрь 1999 года в банках данных по трехмерным
структурам белков (PDB), аминoкислотным (SWALL) и нуклеотидным
(EMBL) последовательностям.
Существует также разрыв между количеством открытых генов и знаниями о их
функции. В докладе Р.Скотта (Incyte Pharmaceuticals Inc., USA) на конференции
"Discovery 99: Accelerate and Improve Drug Discovery Process" (Сан-Диего, США,
26-29 апреля 1999 года) была представлена следующая статистика: всего открыто
свыше 109000 генов; возможно, еще около 20000 будет найдено в ближайшие
годы; функция известна – менее чем для 40% из этих генов (Investigational Drugs
Weekly Highlights, 12th May, 1999, p.36).
2. АНАЛИЗ СУЩЕСТВУЮЩИХ БАЗ ДАННЫХ: НАСТОЯЩЕЕ И
БУДУЩЕЕ.
Необходимо подчеркнуть, что в отличие от традиционной библиографической
научно-технической информации, собираемой и распространяемой на
печатных носителях и в электронной форме такими информационными
службами как National Library of Medicine (US), Chemical Abstracts Service (US),
BIOSIS (US), Excerpta Medica (The Netherlands), ВИНИТИ (Россия), МЦНТИ
(Россия) и др., данные по биоинформатике являются фактографическими и
гораздо более тесно привязаны к источникам их происхождения. По этой
причине все известные в настоящее время базы данных по биоинформатике
созданы и поддерживаются либо специально созданными для этой цели
организациями, например European Molecular Biology Laboratory (Germany),
European Bioinformatics Institute (UK), GenBank (US), National Center for
Biotechnology Information (US), DNA DataBank of Japan (Japan) и др., либо
функционируют на базе известных научно-исследовательских учреждений,
ведущих экспериментальные работы в области биохимии и молекулярной
биологии, например, National Institute of Allergy and Infectious Diseases, NIH (USA);
Institute of Pharmaceutical Chemistry, University of Marburg (Germany); Department of
Biochemistry, Kumamoto University School of Medicine (Japan); Институт цитологии
и генетики СО РАН (Новосибирск), Институт биомедицинской химии РАМН
(Москва), Институт физико-химической биологии МГУ им. А.Н.Белозерского и др.
Как правило, в первом случае обеспечивается функционирование общих банков
данных (БД) по биоинформатике, содержащих информацию о самых разных
последовательностях белков и нуклеиновых кислот (GenBank, SWISS-PROT, и др.),
а во втором – специализированных банков данных (БД по кодирующим ДНК
цитокинов, БД по лиганд-рецепторным взаимодействиям, БД по цитохромам Р450,
и т.д.).
Поскольку информация по биоинформатике весьма разнообразна и многоаспектна,
такое "разделение труда" представляется целесообразным, поскольку благодаря
этому обеспечивается наиболее высокий уровень экспертной оценки данных.
Вместе с тем, в настоящее время остро стоит проблема интеграции информации
(Karp, 1996), содержащейся в различных банках данных, которая успешно
решается как путем стандартизации представления информации, так и благодаря
созданию необходимых конверторов. Пример системы обработки информации из
различных фактографических и библиографических банков данных, созданной в
EMBL, приведен на рисунке 5.
Разработанная в EMBL компьютерная система обеспечивает работу с информацией
из примерно 50 общих и специализированных банков данных, доступных через
Интернет (рис.5).
Некоторые примеры существующих в настоящее время банков данных по
биоинформатике приведены в таблице 1.
По-видимому, в будущем сохранится тенденция, когда наряду со сравнительно
небольшим количеством глобальных (общих) банков данных, содержащих
ограниченный объем информации по большому числу аминокислотным и
нуклеотидным последовательностям, будет расти число специализированных
банков данных, содержащих большой объем разнообразной информации по
отдельным категориям аминокислотных и нуклеотидных
последовательностей, относящимся к узкой предметной области.
В то же время, будут интенсивно развиваться и поисковые системы,
собирающие и интегрирующие информацию в соответствии с конкретными
запросами пользователей из многочисленных (общих и специализированных)
банков данных.
Рис. 5. Взаимосвязи в компьютерной системе Европейской лаборатории по
молекулярной биологии, осуществляющей интеграцию и обработку данных по
нуклеотидным и аминокислотным последовательностям из большого числа
различных банков данных
Таблица 1
Примеры банков данных по биоинформатике
Наименование
БД
Web-сайт
Краткое описание
GenBank
http://www.ncbi.nlm.nih.gov/Genbank/
БД по нуклеотидным
последовательностям
(3400000000 пар
оснований в 4610000
последовательностях
GenbankOverview.html
SWISS-PROT
http://www.expasy.ch/sprot/sprot-top.html
Аннотированный БД
по аминокислотным
последовательностям
белков
PIR
http://www-nbrf.georgetown.edu/pir/searchdb.html
Аннотированный БД
по аминокислотным
последовательностям
белков,
организованным в
соответствии с
гомологией и
таксономией
PDB
http://www.rcsb.org/pdb/
БД по 3D структуре
биологических
макромолекул
(10811 структур)
OWL
http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/OWL.html
Невырожденная
комплексная БД по
структурам белков из
SWISS-PROT, PIR (1
3), GenBank и NRL3D
NDB
http://ndbserver.rutgers.edu
БД по нуклеиновым
кислотам, включает
структуры ДНК и
РНК вместе с их
трехмерными
изображениями
PROSITE
http://www.expasy.ch/prosite
БД паттернов
функционально
значимых участков
белков
ProDom
http://protein.toulouse.inra.fr/prodom.html
БД по доменам
белков
Protein Motions
Database
http://hyper.stanford.edu/~mbg/ProtMotDB
БД по динамике
белков, включающая
многоуровневую
классификацию
движения петель,
доменов и
субъединиц
PROMISE
http://bioinf.leeds.ac.uk/promise
БД по
простетическим
группам и ионам
металла в активных
центрах белков
RELIBASE
http://www-relibase.darmstadt.gmd.de/gmd/
Полная БД по
лиганд-рецепторным
комплексам
HIV Molecular
Immunology
Database
http://hiv-web.lanl.gov/immunology/index.html
БД по иммунологии
вируса
иммунодефицита
человека
OMIM
http://www.ncbi.nlm.nih.gov/Omim/
Каталог генов
человека и
генетически
обусловленных
заболеваний
CPD
http://cpd.ibmh.msk.su/
БД по цитохромам
Р450
KeyLock
http://lmgdd.ibmh.msk.su/KeyLock/KeyLock.html
БД по
взаимодействию
"лиганд-рецептор"
LIGAND
http://www.genome.ad.jp/dbget/ligand.html
БД по
ферментативным
реакциям
dbCFC
http://cytokine.medic.kumamoto-ac.jp
БД по кодирующим
ДНК цитокинов
ReLiBase
http://www2.evi.ac.uk:8081/home.html
БД по анализу
лиганд-рецепторных
комплексов в PDB
MHCPEP
http://wehih.wehi.edu.au/mhpep
БД по пептидам,
связывающим
главные комплексы
гистосовместимости
Klotho
http://www.ncbi.nlm.nih.gov/Omim/
БД по
биохимическим
веществам
3. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕСЯ БИОИНФОРМАТИКОЙ ДЛЯ
АНАЛИЗА МАКРОМОЛЕКУЛ И СОЗДАНИЯ ЛЕКАРСТВ
3.1. Анализ геномов – что можно извлечь из генетических текстов
К настоящему времени полностью расшифрованы геномы около 30 биологических
видов. В ближайшие годы ожидается завершение работ по анализу геномов еще
несколько десятков видов, среди них – геномы ряда патогенных микроорганизмов;
микроорганизмов, находящих применение в биотехнологии; геномов
млекопитающих, в том числе – человека.
Информация о геномах указанных видов предоставлена для свободного доступа на
Web-серверах ряда организаций, которые занимаются собственно расшифровкой
геномов (например, The Sanger Centre, Wellcome Trust, Великобритания; The
Institute of Genomic Research, США), хранением и систематизацией медикобиологической и биотехнологической информации (например, National Center for
Biotechnology Information, США), ее компьютерным анализом, а также активно
использующих такую информацию в прикладных и фундаментальных
исследованиях (например, Institut Pasteur, Франция).
Базы данных (БД) геномов содержат нуклеотидные последовательности и
"транслированные" по ним аминокислотные последовательности белков. В
большинстве БД также содержатся дополнительные данные, как
экспериментальные (например, значимость гена для выживаемости организма), так
и полученные расчетным путем (например, функция белка, кодируемого геном,
может быть постулирована на основе сходства его аминокислотной
последовательности с первичной структурой уже охарактеризованного белка).
Web-серверы, предоставляющие пользователю генетическую информацию,
оснащены комплексом программных средств для поиска в БД и анализа
нуклеотидных и аминокислотных последовательностей. В качестве запросов при
поиске последовательностей в БД могут использоваться номенклатурные названия
генов, организмов, ключевые слова и др.
Ядро любой генетической информационной системы составляет программа поиска
в БД гомологов последовательности, заданной пользователем. Обычно
используются программы BLAST или FastA. Кроме того, на Web-серверах
представлены программные средства, позволяющие рассчитать некоторые физикохимические свойства белка (например, изоэлектрическую точку), предсказывать
вторичную структуру, наличие и локализацию трансмембранных участков и т.д.
Такие данные часто используются при выполнении широкого круга исследований.
Перечисленные программные средства позволяют ориентировочно установить
некоторые характеристики отдельного выбранного белка. Вместе с тем,
возможности выполнения операций с группами последовательностей как
правило, ограничены, что не позволяет осуществлять сравнительный анализ
целых геномов или больших групп последовательностей. Это ограничение
значительно затрудняет решение с использованием этих программных
средств задач по прогнозированию структурно-функциональных взаимосвязей
для групп белков и поиску потенциальных молекулярных мишеней
лекарственных препаратов на основе сравнительного анализа генетической
информации.
После определения последовательности генома необходимо выделить в его
составе отдельные гены. Задача включает в себя определение локализации
отдельных генов в нуклеотидной последовательности и идентификацию их границ
и решается с применением методов биоинформатики. Эти методы позволяют
определить с высокой степенью вероятности, является ли ген интроном или
экзоном, а также является ли ген структурным или регуляторным. Используемые
для этого подходы основаны на сравнении изучаемого генома с геномами,
охарактеризованными ранее. Для локализации генов наилучшие результаты дает
комбинация методов определения открытых рамок считывания и различий в
частоте использования кодонов. Наиболее часто используемые компьютерные
программы – GeneMark (Borodovsky, 1993), GenomeBrowser (Robinson, 1995),
BLAST (Altschul, 1990), BLAZE или MPsrch (MPsrch).
Когда "разметка" генома выполнена, осуществляется функциональная
классификация отдельных генов. Задача решается путем поиска
последовательностей, гомологичных рассматриваемому гену, в базах данных ранее
охарактеризованных генов и белков (Ouzounis, 1996). Таким образом, функция
нового гена прогнозируется, исходя из функции гомологов. Далее, путем
выравнивания исследуемой последовательности с ее гомологами можно выявить в
ней мотивы, ответственные за функцию белка, например - формирующие активный
центр фермента. Сопоставлением групп последовательностей можно обнаружить,
какие белки образуют функциональные комплексы, в реализации каких
метаболических путей они принимают участие.
На следующем этапе осуществляют поиск новых потенциальных мишеней для
действия лекарственных средств. Проблема поиска мишеней встала особенно
остро в связи с ситуацией, сложившейся в области создания новых
противомикробных средств (Smith, 1996). Во многих случаях возможности
воздействия лекарств на известные белки-мишени - практически исчерпаны (как,
например, в случаях ВИЧ, вирусов гриппа, микобактерий туберкулеза и др.). Это
обусловило необходимость поиска новых молекулярных мишеней для лекарств. С
другой стороны, применение современных эффективных подходов к созданию
новых лекарств требует детального изучения потенциальной молекулярной
мишени. При создании нового противомикробного средства необходимо также
учитывать его возможный спектр действия и вероятные побочные эффекты.
Перечисленные факторы создают предпосылки для использования генетической
информации при выборе мишеней для действия противомикробных средств.
В 1999 году была опубликована первая работа, описывающая попытку выбора
мишеней для действия лекарственных средств на основании сравнительного
анализа генетической информации. Программа CATS (Computer-Aided Target
Selection) была разработана с целью автоматизации выбора молекулярных
мишеней для поиска новых противогрибковых средств (Spaltman, 1999). Вместе с
тем, авторы преследовали цель создать достаточно гибкую систему, которая могла
бы быть также использована применительно к другим фармакологическим
группам.
Программа CATS предназначена для анализа геномов с целью поиска белков,
которые могли бы рассматриваться как наиболее предпочтительные мишени для
действия лекарственных веществ. В качестве входной информации программа
использует аминокислотные последовательности, соответствующие генам
рассматриваемого микроорганизма, сравнниваемых геномов и сопутствующую
информацию.
Такой подход позволяет автоматизировать выбор потенциальных мишеней и
определить приоритеты более детального изучения каждой из них, что сокращает
число рассматриваемых объектов с нескольких тысяч до десятков (Spaltman, 1999).
Как видно из рассмотренного в данном разделе материала, подход к
конструированию лекарств на основе биоинформатики носит комплексный
характер: уже на стадии анализа генетических текстов (сравнительный
анализ целых геномов, отдельных генов) приходится принимать во внимание
известную на конкретный момент информацию о структуре и функции ряда
белков из различных организмов, возможности создания метода
тестирования, возможности построения модели 3D структуры выбранной
мишени, и ряд других факторов.
3.2. От последовательности – к структуре и функции
В случае, когда молекула белка-мишени определена, но ее пространственная
структура не известна, приходится прибегнуть к построению 3D модели данного
белка. С этой целью в настоящее время применяют три группы методов: (1)
распознавание фолда (укладки, упаковки) с использованием библиотеки известных
фолдов; (2) предсказания ab initio на основе знаний об атомных взаимодействиях и
архитектуре белковой глобулы; (3) моделирование по гомологии.
Распознавание фолда – это первая стадия для построения модели трехмерной
структуры белка. Оно применяется, если отсутствует информация о близких
гомологах исследуемого белка, пространственная структура которых
расшифрована ранее. Хотя при этом удается предсказать корректно укладку для
~75% белков (Koehl, 1999), "разрешение" построенной таким образом модели не
достаточно, чтобы использовать ее в дальнейших исследованиях как базовую для
выявления механизма функционирования макромолекул.
При предсказании ab initio целью является построение модели 3D структуры без
использования знаний по структуре гомологов. Эти методы близки к методам
предсказания фолда как по точности распознавания, так и по "разрешению" (Koehl,
1999).
Предсказание трёхмерной структуры белка по известной аминокислотной
последовательности осуществляется наиболее успешно, когда известна
пространственная структура одного или нескольких его гомологов. В этих
случаях информация об известных структурах может экстраполироваться на новую
аминокислотную последовательность, что позволяет получить 3D модель до
расшифровки структуры нового белка методами рентгеноструктурого анализа или
ЯМР. Такой подход получил название сравнительного моделирования (иногда
используются также термины - моделирование по гомологии или моделирование,
основанное на знаниях).
Первые попытки моделирования пространственной структуры белков, основанные
на гомологии с другими белками, были предприняты в конце шестидесятых начале семидесятых годов с использованием конструкцией из проволоки и
пластиковых моделей (Browne, 1969). Значительно позже начали использовать
интерактивную компьютерную графику (Issaks, 1978).
Были„выполненыЃэксперименты
по„{оделировани}„трехмерной„стр}ктурыuряда„белковp„в„частностиu„?„}актальб
уминаѓна„осно{е„„D структуры лизоцима, процент идентичности между
аминокислотными последовательностями которых равен 39% (Browne, 1969);
??литической‰проте{зы„грибов„на„основе„структур„химотрипсина€млекопитаю
щих„и„элас{азы…„процент}идентичности„между
а}иноки{лотными„последовательностями„которых„был„порядка„u„% (McLachlan,
1971); инсулиноподобных факторов роста на основе структуры инсулина свиньи
(Blundell, 1978); ренина на основе структур пепсина и химозина (Frazao, 1994;
Johnson, 1994); и другие. В результате этих экспериментов было показано, что
моделирование дает хорошие результаты, если гомология между
аминокислотными последовательностями рассматриваемых белков
достаточно высока, но становится ненадежным, если эта гомология
составляет менее 30% (Srinivasan, 1996).
В настоящее время разработано достаточно большое число различных подходов к
сравнительному моделированию (см. в кач. обзора – Johnson, 1994). Одним из
наиболее широко используемых является метод, первоначально разработанный
Бланделом с соавт. (Blundell, 1987, 1988) и реализованный в программе
COMPOSER комплекса молекулярного моделирования SYBYL (TRIPOS, Inc.).
При построении трехмерной модели для новой аминокислотной
последовательности эта полипептидная цепочка сначала "вписывается" в
координаты, соответствующие остаткам гомологичного белка с расшифрованной
пространственной структурой, а затем осуществляется минимизация
внутримолекулярной энергии, чтобы "убрать" возможные напряжения в структуре.
В дальнейшем методами молекулярной динамики моделируется Броуновское
движение отдельных частей молекулы с целью уточнения расположения гибких
участков (петель) (Srinivasan, 1996). Качество полученной модели оценивают с
использованием программы PROCHECK (Laskovski, 1993),
к{тораяЂсравн‘вает‚распределениеuуглов„?„и„?„аминокислотныхyостатков|модел
ируемого бел}аyс~изв{стной|статистикой„Ђполученно{„для
р}да„белковyс‚расши}рованнойqэкспе{иментально„пространственной„структурой
„„ Построенные таким способом модели были успешно использованы для
конструирования, например: новых ингибиторов протеазы вируса иммунодефицита
человека для лечения СПИДа; ингибиторов ренина, как средств для лечения
эссенциальной гипертензии; для белковой инженерии гибридных нейротрофных
факторов; и т.д. (Srinivasan, 1996).
Сравнительная оценка различных подходов к предсказанию пространственной
структуры белка по аминокислотной последовательности традиционно проводится
в Асиломаре (Калифорния, США). При этом авторам методов предсказания
предъявляются аминокислотные последовательности белков, пространственная
структура которых будет расшифрована к моменту очередного рабочего совещания
CASP (Critical Assessment of Structure Prediction). Предсказание, таким
образом, делается "вслепую", что позволяет объективно оценить его результаты.
Недавно состоялось уже третье рабочее совещание CASP-3, на котором были
обсуждены предсказания, сделанные 98 группами исследователей для 36 белков,
структура которых была расшифрована к моменту проведения совещания (Koehl,
1999). По итогам CASP-3 было сделано заключение, что наилучшие
предсказанные модели могут быть охарактеризованы величинами
среднеквадратичного отклонения в расположении С? атомов 0.2, 0.4, и 0.6 нм.
Разрешение 0.2 нм может быть достаточным для использования таких
моделей с целью исследования механизма функционирования макромолекул.
Разрешение 0.4 нм позволяет определить, какие остатки расположены по одну
сторону молекулы и может быть использовано в планировании
экспериментов. Разрешение 0.6 нм – слишком грубое и не может применяться
ни в планировании дальнейших экспериментов, ни в анализе структурнофункциональных соотношений (рис.6).
Второй подход, широко используемый в биоинформатике – это анализ
биологических текстов как таковых с целью выяснения функции как целых
молекул, так и их отдельных фрагментов. При этом используется только
информация, содержащаяся в аминокислотной последовательности. Результаты
такого рода работ оформляются в виде структурно-функциональных карт, на
которых отмечены вероятные участки, участвующие в обеспечении каталитической
активности, пространственной конформации, взаимодействии с белкамипартнерами и т.п.
1. Моделирование по гомологии ядра белковой глобулы;
2. Моделирование активного центра (для фермента);
3. Моделирование поверхностных петель;
4. Моделирование мембранного якоря (для мембранного белка).
Рис. 6. Основные задачи компьютерного моделирования трехмерной
структуры белка.
Стратегия предсказания функционально значимых фрагментов белка применима
только при наличии группы белков, обладающих сходными каталитическими
свойствами. Такая группа формируется на первом этапе с использованием поиска
по гомологии (BLAST) и/или информации, известной из эксперимента. Далее,
среди гомологов выделяются семейства и подсемейства при помощи методов
кластерного анализа на основании результатов парного выравнивания.
Выделение кластеров необходимо, чтобы избежать вырожденности, т.е.
искусственного преобладания высокогомологичных последовательностей одной
группы.
Следующий этап - иерархическое множественное выравнивание. Белки в каждой
группе выравниваются и заменяются одной консенсусной последовательностью
или строятся соответствующие частотные профили. Их можно рассматривать как
гипотетические белки-прародители (БП) для данной группы. На следующем уровне
иерархии уже производится выравнивание БП.
БП для группы функционально родственных белков анализируется
статистическими методами. При этом переход от строки символов к нормально
распределенной величине осуществляется при помощи статистического
критерия Шермана. Последняя характеризует, насколько сгруппированы
консервативные остатки вдоль БП. Очевидно, что значимость одиночного
консервативного остатка намного меньше, чем значимость кластера из нескольких
инвариант.
На рис.7 представлен результат применения описанной стратегии к цитохромам
Р450 семейства CYP51, катализирующих 14-деметилирование стероидных
субстратов. Пики на рисунке соответствуют структурно-функциональным мотивам.
Это подтверждается данными точечного мутагенеза (Marichal, 1999) и независимых
полуэмпирических предсказаний (Aoyama, 1996). Остатки, входящие в найденные
мотивы, по-видимому, играют роль в связывании с субстратом. Полученные
данные совместно с результатами молекулярного моделирования можно
использовать для модификации уже существующих противогрибковых препаратов
с тем, чтобы получить лиганды – ингибиторы этого фермента, ген которого совсем
недавно был обнаружен в M.tuberculosis.
В качестве другого примера можно привести недавно выполненный в НИИ
биомедхимии РАМН анализ аминокислотных последовательностей оболочечных
белков Е1 и Е2 различных штаммов вируса гепатита С человека. Путем
множественного выравнивания 827 аминокислотных последовательностей (рис.8)
были определены наиболее консервативные фрагменты и гипервариабельный
участок. Эти данные являются основой для создания ингибиторов, блокирующих
взаимодействие вируса с рецептором CD81; ингибиторов, блокирующих фолдинг
белков вируса; синтеза антигенных детерминант; создания вакцин.
Рис. 7. Анализ консенсусной последовательности цитохромов Р450 семейства
CYP51
Таким образом, наибольшей эффективности в анализе аминокислотных
последовательностей можно добиться последовательно применяя различные
методы биоинформатики. Стратегии такого рода настраиваются и
апробируются на конкретных надсемействах, но общий принцип применим к
белкам всех классов. Основное в подходе - это определение функционально
значимых участков в последовательности, минуя стадию построения
молекулярной модели.
Рис.8. Характеристика выровненных 827 последовательностей оболочечных
белков E1 и E2 ВГС человека. Процентное содержание преобладающих
остатков в позициях выравнивания; б) высоконсервативные участки (CR1 CR6) и гипервариабельный участок HVR1.
3.3. ОТ СТРУКТУРЫ – К МЕХАНИЗМАМ ФУНКЦИОНИРОВАНИЯ
МАКРОМОЛЕКУЛ
На основе построеннной модели трехмерной структуры макромолекулы-мишени,
например, фермента, методами молекулярной динамики можно изучать механизмы
функционирования макромолекул. При этом моделируется роль отдельных
функциональных групп в каталитическом акте, вероятные движения субстрата и
продукта реакции по отношению к активному центру фермента.
Рассмотрим это на примере недавно построенной модели трехмерной структуры
цитохрома Р450 1А2 (Белкина и др., 1998).
На первом этапе был проведен сравнительный анализ первичных структур 4-х
бактериальных цитохромов, пространственная структура которых определена
экспериментально, с аминокислотной последовательностью CYP1A2.
Трехмерные координаты атомов, расположенных в структурно-консервативных
участках, для молекулы CYP1A2 были взяты из соответствующих участков
бактериальных цитохромов P450. Для петель белковой цепи, которые не вошли в
состав структурно-консервативных фрагментов, координаты подбирались из
гомологичных участков различных белков из PDB (Fine, 1986) или создавались de
novo. Полученная структура CYP1A2 была оптимизирована с помощью процедуры
минимизации энергии.
Качество полученной модели проверялось с помощью широко применяемых в
литературе специализированных программ ERRAT (Colovos, 1993) и PROCHECK
(Morris, 1992), первая из которых оценивает невалентные межатомные
взаимодействия, а вторая - стереохимические параметры полипептидной цепи и
каждого аминокислотного остатка. Полученные результаты позволяют
рассматривать эту модель как достоверную.
Модели комплексов CYP1A2 с субстратами - кофеином и 7-этоксирезоруфином были построены с помощью геометрического докинга, выполненного с
применением созданной в НИИ биомедхимии РАМН компьютерной программы
DockSearch (DockSearch, 1999), с последующей оптимизацией методами
молекулярной динамики в присутствии воды.
На рис. 9 представлены изменения во времени расстояний между кислородом,
связанным с атомом железа гема, и рядом функционально важных атомов
субстратов. Показано, что структура обоих комплексов в процессе динамики
достигает стационарности, и в этом состоянии ориентация субстратов
относительно гема позволяет предсказать роль отдельных аминокислотных
остатков в механизме 3-деметилирования кофеина и О-деэтилирования 7этоксирезоруфина и затем проверить правильность этих моделей с помощью
точечного мутагенеза.
Методы биоинформатики в настоящее время эффективно используются для
выяснения механизма взаимодействия макромолекул (узнавания). Методы
"стыковки" (докинга) или нахождения в белках мест взаимодействия с
низкомолекулярными лигандами или друг с другом начинают доминировать не
только в конструировании новых лекарств, но и в исследованиях механизма
взаимодействия (узнавания) белковых молекул.
В качестве примера можно привести исследования, выполненные в НИИ
биомедхимии РАМН по анализу взаимодействия друг с другом цитохромов b5 и
P450cam (CYP 101). В PDB имеются файлы с кристаллической структурой
цитохрома Р450cam и водорастворимого фрагмента цитохрома b5 (t-b5). К
сожалению, до сих пор не получены кристаллы полноразмерного цитохрома b5 (db5), содержащего кроме водорастворимого фрагмента (t-b5), еще и мембранный
участок, обеспечивающий его встраивание в мембрану. Поэтому на первом этапе
работы мембранный фрагмент был с помощью докинга пристыкован к
кристаллической структуре (t-b5) с последующей оптимизацией данной структуры
в двухфазной системе вода/бензол. После этого кристаллические структуры
цитохромов P450cam и t-b5, а также сгенерированная из t-b5 и мембранного участка
модель (d-b5) были подвергнуты докингу с целью определения мест связывания и
прочности присоединения образовавшихся комплексов (рис.10 и рис.11).
Оказалось, что t-b5 и d-b5 имеют различные центры связывания на цитохроме
P450cam и при этом комплексы t-b5 с цитохромом P450cam оцениваются как
намного более прочные в сравнении с комплексами d-b5 с цитохромом P450cam
(красные круги на рис.11). Экспериментальная проверка с помощью биосенсорного
анализа реакции комплексообразования t- и d-b5 с цитохромом P450cam полностью
подтвердила сделанные предсказания: Kd для комплекса t-b5 с цитохромом
P450cam равна 0.1+0.05 х 10-7 М, а для комплекса d-b5 с цитохромом P450cam соответственно 0.4+0.1 х 10-5 М (рис.12).
Таким образом, методы молекулярного моделирования с последующим докингом
и молекулярной динамикой являются в настоящее время важным
методическим инструментом для исследования механизма функционирования
макромолекул.
Реакция 3-деметилирования кофеина CYP1A2
Реакция O-деэтилирования 7-этоксирезоруфина CYP1A2
А. Схема взаиморасположения гема и молекулы кофеина Б. Схема взаиморасположения гема и моле
в комплексе CYP1A2/кофеин.
этоксирезурфина в комплексе CYP1A2/7-э
Рисунок 9a. Моделирование с помощью молекулярной динамики: изменение во
времени расстояний R1, R3 и R7 (см. схему А) в комплексе CYP1A2/кофеин.
Рисунок 9б Моделирование с помощью молекулярной динамики: изменение
во времени расстояний Rc и Ro (см. схему Б) в комплексе CYP1A2/7этоксирезурфин.
Рис. 10. Наилучшие по энергии связывания модели комплексов цитохрома
P450 101
(голубой цвет) с цитохромом t-b5 (желтый цвет) и d-b5 (зеленый цвет)
Рис. 11. Полная энергия и расстояния между атомами железа гемов
цитохромов Р450 и t-b5 (красный) и d-b5 (синий).
Рис.12. Образование комплексов Р450cam c t- и d-b5
3.4. ОТ СТРУКТУРЫ И ФУНКЦИИ МАКРОМОЛЕКУЛ – К ЛЕКАРСТВАМ
Проблема сокращения временных и финансовых издержек на поиск и создание
новых лекарственных средств является в настоящее время чрезвычайно
актуальной. Согласно современным оценкам, разработка одного препарата в США
занимает в среднем 10-12 лет, а ее стоимость составляет 350-500 млн долларов.
Суммарные издержки фармацевтических фирм США на поиск новых веществ,
которые могут стать кандидатами на роль новых лекарств, составляют 7-9
миллиардов долларов в год (Martin, 1993).
Весь процесс создания нового лекарственного соединения может быть разделен на
4 основных этапа: (1) поиск мишени действия нового лекарства; (2) поиск
биологически активного вещества, обладающего нужным фармакологическим
действием; (3) исследование этого соединения в эксперименте in vitro и in vivo; (4)
получение разрешения Национальной администрации по лекарствам (FDA – в
США, Фармкомитет – в России, и т.д.) и проведение испытаний в клинике.
Биоинформатика является базовой дисциплиной, прежде всего, при поиске
мишеней действия новых лекарственных препаратов. В оценке перспективности
конкретной мишени учитываются также возможности нахождения
соответствующих лигандов (ингибиторов или активаторов). В процессе поиска
базовых структур новых лигандов и на этапе оптимизации свойств веществкандидатов широко используются компьютерные методы.
Если 3D структура молекулы-мишени известна, то применяют так называемые
прямые методы компьютерного конструирования лекарств. В структуре
макромолекулы-мишени находят место связывания лиганда и проводят его анализ
с помощью молекулярной графики (если имеется экспериментальная информация о
месте связывания лиганда) или в комбинации с молекулярным докингом
(нахождение места связывания путем молекулярного докинга известного лиганда с
макромолекулой-мишенью). На основе полученных данных о структуре активного
центра производят поиск новых лигандов в существующих компьютерных банках
данных трехмерных структур малых молекул (рис.13).
Обязательным условием реализации подобного подхода является наличие
рентгеноструктурных данных о трехмерном строении макромолекулы-мишени. Как
правило подобную информацию получают из компьютерного банка PDB - Protein
Data Bank, Brookhaven National Laboratory (Bernstein, 1977).
В качестве примера можно привести исследование, выполненное в НИИБМХ
РАМН совместно с Центром молекулярного дизайна (Бельгия) по
конструированию ингибиторов нейраминидазы вируса гриппа (рис.14). Целью
данной работы был поиск новых базовых структур конкурентных ингибиторов
нейраминидазы путем скрининга молекулярных баз данных, содержащих десятки
тысяч низкомолекулярных коммерчески доступных соединений. Скрининг
осуществлялся с помощью оригинальной программы DockSearch, разработанной в
НИИ биомедхимии РАМН. Стратегия скрининга состояла из следующих этапов:
1) препроцессинг баз данных (предварительная селекция и подготовка данных);
2) молекулярно-графический анализ структур комплексов нейраминидазы с
известными лигандами и описание места связывания лиганда в активном центре
фермента; 3) генерация гипотез возможных комплексов нейраминидазы с каждой
молекулой из банка данных с оценкой стерической комплементарности;
4) энергетическая оптимизация комплексов и выбор лучших комплексов по
величине энергии связывания.
В результате поиска было найдено около 250 низкомолекулярных соединений,
удовлетворяющих стерическим и энергетическим требованиям, которые были
переданы в Центр молекулярного дизайна (Бельгия) для экспериментальной
проверки. На рис. 14 показа структура активного центра нейраминидазы в
комплексе с производным сиаловой кислоты - известным конкурентным
ингибитором и одним из найденных новых перспективных лигандов.
В случае отсутствия данных о пространственной структуре макромолекулымишени или ее активного центра может быть построена соответствующая полная
или частичная компьютерная трехмерная модель (см. раздел 3.2).
Рис.13. Моделирование взаимодействия лиганд-мишень
“L8”
Рис. 14. Комплекс нейраминидазы вируса гриппа с известным ингибитором Nацетил-2,3-дегидро-2-деоксинейраминовой кислотой (А) и найденным путем
скрининга баз данных коммерчески доступных низкомолекулярных
соединений новым лигандом «L8» (В).
Если информация о пространственной структуре белка-мишени и его ближайших
гомологов отсутствует, но имеется статистически репрезентативная выборка
специфических лигандов, поиск новых лигандов может быть осуществлен с
использованием "непрямых" методов 3D QSAR и CoMFA(сравнительный анализ
молекулярных полей). Эти методы могут быть успешно использованы для
пространственного картирования места связывания лиганда и построения модели
фармакофора (Sheridan, 1989; Van Drie, 1989; Loew, 1993; Tschinke, 1993).
Построенная таким образом модель фармакофора в дальнейшем используется для
скрининга потенциальных лигандов в банках данных низкомолекулярных
органических соединений (database mining).
Оригинальный подход к компьютерной оценке спектра биологической активности
веществ разрабатывается в НИИ биомедхимии РАМН (Поройков, 1999).
Компьютерная система PASS прогнозирует свыше 400 фармакологических
эффектов и механизмов действия вещества по его структурной формуле. С
использованием этого подхода уже выявлены новые базовые структуры,
обладающие противоязвенным, противоамнестическим, противоопухолевым,
противобактериальным и другими эффектами (http://www.ibmh.msk.su/PASS).
Если десять лет назад основная конкуренция между фармацевтическими
фирмами на этапе поиска была связана с выявлением новой базовой
структуры, то в конце 90-х годов конкуренция разворачивается уже на более
ранней стадии – этапе поиска макромолекулы-мишени. Схематически эти
изменения представлены на рис.15.
В XXI веке роль будет возрастать биоинформатики не только в исследовании
молекулярной систематики и выяснении механизмов функционирования
биологических систем, но также в поиске новых мишеней действия и создании
новых более эффективных и безопасных лекарств. В свою очередь, прикладное
применение биоинформатики фармацевтической и биотехнологической
промышленностью станет существенным источником финансовой
поддержки работ по биоинформатике (см. раздел 4).
4. СОСТОЯНИЕ БИОИНФОРМАТИКИ В МИРЕ
На рубеже XX-XXI веков биоинформатика превратилась в бурно развивающуюся
область мировой биомедицинской науки. Биоинформатика относится к
постгеномным исследованиям, и базируется на информации о геномах про- и
эукариот, и экспрессируемых ими белках (протеомах).
Наряду с исследователями, ведущими фундаментальные разработки,
потребителями биоинформационных технологий являются медицинские,
биотехнологические и учебные учреждения. Эта область определена, как
приоритетная Национальным научным фондом и Национальной академией наук
США и рассматривается как таковая во всех развитых и во многих развивающихся
странах.
Количество Центров биоинформатики выросло за последние два года в несколько
раз и составляет в настоящее время более 60. Частичный перечень таких Центров
приведен ниже.
Некоторые центры биоинформатики в развитых и развивающихся странах
АВСТРАЛИЯ
Australian National University Bioinformatics
(http://life.anu.edu.au:80/index.html)
ANGIS- The Australian National Genomic Information Service
[EMBnet Australia National Node] (http://www.angis.org.au)
Australian Biotechnology Association (http://baitumac1.lib.unimelb.edu.au/ABA/Bioinformatics.html)
ВЕЛИКОБРИТАНИЯ
European Bioinformatics Institute – EBI (http://www.ebi.ac.uk/)
Oxford University Bioinformatics Centre (http://molbiol.ox.ac.uk)
SEQNET - U.K. molecular biology site and U.K. node of EMBnet
(http://www.dl.ac.uk/SEQNET/home.html)
Centre for Protein Engineering, MRC Yniversity of Cambridge
(http://www.mrc-cpe.cam.ac.uk)
Oxford Centre for Molecular Sciences (http://nmra.ocms.ox.ac.uk)
UK CropNet plant bioinformatics (http://synteny.nott.ac.uk)
ГЕРМАНИЯ
European Molecular Biology Laboratory – EMBL (http://www.emblheidelberg.de/)
Bielefeld University Bioinforrmatics Server.
(http://bibiserv.techfak.uni-bielefeld.de)
ГОНКОНГ
Hong Kong Bioinformatics Centre, Chinese University of Hong Kong
(CUHK) and Hong Kong University of Science and Technology
(HKUST) [EMBnet China Special Node]
(http://www.hkbic.bch.cuhk.edu.hk)
ДАНИЯ
Center for Biological Sequence Analysis, Technical University of
Denmark (http://www.cbs.dtu.dk)
ИНДИЯ
Bioinformatics Centre UNIVERSITY OF PUNE, PUNE 411 007, INDIA
(http://www.bic.nus.edu.sg/~kolaskar) (http://bioinfo.ernet.in)
Centre for Cellular and Molecular Biology, Hyderabad
(http://www.ccmbindia.org)
ИЗРАИЛЬ
Bioinformatics Unit, Genome Center and Weizmann Institute of Science
(http://bioinformatics.weizmann.ac.il)
HUJI (Israel) Hebrew University of Jerusalem Hadassah Medical
School: The Genomic and BioInformatics Server.
(http://gene.md.huji.ac.il/gene)
ИТАЛИЯ
TargetFinder: Telethon Inst. of Genetics and Medicine. Milan, Italy
(http://hercules.tigem.it/TargetFinder.html)
ИРЛАНДИЯ
Irish National Centre for BioInformatics (http://www.ie.embnet.org)
КАНАДА
Canadian Bioinformatics Resource, Institute for Marine Biosciences
(http://www.cbr.nrc.ca)
Bioinformatics Groups University of Waterloo
(http://wh.math.uwaterloo.ca/bioinfo_res.html)
КИТАЙ
Information Network Center, The Institute of Microbiology, Chinese
Academy of Sciences (http://www.im.ac.cn)
Center of Bio-Informatics, Peking University, China (EMBnet China
Node) (http://www.cbi.pku.edu.cn)
МАЛАЙЗИЯ
MSC-BIT, Universiti Putra Malaysia (http://www.angis.upm.edu.my)
Universiti Kebangsaan Malaysia (UKM) Center for Gene Analysis
and Technology (CGAT), UKM Virtual Protein Laboratory
(http://www.fsh.ukm.my/cgat)
НИДЕРЛАНДЫ
National CAOS/CAMM Center for Molecular and Biomolecular
Informatics The Netherlands (http://www.caos.kun.nl/index.html)
НОРВЕГИЯ
The Norwegian EMBnet Node (http://biomaster.uio.no)
University of Bergen, Bioinformatics group at Department of
Informatics, Norway (http://www.ii.uib.no/bio)
СИНГАПУР
Bioinfromatics Center at National Uninversity of Singapore
(http://www.bic.nus.edu.sg)
США
National Center for Biotechnology Information
(http://www.ncbi.nlm.nih.gov)
The Center for Bioinformatics NASA Ames Research Center
(http://biocomp.arc.nasa.gov/still)
The BioMolecular Engineering Research Center (BMERC) Boston
University (http://bmerc-www.bu.edu)
AGIS-Agriculture Genome Information Server.
(http://probe.nalusda.gov:8000)
CMS Molecular Biology Resource (San Diego Supercomputer
Center, San Diego CA)
(http://www.sdsc.edu/ResTools/cmshp.html)
Center for Bioinformatics & Computational Genomics Berley Lab
(http://cbcg.lbl.gov)
Center for Bioinformatics University of Pensylvania
(http://www.pcbi.upenn.edu)
Plant Genome Bioinformatics at the USDA/ARS Center for
Bioinformatics and Comparative Genomics, Ithaca, NY
(http://grain.jouy.inra.fr/Job/p160.html)
National Center for Genome Research (http://www.ncgr.org)
The National Human Genome Institute (NCHGI)
(http://www.nhgri.nih.gov/index.html)
Center for Bioinformatics University of California Los-Angeles
(http://www.bioinformatics.ucla.edu/facilities/center.htm)
US/PA - 3 Bioinformatics Staff at UPenn Center for Bioinformatics
(http://www.bioplanet.com/chat/jobs/messages/115.htm)
NetSci's Science Center: Bioinformatics
(http://www.netsci.org/Science/Bioinform/top.html)
Bayesian Bioinformatics Program at the Biometrics Laboratory of
Wadsworth Center. (http://www.wadsworth.org/resnres/bioinfo)
Center for Genomics and Bioinformatics University of Cincinnati
(http://genome.uc.edu/genome)
The Institute for Genomic Research (TIGR) (http://www.tigr.org)
IUBio - Indiana University Bioinformatics
(http://iubio.bio.indiana.edu)
Brookhaven National Laboratory (http://www.pdb.bnl.gov)
Brutlag Bioinformatics Group, Biochemistry Department at Stanford
University (http://dna.stanford.edu)
Structural Bioinformatics Inc. San Diego, CA
(http://www.strubix.com/sbi.html)
Geospiza, Inc. Seattle WA (http://www.geospiza.com)
DeCypher Bioinformatics Supercomputer at Stanford University
(http://decypher.stanford.edu)
The Bioinform Web Site (http://www.bioinform.com)
ТАЙВАНЬ
Bioinformatics at National Health Research Institutes (Taiwan)
(http://www.nhri.org.tw/en/mis/bioinfo.htm)
ТАИЛАНД
BIO-INFORMATICS The Official Bioinformatics Web Site in Thailand
(http://bioinfo.biotec.or.th)
ФРАНЦИЯ
INFormatics for BIOmolecules and GENomes, a French national centre
for Bioinformatics (http://www.infobiogen.fr/page_accueil_en.html)
CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE
UNIVERSITE CLAUDE BERNARD LYON 1 Institut de Biologie et
Chimie des Protйines (http://www.ibcp.fr)
Gene-IT SA BioInformatics company (http://www.gene-it.com)
Bienvenue sur le serveur du groupe de recherche b3e (Paris,
France) (http://www.b3e.jussieu.fr/index_eng.html)
ФИЛЛИПИНЫ
IRRI - International Rice Research Institute, Los Banos, Philippines
(http://www.cgiar.org/irri)
ШВЕЙЦАРИЯ
Swiss Institute of Bioinformatics (SIB) (http://www.isb-sib.ch)
ExPASy Molecular Biology Server (http://expasy.hcuge.ch)
Geneva Bioinformatics - BioInformatics company (GeneBio) S.A.
(http://www.genebio.com)
ЮЖНАЯ КОРЕЯ
BRIC, Biological Research Information Center (Korea)
(http://bric.postech.ac.kr)
Institute for Molecular Biology and Genetics, Seoul National
University (http://imbg.snu.ac.kr)
ЮЖНАЯ АФРИКА
The South African National Bioinformatics Institute
(http://www.sanbi.ac.za)
ЯПОНИЯ
Human Genome Center (Japan) at Institute of Medical Science, University
of Tokyo.
(http://www.hgc.ims.u-tokyo.ac.jp)
GenomeNet of Japan - WWW Server Institute for Chemical
Research, Kyoto University Human Genome Center, Institute of
Medical Science, University of Tokyo (http://www.genome.ad.jp)
DNA Data Bank of Japan (DDBJ), National Institute of Genetics
(http://www.ddbj.nig.ac.jp)
National Cancer Centre (http://bioinfo.ncc.go.jp)
JCM RIKEN (Japan Collection of Microorganisms, The Institute of
Physical and Chemical Research, Saitama)
(http://www.jcm.riken.go.jp)
Наряду с государственными, академическими и образовательными центрами
биоинформатики, которые бесплатно предоставляют свои ресурсы для всеобщего
использования, в последние годы возникло значительное число организаций и
проектов, ориентированных на коммерческое использование результатов
исследований в области биоинформатики. Это, прежде всего – организации,
деятельность которых ориентирована на структурный, функциональный и
сравнительый анализ геномов и эксперессируемых продуктов для вирусов,
бактерий и эукариот (растений и животных), включая человека. Примером такой
организации является TIGR (The Institute for Genomic Research),
расположенный в Роквилле неподалеку от Вашингтона (http://www.tigr.org/). Этот
институт принимает участие в секвенировании генома человека (хромосома 16),
поддерживает несколько собственных баз данных по нуклеотидным и
аминокислотным последовательностям, обеспечивает эффективную работу через
Интернет со многими базами данных, расположенными в различных странах,
включая полностью расшифрованные микробные геномы (Archaeoglobus fulgidus,
Borrelia burgdorferi, Haemophilus influenzae, Helicobacter pylori, Methanococcus
jannaschii, Mycobacterium tuberculosis, Mycoplasma genitalium, Thermotoga maritima,
and Treponema pallidum).
Наряду с применением уже созданных методов биоинформатики интенсивно для
решения прикладных задач развивается техническая и программная база
проведения таких исследований. Поскольку работы, связанные с биоинформатикой
требуют серьезной компьютерной поддержки, эффективной обработки больших
массивов разнообразных данных из многочисленных источников, быстрого
проведения многочисленных расчетов, визуализации получаемых результатов в
реальном времени, в качестве базовых компьютеров во многих случаях
используются серверы и рабочие станции SGI. Так, например, Центр
биоинформатики Детского госпиталя в Торонто (Канада), проанализировав
несколько возможных технических решений, недавно приобрел 64-процессорный
Origin2000, оперативная память которого составляет 16 GB, а объем RAID-массива
для хранения данных составляет около терабайта (http://www.sgi.com/education/
campus_success/toronto.html).
Интенсивно развивается и индустрия программного обеспечения. Наряду с
академическими компьютерными программами появляются их коммерчески
доступные версии. Так, например, недавно SGI оптимизировал алгоритмы,
используемые BLAST, для Origin2000 (http://www.sgi.com/education/
campus_success/toronto.html), MDL (http://www.mdli.com) разработал
интегрированную среду Life Science Workbench и оптимизировал комплекс
программ полекулярного моделирования SCULPT, Oxford Molecular разработал
целую серию работающих на UNIX-платформах программных продуктов для
биоинформатики (Wisconsin Package, SeqLab, SeqStore, SeqWeb, OMIGA), и т.д.
Стоимость приобретения лицезий на использование каждой из перечисленных (и
аналогичных) комптьютерных программ составляет десятки и даже сотни тысяч
долларов.
Несмотря на то, что сам термин (молекулярная) "биоинформатика" появился лишь
в 1993 году, уже создано Международное общество ученых, работающих в области
биоинформатики "International Society for Computational Biology" (http://iscb.org/) и
специализированный журнал "Bioinformatics" .
Проекты в области биоинформатики активно финансируются
фармацевтическими и биотехнологическими фирмами и научными фондами.
Так, например, Genometrix получил недавно грант в 1,6 млн долл США для
разработки эффективного метода анализа генетических различий от National
Institute of Environmental Health Sciences и National Human Genome Research Institute
(Investigational Drugs Weekly Highlits, 18 November 1998, p.22). Burroughs Wellcome
Fund объявил в № 7/8 журнала "Bioinformatics" за 1999 год о конкурсе грантов по
функциональной геномике, включая разработку компьютерных методов для
извлечения существенных данных из геномов и экспрессируемых
последовательностей и для определения структурно-функциональных
взаимосвязей путем синтеза информации, представленной в различных банках
данных по экспрессируемым геномам и модельным системам. Общая сумма,
выделенная на гранты, составляет 3 млн долл. США, на 1 проект выделяется 200
тыс. долл. США. К сожалению, эти гранты поддерживают работы только ученых из
США и Канады.
Между крупными фармацевтическими компаниями и венчурными фирмами,
специализирующимися в области биоинформатики, заключаются соглашения о
сотрудничестве. Так, например, с 1999 г. Schering Plough финансирует работы
Genome Therapeutic по определению генов (мишеней), которые могли бы быть
использованы для разработки противоастматических лекарств (Investigational Drugs
Weekly Highlits, 10 February 1999, p.14); Roche Bioscience подписал с Deltagen Inc.
соглашение о сотрудничестве в области выявления мутаций, вызывающих
некоторые болезни, и идентификации мишеней новых лекарств (Investigational
Drugs Weekly Highlits, 13 January 1999, p.14); Fujisawa Pharmaceutical заключила
соглашение на 19 млн. долл. США с Quark Biotech на поиск новых мишеней
лекарств для терапии инсультов (Investigational Drugs Weekly Highlits, 14 April
1999, p.14), и т.д.
Таким образом, в настоящее время за рубежом биоинформатика превратилась в
бурно растущую область науки, как в плане разработки и реализации
программного и информационного обеспечения для эффективной обработки
огромных массивов нуклеотидных и аминокислотных последовательностей,
так и применения разработанных методов к решению прикладных задач по
поиску и оценке макромолекул-мишеней действия новых лекарств.
5. СОСТОЯНИЕ БИОИНФОРМАТИКИ В РОССИИ
Биоинформатика относится к интеллектуальным (высокотехнологичным) разделам
науки, где получаемые результаты в значительной степени зависят от развитого
творческого мышления ученых, а не определяются в основном затратами на их
техническую вооруженность. Таким образом, учитывая достаточно высокий
интеллектуальный и образовательный уровень российских ученых и практическую
невозможность больших финансовых затрат в современной экономической
ситуации, биоинформатика имеет все основания стать одним из приоритетных
направлений науки в Российской Федерации.
Для этого имеются серьезные предпосылки так как, несмотря на отъезд многих
известных ученых и специалистов за рубеж, работы в этой области продолжаются в
ряде лабораторий.
Перечень ряда Институтов, где в настоящее время ведутся работы по отдельным
разделам биоинформатики приведен ниже:
ВНИИ "Генетика" (Москва)
Институт белка РАН (Пущино)
Институт биоорганической химии РАН
(Москва)
Институт молекулярной биологии РАН
(Москва)
Институт молекулярной генетики РАН
(Москва)
НИИ биомедицинской химии РАМН
(Москва)
Институт физико-химической биологии
МГУ им. А.Н.Белозерского (Москва)
Институт цитологии и генетики СО РАН
(Новосибирск)
Научно-исследовательский центр
«Биоинженерия» РАН (Москва)
Химический факультет МГУ (Москва)
Web-сайты по биоинформатике в Интернете имеют следующие институты:
НИИ биомедицинской химии РАМН (Москва) –
http://www.ibmh.msk.su/bioinform
Институт физико-химической биологии МГУ им. А.Н.Белозерского –
http://www.genebee.msu.su/
Институт цитологии и генетики СО РАН (Новосибирск) http://wwwmgs.bionet.nsc.ru/mgs/
Ряд оригинальных компьютерных программ и банков данных, созданных
российскими учеными, приведен на этих web-сайтах:
Activity – банк данных по активности функциональных сайтов ДНК/РНК
(http://wwwmgs.bionet.nsc.ru/mgs);
CPD – банк данных по цитохромам Р450 (http://cpd.ibmh.msk.su);
KeyLock – банк данных по молекулярному узнаванию в белок-лигандных
комплексах (http://lmgdd.ibmh.msk.su/KeyLock/KeyLock.htm);
PASS – компьютерная программа по предсказанию спектра биологической
активности низкомолекулярных органических веществ – потенциальных лигандов
новых лекарств (http://www.ibmh.msk.su/PASS/);
Screening PROSITE - программа банка скрининга данных PROSITE по
последовательности белка (http://www.genebee.msu.su/);
TRRD – банк данных по регуляции транскрипции генов эукариот
(http://wwwmgs.bionet.nsc.ru/mgs/); и другие.
Имеется положительный опыт технической поддержки организаций, ведущих
работы в области биоинформатики, со стороны фирмы "Каталист Силикон
Солюшенс" (CSS), которая в течение многих лет плодотворно сотрудничает с
российскими биомедицинскими научными и учебными центрами (Институт
биоорганической химии РАН, НИИ биомедицинской химии РАМН, Пущинский
Научный Центр РАН, и др.). CSS выступает в такого рода кооперации как
системный интегратор, осуществляя проектирование, поставку и техническое
сопровождение компьютерных систем различного уровня - от персональных
компьютеров фирмы "Siemens" до высокопроизводительных серверов SGI
(http://www.catalyst.ru)
Начата работа по организации подготовки отечественных специалистов в области
биоинформатики. С 1996 г. на базе НИИ биомедицинской химии РАМН
организован спецкурс "Биоинформатика и компьтерное конструирование лекарств"
для студентов-выпускников Медико-биологического факультета РГМУ, которые
выполняют здесь также курсовые и дипломные работы по биоинформатике.
24-31 августа 1998 года в Новосибирске состоялась первая Международная
конференция по проблемам биоинформатики в исследованиях по регуляции и
структуре генома (The First International Conference on Bioinformatics in Genome
Regulation and Structure) - http://www.bionet.nsc.ru/bgrs/apbionet.htm. Объявлено, что
вторая конференция по данной проблематике состоится 7 – 14 августа 2000 года http://www.bionet.nsc.ru/bgrs2000/.
Некоторые вопросы биоинформатики затрагивались на Секции "Компьютерное
конструирование лекарств" VI Российского национального конгресса "Человек и
лекарство" (Москва, апрель 1999 г.), II Съезде биофизиков России (Москва, 23-27
августа 1999 г.) и Научной конференции "Геномика – медицине" (Москва, 6-8
октября 1999 г.).
В то же время, в России в настоящее время отсутствует какая-либо
координация работ по данному направлению, нет государственной поддержки
научных проектов, в системе образования не отражена соответствующая
специализация.
Повысить эффективность российских работ по биоинформатике можно,
создав Российский центр по биоинформатики, который обеспечит
интеграцию и выполнение на современном уровне работ в области анализа
генетической и протеомной информации от разработки теоретических
методов до практических приложений результатов фундаментальных
исследований в медицине и биотехнологии.
6. НЕОБХОДИМОСТЬ СОЗДАНИЯ РОССИЙСКОГО ЦЕНТРА ПО
БИОИНФОРМАТИКЕ
Предпосылки:
Биоинформатика - это тот раздел современной науки, где российские
ученые могут успешно работать на мировом уровне. Это обусловлено
тем, что биоинформатика требует не столько финансовых затрат (по
оценкам сравнительно скромных), сколько новых идей и «мозгов».
Биоинформатика базируется на обобщенных мировых
информационных ресурсах в области молекулярной биологии и
следовательно одиночки или разрозненные коллективы не могут
достичь успехов в этой области.
Для получения полного и надежного доступа к мировым
биоинформационным ресурсам, состоящим из геномных и
молекулярных баз данных, а также программных средств,
необходимо включиться в мировой интеграционный процесс. С этой
целью необходимо в первую очередь объединить имеющихся в
нашей стране разработчиков (сохранив авторские приоритеты) с тем,
чтобы уже существующие международные центры были
заинтересованы в сотрудничестве с нами.
Для этого необходимы:
Интеграция вычислительных,
программных и информационных
ресурсов отдельных российских научных
коллективов в единый национальный
центр биоинформатики с использованием
технологий Интернет.
Регистрация российского центра
биоинформатики на международном
уровне и его интеграция в мировую
систему биоинформационных ресурсов.
Поддержка новейшего приоритетного
направления исследований.
Защита авторских прав и
коммерциализация программных и
информационных продуктов в области
биоинформатики.
Пользователи:
Научно-исследовательские институты и
ВУЗы биологического, медицинского и
химического профилей.
Исполнители проектов по грантам
Миннауки РФ и РФФИ.
Биотехнологические и фармацевтические
фирмы.
Практические результаты:
Интеграция имеющихся интеллектуальных ресурсов, программных и
вычислительных средств, обеспечивающая повышение
эффективности их использования.
Коммерциализация имеющихся и создаваемых отечественных
программных продуктов и банка данных по физиологически
активным веществам.
Обеспечение всего комплекса сервисных услуг в области структурнофункциональной биологии: от генетических последовательностей до
пространственной структуры белка и конструирования базовых
структур новых лекарств.
Подготовка специалистов в области биоинформатики из числа
студентов и аспирантов химических, биологических и медикобиологических факультетов Вузов.
Организация подготовки кадров.
Для реализации поставленных задач не потребуется строительства новых
зданий и создания новых научно-исследовательских организаций –
предполагается объединение уже работающих в области биоинформатики
коллективов в рамках Центра, работы которых будут скоординированы с
применением современных технологий Интернет.
Благодарности
Авторы приносят искреннюю признательность за обсуждение некоторых из
рассмотренных в обзоре проблем Арсеньеву А.С., Ефремову Р.Г. (Институт
биоорганической химии им.М.М.Шемякина и Ю.А.Овчинникова РАН), Туманяну
В.Г. (Институт молекулярной биологии им.В.А.Энгельгардта РАН), Гельфанду
М.С., Миронову А.А. (ГНЦ "ГосНИИГенетика").
Литература
Белкина Н.В., Скворцов В.С., Иванов А.С., Арчаков А.И. Вопросы
медицинской химии, 1998, 44, 464.
Поройков В.В. Химия в России, 1999, № 2, 8.
Aoyama Y, Noshiro M, Gotoh O, Imaoka S, Funae Y, Kurosawa N,
Horiuchi T, Yoshida Y. J. Biochem., 1996, 119, 926.
Altschul S.F., Gish W., Miller W., et.al. J. Mol. Biol., 1990, 215, 403.
Augenstine L., Branson H.R., Carver E.B. In: Information Theory in
Biology. Ed. by H.Castler. Urbana: University of Illinois Press, 1953,
p.105.
Benton D. Trends in Biotechnology, 1996, 14, 261.
Bernstein, F.C., Koetzle, T.F., Williams et.al. J.Mol.Biol., 1977, 112,
535.
Blundell T.L., Dodson G.G., Hodgkin D.C. et. al. Adv. Prot. Chem.,
1972, 26, 279.
Blundell T.L. et. al. Nature, 1987, 326, 247.
Blundell T.L. et. al. Eur. J. Biochem., 1988, 172, 513.
Borodovsky M. And McInnich J. Comput. Chem., 1993, 17, 123.
Browne D.J., North A.C.T., Philips D.C. et. al. J. Mol. Biol., 1969,
43, 65.
Colovos C., Yeates T.O. Protein Sci., 1993, 2, 1511.
DockSearch, 1999,
http://lmgdd.ibmh.msk.su/lab/originalsoftware/DS/DS.htm
Fine R.M., Wang H., Shenkin P.S. et. al. Proteins, 1986, 1, 342.
Frazao O., Topham C., Dhanaraj V., et.al. Pure Appl. Chem., 1994,
66, 43.
Gamov G., Rich., Ycas M. Adv. Biol. Med. Physics, 1956, 4, 23.
Human Genome News, January 1998; 9(1-2); updated 3/99.
http://www.ornl.gov/hgmis/faq/compgen.html#completegenomes
Issaks N., James R., Niall H. et. al. Nature, 1978, 271, 278.
Jones D.T., Orengo C.A., Thirnton J.M. In: Protein Structure
Preciction, Oxford Univ. Press, 1996, 173.
Johnson M.S., Srinivasan N., Sowdhamini R., et. al. Crit. Rev.
Biochem. Nol. Biol., 1994, 29, 1.
Karp P. Trends in Biotechnology, 1996, 14, 273.
Kendrew J. Nature, 1958, 181, 662.
Koehl P. and Levitt M. Nature Structural Biology, 1999, 6, 108.
Laskowski P.A. et. al. J. Appl. Crystallogr., 1983, 26, 283.
Loew G.H., Villar H.O., Alkorta I. Pharmaceut. Res., 1993, 10, 475.
Marichal P. et al. Microbiology, 1999 (In press).
Martin, Y.C. Overview of Current State of Rational Drug Design.
"Rational Drug Design. Advances in Technology & Therapeutic
Applications", IBC USA Conference, 1993, San Diego.
McLachlan A.D. and Shotton D.M. Nature New Biol., 1971, 229,
202.
MDL Information Systems, Inc., 1999, http://www.mdli.com
Modern Drug Discovery, 1998, November/December, 41-48.
Morris A.L., MacArthur M.W., Hutchinson E.G. et.al. Proteins, 1992,
12, 345.
MPsrch, http://www.ebi.ac.uk/searches/blitz.html
Ouzounis C., Casari G., Sander C. et. al. Trends in Biotechnology,
1996, 14, 280.
Peruts M. J.Mol. Biol., 1951, 1, 402.
Robinson K.R., Church G.M., 1995,
http://www.belmont.com/gb.html
Sheridan R.P., Rusinko A., Nilakantan R., et/sl. Proc. Nat. Acad.
Sci. USA, 1989, 86, 8165.
Smith D. Trends in Biotechnology, 1996, 14, 290.
Spaltman F. et al. Drug Discovery Today, 1999, 4, 17.
Srinivasan N. et. al. In: Protein Structure Prediction, Oxford Univ.
Press, 1996, 111.
TRIPOS, Inc., 1999, http://www.tripos.com
Tschinke V., Cohen N.C. J. Med. Chem., 1993, 36, 3863.
Van Drie J.H., Weininger D., Martin Y.C. J. Comp. Aid. Mol. Design,
1989, 3, 225.
Download