Word версия

advertisement
Проект программы обучения студентов по специальности
«биоинформатика»
М.С.Гельфанд, А.А.Миронов (“Integrated Genomics”)
А.В.Алексеевский, С.А.Спирин (НИИФХБ им. Белозерского, МГУ)
Москва, 2001
Вводные замечания.
1. В этот проект авторы включили все основные, на их взгляд, темы.
Программа конкретного курса, несомненно, должна быть адаптирована к
составу студентов и, может быть, сокращена.
2. Под биоинформатикой авторы понимают науку, занимающуюся анализом
экспериментальных данных молекулярной биологии: секвенированных
последовательностей биополимеров, экспериментально определенных
пространственных структур биологических макромолекул, данных об
экспрессии генов и т.д. Методами биоинформатики являются методы
организации информации, широко понимаемые компьютерные методы,
методы вычислительной математики и статистики. Близкая трактовка этого
термина принята в ведущих зарубежных центрах, таких, как EMBL/EBI
(Германия-Великобритания), SIB (Швейцария), NCBI (США) и др.
При таком понимании биоинформатики за ее рамками остаются многие
другие области науки о живом, связанные с использованием математических
и компьютерных методов, например, математическая экология,
математические модели в физиологии, концепции биополя,
информационного содержания организма и др., а также молекулярная
динамика — эти важные науки имеют собственные задачи и методы.
Разграничение областей авторы считают необходимым для составления
программ обучения. Не следует включать в одну программу “все для всех”.
3. Программа призвана готовить специалистов в области биоинформатики.
Иногда таковых называют «компьютерный биолог». Компьютерный биолог
занимается получением биологически осмысленных результатов, исследуя
содержимое банков данных. Поэтому в идеале он должен владеть арсеналом
существующих компьютерных средств (программ, баз данных и др.), знать
алгоритмы, заложенные в программах — чтобы уметь интерпретировать
результаты, владеть программированием — чтобы реализовывать новые
идеи. Спектр необходимых знаний и временных затрат таков, что почти
невозможно быть одновременно экспериментатором и “полноценным”
компьютерным биологом.
Следует признать, что в настоящее время в мире мало “полноценных”
компьютерных биологов. Чаще специалист-биоинформатик либо биолог и, в
лучшем
случае,
квалифицированный
пользователь
программного
обеспечения («пользователь»), либо математик и специалист по созданию
программного обеспечения («алгоритмист»). Потребность как в тех, так и в
других специалистах несомненна.
Исходя из реальной ситуации, в детальной программе конкретного курса
следует учитывать подготовку студентов: для математиков и алгоритмистов
больше внимания уделять изучению алгоритмов вычислительной биологии,
для
биологов
—
особенностям
использования
существующего
программного обеспечения. Возможно, следует предусмотреть по два
варианта практикумов при едином теоретическом курсе.
1
Тем не менее, представляется нецелесообразным создавать для
подспециальностей отдельные программы обучения ввиду быстрого
прогресса области и роста потребности в полноценных компьютерных
биологах.
4. Программа состоит из двух частей: предварительные курсы (сведения из
математики, физики, химии и биологии, необходимые для занятий
биоинформатикой) и собственно биоинформатика. Авторы, в принципе,
готовы взять на себя или предложить кандидатуры для преподавания
основной части.
Предварительная часть в зависимости от факультета в той или иной
степени охвачена существующими программами. Вероятно, следует
предусмотреть краткий «ликбез» по пропущенным темам.
ПРЕДВАРИТЕЛЬНЫЕ КУРСЫ для биоинформатиков
Биохимия и молекулярная биология
Генетика
Физика
 термодинамика
 физика биополимеров
 физические свойства аминокислот
 виды взаимодействий между аминокислотами и/или нуклеотидами
 первичная, вторичная, третичная структура белков
 вторичная и третичная структура РНК, псевдоузлы
 параметры спирали ДНК, плавление ДНК (динамическое
программирование), сверхспирализация ДНК, топология ДНК
 рентгеновская кристаллография, ЯМР-спектроскопия
Математика
 математический анализ
 линейная алгебра
 комбинаторика
 теория вероятностей
 прикладная статистика
Информатика
 характеристики алгоритмов (время и память)
 языки программирования
 операционные системы
 базы данных
Практикум по информатике
 Интернет
 Excel
 UNIX
2
КУРС БИОИНФОРМАТИКИ
Основные задачи биоинформатики
 функциональная аннотация биополимеров
 структурная аннотация биополимеров
 эволюция
 геномика и протеомика
Базы данных
 основы структур баз данных (записи, поля, объекты)
 классификация баз по способу заполнения (автоматические, архивные,
курируемые)
 основные базы данных:
 GenBank, EMBL
 SwissProt, TrEMBL, PIR
 PDB
 базы, содержащие результаты глобальных экспериментов по анализу
экспрессии, протеомике, и т.п.
 банки белковых семейств (SCOP, Prosite, ProDom, PFAM, InterPro)
 метаболические базы данных
 генетические банки (физические карты, OMIM)
 специализированные банки данных
 конкретные белковые семейства, РНК и т.д.
 конкретные геномы
 функциональные сайты в белках и ДНК
Средства работы с банками данных (практикум)
 SRS
 Entrez
Сравнение последовательностей
 выравнивание двух последовательностей
 глобальное и локальное выравнивание, вес выравнивания, матрицы
аминокислотных замен
 дот-матрицы
 глобальное выравнивание: алгоритм Нидельмана-Вунша
 локальное выравнивание: алгоритм Смита-Ватермана
 другие алгоритмы локального выравнивания
 другие варианты выравнивания (fitting, overlaps, блочное выравнивание,
сплайсированное выравнивание)
 статистическая значимость выравниваний и ее зависимость от
вероятностной модели последовательности (в т.ч. сегменты малой
сложности)
 зависимость выравнивания от параметров
 множественное выравнивание
 динамическое программирование
 последовательное выравнивание (Clustal)
3



другие алгоритмы множественного выравнивания (DIALIGN, Match-Box,
алгоритм Леонтовича-Бродского)
профили, скрытые марковские модели
поиск блоков (максимизация ожидания, Gibbs sampler, имитация
теплового отжига и т.д.)
Практикум по выравниваниям
 построение выравниваний (написание или использование программ)
 сравнение локальных и глобальных выравниваний
 зависимость выравнивания от параметров
 оценка статистической значимости
Поиск по сходству в базах данных
 Smith-Waterman
 хэширование (lookup table)
 BLAST
 FASTA
 оценка значимости (E-value, P-value)
 фильтрация повторов и обработка участков малой сложности (фильтрация,
пересчет значимости)
 паттерны (Prosite), профили, Psi-BLAST, HMM (PFAM)
Практикум по поиску гомологов
 интерпретация результатов
 сравнение алгоритмов
 зависимость от параметров (матрицы, фильтры и т.п.)
Автоматическое аннотирование последовательности. Онтология.
Пространственная структура биополимеров
 PDB
 структура записи PDB
 визуализация
 анализ структурных особенностей
 моделирование
 предсказание вторичной структуры белков
 предсказание третичной структуры белков по гомологии
 threading
 docking
 предсказание параметров спирали ДНК
 предсказание вторичной структуры РНК
 представление вторичной структуры РНК
 минимизация энергии вторичной структуры (динамическое
программирование)
 динамические модели РНК
 сравнительный подход по гомологичным и изофункциональным РНК
Практикум по структурам белков
4



RASMOL
SwissPDBViewer
WhatIf
Практикум по вторичным структурам РНК
Предсказание функции по последовательности
 белки
 анализ гомологов
 функциональные сигналы
 лидерные пептиды и трансмембранные сегменты
 сайты модификации (гликозилирование, фосфорилирование и т.п.)
 ДНК
 функциональные сайты
 гены прокариот
 гены эукариот (динамическое программирование, HMM)
 сравнительные методы предсказания генов
 РНК
 поиск РНК с заданной структурой (тРНК и т.п., регуляторные участки
мРНК)
Практикум: аннотация последовательностей
 поиск белок-кодирующих областей (написание программ или использование
существующих серверов)
 поиск функциональных сайтов (написание программ или использование
существующих серверов)
 предсказание структурных особенностей белков
Молекулярная эволюция
 эволюция молекул и организмов
 ортологи и паралоги
 горизонтальный перенос
 деревья видов и деревья генов
 филогенетическое дерево как математический объект
 модели эволюции
 алгоритмы построения филогенетических деревьев
 матрица расстояний
 методы, основанные на матрице расстояний (UPGMA, neighbour-joining,
minimal evolution, топологические инварианты и др.)
 другие методы (максимальная экономия, максимальное правдоподобие)
 алгоритмические проблемы поиска оптимального дерева
 bootstrapping
 согласование деревьев
 эволюция на уровне генома (синтения, хромосомные перестройки)
 анализ популяционных данных
 SNP
 тандемные повторы
 митохондрии и Y-хромосомы
5

данные по рестрикции
Статистика последовательностей ДНК
 (ди)нуклеотидный состав (изохоры, GC-острова, картирование старта
репликации)
 частые и редкие слова (вероятностные проблемы)
 статистика ДНК как характеристика генома
Вычислительная геномика
 метаболическая реконструкция (в т.ч. неортологичные замещения)
 позиционный анализ
 эволюция регуляторных взаимодействий
 эволюция белковых семейств, их доля в геноме
Поддержка эксперимента
 подбор праймеров для ПЦР
 секвенирование геномов
 генетическое картирование
 физическое картирование
 автоматическое секвенирование
 сборка фрагментов
 протеомика
 анализ данных двумерного фореза (обработка изображений)
 масс-спектрометрия белков
 анализ данных по экспрессии генов (microarrays и др.)
 обработка изображений
 кластеризация профилей экспрессии
 диагностика по экспрессии генов
6
Download