МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФГАОУ ВО "Новосибирский национальный исследовательский государственный университет"

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ
ФЕДЕРАЦИИ
ФГАОУ ВО "Новосибирский национальный
исследовательский государственный университет"
Факультет естественных наук
УТВЕРЖДАЮ
Декан ФЕН НГУ, профессор
_____________ Резников В.А.
«29» августа 2014 г.
Рабочая программа дисциплины
Биоинформатика
и функциональная
геномика
Направление подготовки
Биология 06.03.01
Профиль подготовки
Профильная часть ООП
Квалификация (степень) выпускника
Академический бакалавр
Форма обучения
Очная
Новосибирск 2014
Аннотация рабочей программы
Дисциплина «Биоинформатика и функциональная геномика» (Б1.В.ОД.14.11)
является частью ООП по направлению подготовки «Биология», вариативная часть,
обязательная дисциплина профиля «Генетика», «Биология клетки». Дисциплина реализуется
на Факультете естественных наук Федерального государственного автономного
образовательного учреждения высшего образования "Новосибирский национальный
исследовательский государственный университет" (НГУ) кафедрой цитологии и генетикив 8
семестре 4 курса.
Содержание дисциплины охватывает обзор базовых инструментов и информационных
ресурсов по биоинформатике и функциональной геномике. Рассматриваются основные
вопросы и методы их решения в геномике, транскриптомике и протеомике. Приобретенные
навыки применяются на практике для решения задач генетики и эволюционной биологии.
Дисциплина нацелена на формирование общепрофессиональных компетенций ОПК-1,
ОПК-5, ОПК-7, ОПК-11, профессиональных компетенций ПК-4, ПК-8 выпускника.
Преподавание дисциплины предусматривает следующие формы организации учебного
процесса: 16 ч. – лекции, 20 ч. - практические занятия, 22 ч. - самостоятельная работа
студента, 14 ч. - контроль (контрольное задание и коллоквиум), 10 ч. интерактивная формаиндивидуальные консультации.
Программой дисциплины предусмотрены следующие виды контроля: текущий
контроль осуществляется по посещению занятий, выполнению заданий и их представлению
на коллоквиуме, рубежный контроль - дифференцированный зачет.
Общая трудоемкость дисциплины составляет 2 зачетных единиц, 72 академических
часа.
1. Цели освоения дисциплины
Курс биоинформатики и функциональной геномики необходим для обучения студентов
современным компьютерным методам сбора и анализа биологических данных.
Биоинформатический анализ является обязательным этапом исследований в целом ряде задач
биологии, медицины и сельского хозяйства. Знания и практические навыки, полученные
студентами в рамках курса, помогут проводить эффективный поиск биологической
информации, анализ и сравнение генетических данных, исследование филогении, генерацию
гипотез о механизмах молекулярно-генетических процессов на основе биоинформатического
анализа и многое другое.
Для достижения поставленной цели выделяются задачи курса:
 Ознакомление с основными информационными ресурсами биологии и медицины.
 Обзор базовых биоинформатических методов и алгоритмов анализа биологических
данных.
 Обзор успешных примеров генерации гипотез о механизмах молекулярно-генетических
процессов с использованием методов биоинформатики и функциональной геномики.
 Практическая работа с онлайн-биоинформатическими ресурсами для решения
конкретных биологических задач.
Курс ставит своей целью ознакомление студентов с богатством и многообразием
доступных
через
интернет
биологических
данных,
с
возможностями
их
биоинформатического анализа с применением доступных онлайн программ. В рамках курса
подробно разбираются основные базы данных по биологии и медицине и встроенные в них
программы биоинформатического анализа.
Данный курс знакомит студента с методологией теоретического анализа
полногеномных данных. Подробно разбираются все этапы теоретического анализа: поиск и
доступ к информации, методы биоинформатического анализа данных, интеграция и
сравнение данных разных типов экспериментов, генерация гипотез о механизмах
молекулярно-генетических процессов. Отдельное внимание уделяется принципам и
примерам филогенетического анализа.
В рамках курса большое внимание уделяется освоению теоретических знаний на
практике, практические задания, предлагаемые студентам позволяют познакомиться со всеми
рассмотренными в рамках лекционного курса базами данных и алгоритмами на практике и
закрепить приобретенные навыки при работе над курсовой работой. Несмотря на то, что
ключевым вопросом данного курса является вопрос «Как?», разбор конкретных
практических задач позволяет студенту разобраться в вопросах «Зачем?» и «Почему?».
2. Место дисциплины в структуре ООП бакалавриата
Дисциплина «Биоинформатика и функциональная геномика» входит в базовую частью
профессионального цикла, ООП по направлению подготовки «Биология».
Дисциплина «Биоинформатика и функциональная геномика» опирается на следующие
дисциплины данной ООП:
 Молекулярная биология;
 Матстатистика и теория вероятности;
 Генетика;
 Биометрия;
 Теория эволюции
Результаты освоения дисциплины «Биоинформатика и функциональная геномика»
используются в следующих дисциплинах данной ООП:
 дисциплинах специализации профилей «Генетика» и «Клеточная биология»
 анализ и обсуждение результатов при выполнении дипломной работы и подготовке
публикаций.
3. Компетенции обучающегося, формируемые в результате освоения дисциплины
«Генетика».
Общепрофессиональные компетенции:
 способность решать стандартные задачи профессиональной деятельности на основе
информационной и библиографической культуры с применением информационнокоммуникационных технологий (часть ОПК-1),
 способность применять знание принципов клеточной организации биологических
объектов, биофизических и биохимических основ, мембранных процессов и
молекулярных механизмов жизнедеятельности (ОПК-5)
 владенить базовыми представлениями об основных закономерностях и современных
достижениях генетики и селекции, о геномике, протеомике (ОПК-7);
 способность применять современные представления об основах генной инженерии,
нанобиотехнологии, молекулярного моделирования (часть ОПК-11).
Профессиональные компетенции:
 владение современными методами обработки, анализа и синтеза полевой,
производственной и лабораторной биологической информации, правилами составления
научно-технических проектов и отчетов (ПК-4)
 способность использовать основные технические средства поиска научнобиологической информации, универсальные пакеты прикладных компьютерных программ,
создавать базы экспериментальных биологических данных, работать с биологической
информацией в глобальных компьютерных сетях (ПК-8).
В результате освоения дисциплины обучающийся должен:
 иметь представление об основных информационных ресурсах биологии и медицины,
особенностях доступа к этим данным и возможностях их биоформатического анализа;
 уметь профессионально пользоваться GenBank и UCSC Genome Browser;
 понимать принципы, лежащие в основе алгоритмов сравнения биологических
последовательностей, знать и уметь профессионально пользоваться программой BLAST;
 понимать принципы филогенетического анализа, уметь строить и анализировать
филогенетические деревья;
 Иметь представления о современных методах анализа экспрессии генов, уметь проводить
статистический анализ и функциональную аннотацию этих данных;
 Понимать возможности и недостатки программ предсказания в биологии и медицине,
знать спектр таких программ и уметь ими пользоваться;
 Знать основные ресурсы по протеомике, понимать возможности и недостатки
современных методов анализа функций белков.
4. Структура и содержание дисциплины
Структура дисциплины: двухчасовые лекции и двух-трехчасовые практические занятия в
компьютерном классе, коллоквиум, самостоятельная работа студента. Предусмотрено 10 ч.
интерактивных консультаций. Текущий контроль осуществляется по посещению занятий,
выполнению заданий и их представлению на коллоквиуме. Итоговый
контроль дифференцированный зачет. Общая трудоемкость дисциплины составляет 2 зачетных
единиц, 72 часа.
№
п/п
Раздел дисциплины
С
е
м
е
Не
Виды учебной работы,
де включая
самостоятельную
ля
работу студентов и
се
трудоемкость
ме
(в часах)
ст
Формы текущего
контроля
успеваемости
(по неделям
семестра)
Форма
с
т
р
1.1. Введение
в
биоинформатику
и
функциональную геномику. Основные
задачи и набор инструментов.
1.2. Банки
данных
биологических
последовательностей.
Геномные
браузеры. GenBank.
2.1 Сравнение нуклеотидных и белковых
последовательностей.
Попарное
выравнивание. BLAST.
2.2. «Продвинутый» поиск гомологичных
последовательностей.
PSI-BLAST,
MegaBLAST, BLASTZ, BLAT. Скрытые
марковские модели.
2.3. Множественное
выравнивание
последовательностей:
основные
алгоритмы и их особенности. ClustalW,
MAFFT, MUSCLE и другие методы.
3.1. Молекулярная филогения и эволюция.
Ортологи и паралоги. Филогенетические
деревья и алгоритмы их построения и
анализа.
3.2. Молекулярная филогения и эволюция.
Модели
эволюции.
Гипотеза
молекулярных часов. Скорости замен и
время дивергенции.
4. Методы предсказания в биологии. Поиск
сигналов
в
нуклеотидных
последовательностях.
Распознавание
сайтов связывания транскрипционных
факторов.
5. Транскриптомика. Особенности анализа
полногеномных данных по экспрессии
генов. Статистические методы обработки
данных микрочип экспериментов.
6. Протеомика. Специализированные базы
данных по белкам. Белковые семейства
(домены
и
мотивы).
Поиск
и
предсказание физических свойств белков.
1.11 ИТОГО
ра
промежуточной
аттестации
(по семестрам)
Л
ек
ц
и
я
Л
аб
ор
.
ра
бо
та
Са
мос
т.
раб
ота
7
1
1
1
7
1
4
4
7
2
2
2
2
Контрольное
задание
7
2
2
2
2
Контрольное
задание
7
1
2
3
2
Контрольное
задание
7
2
2
3
2
Контрольное
задание
7
1
2
3
2
Контрольное
задание
7
2
1
1
2
Контрольное
задание
7
2
2
1
2
Контрольное
задание
7
2
2
2
2
коллоквиум
7
Ко
нт
р.
ра
бо
та
16 20 22 14
З
а
ч
е
т
Диф.зачет
Программа практических занятий по биоинформатике и функциональной геномике
Занятия 1-2.
Знакомство с банком данных NCBI. Реализация простых и сложных запросов. Поиск
информации в системе Entrez. Проект RefSeq. Поиск научной литературы в PubMed. Генная
онтология (GO Ontology) и функциональный анализ генов в системе AmiGO. Геномный
браузер UCSC.
Практическое задание 1.
Используя систему поиска Entrez оцените количество глобинов в геноме человека? Найдите
прототипную (репрезентативную) последовательность нейроглобина.
Практическое задание 2.
Используя систему поиска Entrez оцените количество белков человека, которые имеют массу
более 300 000 дальтон.
Практическое задание 3.
ATP-binding cassette (ABC) - пример белкового домена в широко-представленном семействе
ABC transporters. Используя систему поиска Entrez оцените количество белков человека,
которые имеют такой домен? Сколько белков бактерий имеют такой домен?
Практическое задание 4.
Используя базу данных PheGenI для поиска генов и систему AmiGO для функциональной
аннотации генов найдите в каких молекулярных процессах задействованы гены, которые
были ранее ассоциированы с такими заболеваниями, как:
• Депрессия
• Астма
Практическое задание 5.
Используя геномный браузер UCSC
1. Найдите ген бета-глобина
2. Какие гены находятся справа и слева от гена?
3. Просмотрите, какие мРНК из GenBank экспрессируются в этом локусе. Что за
транскрипты М12050 и М14754?
4. Какие альтернативные изоформы HBB предсказывают программы AceView и Ensembl
68?
5. Сайты связывания каких транскрипционных факторов были локализованы в
промоторе HBB методом ChipSeq? А в downstream районе HBB?
6. Просмотрите какие трэки можно открыть по экспрессии и регуляции?
7. Добавьте новый трэк «Burge lab RNA-seq aligned by GEM Mapper». В какой из
исследованных тканей GEM Mapper распознает самую длинную изоформу.
Занятия 3-4.
Обзор основных алгоритмов попарного глобального и локального выравнивания.
Использование программы BLAST и ее модицикаций.
Практическое задание 1.
В геноме человека есть гомологи обратной транскриптазы pol, которую кодирует вирус
HIV-1. Попробуйте найти этих гомологов в Entrez protein.
Accession number HIV-1 reverse transcriptase NP_057849. Используйте программу blastp
для поиска гомологов. Какие результаты вы получаете с матрицами BLOSUM62, BLOSUM50,
BLOSUM90?
Что изменяется при использовании PAM30, PAM70, PAM250?
Представьте результаты в виде таблицы
Практическое задание 2.
Сравните митохондриальную ДНК современного человека с ДНК неандертальца.
Используйте последовательность гена cytochrome oxidase.
Практическое задание 3.
На лекции мы видели, что некоторые гены эволюционируют медленно (убиквитин). А
как быстро эволюционируют цитохром оксидаза из предыдущего задания? Какова степень
гомологии у гена человека, гена крысы и гена мыши?
Для ответа на этот вопрос используйте попарное выравнивание в программе blastp.
Практическое задание 4.
В программе blastp проведите поиск белка длиной 12 аминокислот: PNLHGLFGRKTG.
Программа BLAST автоматически подстроит параметры под короткую последовательность.
Как изменятся следующие параметры: матрица для оценки скора, «длина слова», порог
e-value?
Какое наибольшее e-value выдается для 100 наиболее хороших выравниваний?
Охарактеризуйте наилучшее выравнивание в запросе (e-value, процент гомологии,
скор).
Практическое задание 5.
Поиск с белковыми последовательностями как правило более информативен, чем поиск
с последовательностями ДНК. Проверьте это утверждение.
Проведите поиск в программе blastp с последовательностью белка RBP4 (NP_006735),
ограничьте поиск по классу насекомые.
Проведите тот же поиск в программе blastn для кодирующей части (CDS) гена RBP4
(NM_006744).
Какое количество выравниваний вы получили для каждого случая с E value<1.0.
Практическое задание 6.
Olfactory receptor family – одно из самых больших семейств генов человека. Используйте
программу BLAST для оценки количества паралогов.
Практическое задание 7.
“The Icemen” – человек который жил 5300 лет назад, его тело обнаружили в Итальянских
Альпах в 1991 году. С одежды этого человека были получены остатки грибков. К каким
современным видам ближе всего последовательности этих грибов?
Практическое задание 8.
У малярийного плазмодия Plasmodium vivax есть специфичное семейство генов vir.
Есть около 1000 копий этого гена. Используйте поиск blastp для поиска паралогов vir1. Затем
проведите поиск в программе PSI-BLAST:
При первоначальном поиске, сколько белков имеют E value менее 0.005?
Каков скор наилучшего нового выравнивания полученного на второй итерации?
Сколько белков найдено после 3 итерации?
Практическое задание 9.
Существуют ли глобины в грибах?
Проведите поиск в PSI-BLAST и Delta-BLAST с использованием последовательности
человеческого beta globin (NP_000509).
Какова длина глобинов в грибах? Какие неглобиновые домены иногда присутствуют у
ортологов гемоглобина?
Занятие 5-6.
Обзор материалов и методов по множественному выравниванию последовательностей.
Получение из базы данных NCBI выборки последовательностей для множественного
выравнивания. Филогенетический анализ.
Практическое задание 1.
Поиск в NCBI группы последовательностей для множественного выравнивания
(вариант 1 - HomoloGene).
Используйте для поиска ключевые слова, например «cytochrome» (ferritin,S100, trypsine
или ген вашего интереса)
Используйте HomoloGene.
Выберите вид- «множественное выравнивание»
Выберите одно из выравниваний, содержащее гэпы (для следующего задания)
Выберите вид «FASTA»
Скопируйте в текстовый документ.
Практическое задание 2.
Поиск в NCBI группы последовательностей для множественного выравнивания.
Повторите поиск с использованием базы данных CDD.
Практическое задание 3.
Поиск в NCBI группы последовательностей для множественного выравнивания.
Повторите поиск с использованием BLAST.
Практическое задание 4.
Сравните множественные выравнивания последовательностей из заданиq 1-3.
Используйте ClustalW, MAFFT, Muscle и T-Coffee
Сравните качество выравниваний, положение и размер гэпов.
Измените штраф за гэп (два раза – увеличить и уменьшить - на примере одного метода).
Как это влияет на выравнивание?
Измените число итераций и матрицу замен (на примере одного итеративного метода). Как
влияет число итераций на выравнивание? А матрица?
Запустите для одного из методов JalView (summary> JalView). Оцените, как связано
качество выравнивания консервативность и консенсус. Почему?
Практическое задание 5.
Используйте ClustalW для множественного выравнивания двух наборов по 5
последовательностей – близкородственных и далёких.
Можно использовать пример из лекций (файлы 3 и 4) или выбрать последоватльности
из заданий 1-3.
Для каждого (из двух) наборов сделать множественное выравнивание. Сохранить его
или оставить открытым.
Затем добавьте в набор близких последовательностей пять копий одной из них (для
примера из лекций – белка курицы).
Сделайте новое множественное выравнивание и сравните с исходным.
То же проделайте с набором «далёких» глобинов. Обратите внимание на положение
гэпов.
Практическое задание 6.
Используйте T-Coffee (tcoffee.org) или другую программу по выбору для
множественного выравнивания набора из 5 последовательностей липокалинов из файла. Он
включает человеческий RBP и Крысиный OBP.
Скопировать в текстовом виде вывод в формате ClustalW и вставить в iRMSD-APDB
(tcoffee.org) чтобы учесть структурную информацию.
Как изменился скор и цветовая карта (heatmap)? Почему?
Повторить выравнивание в expresso (tcoffee.org) .
Как изменился скор и цветовая карта (heatmap)? Почему?
Практическое задание 7.
X-linked адренокортикодистрофия (X-ALD) наиболее распространённое наследственное
заболевание, связанное с пероксисомами (субклеточные единицы, которые вовлечены в
метаболизм жиров и другие процссы). Заболевание вызвано мутацией в гене ABCD1,
кодирующем ALD белок (ALDP). У людей найдено 4 ALDP-related белка в пероксисомах:
ALDP (NP_000024; 745 а.о.), ALDR (NP_005155, 740 а.о.), PMP70 (NP_002849, 659 а.о.), and
PMP70R (NP_005041, 606 а.о.). Два дрожжевых ALDP-like белка также были
идентифицированы: Pxa1p (NP_015178) и Pxa2p (NP_012733). Эти белки – часть обширного
семейства ATP-binding cassette (ABC) transporters, включающего также ассоциированные с
заболеваниями последовательности (the cystic fibrosis transmembrane regulator (CFTR)) и
белки устойчивости к ядовитым соединениям (multidrug-resistant proteins (MDR)).
Создайте множественное выравнивание человеческого, мышиного и дрожжевого
представителей ALDP семейства белков.
Выявите консервативный нуклеотид-связывающий район, GPNGCGKS.
Этот мотив идеально консервативен?
Занятие 7-8.
Практические приёмы молекулярной филогении в MEGA.
Практическое задание 1.
Сравнение скоростей накопления замен в митохондриальных последовательностях человека
и шимпанзе.
• Запустите MEGA
• Скопируйте из файла 1 митохондриальные последовательности человекообразных
обезьян и сделайте множественное выравнивание в MEGA. Для этого:
– Запустите MEGA Alignment explorer из выпадающего меню “Alignment”
– Если последовательности не загрузились автоматически – вставьте их в
открывшееся окно
– В меню “Alignment” этого окна выберите Align by ClustalW
• Сохраните сессию и данные (меню «файл»- «сохранить» и «экспорт», форматы .mas и
.meg).
• Закройте Alignment explorer
•
•
•
•
•
•
•
•
Откройте файл .meg в MEGA
Изучите меню Phylogeny. Какие методы вы узнаёте?
Используйте метод ближайшего соседа (NJ) для установления филогенетических
взаимоотношений.
Какой таксон можно использовать в качестве аутгруппы при сравнении скоростей
накопления замен между эволюционными линиями человеком и шимпанзе?
Выберите в меню Tajima’s test.
Выберите человека, шимпанзе и вашу аутгруппу.
Оцените значение χ2 и P-value. Что можно сказать о скоростях накопления замен?
Сформируйте свою выборку (5-6 последовательностей) и проанализируйте равенство
скоростей накопления замен.
Практическое задание 2.
Сравнение результатов использования разных методов построения филогенетического
дерева.
•
•
•
•
Откройте файл .meg из задания 1 c митохондриальными последовательностями в
MEGA
Используйте методы ближайшего соседа (NJ), Maximum Parsimony, и UPGMA для
установления филогенетических взаимоотношений.
– Используйте для запуска методов построения дерева вкладку меню «Phylogeny
> Bootstrap test phylogeny» чтобы провести бутстрэп анализ.
Сравните топологи деревьев и бутстрэп поддержку. Что выможете сказать о
надёжности узлов ветвления?
Изучите меню вида дерева (см. следующий слайд). Изучите как выглядит дерево
классической угловой и гладкой формы, а также радиальное и круговое. Какая форма
•
кажется вам более наглядной?
Для результата метода Maximum Parsimony (или любого другого) разрешите
мультиветвистые узлы с порогом отсечения 70. Что изменилось? О чём это говорит?
Практическое задание 3.
Построение филогенетических деревьев.
• ОткройтеNCBI и найдите в Conserved Domain Database характерные домены Lipocalin
(globin или ген вашего интереса)
• Выберите домен и перформатируйте набор последовательностей в mFasta.
• Сохраните в файл .txt. (20 последовательностей)
• Найдите в NCBI видовую принадлежность последовательностей и отметьте это в
названии.
• Используйте метод ближайшего соседа (NJ) или UPGMA и Maximum Parsimony для
установления филогенетических взаимоотношений. (здесь также нужна бутстрэпподдержка)
• Изучите меню как выглядит дерево классической формы, а также радиальное и
круговое. Какая форма теперь кажется вам более наглядной? Включите
мультиветвистые узлы. Что изменилось?
• Как полученные древа согласуются друг с другом и с вашими знаниями о филогении
организмов?
Занятие 9.
Разбор принципов, лежащих в основе создание методов распознавания. Обзор программ и
методов распознавания сайтов связывания транскрипционных факторов.
Практическое задание 1.
Предложите алгоритм поиска CpG островков в геноме.
Практическое задание 2.
Проведите распознавание физико-химических особенностей в тестовой выборке сайтов
для E2F/D транскрипционного фактора в программе SITECON
http://wwwmgs.bionet.nsc.ru/cgi-bin/mgs/sitecon/sitecon.pl?stage=0
Сколько сайтов нашлось в выборке? Рассмотрите физико-химические особенности E2F/D
сайта (map of conservative properties). Какая длина кора этого сайта? Опишите каковы
особенности в изменении свободной энергии (Free energy change) в коре этого ССТФ?
Практическое задание 3.
Используя ту же выборку последовательностей проведите распознавание в программе
MEME Suite.
Для этого увеличьте параметр Maximum width
до 300.
Совпадают ли какие-либо из найденных мотивов с теми, которые вы нашли программой
Sitecon?
С помощью программы TOMTOM проверьте на какие сайты связывания похож мотив 3?
Занятие 10.
Анализ данных полногеномных экспериментов по исследованию экспрессии генов. Разбор
отличий между данными экспериментов микрочип и RNA-Seq.
Практическое задание:
• Скачайте данные микрочип эксперимента GDS1761 из базы данных GEO. Это
эксперимент по исследованию экспрессии генов в разнообразных раковых опухолях.
Предобработанный файл имеет расширение SOFT.
• В шапке файла указано описание того, какие данные содержатся в колонках.
Сохраните это описание в отдельный файл. И удалите в файле *.SOFT все до строки
«!dataset_table_begin» (включительно)
•
•
•
•
•
•
•
•
•
•
•
•
Откройте получившийся файл в Excel, сохраните его.
Оставьте данные только для образцов меланомы и лейкемии, остальные столбцы
удалите (Столбец с названием гена надо оставить). Сколько образцов исследовано для
каждого из видов рака?
Заведите отдельные колонки, в которых рассчитайте среднее значение уровня
экспрессии генов для каждого из типов рака, а также их отношение.
Экспрессия скольких генов изменилась более чем в два раза?
Сравните достоверность различий экспрессии генов в этих образцах при помощи
теста стьюдента (=ТТЕСТ). Результаты сохраните в отдельной колонке.
Экспрессия скольких генов значимо отличается в этих видах рака p-value <0,05?
Используйте функцию =СЧЁТЕСЛИ(диапазон;"<0,05").
Изменения экспрессии скольких генов удовлетворяет критерию Бонферони для p
value<0.5? Сколько из них изменили экспрессию более чем в два раза? Что это за
гены?
Постройте диаграмму рассеяния для средних значений экспрессии в каждом из типов
рака.
Наибольшая дисперсия наблюдается в области отрицательных значений по обоим
образцам. С чем это может быть связано?
Визуально, что наблюдается чаще: экспрессия гена подавлена при лейкемии, но
активирована при меланоме, или наоборот?
Исследуйте выборку генов, которые более в два раза уменьшили свою экспрессию в
обоих типах рака для анализа в базе данных DAVID.
http://david.abcc.ncifcrf.gov/
Занятие 11.
Разбор баз данных в протеомике, их содержания и возможностей. Интерактивное занятие,
идет параллельно с лекцией.
Практическое задание 1
Используя базу данных Entrez Protein NCBI найдите следующую информацию для белка
HBB:
1) Последовательность белка в FASTA формате;
2) Какова длина белка?
3) Какая модификация была найдена в позиции 142 и из какого ресурса взята эта
информация?
4) Какие позиции белка образуют активный сайт для связывания с гемом?
5) Сколько сайтов гликозилирования показано в белке? И из какого ресурса взяты эти
данные?
6) Перейдите по ссылке в базу данных OMIM (/db_xref="MIM:). С какими болезнями
ассоциирован белок? Что известно о связи этого гена с малярией?
7) Перейдите по ссылке в Protein 3D Structure. Выберите «Solution Structure of Human
Normal Adult Hemoglobin». С какими белками взаимодействует белок HBB в этом
комплексе?
Практическое задание 2
Сравните информацию найденную в Entrez Protein NCBI по белку HBB с информацией из
UniProt. Какую дополнительную информацию можно найти в UniProt?
Найдите информацию по белку RBP4 мыши в базе данных UniProt.
1)
2)
3)
4)
5)
6)
Скачайте последовательности в FASTA формате.
Какова длина белка?
Где локализуется белок?
С чем он может связываться?
Какие модификации этого белка были описаны?
Обратите внимание какую информацию об этом белке вы сможете найти по ссылкам,
перечисленным в UniProt.
Практическое задание 3
Найдите в базе данных CATH суперсемейство глобинов.
1. Рассмотрите классификацию глобинового домена CATH?
2. Какие еще семейства найдены в 1.10.490 globin-like?
3. Какой наименьший и наибольший глобиновый домен существует?
4. Используя закладку Multi Domain Organization, выясните какой дополнительный
домен часто встречается в глобинах бактерий.
Практическое задание 4
Найдите в базе данных Pfam суперсемейство глобинов.
1. Что такое Leghaemoglobin?
2. Что такое Protoglobin?
3. В каком организме существует белок с 9 повторами глобинового домена
4. Рассмотрите профиль глобинового гена в HMM logo?Какие позиции наиболее
консервативные?
5. Используйте HMM logo для идентификации последовательности:
MKWVWALLLLAALGSGRAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNI
VAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQK
GNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELC
LARQYRLIVHNGYCDGRSERNLL
Практическое задание 5
В онкогене человека jun проведите распознавание:
1) coil-coil домена;
2) сайтов фосфорилирования
3) Вторичную структуру
4) Рассмотрите структуру белка в базе данных PDB.
Практическое задание 6
Исследуйте доменную организацию белка HIV-1 gag-pol.
Используйте базу данных PDB, идентификатор 4B3O.
1. Какие домены присутствуют в белке gag-pol?
2. Какие домены и мотивы присутствуют в обратной транскриптазе этого белка?
3. Какие модификации обратной транскриптазы описаны?
4. Расcмотрите 3D структуру комплекса обратной транскриптазы с ДНК, сохраните
изображение.
 Образовательные технологии
Используется интерактивная система лекций и практических занятий в компьютерном
классе. Блоки лекционного курса перемешаны с блоками практических заданий, что
позволяет наилучшим образом освоить материал и получить навыки биоифнорматического
анализа данных. Помимо выполнения практических заданий, проводится обсуждение нового
материала и решение простых задач, в том числе в форме case-study (анализ реальных
проблемных ситуаций и поиск решений).
6. Учебно-методическое обеспечение самостоятельной работы студентов. Оценочные
средства для текущего контроля успеваемости, промежуточной аттестации по итогам
освоения дисциплины
Контроль работы студентов проводится по выполнению практических заданий, которые
выполняются на практических занятиях, либо самостоятельно. Дифференциальный зачет
студентов проводится на основе посещаемости лекций, выполнения практических заданий,
выполнения курсовой и представлении ее на коллоквиуме. На коллоквиуме студенты
представляют свои курсовые вопросы, задают вопросы и отвечают на них. Выполнение всех
практических заданий является необходимым условием получение оценки «хорошо».
Правильно выполненная и хорошо представленная курсовая работа является необходимым
условием оценки «отлично».
Курсовая работа «Открой свой ген»
Студенту предлагается среди последовательностей EST найти непроаннотированный ранее
ген, и проаннотировать его:
Дать имя гену, идентифицировать его белковую последовательность, построить для него
филогенетическое дерево, провести его анализ. Продемонстрировать, что этот ген
действительно не был проаннотирован ранее. Предсказать функции этого гена и физикохимические свойства белка.
Студент может сделать другую курсовую работу, например, связанную с его дипломным
проектом. Основное требование – использование и отработка всех навыков, освоенных в
рамках курса.
7. Учебно-методическое и информационное обеспечение дисциплины
а) основная литература:
1) Jonathan Pevsner. Bioinformatics and Functional Genomics. John Wiley & Sons, Inc. 2011.
2) Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон. Анализ биологических
последовательностей. М.-Ижевск, 2006.
б) дополнительная литература:
А. Леск. Введение в биоинформатику. М., Бином, 2009.
в) программное обеспечение и Интернет-ресурсы:
1) Сайт книги Jonathan Pevsner. Bioinformatics and Functional Genomics.
http://www.bioinfbook.org
2) Введение в биоинформатику. Интерактивный курс А.Л. Лапидус (СПбГУ) на ресурсе
Coursera. https://www.coursera.org/course/bioinfo
8. Материально-техническое обеспечение дисциплины
 Ноутбук, медиа-проектор, экран и программное обеспечение для демонстрации слайдпрезентаций.
 Персональные компьютеры для выполнения студентами практических занятий.
Программа составлена в соответствии с требованиями ФГОС ВО с учетом рекомендаций и
Примерной ООП ВПО по направлению 03.06.01 «Биология».
Авторы:
Миронова Виктория Владимировна,
канд. биол. наук, ассистент КЦГ ФЕН НГУ,
зав. сек. ИЦиГ СО РАН
Дорошков Алексей Владимирович,
канд. биол. наук, н.с. ИЦиГ СО РАН
Колчанов Николай Александрович,
докт. биол.наук, проф. КЦГ ФЕН НГУ,
директор ИЦиГ СО РАН
Программа рассмотрена и одобрена на заседании кафедры цитологии и генетики ФЕН НГУ
от « 29_» августа 2014 года, протокол № _4___
Секретарь кафедры к.б.н. ______________________ А.Д. Брошков
Download