***** 1 - Kodomo

advertisement
Распознавание генов
прокариот
2014, ААл
с использованием презентации МГ и ЕЕ
План
•
•
•
•
•
Постановка задачи
Примитивный способ решения - ORFs
Дополнительные свойства генов
Алгоритмы и программы
Методы проверки ответа
– Транскриптом
– Протеом
– Ресеквенирование и реаннотация
2
Задача
• Дана последовательность генома бактерии
или археи
• Найти в ней все последовательности,
кодирующие белки (гены белков)
• Получить последовательности белков
3
Свойства кодирующих
последовательности белков (CDS) у
прокариот
• не имеют интронов
• начинаются с инициаторного кодона и
заканчиваются стоп-кодоном
• нет сдвигов рамки считывания или
преждевременных стоп-кодонов
• длина белка не менее … 60-и а.к.о.
• кодируются с равной вероятностью на любой
цепи ДНК
• не пересекаются с другими CDS
?
?
?
?
?
?
4
Экзоны и интроны (которых у бактерий нет)
Рис. из перзентации МГ
5
Стандартный генетический код
он же
инициаторный
кодон
6
Решение задачи почти тривиально ?
1. Найдем открытые рамки от СТОП до СТОП кодона
длиной более 180 п.н.
2. Выберем самую длинную
–
–
–
Найдем инициаторные кодоны ATG в рамке
считывания, начиная от 1-го кодона
Выберем тот кодон ATG, который по каким-то
соображениям более похож на инициаторный;
возможно, им является первый ATG.
Удалим найденную кодирующую последовательность
из ДНК
3. Повторим п.2 пока не исчерпаем всю ДНК
4. Транслируем CDS согласно генетическому коду
Нетривиальным остается только выбор ATG в рамке
7
При длине 190 пн P = 0,0001 т.е одна на 10 000 ORFов
Рис. из перзентации МГ
8
Сравнение трех разных аннотаций генов в одном и
том же геноме бактерии (Joint Genome Institute, RAST,
Prokaryotic Annotation Pipeline in Craig Venter Institute
Совпадение генов по
стоп-кодонам: 90% генов
Совпадают в трех аннотациях
Совпадение генов по старт- и
стоп-кодонам: 48% генов
совпадают в трех аннотациях
Bakke et al., Evaluation of Three Automated
Genome Annotations for Halorhabdus utahensis, 2009
9
Аннотации генома H.utahensis, полученные
популярными программами RAST (Rapid Annotations using
Subsystems Technology) , PGAAP (NCBI Prokaryotic Genome Automatic Annotation
Pipeline ) , AAMG (Automatic Annotation of Microbial Genomes )
Совпадение генов по старт- и
стоп-кодонам: 66% генов
совпадают в трех аннотациях
Прогресс за 6 лет на лицо!
Kalkatawi et al., BEACON: automated tool for Bacterial
10
GEnome Annotation ComparisON, 2015
11
12
Почему “тривиальная” задача
решается так плохо?
13
14
Уточнения свойств CDS
• Сплайсинг бактериальных генов
– в ОЧЕНЬ специальных генах
• Нестандартный генетический код
– да
• Перекрытие CDS (“gene overlapping”)
– да
• Программируемый сдвиг рамки в гене
– да
• Проскок стоп-кодона
– да
• Ошибки секвенирования
– да
• Статистическая модель длины ORF не соответствует
действительности
– да
• Не транслируемые длинные ORF
– да
• Псевдогены
– да
15
Интроны
• У вирусов, фагов и бактерий встречаются
интроны
• См. статью Woodson, 1998 (на диске P)
• Интроны сами катализируют свое
вырезание из РНК – автокатализ
(у эукариот большинство интронов
вырезается большой молекулярной
машиной – сплайсосомой)
• Они - эгоистичные элементы
16
Таблицы кодонов
(18 обобщенных на сайте NCBI)
Табл.1: стандартный код: эукариоты
Табл.11: бактерии, археи, пластиды растений
Табл.4: стандартный код: плесень, простейшие, митохондрии кишечнополостных и
бактерии - микоплазмы и спироплазмы
17
Перекрытие генов
1)
Tunka et al., Two overlapping antiparallel genes encoding
the iron regulator DmdR1 and the Adm proteins control
sidephore and antibiotic biosynthesis in Streptomyces
coelicolor A3(2), 2009 (см. на диске P)
2) dnaK и GDH - аналогично. Артефакт?
3) Короткие перекрытия генов встречаются часто
18
Программируемый сдвиг рамки и
преждевременный стоп-кодон
• Редко, но встречается и то, и другое явление
• Следует различать
– природное явление и
– ошибки секвенирования
• Пример см. в статье Deshayes et al, 2009 (см. на
диске P):
– из 73 исследованных случаев в Mycobacterium
smegmatis 28 ошибок секвенирования, 45 –
природные явления
19
Дополнительные свойства, используемые при
аннотации генов
• Сигналы на границах генов
– Шайн – Дальгарно (у > половины генов)
– инициаторный и стоп-кодон
• Сравнение с генами из родственных
прокариот
– Есть экспериментально доказанный ген
– Специфический паттерн нуклеотидных замен
• Статистика встречаемости кодонов
20
Последовательность Шайн-Дальгарно –
сайт посадки рибосомы.
Короткий – около 5 п.н., например, GGAGG
Отличается в разных бактериях
Расположен на расстоянии 5-10 п.н. Перед
инициаторным кодоном
John Shine
“Growth-dependent changes in terminal
heterogeneity involving
3'-adenylate of bacterial 16S ribosomal
RNA” Nature, 1975
Премиальный балл в ведомости
за портрет Линна Дальгарно с
доказательством, что он тот
самый!
?
Lynn Dalgarno, m.
21
22
23
Рис. из перзентации МГ
24
Рис. из перзентации МГ
25
Рис. из перзентации МГ
26
Рис. из перзентации МГ
27
Рис. из перзентации МГ
28
Рис. из перзентации МГ
29
30
Рис. из перзентации МГ
31
Рис. из перзентации МГ
32
Рис. из перзентации МГ
33
34
Проверка аннотаций
• Blast
– Внедрен в пакеты для автоматического
предсказания генов прокариот, такие как RAST
• Транскриптом – RNA-seq
• Протеом – масс-спектрометрия
35
Сервисы, используемые в задании
• RAST - один из ведущих сервисов для
аннотации и реаннотации геномов
прокариот
• Gene_mark – более простая программа
Марка Бородовского
– Ее предсказания лежат в директориях бактерий
на ftp (см. адрес на страницах 1го семестра)
36
КОНЕЦ
37
38
Download