Слайд 1 - ИППИ РАН

advertisement
Институт проблем передачи информации
им. А.А.Харкевича РАН
Биоинформатика, или
молекулярная биология in silico
М.С.Гельфанд
15 января 2008
Расшифрован геном!
Перехватить зашифрованное сообщение –
еще не значит его понять
Геном бактерии: несколько миллионов нуклеотидов
От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)
На этом слайде – 0,1% генома Escherichia coli
Экспоненциальный рост объема данных
100000000000
10000000000
1000000000
100000000
10000000
1000000
100000
10000
1000
100
1982
1987
1992
красный – статьи (PubMed)
синий – последовательности (GenBank)
зеленый – объем в нуклеотидах (GenBank)
1997
2002
2007
из 18 миллионов ссылок,
~675 тыс. отвечают на
“bioinformat* OR comput*”
16 тыс. “bioinformat*”
65 тыс. “bioinformat* OR computat*”
Цель (локальная):
аннотировать гены / белки in silico
• Что?
– (биохимическая) функция
– клеточная роль
• Когда?
– Регуляция
• Экспрессия
• Время жизни (мРНК, белка)
• Где?
– Локализация
• Внутри/снаружи
• Органеллы и компартменты
• Как?
– Механизм
• Специфичность, регуляция
Наиболее важные предсказания затем
проверяются экспериментально
622 полных генома (прокариот)
186
200
180
142
160
140
120
100
80
60
40
81
66
48
3
3
6
6
7
30
25
19
20
0
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Цель (глобальная)
Предсказать свойства организма путем
(компьютерного) анализа его генома
(возможно, с использованием дополнительной
информации: эпигенетика, белок-белковые
взаимодействия и т.п.)
сейчас: метаболическая реконструкция,
транспортные системы, ответ на стресс и т.д.
“Понять” эволюцию геномов/организмов
Сравнительная геномика
Базовые постулаты:
• Сходство => гомология
(общность происхождения)
• Гомология => сходная функция
• Консервативно то, что важно
– структурные и функциональные мотивы в
белках
– регуляторные сайты в ДНК
Математические и алгоритмические проблемы
• Формализация понятия сходства
– теория вероятностей: значимость наблюдаемого уровня
сходства
– вычислительная геометрия: сходство структур
• Алгоритмические проблемы:
– быстрый поиск сходных последовательностей
• большой объем базы данных (растет быстрее, чем
быстродействие процессоров)
– множественное выравнивание
• оптимальный алгоритм имеет полиномиальное время работы,
но степень равна числу последовательностей
– построение эволюционных деревьев
• баланс между биологическими соображениями и
вычислительными возможностями
• Идентификация функциональных и регуляторных
мотивов в последовательностях
– теория предсказания образов: нейронные сети,
поддерживающие вектора и т.п.
Первый российский бактериальный геном Acholeplasma laidlawii
Секвенирование: ИФХМ МЗ РФ, аннотация: ИППИ РАН
Трансляция
Транскрипция
Репликация и репарация
Деление
Сигнальные пути
Внешняя мембрана
Движение
Оборот белков
Ионы
Защита
Секреция
Энергия
Сахара
Аминокислоты
Нуклеотиды
Коферменты
Липиды
Вторичный метаболизм
Слабо определено
Не определено
~1,5 Mb; ~1400 генов.
Установлены функции ~80% генов; проведена метаболическая реконструкция
Сравнение с родственными геномами
Acholeplasma laidlawii
1199
4
5
208
283
aster yellows
Phytoplasma
161
334
onion yellows
Phytoplasma
Сравнительная геномика - 2
• Не обязательно последовательности:
–
–
–
–
структура белка и РНК
расположение генов на хромосоме (ко-локализация)
ко-регуляция и ко-экспрессия генов
филогенетические образцы (совместное появление в
геномах)
• Предсказав структурные особенности белка, можно
определить его функциональный класс
• Изучение геномного контекста позволяет отнести
ген (белок) к функциональной подсистеме
• Задача: формализация этих подходов
– Полногеномные сравнения
– Статистическая значимость
– Распознавание образов и экспертные системы
РНК-переключатели: от биоинформатического
анализа к экспериментальной проверке
• Новый универсальный механизм регуляции
экспрессии генов за счет формирования
альтернативных структур РНК и прямого
связывания малых молекул
• Структуры и механизм предсказаны
биоинформатически и затем подтверждены
экспериментально
Регуляция экспрессии генов за счет формирования
альтернативных структур РНК
• Transcription attenuation
Структура
предсказана
на основе
сравнительного анализа
выравненных
последовательностей
• Translation attenuation
Механизм
предсказан на
основе
литературных
данных и
анализа
структурных
особенностей
5’-нетранслируемые области бактериальных генов биосинтеза рибофлавина
BS
BQ
BE
HD
Bam
CA
DF
SA
LLX
PN
TM
DR
TQ
AO
DU
CAU
FN
TFU
SX
BU
BPS
REU
RSO
EC
TY
KP
HI
VK
VC
YP
AB
BP
AC
Spu
PP
AU
PU
PY
PA
MLO
SM
BME
BS
BQ
BE
CA
DF
EF
LLX
LO
PN
ST
MN
SA
AMI
DHA
FN
GLU
1
2
2’
3
=========>
==>
<==
===>
TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT
AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT
TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT
TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT
GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT
CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT
TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT
ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT
AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT
GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT
CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT
AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT
TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT
GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT
TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT
ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
-AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT
GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT
GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT
AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT
GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT
GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT
ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT
ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT
GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT
AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT
GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT
AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT
ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT
TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT
ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT
AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT
---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
Add.
3’
-><<===
21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG
21 AGCCCGCGAGCG
31 AGCCCGCGAGCG
21 AGCCCGCGAGCG
17 AGCCCGCGAGCG
67 AGCCCGCGAGCG
20 AGCCCGCGAGCG
2 AGCCCACGAGCG
14 AGCCCACGAGCG
13 AGCCCACGAGCG
40 AGCCCGCGAGCG
25 AGCCCACGAGCG
18 AGCCCGCGAGCG
16 AGCCCGCGAGCA
34 AGCCCGCGAGCG
13 AGCCCGCGAGCG
17 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
16 AGCCCGCGAGCG
34 AGCCCGCGAGCG
17 AGCCCGCGAGCG
18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG
Variable
4
4’
5
5’
1’
->
<====>
<====
==>
<==
<=========
8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT
8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG
3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC
10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG
8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG
3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG
7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT
11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT
4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA
3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA
5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA
8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG
5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC
7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA
13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA
3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC
5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG
8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG
8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG
137
GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC
8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC
7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC
11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC
8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG
8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG
8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG
26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA
11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC
5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA
16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG
16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA
10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC
10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG
6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA
7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA
7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG
19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA
15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA
14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA
8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA
8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC
10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT
5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG
3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG
3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT
6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT
5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG
4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC
3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG
3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA
3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG
3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG
11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC
11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA
4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA
10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC---
Аттенюация транскрипции
Antiterminator
The RFN element
Bam
BS
BQ
BE
HD
CA
DF
LLX
PN*
PN*
TM
AO
DU
FN
SA
DHA
FN
CA
DF
BS
BQ
BE
PN
ST
MN
SA
EF
LLX
LO
GACAAAAAAATATTGATTGTATCCTTCGGGGCTGGGTG
GGACAAATGAATAAAGATTGTATCTTCGGGGCAGGGTG
CTATAATTTGAGCAAACAGCATCCTTCGGGGTCGGGTG
ACATAACGATATAGTGATGCATCCTTCGGGGCAGGGTG
AAATTGAATAATTAATTTTTATCCTTCGGGGCTGGGTG
TAATGGTAATTTAATAGGATGTTCTTCAGGGATGGGTG
TAAATATAAATTTAATACTTAATCTTCGGGGTAGGGTG
ACTTTAGCTACAATTGAATAAATCTTCAGGGCAGGGTG
ATCATCTGTAATTGAATAACTATCTTCAGGGCAGGGTG
ATCATCTGTAATTGAATAACTATCTTCAGGGCAGGGTG
AAAACTGAATACAAAAGAAACGCTCTCGGGGCAGGGTG
ATTTGCAACAATTTTTTAATAATCTTCAGGGCAGGGTG
AATTTTTTTAATACTATTTTAATCTTCAGGGCAGGGTG
TAATCGAATATGTAAAATAAAGTCTTCAGGGCAGGGTG
TATAACAATTTCATATATAATTCTTTCGGGGCAGGGTG
ACTCTTTTTAGATGAATACGAACCTTCGAGGTAGGGTG
GAAAAATAAATATTAAAAATAATCTTCGGGGCAGGGTG
AATATAAAAAAATAAAGAATGATCTTCAGGGCAGGGTG
AAAATTAAAAAATCAAAGAAGATCTTCGGGGCAGGGTG
TAATTAAATTTCATATGATCAATCTTCGGGGCAGGGTG
GGGAAAATAGAATATCGGTCTATCTTCGGGGCAGGGTG
ATAAAAATGTATAAGCGATTCATCTTCGGGGCAGGGTG
GTTTTTTGTTATGATAAAAGAGTCTTCAGGGCAGGGTG
TAAATCTGCTATGCTAGAAGTGTCTTCAGGGCAGGGTG
ATTTTTTGATATGCTATAAGTGTCTTCAGGGCAGGGTG
AAATTTAATAATGTAAAATTCATCTTCGGGGTCGGGTG
AAAAAATATAATACAAGGTTCGTCTTCAGGGGCAGGGT
TTTTTGTGCTATAATAAAAATATCTTCAGGGCACCGTG
ATTGTAAGAAAATATTCGTTCATCTTCGGGGCAGGGTG
-----------------------------------------------------------
TCTGGATGGGAGAAGGATGA 59
TCTGGATGGGAGAAGGATGA 59
TCTGGATGGGAGAAGGATAT 250
TCTGGATGGGAGAAGGATGC 155
TCTGGATGGGAGAAGGAAAC 148
TCTGGATGAAAGAAGAAATA 34
TCTGGATGGAAGAAGATATT 63
TCTGGATGAAAGAAGATAAT 127
TCTGGATGAAAGAAGATAAA 81
TCTGGATGAAAGAAGATAAA 19
TCCGGATGGGAGAGAGCGTG 13
TCTGGATGGAAGAAGATGAA 33
TCTGGATGGAAGAAGAAGAG 47
TCTGGATGGGAGAAGAATTA 18
TCTGGATGGGAGAAAGAATG 74
TCCGGATGGGAGAAGGTACA 43
TCTGGATGAGAGAAGAAAAG 40
TCTGGATGAAAGAAGATATA 19
TCTGGATGAGAGAAGATATT 45
TCTGGATGGGAGAAGATGGA 103
TCTGGATGGGAGAAGATGGA 54
TCTGGATGGGAGAAGATGAA 114
TCTGGATGGGAGAAGACGAA 137
TCTGGATGAGAGAAGACCGG 130
TCTGGATGGGAGAAGACTGA 138
TCTGGATGGGAGAAGATGGA 17
GTCTGGATAAAGAAGATAGG 33
TCTGGATGGAAGAAGATGAA 66
TCTGGATGGGAGAAGATGTTG 79
Terminator
----------GTAAAGCCCCGAATGTGTAA---ACATTCGGGGCTTTTTGACGCCAAAT
----------CTAAAGCCCCGAATTTTTTA--TAAATTCGGGGCTTTTTTGACGGTAAA
-----------CCAAACCCCAAGGATATTAAA--ATCCTTGGGGTTTTTTGTTTTTTTT
------------TGAGCCCCCGGGGACAT--------CCCGGGGGTTTCATTTTTATTG
-------------ATGCCCCGTGAGAACAAAA-----TCTCTGGGGCTTTTTTGCGCGC
-------------AATCTCCGAAGGATTACC----TTTCTTTGGAGATTTTTTTATTTG
------------TAAACCCTGAGTTAATT--------CTCAGGGTTTTTTGTTTAAAAA
----------AAAAGACCCTGAAATTTT------ATTTTAGGGTCTTATTTTTTATTAG
----------TGTATGCCTTGAGTAGTCCCC---TATTCAAGGTATATTTTTTTGGAGG
------------CGTGCTCTGAAATGATTACTTGTCATTTCAGAGCATTTTTGTTAATC
-----------ATGGGACCCGAGA----------------GGGTCCCTTTTCTTTTACA
--------TTTACAAGCCTTGAGATCGAAAG----ATTTCAAGGCTTTTTTCATCATTA
--------TGCATAAGCCTTGAGATCTTAG----GATTTCAAGGCTTTTTCATTAGTTA
----------ATATTGCTCAGACTTT------------GTTTGAGCATTTTTTTATTAA
------TTTTCTCCTTGCATCTTAATT----------GATGTGAGGATTTTTGTTTATA
-----------GTTTATGCCTCGAGGAACACCATTTCCTCGAGGCATTTTTGTTCTTTC
------------CTTACCCGAATTCTAT------------AATTCGGTTTTTTTATTTT
----------–-TATGCCCTGACGTTTTT---------CGTTGGGGCTTTTTTAATGCT
----------ATAAAAACTCGAAGATAGGG----TCTTCGAGTTTTTTGTTTTTCCTAA
--AAAGAACCTTTCCGTTTTCGAGTAAGATGTGATCGAAAAGGAGAGAATGAAGTGAAA
-------ATTCTCCCTTTGTGTAAA------------ACACAAAGGGTTTTTTCGTTCTATG
--------GGCAGCCTTCTTCTTGTGAGGATGAATCACGAGAAGGGGAGGAGAACAAGCATG
-–AACTTCTTCTGATTTTATAG------------AAAATTGGAGGAACCTGTTATGACA
---GGAACTTCTTTCAATTTGAAA-----------AAATTGGAGGAATTTTTTAATGTC
---–GGCCTTCTTTCGATTTGTAA-----------AAATTGGAGGAATTTTTTTATGAA
--------TCCTCCTATTCTTACG--------AGATGAATGGAAGGAGAAAATTGAATATG
---CTACTCTATTTTTCCCTGCAGA------------AAAATAGGGTTTTTTTGTATGA
-–TCAACTTCCTCGAAATTTGAAGAAT-TATTTTCTCATATTTGGAGGTTTTTTTATGT
---ATGCACAAACTCTCCCTCAACTTTTTTTA--------GTTGAGGTTTTTTATTTGC
Antiterminator
Другие РНК-переключатели, найденные методами
сравнительной геномики
RFN-element
Var
B12-element
THI-element
Add I
Add
Ag
Y
CC
N
r UG
G
P3
A
a
N
NU
P4
RY G N
YG
CCc N
N GA y
G
C
c
A
G G g Nc
GY
P2 xG
G
g
R
P1
C
U
Y
Y
y
N
N
N
N
BY
K N
R
A
x
K
YC
u
RG
g
Add
P5
U
R
R
C
P4
G GG
P3
P2
G
M
P2
UN
UCU
P3
A
C
N
A
UA
U
R
P1 C
U
U
A
Y
G
R
C
3'
5'
base stem
NUN
R
U
R
c
P2
r
gg
N
CCCD
P3
Gr
a
c
G
C P4
h a
C
K
G
T
r
a
N
g k
c tG
y
G
h
C
C
d
a g
3'
5'
base stem
5'
3'
base stem
r Cc N
y GgN
g
P2 A
Ga
Nc
U
A
P1 Uu
C
u
a
H
g
G
P4
U
G
C
YAA
N
u
c
c
N
g
car
Ga
A
U
R
A
G
a
N
r guy
3'
5'
base stem
P5
Var
P6
g c C
A
P7
Add II
CTG
c gG
GGY
AG
A
C
G M B12
k G
C g
A
C
P1
c
yG A
C
r
A
G
Y
S-box
c AG G G A
G
A
G
C
c
y
G
d
RC
P1
D
c
C
a
A
C
G
R
G
G
CY
U
A CC
A
GG
G
A
U
G-box
C GU
C
A
AA
cg
N
N
N
P3 N
A
A
G
G
G
a
N
a
a
t Gg
VR
Rr
C
C
G P5
UxN
A
CRG
N
G G Y CU Ax
G
A
u
x
g
RR
A
G
A
R
R
r
N
N
N
N
3'
5'
base stem
AU GG
U
A
R
aN
t
C
box
Add III
LYS-element
a
A
aN
P6
r
y Yu G G g
R
a
A
G
C
y yGC
P5
aa
g a GG
r
k
P5
P4
P3
a
ug a
y
a
r r CG
P2
y
G
GA
G
a
u
R
P1 r
C
u
a
Y
y
a
gN
c
U
P7
G
u CaY
a
G
g GuR
3'
5'
base stem
• Есть во всех трех основных царствах (бактерии, археи, эукариоты)
• Древнейшие регуляторные элементы: реликт «РНКового мира»?
nZUR-
Регуляторы гомеостаза цинка
GATATGTTATAACATATC
nZUR-
GAAATGTTATANTATAACATTTC
GTAATGTAATAACATTAC
TTAACYRGTTAA
pZUR
TAAATCGTAATNATTACGATTTA
AdcR
AdcR
pZUR
nZUR
Регуляция гомологов рибосомальных белков
L36
L33
L31
S14
E. coli, S.typhi
(–)
–
(–) +
–
K. pneumoniae
(–)
–
(–) –
–
Y. pestis,V.
cholerae
(–) 
–
(–) +
–
B subtilis
(–)
(–) + –
(–) +
(–) +
S. aureus
(–)
(–) – –
–
(–) +
Listeria spp.
(–)
(–) –
–
(–) +
E. faecalis
(–)
(–)  – –
–
(–) + –
S. pne., S. mutans (–)
(–) – –
–
(–)
S. pyo., L. lactis
(–) – –
–
(–) +
(–)
Плохой сценарий
достаточно
цинка
недостаточно цинка: весь цинк
использован рибосомами, не
хватает цинка для ферментов
Регуляторный механизм
Достаточно Zn
рибосомы
репрессор
R
Zn-зависимые
ферменты
Голодание по Zn
R
Предсказание …
(Proc Natl Acad Sci U S A. 2003 Aug 19;100(17):9912-7.)
… и подтверждение
(Mol Microbiol. 2004 Apr;52(1):273-83.)
(+ еще пять статей в последующие годы):
другие гены, другие бактерии
•
Сводка
подтвердившихся
предсказаний
•
Регуляторы
•
– РНК-переключатели
• витамины: рибофлавин, тиамин,
кобаламин
• аминокислоты: лизин, метионин
– Факторы транскрипции
• NrdR: рибонуклеотид-редуктазы
• MtaR, CmbR: метионин и
цистеин
• NiaR, NrtR: метаболизм NAD
• NsrR, NnrA: нитрозативный
стресс
•
Регуляторные взаимодействия
– регуляторные мотивы в ДНК
(>10)
– отдельные сайты связывания
(>20)
Ферменты
–
–
–
–
–
ThiN и TenA (биосинтез тиамина)
CobX, CobZ (биосинтез кобаламина)
FadE (синтез жирных кислот)
AbnA, Xca (катаболизм арабинозы)
NagK, NagBII (катаболизм Nацетилглюкозамина)
Транспортеры
– витамины и кофакторы
•
•
•
•
•
YpaA и RibM: рибофлавин
BioMNY: биотин
ThiXYZ: тиамин
NiaP: ниацин
Vng1369-71: корриноиды
– сахара и полисахариды
• OgtABCD: продукты деградации
пектина
• NagP: N-ацетилглюкозамин
– аминокислоты
• MetD: метионин
• SteT: треонин
– ионы металлов
• CbiMNQO, HoxN: кобальт
• NikMNQO: никель
– нуклеотиды:
• YicE: ксантин
Не только тексты
Другие типы массовых экспериментов:
• Транскриптомика
– «выстилающие массивы»: полная карта транскриптов
– уровень экспрессии и время жизни мРНК
– ДНК-белковые взаимодействия
• Протеомика
– концентрации белков
– белок-белковые взаимодействия, белковые комплексы
– структуры белков
• Эпигенетика
– метилирование ДНК
– положение и модификации нуклеосом
• Генетика
– летальность мутаций
– фенотипы
– синтетические летали
«Неприкладная» биоинформатика
• Молекулярная эволюция
–
–
–
–
филогения генов
таксономия организмов
горизонтальные переносы и т.п.
положительный и отрицательный отбор
• что сделало нас людьми?
• лекарственная устойчивость
– эволюция геномов
• Системная биология
– строение геномов
– сети взаимодействий
• белок-белковые
• регуляция транскрипции
• сигнальные пути
Перспективы
• Индивидуальные геномы
– персональные человеческие геномы
– геномы штаммов
• Метагеномы
– некультивируемые бактерии
– метагеномы экологических ниш
• бактериальный метагеном человека
• Другие виды данных
– интеграция
• Моделирование (пока рано)
– построение полных карт
Биоинформатика в России
• Сильные устойчивые школы
– Москва+Пущино: содружество лабораторий в разных учреждениях
– Новосибирск: вертикальная структура
• Высокий уровень
– конкурентоспособный в мире
• Интеграция с образованием
– Факультет биоинженерии и биоинформатики МГУ
– Кафедра информационной биологии ФЕН НГУ
• Перспективная область:
– относительно дешево
– общедоступная информация – можно использовать чужие данные
– связь с экспериментальными исследованиями, ведущимися на
современном уровне
• Как развивать:
– технические разработки (базы данных, пакеты программ») –
контракты, наличие потребителя
– интегрированные компоненты в медицинских и молекулярнобиологических проектах (крупные проекты должны иметь
биоинформатическую поддержку)
– самостоятельные исследовательские работы – гранты
• Российский фонд фундаментальных
исследований
• РАН, программа
«Молекулярная и клеточная биология»
• INTAS
• Howard Hughes Medical Institute
Download