Сравнительная геномика и метаболическая реконструкция

advertisement
Сравнительная геномика и
функциональная аннотация генов
Михаил Гельфанд
ИППИ РАН
Конференция «Синтетическая биология и
проектирование биоинженерных устройств»
Synbio2012.ru
МФТИ, 11 VII 2012
Fig. 1 A doubling of sequencing output every 9 months has outpaced and overtaken
performance improvements within the disk storage and high-performance computation fields.
S D Kahn Science 2011;331:728-729
Published by AAAS
Вот они, эти чудовища
1464 расшифрованных геномов прокариот
(на самом деле, уже много больше)
250
геномы в KEGG
200
150
база данных
не успевает
100
50
0
1995
2000
2005
годы
2010
Расшифрованых ли?
Перехватить зашифрованное сообщение –
еще не значит его понять
0.1% генома E. coli
Геном бактерии: несколько миллионов нуклеотидов
От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)
(бывает существенно меньше – у эндосимбионтов)
Может быть, хватит?
Нет, потому что:
• новые геномы – это часто новая биология
• сравнение геномов само по себе дает новые
результаты
– про эволюцию бактерий и их геномов
– про эволюцию регуляторных и метаболических сетей и
семейств генов
– про регуляцию конкретных генов и функцию белков
– про новые белки с ранее не описанными свойствами
Метод Ферми-Финкельштейна
Если белок похож на уже изученный,
он делает примерно то же самое
Doolittle R.F. et al.
Science. 1983.
• GenBank
• BLAST
Проблемы
• часто можно предсказать только общую функцию
(тип фермента, транспортер), но не специфичность
• ничего нового!
Принцип Пирсона
консервативно то, что несет функциональную
нагрузку
• не только последовательности:
– ко-локализация генов на хромосоме
– появление «большой компанией» (филетические
паттерны)
– одинаковая регуляция
Другие соображения: трансмембранные сегменты,
сигнальные пептиды и т.п.
STRING:
trpB –
позиционные
кластеры
Биологические причины
• опероны – совместная регуляция
• горизонтальный перенос локусов
STRING:
trpB –
филетические
паттерны
Phyletic profiles in the Phe/Tyr pathway
Шикимат-киназа
Шикимат-киназа архей
путь синтеза хоризмата (E. coli)
Арифметика филетических паттернов
3-dehydroquinate dehydratase (EC 4.2.1.10):
Class I (AroD) COG0710
aompkzyq---lb-e----n---i-Class II (AroQ) COG0757
------y-vdr-bcefghs-uj---+ aompkzyqvdrlbcefghsnuj-i-Two forms combined
Shikimate dehydrogenase (EC 1.1.1.25):
AroE
COG0169
aompkzyqvdrlbcefghsnuj-i-Shikimate kinase (EC 2.7.1.71):
Typical (AroK) COG0703
------yqvdrlbcefghsnuj-i-Archaeal-type COG1685
aompkz-------------------+ aompkzyqvdrlbcefghsnuj-i-Two forms combined
5-enolpyruvylshikimate 3-phosphate synthase (EC 2.5.1.19)
AroA
COG0128
aompkzyqvdrlbcefghsnuj-i-Chorismate synthase (EC 2.5.1.19)
AroC
COG0082
aompkzyqvdrlbcefghsnuj-i--
Филогенетический футпринтинг
оперон rbs в Enterobacteriaceae
Start codon of rbsD
Филогенетический футпринтинг
оперон rbs в Enterobacteriaceae
регуляруется CRP и RbsR
CRP binding site
RbsR binding site
Start codon of rbsD
Много сайтов (nrd): FNR, DnaA, NrdR
Сохранение регуляции на больших
эволюционных расстояниях
Set of known sites
Genome 1
Genome 2
PWM
Genome N
Two major roles of zinc in bacteria
•
Structural role in DNA polymerases,
primases, ribosomal proteins, etc.
•
Catalytic role in metal proteases and
other enzymes
Genomes and regulators
???
nZUR
FUR family
pZUR
AdcR ?
FUR family
MarR family
nZUR-
Regulators and motifs
GATATGTTATAACATATC
nZUR-
GAAATGTTATANTATAACATTTC
GTAATGTAATAACATTAC
TTAACYRGTTAA
pZUR
TAAATCGTAATNATTACGATTTA
AdcR
Transporters
• Orthologs of the AdcABC and YciC
transport systems
• Paralogs of the components of the
AdcABC and YciC transport systems
• Candidate transporters with previously
unknown specificity
zinT: regulation
zinT is isolated
zinT is regulated by zinc repressors
(nZUR-, nZUR-, pZUR)
E. coli, S. typhi, K. pneumoniae
Gamma-proteobacteria
A. tumefaciens, R. sphaeroides
Alpha-proteobacteria
B. subtilis, S. aureus
Bacillus group
S. pneumoniae, S. mutans,
S. pyogenes, L. lactis, E. faecalis
Streptococcus group
fusion: adcA-zinT
adcA-zinT is regulated by zinc
repressors (pZUR, AdcR) (ex. L.l.)
ZinT: protein sequence analysis
Y. pestis, V. cholerae,
B. halodurans
S. aureus, E. faecalis,
S. pneumoniae, S. mutans,
S. pyogenes
E. coli, S. typhi, K. pneumoniae,
A. tumefaciens, R. sphaeroides,
B. subtilis
L. lactis
TM Zn AdcA
ZinT
ZinT: summary
• zinT is sometimes fused to the gene of
a zinc transporter adcA
• zinT is expressed only in zinc-deplete
conditions (regulated by zinc
repressors)
• ZinT is attached to cell surface (has a
TM-segment)
• ZinT has a zinc-binding domain
ZinT: conclusions
• ZinT is a new type of zinc-binding
component of zinc ABC transporter
Zinc regulation of PHT
(pneumococcal histidine triad)
proteins of Streptococcus spp.
S. pneumoniae
S. pyogenes
zinc regulation shown in
experiment
lmb phtD
phtA
phtE
phtB
lmb phtD
phtY
S. equi
S. agalactiae
lmb phtD
Structural features of PHP proteins
• PHT proteins contain multiple
HxxHxH motifs
• PHT proteins of S. pneumoniae are
paralogs (65-95% id)
• Sec-dependent hydrophobic leader
sequences are present at the Ntermini of PHT proteins
• Localization of PHT proteins from
S. pneumoniae on bacterial cell
surface has been confirmed by flow
cytometry
PHH proteins: summary
• PHT proteins are induced in zincdeplete conditions
• PHT proteins are localized at the cell
surface
• PHT proteins have zinc-binding motifs
A hypothesis:
• PHT proteins represent a new
family of zinc transporters
… incorrect 
• Zinc-binding
domains in zinc
transporters:
EEEHEEHDHGEHEHSH
HSHEEHGHEEDDHDHSH
EEHGHEEDDHHHHHDED
• Histidine triads in
streptococci:
HGDHYHY
HGDHYHF
HGNHYHF
HYDHYHN
HMTHSHW
7 out of 21
2 out of 21
2 out of 21
2 out of 21
2 out of 21
DEHGEGHEEEHGHEH
(histidine-aspartateglutamate-rich)
(specific pattern of
histidines and aromatic
Analyis of PHP proteins (cont’d)
• The phtD gene forms a candidate operon with the
lmb gene in all Streptococcus species
– Lmb: an adhesin involved in laminin binding, adherence
and internalization of streptococci into epithelial cells
• PhtY of S. pyogenes:
– phtY regulated by AdcR
– PhtY consists of 3 domains:
4 HIS TRIADS
PHT
LRR IR
HDYNHNHTYEDEEGH
AHEHRDKDDHDHEHED
internalin
H-rich
PHH proteins: summary-2
•
•
•
•
•
PHT proteins are induced in zinc-deplete conditions
PHT proteins are localized at the cell surface
PHT proteins have structural zinc-binding motifs
phtD forms a candidate operon with an adhesin gene
PhtY contains an internalin domain responsible for the
streptococcal invasion
Hypothesis
PHT proteins are adhesins involved in the attachment of
streptococci to epithelium cells, leading to invasion
Current state
• Pht proteins are required for inhibition of complement
deposition on the pneumococcal surface through the
recruitment of complement factor H (Oqunniyi et al., 2009)
• Pht proteins may play a role in immune evasion, but the
mechanism of function is unlikely to be mediated by factor
H binding (Melin et al., 2010)
nZUR
Zinc and (paralogs of) ribosomal proteins
E. coli, S.typhi
K. pneumoniae
Y. pestis, V. cholerae
pZUR
B subtilis
S. aureus
Listeria spp.
AdcR
E. faecalis
S. pne., S. mutans
S. pyo., L. lactis
L36
–
–
–
–
–
–
–
–
–
L33
–
–
–
–+–
–––
––
–––
–––
–––
L31
–+
––
–+
–+
–
–
–
–
–
S14
–
–
–
–+
–+
–+
–+–
–
–+
Zn-ribbon motif
nZUR
(Makarova-Ponomarev-Koonin, 2001)
E. coli, S.typhi
K. pneumoniae
Y. pestis, V. cholerae
pZUR
B subtilis
S. aureus
Listeria spp.
AdcR
E. faecalis
S. pne., S. mutans
S. pyo., L. lactis
L36
(–)
(–)
(–) 
(–)
(–)
(–)
(–)
(–)
(–)
L33
–
–
–
(–) + –
(–) – –
(–) –
(–)  – –
(–) – –
(–) – –
L31
(–) +
(–) –
(–) +
(–) +
–
–
–
–
–
S14
–
–
–
(–) +
(–) +
(–) +
(–) + –
(–)
(–) +
Summary of observations:
• Makarova-Ponomarev-Koonin, 2001:
– L36, L33, L31, S14 are the only ribosomal proteins
duplicated in more than one species
– L36, L33, L31, S14 are four out of seven ribosomal
proteins that contain the zinc-ribbon motif (four
cysteines)
– Out of two (or more) copies of the L36, L33, L31, S14
proteins, one usually contains zinc-ribbon, while the
other has eliminated it
• Among genes encoding paralogs of
ribosomal proteins, there is (almost)
always one gene regulated by a zinc
repressor, and the corresponding protein
never has a zinc ribbon motif
Bad scenario
Zn-rich conditions
Zn-deplete conditions:
all Zn utilized by the
ribosomes, no Zn for
Zn-dependent enzymes
Regulatory mechanism
Sufficient Zn
ribosomes
repressor
R
Zn-dependent
enzymes
Zn starvation
R
Good scenario
Zn-rich conditions
Zn-deplete conditions:
some ribosomes
without Zn, some Zn
left for the enzymes
Prediction …
(Proc Natl Acad Sci U S A. 2003 Aug 19;100(17):9912-7.)
… and confirmation
(Mol Microbiol. 2004 Apr;52(1):273-83.)
Later: L31 is a depot; S14 and L33 are “failsafe” substitutes (integrity
of ribosomes unde zink starvation). Owen et al, 2007: Of seven Znribbon proteins, six are regulated in Streptomycs (also L28, L32, S18)
Метаболический путь синтеза рибофлавина
(витамин В2)
PURINE BIOSYNTHESIS PATHWAY
GTP
ribA
PENTOSE-PHOSPHATE PATHWAY
ribA
GTP cyclohydrolase II
2,5-diamino-6-hydroxy-4-(5`-phosphoribosylamino)pyrimidine
ribG
ribA
Pyrimidine deaminase
5-amino-6-(5`-phosphoribosylamino)uracil
ribulose-5-phosphate
3,4-DHBP synthase
ribD
ribB
ribG
3,4-dihydroxy-2-butanone-4-phosphate
ribD
Pyrimidine reductase
5-amino-6-(5`-phosphoribitylamino)uracil
ribH
ribH
Riboflavin synthase, -chain
6,7-dimethyl-8-ribityllumazine
ribB
ypaA
ribE
Riboflavin
Riboflavin synthase, -chain
Консервативная последовательность перед генами
рибофлавинового пути из очень разных бактерий
BS
BQ
BE
HD
Bam
CA
DF
SA
LLX
PN
TM
DR
TQ
AO
DU
CAU
FN
TFU
SX
BU
BPS
REU
RSO
EC
TY
KP
HI
VK
VC
YP
AB
BP
AC
Spu
PP
AU
PU
PY
PA
MLO
SM
BME
BS
BQ
BE
CA
DF
EF
LLX
LO
PN
ST
MN
SA
AMI
DHA
FN
GLU
1
2
2’
3
=========>
==>
<==
===>
TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT
AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT
TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT
TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT
GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT
CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT
TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT
ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT
AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT
GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT
CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT
AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT
TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT
GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT
TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT
ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
-AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT
GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT
CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT
GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT
GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT
AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT
GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT
GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT
TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT
AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT
GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT
ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT
ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT
AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT
GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT
GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT
AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT
GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT
AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT
AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT
ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT
TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT
ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT
AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT
---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT
Add.
3’
-><<===
21 AGCCCGTGAC-19 AGTCCGTGAC-20 AGCCCGCGA--19 AGTCCGTGAC-23 AGCCCGTGAC-2 AGCCCGCAA--2 AGCCCGCG---6 AGCCTGCGAC-2 AGCCCGCGA--2 AGCCCACGA--3 AGCCCGCGAG-15 AGCCCGCGAA-3 AGCCCGCGAA-2 AGTCCGCGA--2 AGTCCGCGA--20 AGCCCGCGA--2 AGTCCACG---3 AGTCCGCGAC-3 AGTCCGCGAC-30 AGCCCGCGAGCG
21 AGCCCGCGAGCG
31 AGCCCGCGAGCG
21 AGCCCGCGAGCG
17 AGCCCGCGAGCG
67 AGCCCGCGAGCG
20 AGCCCGCGAGCG
2 AGCCCACGAGCG
14 AGCCCACGAGCG
13 AGCCCACGAGCG
40 AGCCCGCGAGCG
25 AGCCCACGAGCG
18 AGCCCGCGAGCG
16 AGCCCGCGAGCA
34 AGCCCGCGAGCG
13 AGCCCGCGAGCG
17 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
19 AGCCCGCGAGCG
16 AGCCCGCGAGCG
34 AGCCCGCGAGCG
17 AGCCCGCGAGCG
18 AGCCCGCGA--27 AGCCCGCGA—-20 AGCCCGCGA--2 AGCCCGCGAG-2 AGCCCGCG---3 AGTCCACGAC-21 ACTCCGCGAT-3 AGTCCACGAT-125 AGTCCGTG---14 AGTCCGCG---104 AGTCCGCG---6 AGCCTGCGAC-14 AGCCCGCGC--20 AGCCCGCAAC-2 AGTCCACG---28 AGCCCGCGAGCG
Variable
4
4’
5
5’
1’
->
<====>
<====
==>
<==
<=========
8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT
8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG
3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC
10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG
8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG
3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG
7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT
11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT
4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA
3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA
5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA
8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG
5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC
7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA
13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA
3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC
5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG
8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG
8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG
137
GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC
8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC
7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC
11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC
8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG
8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG
8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG
26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA
11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC
5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA
16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG
16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA
10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC
10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG
6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA
7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA
7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG
19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA
15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA
14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA
8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA
8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC
10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT
5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG
3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG
3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT
6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT
5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG
4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC
3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG
3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA
3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG
3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG
11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG
5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC
11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA
4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA
10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC---
Консервативная вторичная структура RFN-элемента
additional
stemloop
variable
stem-loop
Ag
Y
u
C
N
rU G CRY G N
GY
G
3 G
C
c
A
A N UC C c N
a
*
GGgN
N
c
G Y
2 x
G
G
g
rC
U
Y
Y
1 y
N
N
N
N
5’
*
*
*
*
G
A
R
R
r
N
N
N
N
KN
R
A
RG K x
Y
yB RYC
V
Rr
C 4
C
G
A
U xN
CRG
N
AG Y C
UG A x
R
R 5
g
x
u
GA
Capitals: invariant (absolutely conserved) positions.
Lower case letters: strongly conserved positions.
Dashes and stars: obligatory and facultative base pairs
N: any nucleotide. X: any nucleotide or deletion
3’
RFN: механизм регуляции
• Transcription attenuation
• Translation attenuation
… и еще перед одним геном (ypaA)
цветные стрелки
– гены пути
желтые стрелки –
ypaA, ген с
неизвестной
функцией
черные стрелки –
регуляторный
элемент
additional
stemloop
variable
stem-loop
Ag
Y
u
C
N
rU G CRY G N
GY
G
3 G
C
c
A
N
A UC C c N
a
*
GGgN
N
c
G Y
2 x
G
G
g
rC
U
Y
Y
1 y
N
N
N
N
5’
BY
*
*
*
*
GG
A
R
R
r
N
N
N
N
RG
KN
CK x
R
A
y
Y
VR
Rr
C 4
C
G
A
U xN
CRG
N
AG Y C
UG A x
R
R 5
g
x
Au
3’
YpaA/RibU: транспортёр рибофлавина
• 5 предсказанных ТМ-сегментов =>
потенциальный транспортёр
• регуляторный RFN-элемент => корегуляция с генами метаболизма
рибофлавина => транспорт
рибофлавина или предшественника
• S. pyogenes, E. faecalis, Listeria: есть
ypaA, нет генов биосинтеза
рибофлавина => транспорт
рибофлавина
Предсказание:
YpaA – рибофлавиновый транспортёр
(Gelfand et al., 1999)
Проверка:
• генетический анализ
(Кренева и др., 2000)
• биохимический эксперимент
(Burgess et al., 2006)
Биотиновый
транспортер
BioY
Метаболическая реконструкция пути
биосинтеза тиамина (витамин В1)
= thiN (confirmed)
Transport of HMP
Transport of HET
(Gram-positive bacteria)
(Gram-negative bacteria)
yuaJ(=thiT)
тиаминовый
транспортер
(возможно, H+зависимый) в
фирмикутах
• 6 предсказанных трансмембранных сегментов
• Почти всегда регулируется THI-рибопереключателями
• Встречается в геномах, в которых отсутствует
тиаминовый путь (Streptococcus spp.);
• В B. cereus импорт тиамина сопряжен с током протонов
(Arch. Microbiol., 1977)
thiX-thiY-thiZ и
ykoF-ykoEykoD-ykoC:
предсказанные
АТФ-зависимые
транспортеры
HMP
• Почти всегда регулируются THI-рибопереключателями
• Не встречаются в геномах, в которых отсутствует
тиаминовый путь
• Всегда встречаются вместе с thiD и thiE
• В ряде геномов (Pasteurellacee, Brucella некоторые
фирмикуты) встречаются в отсутствие thiC
Co и Ni
• ко-локализация
(хромосомные
локусы)
– транспортеры Ni –
с генами никельзависимых ферментов
– транспортеры Co –
с генами синтеза
кобаламина
• ко-регуляция
– транспортеры Ni –
фактор транскрипции
NikR
– транспортеры Co –
рибопереключатель
В12
Add-I
g
aN
t
C
t Gg
cg
N R
N
N
P2 N
A
A
G
G
G
a
N
a
a
C
c
y
G
C d
c
P1 r
C
c
G
C P3
h a
C
BI
K
G
T
r
a
P4
r
A
G
Y
N
g k
c tG
y
G
h
C
C
d
C
G M B12 box
k G
C g
A
C
BI I
VS
P6
P5 A
g c C
Add-I I
CTG
c gG
GGY
AG
A
The Bacillus/
Clostridium group
-proteobacteria
a g
P0
F aculta tive
stem-loop
5'
3'
base stem
Other taxonomic groups
Дмитрий Родионов  Thomas Eitinger
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni
Структура локусов
гены
B12-элемент
сайт связывания NikR
Проверка: тест на транспорт ионов
Co
Co
Ni
Ni
Ni
Co
Структура: слишком много компонентов
Биотиновый
транспортер
BioY
• АТФаза
BioM
~ CbiO
= NikO
• Пермеаза
BioN
~ CbioQ
= NikQ
Для транспорта достаточно компонент МN
(первый пример такого АВС-транспортера)
cbiMNQO
cbiMNQ
cbiMN
cbiM
контроль
BioY тоже достаточно
(даже в геномах, содержащих BioMN);
у BioMNY более крутая кинетика
Верхушка айсберга?
Экспериментальные подтверждения
RibU: рибофлавин
ThiT: тиамин
FolT: фолат
(ср. BioY)
Универсальный
«энергетический
комплекс» +
компоненты,
определяющие
специфичность
The overall structure of RibU.
P Zhang et al. Nature 000, 1-4 (2010) doi:10.1038/nature09488
Эволюция регуляторных путей
Глобализация:
как FruR превратился в CRA
• CRA (= FruR) в Escherichia coli:
– глобальный регулятор
– хорошо изучен экспериментально
• Машина времени: поиск потенциальных
сайтов связывания CRA/FruR перед генами,
которые регулируются в E.coli
Общий предок Escherichia и Salmonella
Mannose
Glucose
manXYZ
ptsHI-crr
edd
epd
eda
adhE
aceEF
Mannitol
mtlA
gapA
fbp
Fructose
pykF
mtlD
fruBA
fruK
pfkA
pgk
gpmA
icdA
ppsA
pckA
aceA
tpiA
aceB
Gamma-proteobacteria
Enterobacteriales
E. coli и Salmonella spp.
Общий предок Enterobacteriales
Mannose
Glucose
manXYZ
ptsHI-crr
edd
epd
eda
adhE
aceEF
Mannitol
mtlA
gapA
fbp
Fructose
pykF
mtlD
fruBA
fruK
pfkA
pgk
gpmA
icdA
ppsA
pckA
aceA
tpiA
aceB
Gamma-proteobacteria
Enterobacteriales
Общий предок gamma-proteobacteria
Mannose
Glucose
manXYZ
ptsHI-crr
edd
epd
eda
adhE
aceEF
Mannitol
mtlA
gapA
fbp
Fructose
pykF
mtlD
fruBA
fruK
pfkA
pgk
gpmA
icdA
ppsA
pckA
aceA
tpiA
aceB
Gamma-proteobacteria
Общий предок Enterobacteriales
Mannose
Glucose
manXYZ
ptsHI-crr
edd
epd
eda
adhE
aceEF
Mannitol
mtlA
gapA
fbp
Fructose
pykF
mtlD
fruBA
fruK
pfkA
pgk
gpmA
icdA
ppsA
pckA
aceA
tpiA
aceB
Gamma-proteobacteria
Enterobacteriales
Общий предок Escherichia и Salmonella
Mannose
Glucose
manXYZ
ptsHI-crr
edd
epd
eda
adhE
aceEF
Mannitol
mtlA
gapA
fbp
Fructose
pykF
mtlD
fruBA
fruK
pfkA
pgk
gpmA
icdA
ppsA
pckA
aceA
tpiA
aceB
Gamma-proteobacteria
Enterobacteriales
E. coli and Salmonella spp.
Перестройка: катаболизм жирных кислот и
разветвленных аминокислот
в гамма- и бета-протеобактериях
GntR
|
TetR
|
MerR
Кто это делал
•
•
•
•
•
*Екатерина Панина (цинк)
Дмитрий Родионов (транспортеры)
Алексей Казаков (жирные кислоты)
Дмитрий Равчеев (CRA)
Алексей Витрещак (РНК-переключатели)
• © Андрей Остерман (Burnham-Sanford Inst.)
• Томас Эйтингер (Humboldt Universuty)
• © Михаил Гальперин (NCBI)
template
• text
Download