Устойчивые сочетания генов углеводного

advertisement
Устойчивые сочетания генов углеводного метаболизма у бактерий
А.Д. Казнадзей
П.В. Шелякин
ИППИ РАН
f.serval@gmail.com
ИППИ РАН
vzmisha4@gmail.com
Изучение коэволюционных особенностей всех
генов в бактериальных геномах позволяет
говорить об эволюционных характеристиках
бактерий в целом, но при этом не дает детальной
картины из-за огромного разнообразия частных
случаев и наличия множества аннотационных
неточностей в современных базах данных.
Исследования частных случаев позволяют
рассматривать
конкретные
эволюционные
тенденции отдельных генов и наборов генов, но
не позволяют делать выводы об общей картине. В
нашей работе мы старались сочетать оба подхода
для большей точности исследования. Мы
рассматривали гены углеводного метаболизма в
бактериальных геномах, разделяли их на основе
сочетания функциональной, структурной и
ортологической классификаций с учетом частных
“необычных” случаев, которые рассматривались
нами
отдельно, и
искали
эволюционно
устойчивые сочетания таких генов.
Аннотация
В работе были исследованы гены углеводного
метаболизма у бактерий. Для них была построена
система классификации, основанная на их
функциональных, структурных и ортологических
характеристиках. На основе расположения генов
на бактериальных хромосомах была изучена их
совместная встречаемость, в результате чего
были
построены
матрицы
попарной
встречаемости ортолого-структурных семейств
генов,
принадлежащих
разным
крупным
функциональным классам. Были определены
наиболее устойчивые сочетания генов в локусах,
относящихся к углеводному метаболизму,
определены группы бактерий, имеющих сходства
в
организации
таких
локусов,
сделаны
предположения
о
наиболее
эволюционно
“сработавшихся” парах семейств, а также
построены
филогенетические
деревья,
позволяющие оценить распределение различных
локусов среди бактерий и выявить случаи
горизонтальных переносов локусов и их частей.
2. Материалы и методы
Мы исследовали 1580 бактериальных геномов и
более трехсот тысяч генов, имеющих отношение
к углеводному метаболизму бактерий. Гены
выбирались на основе списка генов углеводного
метаболизма, взятых из JGI IMG, после чего мы
расширяли этот список следующим образом. В
бактериальных геномах некоторые гены образуют
так
называемые
“fusions”,
то
есть
последовательности двух генов в некоторых
бактериях сочетаются внутри одного гена. Мы
исследовали все такие случаи для генов
углеводного метаболизма и получили список
“соседей” по fusions. Эти соседи в других геномах
встречались и как отдельные гены, и, если их
аннотация позволяла предположить, что они
также относятся к углеводному метаболизму, мы
добавляли их к общему списку кластеров
ортологичных генов. После этого мы смотрели, в
1. Введение
Нашей целью было исследование совместной
встречаемости (ко-встречаемости) различных
семейств
генов
углеводного
метаболизма
бактерий. В геноме бактерий функционально
связанные гены (например, отвечающие за
последовательные реакции в метаболическом
пути), как правило, располагаются на хромосоме
вблизи друг от друга. Совместное расположение,
таким образом, считается признаком совместной
эволюции генов. Поэтому на основании ковстречаемости членов локуса можно делать
предположения об эволюционной устойчивости
такого локуса.
265
свою очередь, их случаи fusions и повторяли
процедуру наращивания списка несколько раз.
скорее всего, только подтверждает их коэволюционную совместимость и не мешает ее
изучению.
Для изучения ко-эволюционных особенностей
генов необходима было ввести разумную их
классификацию. Среди генов углеводного
метаболизма мы выделили 24 крупных
функциональных класса (мутазы, киназы,
эпимеразы и др.), представители каждого из
которых встречались в большем числе бактерий.
Разделение
на
функциональные
классы
основывалось
на
классификации
Enzyme
Nomenclature
(до
sub-subclasses)
с
дополнительным анализом частных “необычных”
случаев. Эти классы мы далее в одном случае
разделяли
на
семейства
на
основании
принадлежности их генов к ортологическим
кластерам (COG) и cтруктурным семействам
(PFam), получая комбинированные структурноортологические COG-PFam семейства; во втором
случае мы ограничились разделением классов на
COG-семейства. Всего мы рассматривали 257
COG и 567 PFam. Мы использовали обе системы
классификации и получили сравнительные
характеристики двух таких подходов.
Критерий ко-встречаемости мы
одним из следующих способов:
Для каждой пары из 24 крупных функциональных
классов
была
построена
матрица
ковстречаемости входящих в них семейств.
Значения, соответствующие количеству встреч,
были кластеризованы на основании их величины;
количество кластеров для каждой матрицы
варьировало от 3 до 6. Рассматривая значения и
характер кластеризации каждого семейства, мы
исследовали
особенности
ко-встречаемости
каждого семейства в рамках разных матриц.
Случай, когда семейство имеет один или
несколько пиков на матрице, означает, что его
представители
имеют
ко-эволюционные
“предпочтения”; случай, когда пики не
выражены, означает, что “предпочтений” у
семейства нет. Чтобы оценить меру значимости
каждого пика мы также вычислили меру
отклонения от ожидаемого значения матрицы, в
модели случайного образования пар с учетом
размера семейств. На основании этих данных мы
получили разбиение всех возможных пар
семейств из разных функциональных классов, на
четыре группы: часто встречающиеся пары
(пики) с высокой степенью отклонения от
ожидаемой величины, часто встречающиеся пары
(пики), близкие к ожидаемой величине, не частые
пары (не пики), близкие к ожидаемой величине и
не частые пары (не пики), далекие от ожидаемой
величины.
определяли
1) считается, что представители семейств (гены)
встречаются в геноме бактерии вместе, если они
встречаются в составе одного локуса. Под
локусом подразумевается несколько генов
углеводного метаболизма (от 2 до 12), которые
располагаются на хромосоме подряд, с
межгенным расстоянием не более 200 п.н.; при
этом допускается один “пропуск” (gap) длиной в
1500 п.н.
Также мы исследовали все встречающиеся в
бактериальных геномах локусы углеводного
метаболизма, в результате чего был построен
список существующих локусов и список всех
частей локусов (т.е. элементов “конструктора” из
которых собираются полные локусы), определена
частота их встреч и, в результате, выявлены
самые
распространенные
сочетания
функциональных
классов
и
структурноортологических семейств генов, по-видимому,
наиболее оптимальные с точки зрения коэволюции. Ряд таких сочетаний и их
однозаменных вариантов был исследован на
филогенетических деревьях, в том числе, чтобы
оценить число и характер горизонтальных
переносов для каждого такого случая и сделать
предположения о его причинах.
2) считается, что представители семейств
встречаются в геноме бактерии вместе, если они
лежат на геноме на расстоянии не больше чем 15
т.п.н. друг от друга.
В исследовании мы использовали оба критерия
ко-встречаемости,
получив
сравнительные
характеристики двух этих подходов.
Отдельной проблемой являются упомянутые
выше случаи “fusion”, когда два гена могут
встречаться отдельно, а могут находиться в
составе одного общего гена. Не всегда можно
сказать,
является
ли
“составной”
ген
промежуточным
эволюционным
вариантом
между первыми двумя или настоящим fusion. Мы
рассматривали каждый “составной” ген как два
лежащих рядом гена; поскольку слияние генов,
Кроме того, на основании COG-PFam семейств
мы построили филогенетический профиль
бактерий. С помощью него можно ещё одним
266
способом подтвердить эволюционно устойчивые
сочетания генов, найти новые, так как в таком
профиле нет условия ко-локализации генов на
хромосомах, а также выделить группы бактерий,
содержащие похожие семейства генов и,
предположительно, населяющих сходные среды
обитания
с
точки
зрения
углеводного
метаболизма.
Список литературы
[1] Kanehisa, M., Goto, S., Furumichi, M., Tanabe,
M., and Hirakawa, M. KEGG for representation and
analysis of molecular networks involving diseases
and drugs. Nucleic AcidsRes. (2010), 38, D355D360.
[2] Kanehisa, M., Goto, S., Hattori, M., AokiKinoshita, K.F., Itoh, M., Kawashima, S., Katayama,
T., Araki, M., and Hirakawa, M., From genomics to
chemical genomics: new developments in KEGG.
Nucleic Acids Res. (2006), 34, D354-357.
3. Результаты
Была составлена система классификации генов
углеводного метаболизма. На основе ковстречаемости в геномах бактерий были
выявлены все сочетания генов и определены
эволюционно устойчивые комбинации. Для
каждой пары из 24 крупных функциональных
классов
была
построена
матрица
ковстречаемости входящих в них ортологоструктурных
семейств.
На
основании
кластеризации таких матриц были сделаны
выводы о ко-эволюционных особенностях
каждого семейства. Также для каждого значения
матрицы была вычислена мера отклонения от
ожидаемого значения в модели случайного
образования пар с учетом размера семейств и
проанализирован результат.
[3] Kanehisa, M. and Goto, S., KEGG: Kyoto
Encyclopedia of Genes and Genomes. Nucleic Acids
Res. (2000), 28, 27-30.
[4] Markowitz VM, Chen, I.A., Palaniappan K, et al.
The Integrated Microbial Genomes system: an
expanding comparative analysis resource. Nucleic
Acids Res. (2010) , 38
[5] R.D. Finn, J. Mistry, J. Tate, P. Coggill, A.
Heger, J.E Pollington, O.L. Gavin, P. Gunesekaran,
G. Ceric, K.Forslund, L. Holm, E.L. Sonnhammer,
S.R. Eddy, A. Bateman, The Pfam protein families
database. Nucleic Acids Research (2010), Database
Issue 38:D211-222
[6] Marchler-Bauer A, Anderson JB, Chitsaz F,
Derbyshire MK, DeWeese-Scott C, Fong JH, Geer
LY, Geer RC, Gonzales NR, Gwadz M, He S,
Hurwitz DI, Jackson JD, Ke Z, Lanczycki CJ, Liebert
CA, Liu C, Lu F, Lu S, Marchler GH, Mullokandov
M, Song JS, Tasneem A, Thanki N, Yamashita RA,
Zhang D, Zhang N, Bryant SH., CDD: specific
functional annotation with
Были изучены все существующие локусы
углеводного метаболизма и составлен список
всех вариантов частей таких локусов. Была
определена частота встреч локусов и их частей и
выявлены самые распространенные сочетания
функциональных
классов
и
структурноортологических семейств генов, по-видимому,
наиболее оптимальные с точки зрения коэволюции. Ряд таких сочетаний и их
однозаменных вариантов был исследован на
филогенетических деревьях для визуализации их
распространения в бактериальных геномав и для
оценки числа и характера горизонтальных
переносов для каждого такого случая и сделать
предположения о его причинах.
the Conserved Domain Database. Nucleic Acids Res.
(2009), 37, D205-10.
[7]PHYLIP
(http://evolution.genetics.washington.edu/phylip.html
)
[8] Larkin M.A., Blackshields G., Brown N.P.,
Chenna R., McGettigan P.A., McWilliam H.,
Valentin F., WallaceI.M., Wilm A., Lopez R.,
Thompson J.D., Gibson T.J. And Higgins D.G.,
ClustalW and ClustalX version 2. Bioinformatics
(2007), 23(21): 2947-2948.
На основании COG-PFam семейств был построен
филогенетический
профиль
бактерий,
позволяющий выявить новые устойчивые
сочетания генов и распределить бактерии по
группам,
обладающим
сходными
характеристиками с точки зрения углеводного
метаболизма в целом.
[9] Caspi, R., Altman, T., Dale, J.M., Dreher, K.,
Fulcher, C.A., Gilham, F., Kaipa, P., Karthikeyan,
A.S., Kothari, A., Krummenacker, M., Latendresse,
M., Mueller, L.A., Paley, S., Popescu, L., Pujar, A.,
Shearer, A., Zhang, P. and Karp, P.D., The MetaCyc
Database of metabolic pathways and enzymes and
Данные, полученные в ходе исследования,
доступны на сайте http://imagenome.org.
267
the
BioCyc collection of Pathway/Genome
Databases Nucleic AcidsRes. (2010), 38(1):D473D479.
[12] Tatusov RL, Natale DA, Garkavtsev IV,
Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B,
Galperin MY, Fedorova ND, Koonin EV., The COG
database: new developments in phylogenetic
classification of proteins from complete genomes.
Nucleic Acids Res. (2001), 29(1): 22-28.
[10] Selkov E Jr, Grechkin Y, Mikhailova N, Selkov
E. MPW: the Metabolic Pathways Database. Nucleic
Acids Res. (1998), 26(1):43-5.
[11] Tatusov RL, Galperin MY, Natale DA, Koonin
EV., The COG database: a tool for genome-scale
analysis of protein functions and evolution. Nucleic
Acids Res. (2000), 28(1): 33-36.
268
Download