биоинформационный анализ экспрессии генов в

advertisement
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
Ю.Л. ОРЛОВ, О.В. ВИШНЕВСКИЙ, Е.Е. ВИТЯЕВ,
О.С. КОЖЕВНИКОВА, Д.А. АФОННИКОВ, Н.А. КОЛЧАНОВ
Институт цитологии и генетики СО РАН, Новосибирск
[email protected]
БИОИНФОРМАЦИОННЫЙ АНАЛИЗ ЭКСПРЕССИИ
ГЕНОВ В КЛЕТКАХ МОЗГА 
Биоинформационный анализ молекулярных механизмов деятельности
высшей нервной системы имеет огромное фундаментальное значение. В
последние годы происходит стремительное расширение фронта нейробиологических исследований, сопровождающееся быстрым ростом объема экспериментальных данных по структуре, функции и эволюции мозга
и нервной системы на различных уровнях их иерархической организации.
Использование технологий высокопроизводительного секвенирования и
анализа данных экспрессии генов позволяет ставить задачи исследования
на качественно более высоком уровне. Открыты многие молекулярные
компоненты, включенные во внутриклеточные пути передачи информации от рецепторных к эффекторным структурам нейрона, исследовано
химическое строение многих белков, вовлеченных в процессы межклеточной и внутриклеточной сигнализации, выявляются гены, экспрессия
которых повышена в тканях мозга, и связана, в том числе, с когнитивными заболеваниями. Одним из крупнейших достижений в области нейронаук является создание трехмерных атласов экспрессии генов в мозге
мыши и мозге человека.
Ключевые слова: биоинформатика, клетки мозга, экспрессия генов,
секвенирование ДНК
Введение
Биоинформационный анализ молекулярных механизмов деятельности
высшей нервной системы имеет огромное фундаментальное значение, как
для биологии и генетики, так и для исследования процессов познания.
При этом компьютерные методы и оптимизационные алгоритмы нейроинформатики могут использоваться собственно для решения биологических задач, изучения структуры генов, их взаимосвязи, координации их

Данная работа выполнена при поддержке Интеграционного проекта СО РАН и
Минобрануки РФ (согл.8740).
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
работы (экспрессии) в клетках мозга [1]. Использование технологий высокопроизводительного секвенирования и анализа данных экспрессии генов
позволяет ставить задачи исследования на качественно более высоком
уровне [2,3].
Наряду с молекулярными и клеточными электровозбудимыми сигнальными системами функция нейронов и нейрональных сетей контролируется еще через одну управляющую систему – генные сети – ансамбли
координировано функционирующих генов, обеспечивающих биосинтез
всех молекулярных, биохимических, метаболических, энергетических и
структурных компонент нейрона, включая те, из которых сформированы
его мембраны и синапсы. Также как существует иерархия сетей нейронов,
вплоть до глобальной нейронной сети, соответствующей мозгу и нервной
системе, существует и соответствующая иерархия генных сетей. При этом
генные сети отдельных нейронов, объединяясь в генные сети более крупных клеточных образований, формируют иерархию генных сетей вплоть
до единой генной сети мозга и нервной системы. Следует подчеркнуть,
что взаимосвязи между функциями нейронов и генных сетей проанализированы крайне слабо. Ценная информация для изучения этого вопроса
может быть получена с помощью компьютерного анализа 3D баз данных
экспрессии генов в мозге мыши и человека [4].
В последние годы все больше внимание уделяется компьютерным моделям нейронов и сетей нейронов, ориентированным на максимальное
сходство с их биологическими прототипами не только по морфологическим, но и функциональным характеристикам [4,5], Например, результатом проекта BlueBrain стало моделирование одной колонки неокортекса
крысы [6]. Большие надежды связаны с моделированием простейшей
нервной системы целиком, в частности для нематоды C. Elegans с известной архитектурой ее нейронной сети, включающей всего 302 нейрона,
способной к обучению и запоминанию [7].
Одним из крупнейших достижений последнего времени в области
нейронаук является создание трехмерных атласов экспрессии генов в мозге мыши и человека. Первым и до настоящего времени наиболее полным
и детальным ресурсом такого рода является компьютерная база данных
Allen Brain Atlas (ABA) (http://www.brain-map.org) [4,5]. При ее создании с
помощью in situ гибридизации оценивался уровень экспрессии всех (около 20000) генов в тонких срезах замороженного мозга мыши (толщиной
до 25 микрон) с его полным сечением в двух ортогональных плоскостях.
После наложения слоев друг на друга результаты анализа были суммированы в трехмерных стереотаксических координатах мозга мыши. При
этом для повышения устойчивости оценок экспрессии результаты анализа
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
были усреднены по элементарным объемам (вокселям). Работы по созданию атласа осуществлялись с помощью специальных роботизированных
систем, обеспечивающих полную автоматизацию всего цикла экспериментальных исследований.
Рис. 1. Интерфейс базы данных ABA работы с трехмерным атласом
мозга, включающим визуализацию экспресии генов в отдельных компартментах (http://connectivity.brain-map.org/static/brainexplorer)
В настоящее время разработана большая серия баз данных по экспрессии генов в мозге: GENSAT (Gene Expression Nervous System Atlas)
(http://www.gensat.org), MGI (Mouse Genome Informatics) (http://www.informatics.jax.org/), BGEM (Brain Gene Expression Map) (http://www.stjudebgem.org) и многие другие. Также разработаны базы данных, описывающие активность различных структур мозга, основанные на методах магнитного резонанса и томографии. Эти базы данных обладают мощными
ресурсами доступа и визуализации, обеспечивая доступ как к первичной
экспериментальной информацию, так и к целостной 3D картине локализации паттернов экспрессии генов в различных морфологических структурах мозга человека и лабораторных животных.
В настоящее время имеется множество данных об участии различных
медиаторных систем мозга в регуляции поведения. В частности, показано
вовлечение в контроль над поведением серотониэргической [8], дофа-
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
минэргической и норадренэргической [9] систем. Эти системы имеют
очень сложное строение, вовлекая в свое функционирование от сотен до
тысяч генов. Каждая из из медиаторных систем вносит свой вклад в особенности регуляции поведения. Функция этих систем может существенным образом меняться в результате мутационных изменений (SNP или
ОНП, вариация количества копий генов и др). К настоящему времени в
генах нейротрансмиттерных симстем выявлено множество ОНП, оказывающих существенное влияние на поведение человека, имеются работы
по поиску ассоциаций между ОНП в генах серотониновой системой мозга
и поведением человека [10,11].
Нами проведено компьютерное исследование районов генов человека,
активно экспресиирующихся в тканях мозга. Были подготовлены выборки
генов, экспрессия которых повышена в целом, и в отдельных районах
мозга человека, из банка данных UCSC загружены данные нуклеотидных
последовательностей, содержащих эти гены и их регуляторные районы.
Выполнялся поиск общих контекстных особенностей нуклеотидных последовательностей. Анализ промоторных районов этих генов позволил
статистически показать обогащенность сайтами связывания белка – транскрипционного фактора TBP (по содержанию TATA-бокса).
Анализ нейрональной активности с помощью электрофизиологических
методов, моделирование информационных входов свидетельствуют о том,
что нейроны in vitro способны к осуществлению достаточно сложных ассоциативных реакций, запоминанию, распознаванию образа внешнего
сигнала, предсказанию возможных изменений внешних условий и ответа
соответствующей реакцией, что делает возможным эксперименты в культуре тканей. Таким образом, удалось приблизиться и к пониманию молекулярных механизмов обучения. Показано, что для формирования устойчивого изменения эффективности межклеточной передачи необходимы
структурные изменения в синапсе – элементарной структуре, ответственной за взаимодействие между нейронами и управляемыми ими клетками.
Экспрессия генов и некодирующих РНК в тканях мозга
Экспрессия генов, т.е. проявление их функции в клетках мозга, является базисом работы нейрона. Обычно, безосносительно к типу клеток, активно транскрибируются в клетке не все гены одновременно, а какая-то
относительно небольшая их часть, около 5 % (что соответствует около
1000 генов для 20 000 анотированных генов). Выявление таких генов экспериментальными методами, численная экспериментальная оценка из
экспрессии (число транскриптов в клетке) само по себе является сложной
задачей молекулярной биологии. Определение дефектов развития, сбоев
програм работы клетки, например, при опухолях мозга, позволяет выяв-
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
лять критические элементы в управляющей генной сети. При этом собственно методы нейроинформатики используются для компьютерного
исследования генов, их экспресии и регуляции.
Полное секвенирование транскриптом показало, что до 50 % транскриптов не кодируют белки [12]. Особое место среди них занимают
длинные (условно более 300 нуклеотидов) некодирующие РНК. Такие
РНК играют большую роль в развитии глиом, их экспрессия имеет предсказательное значение [13].
По отношению к белок-кодирующим генам их можно классифицировать как межгенные, внутригенные (в интронах) и цис-антисенс (в противоположной ориентации к экзонам кодирующих генов). Примеры некодирующих РНК включают гены HULC, MALAT-1, AIR, XIST, и Kcnq1ot
[14]. Ряд недавних публикаций отмечает высокий уровень антисенстранскриптов при раке.
По разным оценкам, доля цис-антисенс транскриптов в геноме человека достаточно велика, до 20 % [3]. Особый интерес представляет изменения уровня экспрессии ближайшего гена (по независимым данным экспрессии на коммерческих микрочипах или оцененное с помощью других
технологий, таких как SAGE, CAGE, EST, секвенирование транскриптом),
что может быть оценено при используемой технологии полного секвенирования транскриптома. Известен ряд некодирующих РНК генов, экспрессия которых значительно повышена при раке и может служить строгим маркером для диагностики [3]. В частности ген HULC повышено экспрессируется при карциноме печени, а ген внутриядерной РНК MALAT-1
(Metastasis Associated Lung Adenocarcinoma Transcript #1) был впервые
открыт в ходе анализа метастаз рака легких и теперь известен как биомаркер других типов рака [14]. Интересно отметить взаимосвязь механизмов
регуляции, включая регуляцию через связывания фактора транскрипции
CREB, с последующими модификациями хроматина (деацетилирование и
метилирование гистонов) и регуляцию гена HULC через микроРНК. Показано, что некодирующий РНК ген HOTAIR связывает изменения хроматина с метастазированием рака [12].
Интересно отметить еще один механизм регуляции – цис-антисенс
транскрипты, то есть кодируемые последовательности, которые транскрибируются в противоположных направлениях и близко расположены – частично перекрываются в геномных координатах. Дискутируется вопрос о
распространненности тиках систем регуляции в геномах. Интересно отметить большое число цис-антисенс транскритов в геноме человека, многие
из таких транскриптов активны в клетках мозга. Пример приведен на рисунке. Для приведенного примера было исследована экспрессия генов на
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
микрочипах Affymetrix U133 на выборке здоровых тканей мозга (21 пациент, данные GEO NCBI).
Рис. 2. Пробы микрочипа, соответствующие генам в противоположной
ориентации (геном человека, UCSC Genome Browser)
Как видно из рис. 2, существует 9 вариантов антисенс расположения
транскриптов (представленных наборами проб); 3 набора проб (Affy
probesets) попадают в интроны гена TYMS; 2 набора проб находятся в
противоположной ориентации (представлены EST).
Таким образом, можно видеть положительную корреляцию транскрипции, что является неожиданным результатом (транскрипция не может происходить одновременно), и свидетельствует о повышенной транскрипционной активности всего района.
Табл. 1 содержит коэффициенты корреляции между наборами проб,
представляющими гены, на выборке экспериментальных данных.
В ИЦиГ СО РАН имеется значительный опыт в области анализа молекулярных механизмов регуляции экспрессии генов, суперкомпьютерных
вычислений, использовании технологий секвенирования и микрочипов, в
том числе относящихся к экспресии генов в тканях мозга, изучения роли
серотониновой системы мозга в регуляции поведения [15-17].
Таблица 1
Ген
Affymetrix
ID
Среднее
значение
Коэф.-т
вариации,CV
Число коэффициентов корре-
ISBN 978-5-7262-1782-6
CLUL1
C18orf56
TYMS(longer)
TYMS(shorter)
206556_at
228989_at
202589_at
1554696_s_
at
213645_at
204142_at
204143_s_at
243016_at
217684_at
217690_at
НЕЙРОИНФОРМАТИКА-2013. Часть 3
6.08
7.05
7.981
6.962
ENOSF1(SA)
8.292
ENOSF1(short1)
6.879
ENOSF1(short2)
8.001
TYMS(-1)
7.351
TYMS(+1)
4.012
TYMS(-2)
6.160
________
* Число значимых позитивных коэффициентов
ных в данной структупе (при p < 5 %).
0.063
0.080
0.105
0.104
ляции*
0
8
7
7
0.087
0.136
0.090
0.102
0.223
0.124
7
7
7
8
3
8
корреляции (из 9 возмож-
Разработана компьютерная система AndCell/AndVisio [16], позволяющая в автоматическом режиме, основе автоматического анализа текстов
научных публикаций и баз данных реконструировать ассоциативные сети,
интегрирующие информацию о молекулярно-генетических системах и
процессах человека, животных и микроорганизмов. Разработана компьютерная технология GeneNet, позволяющая реконструировать на основе
аннотации экспериментальных данных из научных публикаций генные
сети - ансамбли координировано функционирующих генов, контролирующих биохимические, молекулярно-генетические, физиологические и
процессы [1]. С помощью GeneNet реконструировано более сотни генных
сетей, контролирующих различные системы и процессы, в том числе в
мозговых тканях, включая генную сеть "Early long-term potentiation", отражающую белковые взаимодействия в дендритных шипиках зоны СА1
гиппокампа.
Модели животных
На животных моделях показано участие гена ключевого фермента
биосинтеза 5-НТ-триптофангидроусилазы-2 в регуляции агрессивного
поведения [17,18]. Показано роль 5-НТ1А рецепторов в подавлении агрессии, вызванной страхом и агрессии нападения, в механизмах зимней
спячки и ассоциированной с ней глубокой гипотремии [18]. Выявлена
роль 5-НТ2А рецепторов в подавлении пассивно-оборонительного защит-
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
ного поведения - каталепсии.
Программная система Discovery успешно применялась для решения
задач биоинформатики [15] (http://www.math.nsc.ru/AP/ScientificDiscovery). Разработан когнитивный подход к анализу данных с использованием функции конкурентного сходства, который может обрабатывать достаточно разнообразные и нестандартные данные биологии.
Рассматривалась задача, связанная с анализом экспрессии генов в тканях мозга лабораторных животных – крыс селектированных по генетическим особенностям, предрасположенности к стрессу, и отличающихся в
том числе по когнитивным функциям (спосбности к обучению). Для крыс
линии OXYS был выделен набор генов, расположенный на хромосоме 1 и
связанный с фенотипом животных [19].
Среди биологических процессов, обогащенных генами данного локуса,
интересно отметить передацу сигнала, процессы нейрологической системы и визуальное восприятие. Последнее непосредственно связано с заболеваниями глаза.
В табл. 2 приведены биологические процессы.
Таблица 2
Биологические процессы
signal transduction
system process
neurological system
process
synaptic transmission
cellular metabolic
process
visual perception
Отношение
Значимость наблюдае(P-value)
мого числа к
ожидаемому
7,7E-08
1,36
9,34E-08
1,51
Число генов в выборке
Ожидаемое число
генов
259
162
190,5
107,2
145
50
95,0
23,8
2,83E-07
1,36E-06
1,53
2,10
41
31
15,4
17,7
3,32E-08
0,00234
2,67
1,75
Интересно отметить присутствие генов из метаболических путей, связанных с окислительным стрессом: «Inflammation mediated by chemokine»
и «Oxytocin receptor mediated signaling» а также «FGF signaling» и «VEGF
signaling pathway».
Присутствие генов из метаболических путей, связанных с болезнью
Альцгемера (Alzheimer disease) может свидетельствовать об экспрессии
генов данного локуса в нейронах и тканях мозга.
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
Среди биологических процессов, обогащенных генами данного локуса,
интересно отметить передацу сигнала, процессы нейрологической системы и визуальное восприятие. Последнее непосредственно связано с заболеваниями глаза.
Среди онтологических категорий «Молекулярные функции» значимо
присутствуют категории каталитической активности, белкового связывания, трансмембранной активности и оксидоекдуктазы. Последнее напрямую связано с окислительным стрессом. В то же время отсутствуют и более того, статистически недопредставлены, категории, связанные с иммунитетом, другими защитными механизмами.
visual perception
# expected
cellular metabolic process
# Observed
synaptic transmission
neurological system process
system process
signal transduction
0
50
100
150
200
250
300
Рис. 3. Онтологические категории «Биологические процессы».
Обогащенность генов локуса хромосомы 1 генома крысы (то же в
табл.2)
Выводы
Развитие новых экспериментальных методов геномики, прежде всего,
секвенирования, привела к стремительному росту объемов экспериментальных данных, «информационному взрыву» в геномике в целом, и в
данных по экспресии генов и их функциях в тканях мозга в частности.
Технологическая проблема обработки и анализа данных высокопроизводительного геномного секвенирования требует разработки специализированных компьютерных средств.
Программный комплекс ICGenomics предназначен для компьютерной
поддержки исследований в геномике, молекулярной биологии, биотехнологии и биомедицине [20]. Основное назначение – функциональная аннотация геномных последовательностей, получаемых в результате массового высокопроизводительного секвенирования. Программный комплекс
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
ICGenomics был реализован и протестирован на вычислительном оборудовании ЦКП «Биоинформатика» СО РАН http://www-bionet.sscc.ru/
icgenomics.
Комплекс применялся к ряду задач функциональной аннотации регуляторных районов генов. Планируется развитие компьютерных программ
измерения экспрессии генов, и адаптированы применительно к анализу
клеток тканей мозга и нервной системы. Будет проведена интеграция с
существующими международными базами данных. В ближайшей перспективе будет подготовлена методика сравнения данных экспрессии генов в клетках мозговых тканей человека и лабораторных животных, выбран набор генов со статистически значимо высоким уровнем экспрессии,
проведено сравнение с имеющимися международными базами данных.
Рис. 4. Интерфейс программного комплекса ICGenomics анализа
данных геномики
Список литературы
1. Ananko E.A., Podkolodny N.L., Stepanenko I.L. et al. GeneNet in
2005// Nucleic Acids Res. 2005. 33(Database issue). D425-7.
2. Xie J., Zhao T., Lee T., Myers E., Peng H. Anisotropic path searching
for automatic neuron reconstruction // Med Image Anal. 2011. V. 15(5). P. 680.
3. Lipovich L., Dachet F., Cai J. et al. Activity-dependent Human Brain
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
Coding/Non-coding Gene Regulatory Networks // Genetics. 2012 Sep 21.
[Epub ahead of print]
4. Lein E.S., Hawrylycz M.J., Ao N. et al. Genome-wide atlas of gene expression in the adult mouse brain // Nature. 2007. V. 445(7124). P.168-76.
5. Hawrylycz M.J., Lein E.S., Guillozet-Bongaarts A.L. et al. An anatomically comprehensive atlas of the adult human brain transcriptome // Nature.
2012. V. 489(7416). P. 391-9.
6. Perin R., Berger T.K., Markram H. A synaptic organizing principle for
cortical neuronal groups // Proc Natl Acad Sci U S A. 2011. V. 108(13). P.
5419-24.
7. Giles A.C., Rankin C.H. Behavioral and genetic characterization of habituation using Caenorhabditis elegans // Neurobiol Learn Mem. 2009. V.
92(2). P. 139-46.
8. Popova NK, Voitenko NN. Brain serotonin metabolism in hibernation //
Pharmacol Biochem Behav. 1981. V. 14(6). P.773-7.
9. Kriks S., Shim J.W., Piao J. Dopamine neurons derived from human ES
cells efficiently engraft in animal models of Parkinson's disease // Nature. 2011.
V. 480 (7378). P.547-51.
10.Middeldorp C.M., de Geus E.J., Willemsen G., Hottenga J.J., Slagboom
P.E., Boomsma D.I. The serotonin transporter gene length polymorphism (5HTTLPR) and life events: no evidence for an interaction effect on neuroticism
and anxious depressive symptoms // Twin Res Hum Genet. 2010. V. 13(6).
P.544-9.
11.Vasiliev G.V., Merkulov V.M., Kobzev V.F., Merkulova T.I., Ponomarenko M.P., Kolchanov N.A. Point mutations within 663-666 bp of intron 6 of
the human TDO2 gene, associated with a number of psychiatric disorders,
damage the YY-1 transcription factor binding site // FEBS Lett. 1999. V.
462(1-2). P. 85-8.
12.Hung T., Chang H.Y. Long noncoding RNA in genome regulation: prospects and mechanisms // RNA Biol. 2010. V. 7(5). P. 582-5.
13.Zhang X., Sun S., Pu J.K. et al. Long non-coding RNA expression profiles predict clinical phenotypes in glioma // Neurobiol Dis. 2012. V. 48(1). P.
1-8.
14.Lai M.C., Yang Z., Zhou L. et al. Long non-coding RNA MALAT-1
overexpression predicts tumor recurrence of hepatocellular carcinoma after
liver transplantation // Med Oncol. 2012. V. 29(3). P. 1810-6.
15.Vityaev E.E., Orlov Y.L., Vishnevsky O.V., Pozdnyakov M.A., Kolchanov N.A. Computer system "gene discovery" for promoter structure analysis
// In Silico Biol. 2002. V.2(3). P. 257-62.
ISBN 978-5-7262-1782-6
НЕЙРОИНФОРМАТИКА-2013. Часть 3
16. Demenkov P.S., Ivanisenko T.V., Kolchanov N.A., Ivanisenko V.A.
ANDVisio: A new tool for graphic visualization and analysis of literature mined
associative gene networks in the ANDSystem // In Silico Biol. 2011. V. 11(3). P.
149-61.
17. Naumenko V.S., Kondaurova E.M., Popova N.K. On the role of brain
5-HT7 receptor in the mechanism of hypothermia: comparison with hypothermia mediated via 5-HT1A and 5-HT3 receptor // Neuropharmacology. 2011. V.
61(8). P. 1360-5.
18. Kulikov A.V., Osipova D.V., Naumenko V.S., Terenina E., Mormède
P., Popova N.K. A pharmacological evidence of positive association between
mouse intermale aggression and brain serotonin metabolism // Behav Brain Res.
2012. V. 233(1). P. 113-9.
19. Кожевникова О.С., Мартыщенко М.К., Генаев М.К., Корболина
М.К., Муралева Н.А., Колосова Н.А., Орлов Ю.Л. (2012) RatDNA: база
данных микрочиповых исследований на крысах для генов, ассоциированных с заболеваниями старения // Вавиловский журнал генетики и селекции. 16(4/1): (в печати).
20. Орлов Ю.Л., Брагин А.О., Медведева И.В., Гунбин И.В., Деменков П.С., Вишневский О.В., Левицкий В.Г., Ощепков В.Г., Подколодный
В.Г., Афонников В.Г., Гроссе И., Колчанов Н.А. (2012) ICGenomics: программный комплекс анализа символьных последовательностей геномики
// Вавиловский журнал генетики и селекции. 16(4/1): (в печати).
Скачать