Выделение пространственных паттернов экспрессии генов в

advertisement
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
А.И. ЦВЕТКОВ
Национальный исследовательский ядерный университет «МИФИ»,
Москва
alex.tsvetkov@gmail.com
ВЫДЕЛЕНИЕ ПРОСТРАНСТВЕННЫХ ПАТТЕРНОВ
ЭКСПРЕССИИ ГЕНОВ В ГОЛОВНОМ МОЗГЕ МЫШИ
Рассматривается задача статистической обработки и визуализации
данных об экспрессии генов в головном мозге мыши. Для анализа пространственной экспрессии используются корреляционные карты объема
мозга. На основе значений корреляции производится выделение пространственных паттернов экспрессии генов. Реализован и исследуется
алгоритм иерархического разбиения объема мозга. Полученное разбиение
объема мозга мыши сравнивается с анатомическим атласом, а также с результатами разбиения, опубликованными ранее.
Введение
Исследование экспрессии генов является мощным инструментом для
понимания структурной основы функций нервной системы. Доступность
полногеномных данных открывает новые возможности анализа паттернов
экспрессии генов и их связи с организацией мозга. Поэтому одной из приоритетных задач нейроинформатики сегодня становится разработка инструментов для визуализации и анализа экспрессии генов в контексте их
пространственной локализации в мозге. В конце 2008 года стал доступен
Анатомический атлас генетической экспрессии для лабораторной мыши
линии C57Bl/6J
(Anatomic
Gene
Expression
Atlas
(AGEA),
http://mouse.brain-map.org/agea, [1]). Атлас содержит данные, полученные
при помощи in-situ гибридизации, описывающие пространственную экспрессию в мозге мыши более 20000 генов. Данные о пространственной
экспрессии генов привязаны к анатомическому атласу мозга мыши, и,
таким образом, описывают "фоновую" активность генов в каждой из
структур мозга.

Работа выполнена при поддержке Федерального агентства по науке и инновациям РФ в рамках Федеральной целевой программы "Научные и научнопедагогические кадры инновационной России".
УДК 004.032.26(06) Нейронные сети
296
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Проект AGEA содержит информацию об объемном распределении
экспрессии генов, реконструированной из серийных изображений срезов
мозга. Данные доступны через программный интерфейс в интернете в
виде двоичных файлов. Отдельный файл описывает экспрессию одного
гена в каждом из ~160000 вокселей (элементарных кубических объемов)
трехмерной сетки, покрывающей объем головного мозга мыши с разрешением 200 мкм по трем измерениям.
Кроме исходных данных об экспрессии, на веб-сайте проекта AGEA
представлены базовые инструменты для анализа – корреляционные карты,
поиск генов и кластеризация.
Корреляционные карты дают возможность оценить, насколько экспрессия генов в произвольно выбранном вокселе похожа на экспрессию
во всех остальных вокселях мозга.
Поиск генов позволяет исследовать специфичность генетической экспрессии в выбранном вокселе. При выборе произвольного вокселя мозга
данный инструмент выдает список генов, отсортированный в порядке
убывания специфичности их экспрессии.
Кластеризация предназначена для выделения пространственных паттернов генетической экспрессии. Объем мозга мыши рекурсивно разбивается на кластеры, образующие двоичное дерево. Разбиение проводится на
основе значений корреляции экспрессии генов в вокселях объемной сетки.
Для разбиения используется метод кластеризации K-средних ("k-means").
Алгоритм обеспечивает наименьшую похожесть разделов одного уровня
по средним значениям корреляции. Результат разбиения доступен через
интерактивный элемент Clusters на сайте http://mouse.brain-map.org/agea, а
также визуализирован в виде дерева в статье [1] (рис. 1).
УДК 004.032.26(06) Нейронные сети
297
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Рис. 1. Визуализация двоичного дерева кластеризации (из [1])
В данной работе представлены результаты разработки программного
обеспечения для визуализации и анализа пространственной экспрессии
генов в мозге мыши, в частности автоматической кластеризации объема
мозга. Приводятся пилотные результаты кластеризации и их сопоставление с имеющимся анатомическим атласом, а также с результатами кластеризации, описанными в статьях [1-4].
Постановка задачи
Для работы с данными об экспрессии генов в мозге мыши требуется
создание специализированного инструмента, позволяющего осуществлять
статистический анализ распределения экспрессии и производить разбиение объема мозга. Сложность интерпретации результатов анализа связана
с большим объемом обрабатываемых данных. Эту проблему предлагается
решить, разработав средства визуализации исходных данных и результатов анализа. Таким образом, задача анализа данных пространственной
экспрессии генов с целью выделения ее паттернов в объеме мозга мыши
разбивается на следующие этапы.
1. Статистическая оценка величины экспрессии для каждого гена.
Требуется разработать инструмент для наглядного отображения пространственного распределения экспрессии генов в мозге мыши, а также
реализовать возможность статистической оценки распределения экспрессии для каждого гена.
УДК 004.032.26(06) Нейронные сети
298
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
2. Расчет корреляции единиц объема мозга по значениям экспрессии
заданных генов. Требуется реализовать процедуру расчета корреляции
единиц объема по значениям экспрессии заданных генов, а также разработать инструмент для визуализации полученных данных.
3. Построение иерархического разбиения объема мозга. Требуется
сформулировать и реализовать алгоритм кластеризации объема мозга по
данным корреляции единиц объема, и разработать инструмент для визуализации полученного разбиения. Также необходимо разработать инструмент для сравнения результатов кластеризации с анатомическим атласом
мозга с целью проверки применимости реализованных математических
методов для решения задач нейробиологии.
Статистическая обработка и визуализация данных об экспрессии
Выделения вокселей для кластеризации производится при помощи
объемной аннотации мозга мыши, доступной на сайте проекта AGEA. Эта
аннотация сопоставляет каждому вокселю мозга мыши номер одного из
210 отделов мозга. Описание отделов аннотации также доступно на сайте
проекта. Для выбора отдела аннотации, объем которого участвует в разбиении, был разработан графический интерфейс, представленный на
рис. 2.
УДК 004.032.26(06) Нейронные сети
299
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Рис. 2. Анатомический атлас правого полушария мозга мыши
Для выбора генов, экспрессия которых учитывается при кластеризации, разработан графический интерфейс, представленный на рис. 3. Список генов загружается в программу из файла. Для каждого гена рассчитываются такие показатели как: среднее значение экспрессии в выделенном
объеме мозга, стандартное отклонение значений экспрессии, а также количество вокселей, уровень экспрессии в которых попадает в заданный
интервал. Реализована возможность сортировки списка по значениям статистических показателей, что позволяет удалить неинформативные параметры-гены при расчете корреляции.
Интервал значений экспрессии для визуализации задается с помощью
специального элемента управления. Этот элемент отображает псевдоцветную шкалу, которая используется для визуализации значений экспрессии, а также гистограмму количества вокселей в зависимости от значений экспрессии.
Визуализация пространственного распределения производится с использованием цвета в качестве показателя значения экспрессии. Цвет вокселя соответствует величине экспрессии в данном вокселе по псевдоцветной шкале, отображаемой интервальным элементом управления.
Рис. 3. Экспрессия гена в мозге мыши
УДК 004.032.26(06) Нейронные сети
300
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Также в качестве показателя значения экспрессии может использоваться радиус сферы, сопоставленной вокселю объемной сетки. В таком
случае цвет сферы может соответствовать отделу анатомического атласа
(рис. 2), которому принадлежит данный воксель, что позволяет видеть
распределение экспрессии в разных отделах мозга на одном изображении.
В рассматриваемом программном инструменте, также как и в оригинальном исследовании для расчета корреляции вокселей была использована формула корреляции Пирсона:
( x r  x r )( x s  x s )
.
 
rs
( x r  x r )( x r  x r )' ( x s  x s )( x s  x s )'
Для отображения результатов расчета используются интерактивные
корреляционные карты, графический интерфейс которых представлен на
рис. 4. На объемной и плоских картах цвет каждого вокселя соответствует
по псевдоцветной шкале значению корреляции данного вокселя с заданным вокселем отсчета. Воксель отсчета задается щелчком указателя мыши на корреляционной карте.
Интервальный элемент управления позволяет задать интервал отображаемых значений корреляции и псевдоцветную шкалу для визуализации.
Этот элемент управления также отображает гистограмму количества вокселей в зависимости от значения корреляции. В качестве показателя значения корреляции также может использоваться радиус сферы, сопоставленной вокселю объемной сетки. В таком случае цвет сферы может соответствовать отделу анатомического атласа, которому принадлежит данный воксель, что позволяет видеть корреляцию вокселей по значениям
экспрессии в нескольких отделах мозга на одном изображении.
УДК 004.032.26(06) Нейронные сети
301
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Рис. 4. Корреляционные карты
Также доступна псевдоцветная корреляционная карта воксель-воксель, на
которой отображается взаимная корреляция всех вокселей выбранного объема. Порядок вокселей на этой карте может по выбору соответствовать анатомическому разделению мозга, результатам кластеризации, порядку возрастания среднего значения экспрессии, либо может быть задан по значениям других характеристик распределения экспрессии и корреляции. Так, например,
на рис. 4 описанная корреляционная карта упорядочена по анатомическим
структурам мозга. На карте видно, что на диагонали находится несколько
квадратных областей, показывающих, что внутри отдельных анатомических
областей экспрессия генов обладает высокой однородностью.
Иерархическая кластеризация объема мозга
Для построения иерархической кластеризации объема мозга используется рекурсивная процедура на основе алгоритма К-средних. В качестве
метрики используется корреляция вокселей объемной сетки. Разбиение
проводится так, чтобы разделы одного уровня были наименее схожи по
средним значениям корреляции. В отличие от оригинального алгоритма
К-средних в данном случае используется рекурсивная процедура разбиения, на каждом шаге которой число кластеров равно двум. Также в качеУДК 004.032.26(06) Нейронные сети
302
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
стве среднего используется элемент соответствующего кластера, что значительно сокращает время работы алгоритма на большом объеме данных.
На каждом шаге итерационной процедуры кластеризации алгоритм Ксредних применяется к множеству Ln вокселей объемной сетки, соответствующему вершине n-ого уровня иерархии. Алгоритм построения разбиения можно сформулировать следующим образом:
1) если Ln содержит один элемент – разбиение Ln закончено;
2) из множества Ln случайным образом выбираются «средние» воксели m1 и m2;
3) все воксели множества Ln разбиваются на два кластера L1n+1 и L2n+1
по принципу наибольшей корреляции с вокселями m1 и m2 соответственно;
4) выбираются такие новые «средние» воксели m1 и m2, чтобы суммарная корреляция вокселей из кластеров L1n+1 и L2n+1 с соответствующими «средними» вокселями была максимальна;
5) если на шаге 3 были выбраны «средние» воксели, отличные от использованных на шаге 2, переход на шаг 2;
6) алгоритм применяется для каждого из полученных множеств вокселей L1n+1 и L2n+1, начиная с шага 1.
Результат кластеризации объема по описанному алгоритму зависит в
заданной вершине иерархии от выбора начальных вершин разбиения. Поэтому разбиение заданного объема повторяется до тех пор, пока минимальное значение корреляции вокселей полученных кластеров с соответствующими «средними» вокселями не достигнет установленного уровня.
Для кластеризации объема мозга используется графический интерфейс, приведенный на рис. 5. Реализованы два режима построения иерархической кластеризации: интерактивный и автоматический. В интерактивном режиме метод К-средних применяется к объему, соответствующему узлу иерархии, выбранному пользователем. В таком режиме можно
детально контролировать структуру иерархии, а визуализация разбиения
позволяет интерпретировать каждый шаг рекурсивного алгоритма. При
использовании автоматического режима алгоритм спускается вниз по
иерархии до те пор, пока не будет достигнут порог минимального значения корреляции вокселей кластера с соответствующим «средним» в данной вершине иерархии.
УДК 004.032.26(06) Нейронные сети
303
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Рис. 5. Иерархическая кластеризация объема мозга мыши
Верификация результатов кластеризации
Предложенный алгоритм кластеризации объема мозга был протестирован на вокселях, принадлежащих ядрам переднего мозга (CNU) и гиппокампу (HIP). В результате было получено иерархическое разбиение ядра головного мозга, в значительной степени (~ 70%) совпадающее с данными анатомического атласа (табл. 1).
Таблица 1
Сравнение разбиения ядра головного мозга с анатомическим атласом
Уровень
разбиения
1
2
3
Номер
разбиения
1
3
6
2
4
3
8
Отдел мозга
CP (скорлупа)
PAL (паллидум)
LSX (латеральный
септум)
OT (обонятельный
бугорок)
sAMY (Миндалина)
УДК 004.032.26(06) Нейронные сети
Процент пересечения
74
65
53
43
41
304
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Кластеризация пространственной экспрессии в гиппокампе соответствует результатам, приведенным в статье [4] (рис. 6).
оригинальное исследование
данное исследование
оригинальное исследование
данное исследование
Рис. 6. Сравнение разбиений
Приведенные пилотные результаты демонстрируют адекватность разработанного программного инструмента для задач анализа трехмерной
экспрессии генов в мозге.
Выводы
В рамках данного исследования успешно начата разработка программных средств, позволяющих работать с трехмерными данными экспрессии
генов в мозге мыши. С сервера проекта Anatomic Gene Expression Atlas
были загружены анатомический атлас и база данных о пространственной
экспрессии более 20 тысяч генов. Было разработано программное обеспечение, позволяющее визуализировать полученные данные. Проведен
предварительный анализ данных, рассчитаны корреляционные карты для
каждого вокселя. Также реализован и протестирован рекурсивный алгоритм разбиения объема мозга мыши, основанный на методе кластеризации К-средних. Полученные результаты имеют высокую степень совпадения с анатомическим атласом мозга, а также с результатами исследований, опубликованными ранее.
УДК 004.032.26(06) Нейронные сети
305
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Исследование мозга при помощи инструментов, аналогичных предложенным в данной работе, открывает новое направление развития нейроинформатики, связанное с анализом и поиском закономерностей в больших объемах биологических данных о мозге. В частности, разработанное
программное обеспечение предполагается использовать для поисковых
исследований следующих актуальных нейробиологических проблем.
Анализ генов, обеспечивающих функциональное разнообразие анатомических структур мозга.
Предполагается, что выделение и анализ генов, экспрессия которых
имеет пространственную специфичность в мозге, позволит определить
гены, за счет появления которых происходила структурная эволюция мозга. Классификация этих генов с использованием общедоступных генетических онтологий по функциональным классам – рецепторы, структурные
белки, белки цитоскелета, клеточной адгезии, сигнальные белки, транскрипционные факторы, и т.д., должна прояснить ход эволюции клеточных механизмов, обеспечивающих вариабельность областей мозга.
Реконструкция эволюционной истории анатомических структур мозга.
В перспективе для выделения пространственных паттернов экспрессии
генов предлагается применить методы филогенетического анализа. Предполагается, что полученное иерархическое разбиение будет отражать историю специализации отделов мозга, то есть его эволюционную историю.
Кроме того, в настоящее время доступны данные об истории дупликации
генов, которые можно привязать к дереву эволюции структур мозга, и тем
самым уточнить последовательность и определить время формирования
структур мозга.
Список литературы
1. An anatomic gene expression atlas of the adult mouse brain/ L. Ng, A.
Bernard, C. Lau et.al. // Nature Neuroscience. Vol. 12. 2009. № 3. P.356-362.
2. Genome-wide atlas of gene expression in the adult mouse brain/ E.S.
Lein, M.J. Hawrylycz, N. Ao et.al. // Nature. Vol. 445. 2007. №1. P. 168-176.
3. Exploration and visualization of gene expression with neuroanatomy in
the adult mouse brain/ C. Lau, L. Ng, C. Thompson et. al. // BMC Bioinformatics. Vol.9. 2008. №3. P.153-164.
4. Genomic Anatomy of the Hippocampus / C. Thompson, S. Pathak, A.
Jeromin et al. // Neuron. Vol.60. 2008. №12. P.1010-1021.
УДК 004.032.26(06) Нейронные сети
306
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
5. Davis F.P., Eddy S.R. A tool for identification of genes expressed in patterns of interest using the Allen Brain Atlas // Bioinformatics. Vol 25. 2009.
№13. P.1647-1654.
6. Madeira S.C., Oliveira A.L. Biclustering Algorithms for Biological Data
Analysis: A Survey // IEEE Transactions on Computational Biology and Bioinformatics. Vol.1. 2004. №1. P.24-45.
7. Xu R., Wunsch D. Survey of clustering algorithms // IEEE Transactions
on Neural Networks. Vol.16. 2005. №3. P. 645-678.
УДК 004.032.26(06) Нейронные сети
307
Download