Иерархическая кластеризация объема головного мозга мыши по

advertisement
Иерархическая кластеризация объема головного мозга мыши…
А.И. ЦВЕТКОВ1, М.С. БУРЦЕВ2, 3
Национальный исследовательский ядерный университет «МИФИ»
2
Институт прикладной математики имени М.В. Келдыша РАН, Москва
3
НИИ Нормальной физиологии имени П.К. Анохина РАМН, Москва
1
ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ОБЪЕМА ГОЛОВНОГО МОЗГА МЫШИ
ПО ДАННЫМ ОБ ЭКСПРЕССИИ ГЕНОВ
В работе рассматриваются доступные данные о пространственном распределении экспрессии более 20 тысяч генов в головном мозге мыши. Производится расчет корреляционных карт объема мозга, выделение пространственных
паттернов экспрессии генов, а также кластеризация объема мозга. На основе методов филогенетического анализа реализован алгоритм для построения иерархии отделов головного мозга мыши. Полученная таксономия отделов мозга сравнивается с анатомическим атласом и с результатами кластеризации, опубликованными ранее.
Исследование экспрессии генов является мощным инструментом для понимания структурной основы функций нервной системы. Доступность полногеномных данных открывает новые
возможности анализа паттернов экспрессии генов и их связи с организацией мозга. Поэтому одной
из приоритетных задач становится разработка инструментов для визуализации и анализа экспрессии генов в контексте их пространственной локализации в мозге.
В конце 2008 года стал доступен Анатомический атлас генетической экспрессии для лабораторной мыши линии C57Bl/6J (Anatomic Gene Expression Atlas (AGEA), http://mouse.brainmap.org/agea, [1]). Атлас содержит данные, полученные при помощи in-situ гибридизации и описывающие пространственную экспрессию в мозге мыши более 20000 генов. Данные о пространственной экспрессии генов привязаны к анатомическому атласу мозга мыши и, таким образом,
описывают "фоновую" активность генов в каждой из структур мозга.
В данной работе представлены результаты разработки программного обеспечения для визуализации и анализа пространственной экспрессии генов в мозге мыши, в частности, автоматической кластеризации объема мозга. Приводятся пилотные результаты кластеризации и их сопоставление с имеющимся анатомическим атласом, а также с результатами кластеризации, описанными в
статьях [1–4].
Для работы с данными об экспрессии генов в мозге мыши требуется создание специализированного инструмента, позволяющего осуществлять статистический анализ распределения экспрессии и производить разбиение объема мозга. Сложность интерпретации результатов анализа
связана с большим объемом обрабатываемых данных. Эту проблему предлагается решить, разработав средства визуализации исходных данных и результатов анализа. Таким образом, задача анализа данных пространственной экспрессии генов с целью выделения ее паттернов в объеме мозга
мыши разбивается на следующие этапы.
1. Статистическая оценка величины экспрессии для каждого гена. Разработан инструмент
для наглядного отображения пространственного распределения экспрессии генов в мозге мыши, а
также реализована возможность статистической оценки распределения экспрессии для каждого
гена.
2. Расчет близости единиц объема мозга по значениям экспрессии заданных генов. Реализована процедура расчета корреляции единиц объема по значениям экспрессии заданных генов. Разработан инструмент для визуализации полученных данных.
3. Построение иерархического разбиения объема мозга. Выполнено формальное описание и
реализация алгоритма кластеризации объема мозга по данным близости единиц объема. Разработан инструмент для визуализации полученного разбиения. Также разработан инструмент для сравнения результатов кластеризации с анатомическим атласом мозга с целью проверки применимости
реализованных математических методов для решения задач нейробиологии.
На рис. 1 представлены снимки главного окна программной реализации в различных режимах работы. Выделение вокселей для кластеризации производится при помощи объемной аннотации мозга мыши, доступной на сайте проекта AGEA. Для выбора одного из 210 отделов аннотации, объем которого используется для кластеризации, разработан графический интерфейс, представленный на рис. 1,а. Для выбора генов, экспрессия которых учитывается при кластеризации,
разработан графический интерфейс, представленный на рис. 1,б. Список генов загружается в программу из файла. Для каждого гена рассчитывается набор количественных и статистических показателей, сортировка по значениям которых позволяет исключать неинформативные гены из входных данных. Визуализация пространственного распределения производится с использованием
Иерархическая кластеризация объема головного мозга мыши…
цвета в качестве показателя значения экспрессии. Цвет вокселя соответствует величине экспрессии по псевдоцветной шкале, отображаемой интервальным элементом управления.
а
б
Рис. 1. Интерфейс пользователя разработанного программного инструмента:
а – анатомический атлас мозга мыши; б – пространственное распределение экспрессии генов
Для выделения паттернов экспрессии генов и построения иерархии отделов мозга необходимо определить дистанции между элементами исходного множества. Очевидно, что в контексте
данной задачи дистанции между единицами объема мозга следует определять по близости профилей экспрессии генов. В оригинальном исследовании для расчета дистанционной матрицы была
использована формула корреляции Пирсона. В предложенном программном инструменте реализована оригинальная формула, ее вариант с нормировкой, позволяющей привести параметры распределения экспрессии к одинаковым значениям для каждого гена, а также несколько других дистанционных формул, часто используемых при анализе данных генетической экспрессии [5].
Для оценки пространственной специфичности экспрессии гена предлагается ввести
величину
1
spg 
,
(1)
Eg sg
где E g – среднее значение экспрессии гена g по всему объему, sg – среднеквадратичное отклонение.
Гены, экспрессия которых сильно распределена в объеме мозга, будут иметь меньшие значения данной величины, гены более пространственно-специфичные по экспрессии будут иметь
большие значения. Предлагается использовать значения данной величины в качестве веса генов в
суммах дистанционных формул. В частности, можно предложить метрику средней специфичности
коэкспрессирующих генов:
Ng
spg , если Eig , E jg [ Emin ; Emax ],
1
(2)
Dij  1  Expr  Spijg , Spijg  
N
0
иначе,

ij g 1
Иерархическая кластеризация объема головного мозга мыши…
где
Ng
N Expr ije   Sijg ,
g 1
0, если Eig , E jg [ Emin ; Emax ],
Sijg  
иначе.
 1
(3)
Предполагается, что такая метрика устанавливает меньшие расстояния между вокселями,
которые более близки в эволюционном плане.
В оригинальном исследовании для построения иерархической кластеризации объема мозга
[1] использовалась рекурсивная процедура на основе алгоритма K-средних (K = 2). Разбиение проводится так, чтобы разделы одного уровня иерархии были наименее схожи по средним значениям
корреляции. В описанном программном инструменте реализован вариант данной процедуры без
сжатия данных, использующий в качестве «средних» элементы исходного множества, что значительно сокращает время работы алгоритма на большом объеме данных и улучшает сходимость [5].
Также была реализована общая схема агломеративных алгоритмов кластеризации, позволяющая выбирать среди таких методов, как UPGMA, Neighbor-joining (метод присоединения соседей) путем задания оптимизационного параметра. Согласно [5], агломеративные алгоритмы позволяют получить лучшие результаты на пространственных данных. Агломеративные алгоритмы
используются в филогенетическом анализе для получения биологически адекватных таксономий
видов. Предполагается, что в контексте данной задачи эти алгоритмы позволят построить таксономию отделов мозга и детально исследовать эволюционную историю специализации.
С целью верификации результатов кластеризации предлагается сравнить полученную
иерархию с анатомическим атласом мозга мыши. Требуется оценить, насколько точно кластеры в
иерархии совпадают с анатомическими отделами мозга. Для этого для каждой пары, состоящей из
отдела мозга и кластера, рассчитывается коэффициент пересечения
V ( A  B)
(4)
I ( A, B) 
,
V ( A  B)
равный отношению объема пересечения элементов пары к объему их объединения. Затем для каждого отдела мозга выбирается кластер с наибольшим значением предложенного коэффициента.
Таким образом строится покрытие анатомического атласа кластерами объема мозга. Статистическая оценка этого покрытия позволяет определить адекватность полученной кластеризации.
Предложенный алгоритм кластеризации объема мозга был протестирован на вокселях, принадлежащих базальным ядрам (CNU) и гиппокампу (HIP). Наилучшее сочетание метрика-метод –
средняя специфичность коэкспрессирующих генов и метод присоединения соседей, позволило
получить иерархическое разбиение базальных ядер, в значительной степени (~70 %) совпадающее
с данными анатомического атласа (см. таблицу и рис. 2). Кластеризация пространственной экспрессии в гиппокампе соответствует результатам, приведенным в статье [4] (рис. 3). Приведенные
пилотные результаты демонстрируют адекватность разработанного программного инструмента
для задач анализа трехмерной экспрессии генов в мозге.
Исследование мозга при помощи инструментов, аналогичных предложенному в данной работе, открывает новое направление развития нейроинформатики, связанное с анализом и поиском
закономерностей в больших объемах биологических данных о мозге. В частности, разработанное
программное обеспечение предполагается использовать для поисковых исследований следующих
актуальных нейробиологических проблем:
 для анализа генов, обеспечивающих функциональное разнообразие анатомических
структур мозга. Предполагается, что выделение и анализ генов, экспрессия которых имеет
пространственную специфичность в мозге, позволит определить гены, за счет появления
которых происходила структурная эволюция мозга. Классификация этих генов с использованием общедоступных генетических онтологий по функциональным классам (рецепторы,
структурные белки, белки цитоскелета, клеточной адгезии, сигнальные белки, транскрипционные факторы и т.д.) должна прояснить ход эволюции клеточных механизмов, обеспечивающих вариабельность областей мозга;
Сравнение кластеризации базальных ядер
с анатомическим атласом
Striatum dorsal region
82 %
Caudoputamen
82 %
Striatum ventral region
93 %
Nucleus accumbens
88 %
Иерархическая кластеризация объема головного мозга мыши…
Fundus of striatum
Olfactory tubercle
Lateral septal complex
Lateral septal nucleus
Septofimbrial nucleus
Striatum-like amygdalar nuclei
Central amygdalar nucleus
Anterior amygdalar area
Medial amygdalar nucleus
Pallidum
Pallidum dorsal region
Pallidum ventral region
Magnocellular nucleus
Substantia innominata
Pallidum caudal region
Bed nucleus of the anterior commissure
Bed nuclei of the stria terminalis
Pallidum medial region
Среднее
Ст. откл.
73 %
72 %
75 %
80 %
46 %
54 %
50 %
62 %
63 %
52 %
84 %
74 %
76 %
79 %
62 %
100 %
61%
68%
72%
14%
Рис. 2. Кластеризация базальных ядер (CNU)
оригинальное
исследование
данное
исследование
оригинальное
исследование
данное
исследование
Рис. 3. Сравнение разбиений
 для реконструкции эволюционной истории анатомических структур мозга. В перспективе для выделения пространственных паттернов экспрессии генов предлагается применить методы филогенетического анализа. Предполагается, что полученное иерархическое
разбиение будет отражать историю специализации отделов мозга, то есть его эволюционную историю. Кроме того, в настоящее время доступны данные об истории дупликации генов, которые можно привязать к дереву эволюции структур мозга, и тем самым уточнить
последовательность и определить время формирования структур мозга.
Данная работа выполнена при поддержке Федерального агентства по науке и инновациям
РФ в рамках ФЦП "Научные и научно-педагогические кадры инновационной России" (Гос. контракт П1295).
СПИСОК ЛИТЕРАТУРЫ
1. Ng L., Bernard A., Lau C. et.al. // Nature Neur. 2009. V. 12. P. 356.
2. Lein E.S., Hawrylycz M.J., Ao N. et.al. // Nature 2007. V. 445. P. 168.
3. Lau C., Ng L., Thompson C. et.al. // BMC Bioinf. 2008. V. 9. P. 153.
4. Thompson C., Pathak S., Jeromin A. et al. // Neuron 2008. V. 60. P. 1010.
5. Xu R., Wunsch D. // IEEE Trans. on Neur. Net. 2005. V. 16. P. 645.
6. Davis F.P., Eddy S.R. // Bioinf. 2009. V. 25. P. 1647.
7. Madeira S.C., Oliveira A.L. // IEEE Trans. on Comp. Biol. and Bioinf. 2004. V. 1. P. 24.
Download