Санкт-Петербургский государственный университет, Институт мозга человека Российской академии наук, Санкт-Петербург, Ю.А. КУПЕРИН

advertisement
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Ю.А. КУПЕРИН 1, А.А. МЕКЛЕР 2, Д. Р. ВАРЦ3,
В.И. РЫМАР4, В.В. ДМИТРЕНКО4, В.М. КАВСАН4
1
Санкт-Петербургский государственный университет,
2
Институт мозга человека Российской академии наук, Санкт-Петербург,
3
Санкт-Петербургский политехнический университет,
4
Институт молекулярной биологии и генетики НАН Украины, Киев
mekler@narod.ru
КЛАССИФИКАЦИЯ ПРОФИЛЕЙ ЭКСПРЕССИИ ГЕНОВ
С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ
Представлены результаты классификации профилей экспрессии генов
в опухоли головного мозга – глиобластоме – и здоровой ткани. Показано,
что различия в экспрессии некоторых генов между здоровой тканью и
опухолью достаточно характерны, чтобы было возможно проведение диагностики методами искусственного интеллекта. В исследовании применялись самоорганизующиеся карты Кохонена и персептрон. В первом случае произошло уверенное разделение профилей экспрессии на обученной
карте. Во втором обученная нейронная сеть успешно справилась с классификацией профилей на внешней выборке – 97,7% верно классифицированных профилей.
Введение
Исследования генетических аномалий злокачественных новообразований показали, что в канцерогенезе принимают участие сотни специфических генов, уровень экспрессии которых изменяется в опухолевых клетках. Выявление специфических генетических изменений в опухолевых
клетках, является предметом исследований для создания новых терапий.
Выявление и характеристика профилей экспрессии генов в опухолях является существенным вкладом в понимание фундаментальных свойств
новообразований, механизмов их возникновения и прогрессии.
Таким образом, в настоящее время очень актуальна задача выявления
особенностей экспрессии генов в глиальныx опухолях головного мозга и
создание характерного профиля (так называемые сигнатуры) экспрессии
генов в глиобластоме, который можно использовать для молекулярного
типирования и прогностической оценки глиальных опухолей.
Отдельные молекулярные маркеры имеют ограниченное значение для
диагностической оценки опухоли вследствие высокой гетерогенности
УДК 004.032.26(06) Нейронные сети
263
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
биологических свойств опухолей, и только одновременный анализ изменений большого количества генов-маркеров может надежно охарактеризовать молекулярное состояние опухоли индивидуального пациента.
Есть несколько примеров разработки сигнатур для прогностической
оценки определенных видов рака, в частности рака молочной железы.
Например, в работе Ван Вир и соавт. [1] разработана сигнатура из 70 генов, успешно испытанная на большой группе пациентов для прогностической оценки этого типа опухолей. Эта сигнатура имеет лишь три гена,
входящих в состав другой сигнатуры из 76 генов, созданной подобным
образом в другой лаборатории [2]. Также была идентифицирована сигнатура из 16 генов (из 250 генов-кандидатов, протестированных на почти
400 опухолях) [3]. В настоящее время существует три коммерческих сигнатуры для прогностической оценки рака молочной железы: 70-генная
MammaPrint (Agendia), сигнатура Oncotype DX (Genomic Health) из 16
генов и сигнатура H/I test из двух генов (Aviara Dx), полученная в работе
Ма и соавт. [4].
В некоторых случаях для классификации экспрессии генов применялись и нейронные сети. Например, в [5] при помощи нейронной сети выявлены гены с патологической экспрессией при раке простаты. В [6] при
помощи самоорганизующихся карт Кохонена были исследовано изменение профилей экспрессии генов дрожжей при диауксическом сдвиге.
Также этот метод рассматривался как одна из возможностей дифференциальной диагностики лейкемии [7].
Пока не существует подобных коммерческих сигнатур для глиальных
опухолей, хотя есть публикации об идентификации профилей экспрессии
генов, позволяющих характеризовать определенные группы глиом, в
частности глиобластом [8, 9], в том числе с применением искусственной
нейронной сети [10]. Однако в приведенных примерах конечным результатом работ является отбор авторами одного-двух генов для характеристики глиальных опухолей, что является недостаточным для корректной
классификации опухолей, и их прогностической оценки. Поэтому создание сигнатуры экспрессии генов для глиобластомы, которую можно использовать для молекулярного типирования и прогностической оценки
глиальных опухолей, несомненно, является актуальной задачей, имеющей
как теоретическое, так и практическое значение.
Постановка задачи и описание данных
УДК 004.032.26(06) Нейронные сети
264
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Общей задачей исследования являлось выявление группы генов, профили экспрессии которых лучше всего поддаются кластеризации с помощью искусственных нейронных сетей с целью диагностики на этой основе
некоторых онкологических заболеваний. Одной из важных подзадач является кластеризация группы испытуемых на две подгруппы: больных и
здоровых по уровням экспрессии набора генов. В настоящей работе эта
задача решена при помощи самоорганизующихся карт Кохонена и многослойного персептрона. Отбор генов-кандидатов для классификации проводился с использованием базы данных двух современных методов экспрессионной генетики – серийного анализа генной экспрессии (SAGE) и
анализа микрочипов. Структура данных для классификации была такова.
Выборка данных по генной экспрессии представлена в виде двух наборов
данных относящихся к группе здоровых и больных испытуемых. Данные
о каждом испытуемом представлены в виде вектора, каждая компонента
которого характеризует экспрессию определенного гена. Объем обучающей выборки составлял 296 векторов, отвечающих каждому испытуемому. Размерность каждого вектора равнялась 20 – по числу генов, вовлеченных в исследование. Среди всех испытуемых 71 относятся к группе
здоровых, остальные – к группе больных. В табл. 1 приведен использованный формат входных данных. Здесь Name – закодированное имя испытуемого, аббревиатура CAMK2B и прочие – названия генов.
Таблица 1
Формат данных
N
1
2
..
295
296
CAMK2B STMN2 …. PSMB8 KIF20A
Name
1,471 …. 0,001
0,003
GSM97800 1,830
1,687
1,139
….
0,002
0,002
GSM97803
….
….
....
….
….
….
0,033 …. 0,111
0,031
GSM96975 0,442
0,789 …. 0,254
0,081
GSM96986 0,097
В начале работы мы произвели корреляционный анализ данных. Выяснилось, что оценки экспрессии многих генов сильно скоррелированы
между собой. При этом картина корреляции в группе больных сильно отличается от такой картины в группе здоровых. Это говорит о возможности
качественной кластеризации данных сетями Кохонена и персептронами.
УДК 004.032.26(06) Нейронные сети
265
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Кластеризация сетями Кохонена
Нейронная сеть Кохонена (самоорганизующиеся карты – СОК), позволяет кластеризовать входные векторы по набору признаков и отображать
кластерную структуру на двумерных картах. Как известно, основным свойством СОК является то, что близкие данные в исходном пространстве, будучи поданными на сеть, активируют близкие нейроны на карте. Это позволяет оценить распределение данных во входном пространстве, обеспечивая
навигацию по интересующим показателям генной экспрессии. При медицинской диагностике это очень важно, поскольку это дает возможность
поименного сравнения диагнозов и историй болезней испытуемых.
Выбор параметров обучения СОК
Практика использования СОК показывает, что существует ряд сложностей при их использовании. Различные программные [11-15] реализации на одних и тех же данных дают различные результаты. Различные
параметры обучения также могут приводить к сильно отличающимся результатам. Это может быть связано с реализаций метода, начальной инициализацией, количеством нейронов в сети, выбором функции соседства,
начальным и конечным радиусом обучения, и т.п. С целью определения
правильной реализации с точки зрения решения задач FCP (Fundamental
Clustering Problem), в работе [16] было проведено сравнение большинства
доступных программных реализаций алгоритма СОК. В результате в
нашем исследовании мы использовали пакетную реализацию (Batch) алгоритма в Matlab SOM Toolbox. Следует также отметить, что выбор параметров сети и параметров ее обучения является критичным этапом обучения. Так, например, при слишком большом количестве нейронов возможно переобучение, когда узлы сети «прилипают» к каждому входному вектору. Эффект переобученности приводит к тому, что сеть теряет гладкость – обобщающую способность сети. Упругие карты, описанные в [13],
являются в известном смысле аналогом СОК, в котором используются
параметры, регулирующие гибкость и упругость сети. Выбор этих параметров является, впрочем, отдельной задачей.
Контролировать переобученность сети СОК без тестового множества можно с помощью остановки обучения, когда радиус соседства становится меньше,
чем радиус
R (1) (для 2D-топологии прямоугольного типа (rectangle)).
УДК 004.032.26(06) Нейронные сети
266
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
SOMSize ,
(1)
DataLen
где SOMSize – размер сети. DataLen – объем данных.
В итоге на последнем этапе обучения происходит конкуренция между
нейронами-победителями за данные, попавшие между ними, в результате
область сети между нейронами-победителями становится более гладкой.
Более детально данный метод описан в [17].
Начальная инициализация производится в пространстве первых двух главных компонент. Начальный радиус обучения выбран следующим образом:
R 
Rinit 
max( XSize, YSize )
.
2
(2)
Здесь XSize и Ysize – размеры сторон прямоугольной нейронной сети;
SOMSize = XSize х Ysize.
Результаты обучения СОК
После того, как обучение карты Кохонена было завершено, векторы,
соответствующие здоровым испытуемым, отображались на карте в виде
меток белого цвета, а больным – чёрного. Параметры нейронной сети были таковы. Топология – 2D лист, тип связи – прямоугольный, количество
нейронов 50x50, начальный радиус обучения 1500, конечный радиус обучения 3, функция соседства – Gauss. На рис. 1 показано распределение
меток диагнозов по карте после ее обучения.
УДК 004.032.26(06) Нейронные сети
267
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
A
B
Рис. 1. Метки диагнозов после обучения
Видно, что множество данных разбито на две большие группы (здоровых и больных). Наибольший интерес для изучения представляют нейроны-победители с частотами 2 и более, поскольку они содержат очень
близкие по признакам данные. Нейроны, лежащие в противоположных
углах карты, соответствуют максимально различающимся профилям экспрессии генов. Следует обратить особое внимание на нейроны, которые
попали не в свой класс. Это может объясняться недостаточной информативностью входов или неверным диагнозом, а также индивидуальными
физиологическими особенностями испытуемых.
На рис. 2 приведены характерные профили экспрессии генов для здоровых и больных испытуемых, отобразившихся соответственно на выбранные из двух кластеров нейроны А и В на рис.1.
Следует отметить, что у большинства больных испытуемых (около
90%) сильно выражена экспрессия гена №10. В это же время у здоровых –
экспрессия генов, находящихся в начале последовательности (см. рис. 2).
УДК 004.032.26(06) Нейронные сети
268
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
3
Данные нейрона A
2
1
0
1
3
5
7
9
11 13 15 17
19
1,4
1,3
1,2
1
0,8
0,6
0,4
0,2
0
1
Данные нейрона B
3
5
7
9
11
13 15 17 19
Рис. 2. Зависимость величины экспрессии от номера признака – гена. Слева – случаи, попавшие в нейроны класса здоровых, справа – в нейроны
класса больных. По оси X отложены номера, соответствующие исследуемым генам, по оси Y – оценка их экспрессии
Рис. 3. Расположение меток на карте, обученной без признака №10
В целях исследования возможности уменьшения количества генов,
применяемых для классификации, мы провели эксперимент по кластеризации векторов с исключенным признаком №10. После исключения этого
признака из обучения, сильного изменения в относительном расположении меток на карте не произошло (рис. 3).
Классификация с помощью персептрона
УДК 004.032.26(06) Нейронные сети
269
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
Для решения задачи вероятностной классификации испытуемых по
тому же набору признаков, что и выше для СОК, была использована двухслойная сеть прямого распространения. Параметры сети были таковы: 20
нейронов в скрытом слое, функция активации в скрытом слое – гиперболический тангенс, линейная функция активации в выходном слое, два
нейрона в выходном слое. Выборка была разделена на обучающую, валидационную и тестовую в соотношении 60%:20%:20%. В качестве входного вектора подавался 20-ти мерный вектор признаков описанной выше
структуры. В качестве обучающего вектора выбирался бинарный вектор
из двух элементов: [0 1] – испытуемый болен, [1 0] – испытуемый здоров.
Результаты обучения персептрона представлены в табл. 2.
Таблица 2
Результаты обучения
Здоровые (всего)
Здоровые (ошибочно классифицированные как больные)
Больные (всего)
Больные (ошибочно классифицированные как здоровые)
Общая ошибка классификации
Обучающая
160
Объём выборок
Валидационная
32
Тестовая
33
1 (0,6 %)
0
1 (3%)
48
12
11
1 (2,1 %)
0
0
2 (0,96 %)
0
1 (2,3 %)
Выводы
Поставленный нейросетевой эксперимент показывает, что применённые нами методы позволяют получить разделение выборки на норму и
патологию на достаточно высоком уровне значимости. Это, в частности,
означает, что те базы данных, с которыми мы работали, в достаточной
степени подготовлены для грубой классификации на больных и здоровых.
С другой стороны, тот факт, что удаление из базы данных признака (гена)
№10 не приводит к значимому изменению кластеризации карты Кохонена, по видимому, свидетельствует о том, что нужна дополнительная преУДК 004.032.26(06) Нейронные сети
270
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
добработка базы данных, которая должна сводиться к частичной декорреляции входных векторов. Для этого существует несколько методов:
уменьшение взаимной энтропии входов, выделение главных компонент и
т.п. Кроме того, возможно включение в базу данных информации об экспрессии других генов. Мы предполагаем провести подобную предобработку данных на следующем этапе исследования, посвященном получению более детальной информации из кластеризованных карт Кохонена с
целью получения возможности типологизации опухолей и их прогностической оценки.
Работа
частично
финансировалась
технологическим центром, проект № 4688.
Украинским
научно-
Список литературы
1. van't Veer L.J., Dai H., van de Vijver M.J., He Y.D., Hart A.A.M., Mao
M., Peterse J.L., van der Kooy K., Marton M.J., Witteveen A.T., Schreiber
G.J., Kerkhoven R.M., Roberts C., Linsley P.S., Bernards R., Friend S.H. Gene
expression profiling predicts clinical outcome of breast cancer.// Nature 415,
530-536, 2002.
2. Wang Y., Klijn J.G., Zhang Y., Sieuwerts A.M., Look M.P., Yang F.,
Talantov D., Timmermans M., Meijer-van Gelder M.E., Yu J., Jatkoe T., Berns
E.M., Atkins D., Foekens J.A. Gene-expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer.// Lancet 365, 671-679,
2005.
3. Paik S., Shak S., Tang G., Kim C., Baker J., Cronin M., Baehner F.L.,
Walker M.G., Watson D., Park T., Hiller W., Fisher E.R., Wickerham D.L.,
Bryant J., Wolmark N. A multigene assay to predict recurrence of tamoxifentreated, node-negative breast cancer.// N. Engl. J. Med. 351, 2817-2826, 2004.
4. Ma X.J., Hilsenbeck S.G., Wang W., Ding L., Sgroi D.C., Bender R.A.,
Osborne C.K., Allred D.C., Erlander M.G. The HOXB13: IL17BR expression
index is a prognostic factor in early-stage breast cancer.// J. Clin. Oncol 24,
4611-4619, 2006.
5. K. Venu Gopala Rao, P. Prem Chand, M.V. Ramana Murthy. A Neural
Network Approach in Medical decision systems.//Journal of Theoretical and
Applied Information Technology , Vol. 3 No. 4, 2007, 97-101.
6. P. Törönen, M. Kolehmainen, G. Wong, E. Castrén. Analysis of gene
expression data using self-organizing maps.// FEBS Letters 451 (1999) 142 –
146.
УДК 004.032.26(06) Нейронные сети
271
ISBN 978-5-7262-1226-5. НЕЙРОИНФОРМАТИКА – 2010. Часть 1
7. M. Granzow, D. Berrar, W. Dubitzky, A. Schuster, F. J. Azuaje, R. Eils.
Tumor classification by gene expression profiling: comparison and validation
of five clustering methods.// ACM SIGBIO Newsletter, 21, 1, 16 – 22, 2001.
8. Demuth T, Rennert JL, Hoelzinger DB, Reavie LB, Nakada M, Beaudry
C, Nakada S, Anderson EM, Henrichs AN, McDonough WS, Holz D, Joy A,
Lin R, Pan KH, Lih CJ, Cohen SN, Berens ME. Glioma cells on the run - the
migratory transcriptome of 10 human glioma cell lines.// BMC Genomics.
2008, 9:54.
9. Li A, Walling J, Ahn S, Kotliarov Y, Su Q, Quezado M, Oberholtzer JC,
Park J, Zenklusen JC, Fine HA. Unsupervised analysis of transcriptomic profiles reveals six glioma subtypes.// Cancer Res. 2009; 69(5):2091-9.
10. Lawrence P. Petalidis, Anastasis Oulas, Magnus Backlund, Matthew
T.Wayland, Lu Liu, Karen Plant, Lisa Happerfield, Tom C. Freeman, Panayiota
Poirazi, and V. Peter Collins. Improved grading and survival prediction of human astrocytic brain tumors by artificial neural network analysis of gene expression microarray data.// Mol Cancer Ther May 2008 7:1013-1024.
11. Laboratory of computer and information science adaptive informatics
research centre // projects- SOM_PAK,WEBSOM, ToolBox MatLab.
www.cis.fi
12. ESOM – DataBionics. Марбург. http://www.mathematik.unimarburg.de
13. Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principal Manifolds
for Data Visualisation and Dimension Reduction, LNCSE 58, Springer, Berlin
– Heidelberg – New York, 2007. (ISBN 978-3-540-73749-0)
http://pca.narod.ru/
14. Viscovery SOMMine – Eudaptics Software Viscovery SOMine//
www.eudaptics.com.
15. Ellipse. Ellipse Self Organizing maps. www.ellipse.fi.
16. Дебок Г., Кохонен Т. Анализ финансовых данных. М.: Дом Альпина, 2001.
17. Шварц Д.Р. Алгоритмические особенности реализации метода кластеризации многомерных данных, на основе сетей Кохонена // Наука и
инновации в технических университетах, СПб., 2007. С. 90-93.
УДК 004.032.26(06) Нейронные сети
272
Download