Быстрый подсчет корреляций между геномными разметками и

advertisement
Быстрый подсчет корреляций между геномными разметками и их
статистическая значимость
University School of
Medicine
favorov@gmail.co
m
Елена Дмитриевна
Ставровская
Факультет
Биоинженерии и
Биоинформатики,
Московский
Государственный
Университет
Институт
Проблем Передачи
Информации им.
Харкевича
stavrovskaya@gmai
l.com
Андрей
Александрович
Миронов
Факультет
Биоинженерии и
Биоинформатики,
Московский
Государственный
Университет
Институт
Проблем Передачи
Информации им.
Харкевича
mironov@bioinf.fb
b.msu.ru
Александр
Владимирович
Фаворов
ГосНИИГенетика,
Johns Hopkins
[1](http://genometricorr.sourceforge.net/), а также для
разметок общего вида ([2], [3], [4]).
Ключевая идея этих подходов состоит в том, что если
профили покрытия одинаково распределены вдоль
последовательности хромосомы, соответствующие
характеристики взаимосвязаны. Идея нашего метода
заключается в том, что пики профилей покрытий
функционально связанных характеристик могут
располагаться в одной области генома, но не в одной
позиции (с некоторым смещением). Для того, чтобы
учесть такие взаимосвязи, мы предлагаем быстрый
метод, который вычисляет корреляцию с помощью
свертки. Ядро свертки отвечает за сопоставление
соседних позиций. Данный метод реализован в виде
компьютерной программы на языке C++ и
позволяется работать как с интервальными
Аннотация
Благодаря современным методам секвенирования
сегодня
для
исследования
доступно
большое
количество данных, ассоциированных с конкретными
областями ДНК (например, взаимодействия белокДНК и т.п.). Эти данные часто представлены в виде
функции от позиции ДНК (профиля покрытия).
Корреляция между данными из различных источников
в
масштабе
хромосомы
или
всего
генома
свидетельствует о взаимосвязи соответствующих
биологических характеристик (например, между
уровнем транкрипции и модификацией гистонов).
Задача вычисления корреляции была успешно решена
для интервальных разметок, то есть разметок с
функцией покрытия, принимающей значения 0 либо 1
65
разметками, так и с разметками общего вида, а
также их комбинациями.
Список цитируемой литературы
[1] Favorov A, Mularoni L, Cope LM, Medvedeva Y, Mironov
AA, Makeev VJ, Wheelan SJ. Exploring massive, genome
scale datasets with the GenometriCorr package. PLoS
Comput Biol, 2012, 8(5) :e1002529
[2] Ramsey SA, Knijnenburg TA, Kennedy KA, Zak DE,
Gilchrist M, Gold ES, Johnson CD, Lampano AE, Litvak V,
Navarro G, Stolyar T, Aderem A, Shmulevich I.. Genomewide histone acetylation data improve prediction of
mammalian transcription factor binding sites. Bioinformatics,
Oxford, England, 2010, 26(17):2071-2075
[3] Peter J. Bickel, Nathan Boley, James B. Brown, Haiyan
Huang, Nancy R. Zhang Subsampling methods for genomic
inference. The Annals of Applied Statistics, 2010, 4(4):16601697
[4] Bickel PJ, Brown JB, Huang H, Li Q. An overview of recent
developments in genomics and associated statistical
methods. Philosophical transactions. Series A, Mathematical,
physical, and engineering sciences, 2009, 367(1906):43134337
66
Download