Харьковское территориальное объединение МАН

advertisement
1
Дисперсионный анализ дальних корреляций в ДНК
последовательностях с использованием многошаговых марковских
цепей как инструмент биологической систематики
Е.Ю. Бутова1, С.С. Мельник2, Д.А. Тканов3, А.В. Шкоп3, О. В. Усатенко2
1)
2)
Харьковский национальный медицинский университет, просп. Ленина, 4,
г. Харьков, 61022, Украина
Институт радиофизики и электроники имени А. Я. Усикова НАН Украины
ул. Ак. Проскуры, 12, г. Харьков, 61085, Украина,
E-mail:usatenko@ire.kharkov.ua
3)
Харьковский национальный университет имени В. Н. Каразина,
пл. Свободы, 4, г. Харьков, 61077, Украина
Аннотация
Использование математического аппарата бинарных аддитивных цепей
Маркова
позволило
огрубленных
проанализировать
последовательностей
корреляционные
ядерных
свойства
нуклеотидов
ДНК,
принадлежащих трем доменам живых организмов, восстановить функцию
памяти (на примере Х-хромосомы дрозофилы) и сделать заключение о
возможности использования разработанного метода для эволюционной
классификации живых организмов. Показано, что величины дисперсии на
масштабах порядка сотен тысяч для трех различных доменов отличаются на
несколько
порядков
величины,
что
может
служить
косвенным
подтверждением справедливости трёхдоменного деления Карла Вёзе.
2
1. Введение.
Принципы, положенные в основу классификации живых организмов,
менялись с эволюцией человеческих знаний. Первые классификации были
проведены на основании внешних признаков, выявленных при изучении
свойств организмов. Позже Ч. Дарвином была предложена классификация
живых организмов на основе их происхождения из других видов. В
настоящее время идеи Линнея и Дарвина сменились генетическими методами
классификации
на
основе
структуры
и
содержания
генома живых
организмов.
Как известно, генетическая информация в организмах хранится в виде
молекул
нуклеиновых
кислот,
которые
представляют
собой
последовательности из нуклеотидов четырех различных видов. Клетка
живого организма содержит различные виды нуклеиновых кислот: ядерная,
митохондриальная,
пластидная,
центриолярная
ДНК,
матричная,
транспортная, рибосомная РНК, и каждая из них несет информацию о
строении и происхождении организма.
На основании исследования гомологического соответствия между
нуклеотидами молекул 16S рРНК различных организмов, Карлом Вёзе в 1990
году [1] был предложен новый трёхдоменный способ классификации живого.
Им были выделены три домена (или Надцарства): Бактерии (Bacteria), Археи
(Archaea) и Эукариоты (Eucaryota). Большинство биологов принимает эту
систему доменов, однако значительная часть продолжает использовать
пятицарственное деление. Одной из главных особенностей трёхдоменного
метода является разделение археев (Archaea) и бактерий (Bacteria), которые
ранее были объединены в царство бактерий. Существует также малая часть
учёных, добавляющих археев в виде шестого царства, но не признающих
домены.
В биологической систематике доме́н (или иногда надцарство) —
самый верхний уровень (ранг) группировки организмов в системе,
включающий в себя одно или несколько царств.
Другим важным объектом, служащим для классификационных целей,
3
является митохондриальная ДНК, которая передается преимущественно по
материнской линии. Поскольку скорость её мутации достаточно высока, она
оказывается особенно полезной при исследовании родства организмов.
Исследование митохондриальной ДНК в популяциях человека позволило
вычислить «митохондриальную Еву», гипотетическую прародительницу всех
живущих в настоящее время людей [2].
В
данной
работе
предлагается
новый
статистический
метод
исследования последовательностей нуклеотидов ядерной ДНК, который
сможет
дополнить
существующие
методы
классификации
живых
организмов. В основу этого метода положен математический аппарат
бинарных аддитивных многошаговых марковских цепей, развитый в работах
[3-8]. Для наших целей статистического анализа рРНК не являеться
походящим объектом, поскольку содержит малое число (порядка нескольких
тысяч) оснований. Поэтому для анализа нуклеотидных последовательностей
нами была выбрана ядерная ДНК.
Излагаемый ниже математический аппарат разрабатывался как общий
подход к исследованию сложных систем, состоящих из большого числа
статистически связанных элементов. Кроме молекул ДНК, к этому классу
можно отнести и другие объекты, изучаемые биологией, физикой,
лингвистикой, социологией, и другими областями современной науки. В
частности,
разработанный
метод
уже
успешно
использовался
при
исследовании свойств литературных текстов [5]. С его помощью был
обнаружен ряд интересных особенностей в корреляционном строении
текстов,
таких
как
антиперсистентность
(обусловленная
наличием
грамматических правил в построении слов и предложений) и самоподобие
(проявление
синтаксических
правил
языка)
огрубленных
текстовых
последовательностей. Если рассматривать последовательность нуклеотидов
как случайную числовую последовательность1, то можно определить её
Авторы не хотели бы вдаваться в сложную дискуссию относительно возможности рассмотрения сложной детерминированной последовательности, как
случайной. Ситуация вполне аналогична той, которая возникает при трактовке игры в кости. Несмотря на то, что законы динамики твердого тела хорошо
известны и траектория движения игральной кости вычислима, а тем самым и исход бросания кости в каждом конкретном случае предсказуем, тем не менее
стемление упростить ситуацию приводит к необходимости использования теории вероятностей.
1
4
статистические характеристики, такие как дисперсия и функция памяти.
Наcтоящая работа построена следующим образом. Вначале изложены
основы
теории
многошаговых
марковских
цепей.
Затем
методика
исследования марковских цепей применяется к последовательностям
нуклеотидов ядерных ДНК и приводятся результаты анализа геномов
представителей трёх различных доменов.
Авторы работы не ставили перед собой задачи систематического
анализа статистических свойств ДНК. Их цель более скромная – обратить
внимание биологов на существование эффективного математического
аппарата
бинарных
аддитивных
многошаговых
цепей
Маркова,
использование которого может быть полезно для получения информации о
статистических свойствах нуклеотидных последовательностей, способных
пролить свет на классификацию живых организмов.
2. Статистические
свойства
случайных
бинарных
последовательностей
Рассмотрим случайную последовательность символов an длины M,
каждый из которых может принимать одно из двух значений, скажем A и B.
Такую последовательность мы будем называть бинарной. Вместо символов A
и B удобно использовать символы «0» и «1», которые в зависимости от
ситуации можно рассматривать также как числа.
Простейшей характеристикой случайной последовательности {an }
является ее среднее значение:
a
1
M
M
a
n 1
n
.
(1)
Другой важной статистической характеристикой случайной последовательности является её парная корреляционная функция:
K (r1 , r2 )  (ar1 - a )( ar2 - a ) .
(2)
Поскольку последовательность {an } мы считаем однородной, ее
корреляционная функция зависит только от одного аргумента:
5
K (r )  (an - a )( an r - a )  an an r - a 2 .
Таким
образом,
парная
корреляционная
функция
(3)
определяет
статистическую взаимосвязь символов, находящихся на расстоянии r друг от
друга. В качестве простейшего примера случайных последовательностей
можно рассмотреть некоррелированную бинарную последовательность. Ее
можно получить, например, много раз подбрасывая симметричную монетку,
и записывая символ «0» - если выпадает «орел», и «1» - если «решка».
Вероятность того, что на определенном месте будет находиться символ «1»
равна 1/2, независимо от остальных символов. Легко видеть, что в этом
случае парная корреляционная функция последовательности K(r) равна нулю
для всех r = 1, 2, …
Каждой бинарной последовательности
можно поставить
an
в
соответствие другую последовательность k n , равную количеству символов
«1»
в
слове
длинны L (под
словом
мы
понимаем
совокупность
последовательно идущих символов в цепи),
L
kn = ∑an + l .
(4)
l =1
Характеризовать случайную переменную k можно ее дисперсией.
Дисперсия есть мера отклонения данной случайной величины k от её
среднего значения,
D( L)  ( k  k ) 2 
1 M r
(kn  k ) 2 .

M  r n 1
(5)
Легко выводится связь между корреляционной функцией и дисперсией
величины k :
K (r ) 
1
D(r  1)  2D(r )  D(r  1),
2
(6)
1 dD(r )
2 dr
(7)
или
K (r ) 
в континуальном пределе.
6
3. Аддитивные многошаговые марковские цепи и функция
памяти
Бинарная последовательность символов
an ,
n = … -2, -1, 0, 1, 2, …
называется марковской, если вероятность того, что некоторый символ a n
принимает определенное значение an  {0;1} , зависит только от предыдущих
символов am , m  n . Если эта вероятность зависит только от одного
предыдущего символа a n1 , то марковская цепь является одношаговой. В
более общем случае, когда вероятность того, что символ a n принимает
определенное значение зависит от N предыдущих символов, марковская
цепь называется многошаговой, или N -шаговой [6, 7].
марковская
N-шаговая
цепь
полностью
определяется
функцией
условной вероятности – зависимостью вероятности появления символа an  1
от предыдущих символов,
P(an  1 | an N , an N 1 ,..., an1 ).
(8)
Одношаговая марковская цепь определяется двумя числами P(an  1 | 0)
и
P(an  1 | 1).
Полное описание N-шаговой цепи требует задания 2N
независимых параметров. Имея целью статистическое описание объектов с N
порядка 105 - 106, а именно таковы, как будет видно из дальнейшего,
характерные
масштабы
глубины
памяти
реальных
ДНК
последовательностей, мы должны будем оперировать с астрономически
большими числами и задавать массивы данных, с которыми не способны
справиться
даже
современные
компьютеры.
Это
приводит
нас
к
необходимости упрощения подхода связанного с теорией общих марковских
цепей и введения их специального подкласса – аддитивных цепей [5].
Аддитивной бинарной марковской цепью называется, такая цепь, в
которой функция условной вероятности задается формулой:
N
P(an  1| an  N , an  N 1 ,..., an 1 )  a   F (r )(an  r  a ) ,
r 1
где F (r ) - так называемая функция памяти.
(9)
7
В работах [5, 6] найдена связь между функцией памяти марковской
цепи и её корреляционной функцией,
N
K (r )   F (r ' )K (r  r ' ), r  0.
(10)
r '1
Уравнение (10) позволяет решить обратную задачу нахождения
функции памяти по ее корреляционной функции и задачу о построении
случайной бинарной последовательности с заданной корреляционной
функцией.
4. Строение ДНК
Кратко приведем необходимые нам сведения о структуре ДНК.
ДНК представляет собой полимерную молекулу, имеющую форму
двойной нити, скрученной в спираль. Каждая нить – последовательность
соединенных нуклеотидов. Каждый нуклеотид ДНК содержит одно из
четырёх азотистых оснований - гуанин (G), аденин (A) (пурины), тимин (T) и
цитозин (C) (пиримидины), связанных с дезоксирибозой; к последней, в свою
очередь,
присоединена
фосфатная
группа.
Между
собой
соседние
нуклеотиды соединены в цепи фосфодиэфирной связью.
Первичная структура ДНК – это линейная последовательность
нуклеотидов ДНК в цепи. Последовательность нуклеотидов в цепи ДНК
записывают
в
виде
буквенной
формулы
ДНК:
например
-
…AGTCATGCCAG... Именно первичная структура ДНК подвергается
анализу в настоящей работе.
5. Дисперсионный анализ корреляционных свойств ДНК
последовательностей
Приведенные выше определения основывались на том, что случайная
последовательность является бинарной. В настоящее время не существует
хорошо разработанной теории m-символьных марковских цепей, т. е. таких, в
которых случайная величина принимает одно из m>2 значений. В нашем
случае потребовалась бы теория 4-х символьных цепей. Поэтому при анализе
8
реальных последовательностей ДНК, рассматриваемых как случайные
марковские
последовательности,
необходимо
сопоставить
заданной
последовательности нуклеотидов бинарную последовательность символов.
Последовательности ДНК состоят из элементов, каждый из которых может
принимать
четыре
возможных
значения,
соответствующие
четырем
встречающимся в молекуле ДНК нуклеотидам. Существуют разные способы
решения этой проблемы, которые, применительно к ДНК системам, состоят в
следующем:
1. Кодировка. Различные значения элемента нумеруются двоичным
кодом, то есть вместо каждого элемента последовательности записывается
соответствующий ему код (например: A=00, G=01, C=10, T=11).
2.
Огрубление. Множество значений делится на две группы. Первая
группа (например, А и G) заменяется символом «0», а вторая (C и T) символом «1».
Первый
метод
последовательности.
сохраняет
Но
всю
полученная
информацию,
таким
содержащуюся
образом
в
бинарная
последовательность оказывается неоднородной. В частности, в такой
последовательности символы с четными и нечетными номерами имеют
разный смысл. Такую последовательность можно было бы заменить двумя
связанными между собой однородными последовательностями чётных и
нечётных символов, но это усложнило бы описание, поскольку пришлось бы
повсюду совместно рассматривать пары функций.
В нашем анализе мы будем использовать процедуру огрубления
последовательности нуклеотидов, то есть каким-то из четырех символов (A,
C, G, T) будем ставить в соответствие символ «0», а каким-то -
«1».
Рассмотрим различные варианты процедуры огрубления.
Сопоставление всем 4-м символам одного значения – «0» или «1» не
имеет смысла – при таком огрублении теряется вся информация о
последовательности.
9
Пусть теперь один из нуклеотидов, например, «A» кодируется
символом «0», а остальные три – символом «1». При анализе полученной
последовательности должно проявиться влияние на нуклеотид «A» таких же
нуклеотидов, находящихся на разных расстояниях от него. Информация о
взаимосвязи других нуклеотидов при таком огрублении будет потеряна. В
настоящей работе мы рассматриваем только «симметричные» способы
огрубления, при которых свойства всех четырех нуклеотидов проявляются в
равной мере.
Следовательно, единственной разумной возможностью огрубления
остается разбиение нуклеотидов по парам: два из них кодируются символом
«0», два – символом «1». Существует всего три способа такого огрубления.
Первый способ (AG – CT) основан на объединении элементов по
принципу химического сходства. Аденин и гуанин принадлежат группе
пуринов, им мы сопоставляем символ «0», а пиримидинам – цитозину и
тимину – символ «1».
Второй способ (AT – CG) основан на водородном химическом сродстве
элементов. Аденин всегда формирует двойную водородную связь с тимином,
а гуанин – тройную водородную связь с цитозином.
И, наконец, в третьем способе (AC – GT) объединяются элементы
аденин и цитозин в одну группу, а гуанин и тимин – в другую.
10
Рис. 1. Зависимость D(L) для огрубленного текста ДНК организма
Bacillus subtilis, для трех различных типов огрубления. Пунктирная,
штриховая и штрих-пунктирная линии соответствуют следующим типам
огрубления {A,G}

0, {C,T}

1; {A,T}

0, {C,G} 
1 и
{A,C}  0,{G,T}  1, соответственно.
Для того, чтобы понять корреляционные свойства последовательности
нуклеотидов молекул ДНК была вычислена дисперсия D(L) огрубленных
нуклеотидных последовательностей.
На Рис. 1 приведена дисперсия, вычисленная по формулам (4)-(5) для
ДНК-«текста» организма Bacillus subtilis при трех различных типах
огрубления. Видно, что корреляционные свойства последовательности ДНК
Bacillus subtilis’а выражены ярче: линия D(L) наиболее удалена от
«некоррелированной» линии L/4 для первой, «пурин-пиримидиновой»,
кодировки. Это послужило основанием для дальнейшего использования
вышеназванной кодировки для анализа ДНК последовательностей различных
организмов.
11
Мы проанализировали огрубленные по методу «пурин-пиримидин»
последовательности трёх случайно выбранных организмов – представителей
трёх доменов. Результаты анализа представлены на Рис. 2. Согласно [3,4],
для N-шаговой коррелированной марковской цепи «глубина памяти» N
соответствует точке перегиба на кривой D(L), то есть точке, в которой
обращается в нуль вторая производная функции D(L). На пунктирной линии
такая точка отсутствует. Это значит, что последовательность ДНК молекулы
Bacillus subtilis коррелированна по всей длине, то есть длина памяти
сравнима, либо превышает длину молекулы. Из двух оставшихся кривых,
длина памяти ДНК дрозофилы меньше длины памяти Methanosarcina
acetivorans.
Этот
вывод
биологическим
фактом:
ответственных
за
находится
процентное
построение
в
соответствии
содержание
белков
с
известным
областей
уменьшается
с
ДНК
ростом
«организованности» организмов: эукариоты более организованы, чем археи,
которые более организованы, чем бактерии. Другой не менее важный вывод
– области ответственные за синтез белков (экзоны) являются более
коррелированными, чем некодирующие участки ДНК (интроны).
12
Рис. 2. Зависимость D(L) огрубленных ДНК-текстов организмов Bacillus
subtilis,
complete
genome
-
домен
бактерий,
(пунктирная
линия);
Methanosarcina acetivorans str. C2A, complete genome - домен архей,
(штриховая линия); Drosophila melanogaster chromosome X, complete sequence
- домен эукарий, (штрих-пунктирная линия) для огрубления {A,G}  0,
{C,T}  1.
Обращает на себя внимание тот факт, что все кривые на Рис. 2
расположены выше линии L/4, что соответствует персистентному характеру
корреляций: после пурина с большей вероятностью следует пурин, а после
пиримидина – пиримидин. Этот факт не согласуется с наблюдавшимся ранее
антиперсистентным характером корреляций на малых расстояниях (вплоть до
L порядка 100) в огрубленных литературных текстах, что трактовалось как
наличие грамматических правил в построении слов и предложений.
Отсутствие
антиперсистетных
корреляций
в
последовательностях
нуклеотидов означает, таким образом, отсутствие грамматических правил в
их чередовании.
13
6. Функция памяти
Корреляционная функция K(r) и дисперсия D(L) случайной величины k
отражают
статистические
свойства
коррелированной
случайной
последовательности величин a n . Тем не менее, эти обе величины обладают
определенными недостатками. Это связано с тем, что ни корреляционная
функция, ни дисперсия не дают рецепта к построению случайной
последовательности с заданными корреляциями. В то же время умение
строить последовательность, обладающую теми же корреляционными
свойствами, что и исходная, заданная последовательность, является
критерием правильного понимания статистической природы случайной
последовательности. Напротив, функция памяти F(r), фигурирующая в
уравнении (9) определяет явно рецепт построения последовательности.
Приведенное выше уравнение (10), путем его численного решения, позволяет
найти функцию памяти случайной бинарной последовательности элементов.
На Рис. 3 в качестве примера приведена восстановленная функция памяти Xхромосомы Drosophila melanogaster, полученная численным решением
уравнения для функции памяти. Видно, что функция памяти отлична от нуля
на конечных расстояниях r порядка 100 нуклеотидов. Это означает, что
информация в ДНК молекуле записана в виде большого числа (прядка 300)
независимых ``рассказиков'' о том, как строятся белки.
Заметим, что нахождение функции памяти является несравненно более
сложной
математической
проблемой,
чем
легко
алгоритмизуемое
вычисление дисперсии. В то же время сама функция памяти несет гораздо
больше микроскопической информации о корреляционных свойствах
случайной последовательности нежели дисперсия или корреляционная
функция.
Последние
несут
опосредованную
информацию
о
«взаимодействии» символов an и an+r , а функция памяти F(r), в силу ее
определения выражением (9), задает прямое влияние каждого из символов
an-r, где r=1,2,…N, на генерируемый символ an.
14
Рис. 3. Функция памяти F(r) огрубленной ДНК-последовательности
Drosophila melanogaster, X-chromosome, ftp://ftp.ncbi.nih.gov/.
7. Заключение и выводы
Компьютерный анализ огрубленных последовательностей нуклеотидов
в молекулах ДНК, последовательностей, в виду своих сложностей
рассматриваемых как случайные, показал, что процесс конкуренции
детерминированного и случайного в эволюции живых организмов привел к
появлению дальних (от сотен до сотен тысяч элементов) корреляций между
их элементами. Обнаружено, что характер корреляций в строении ДНК
позволяет однозначно классифицировать организмы по их принадлежности к
определенному домену. Сделаны первые шаги в восстановлении функции
памяти многошаговой марковской цепи – визитной карточки строения
сложной коррелированной системы, какой и являются молекулы ДНК и было
высказано обоснованное предположение о целесообразности трёхдоменной
классификации организмов.
Вполне возможно, что ни корреляционная функция (3), ни вычисляемая
нами
дисперсия
(5)
не
являются
оптимальными
глобальными
15
характеристиками случайной последовательности. Так, например, величина,
I (n, r )  (an - a )(kr - k ) ,
являющаяся в некотором смысле промежуточной характеристикой между (3)
и (5), может оказаться более удобной, поскольку I (n  r / 2, r ) должна иметь
максимум при r= rc , Это должно помочь в более четкой (по сравнению с
использованным нами методом определения «на глаз» точки перегиба
функции D(L)) идентификации радиуса корреляции rc . Насколько нам
известно,
величина
I,
которую
можно
назвать
интегрированной
корреляционной функцией, или дифференциальной дисперсией, ранее для
характеристики
корреляций
в
случайных
последовательностях
не
использовалась.
Было бы интересно более детально изучить функции памяти различных
организмов, поскольку, как уже отмечалось выше, они содержат более
детальную информацию, чем дисперсия или корреляционная функция. В
частности, нами ранее было обнаружено, на примере анализа функции
памяти литературных текстов, что кажущееся обращение функции памяти в
нуль (как на Рис. 3 при r>100) не соответствует более детальному анализу.
Оказывается, что на самом деле функция памяти, будучи малой величиной,
очень медленно, степенным образом, убывает. Пренебрежение этими
частями функции памяти не дает возможности правильно восстановить
последовательность с сохранением ее статистических свойств. Более того,
оказалось, что показатель степени может служить может служить важной
«индивидуализационной»
характеристикой
последовательности,
а
следовательно и писателей – создателей текстов. Так ли обстоит дело и с
ДНК последовательностями и какова роль их Создателя – покажет
дальнейший анализ.
1. C. R. Woese, N. Goldenfeld, How the Microbial World Saved Evolution
from the Scylla of Molecular Biology and the Charybdis of the Modern
16
Synthesis, Microbiol. Mol. Biol. Rev. 2009; 73(1):14-21. Русский перевод,
http://biomolecula.ru/content/613.
2. A. C. Wilson, R. L. Cann, S. M. Carr, M. George Jr., U. B. Gyllensten, K.
Helm- Bychowski, R. G. Higuchi, S. R. Palumbi, E. M. Prager, R. D. Sage,
and M. Stoneking (1985) «Mitochondrial DNA and two perspectives on
evolutionary genetics». Biological Journal of the Linnean Society 26:375400.
3. O. V. Usatenko and V. A. Yampol'skii, Binary N-step Markov chains and
long-range correlated systems, Phys. Rev. Lett. 90, .110601 (2003).
4. O. V. Usatenko, V. A. Yampol'skii, K. E. Kechedzhy, and S. S. Mel'nyk,
Symbolic stochastic dynamical systems viewed as binary N-step Markov
chains, Phys. Rev. E 68, 061107 (2003).
5. S. S. Melnyk, O. V. Usatenko, V. A. Yampol'skii, V. A. Golick,. Competition
of Two Types of Correlations in Literary Texts, Phys. Rev. E 72, 026140
(2005).
6. S. S. Melnyk, O. V. Usatenko, V. A. Yampol'skii, Memory functions of the
additive Markov chains: applications to complex dynamic systems, Physica
A 361, 405 (2006); arXiv:physics/0412169.
7. S. S. Melnyk, O. V. Usatenko, V. A. Yampol’skii S. S. Apostolov, Z.A.
Maizelis, Memory functions and Correlations in Additive Binary Markov
Chains, J. Phys. A: Math. Gen. 39, 14289 (2006); arXiv:physics/0603171.
8. S S Apostolov, F M Izrailev, N M Makarov, Z A Mayzelis, S S Melnyk, and
O V. Usatenko, The signum function method for the generation of correlated
dichotomic chains, J. Phys. A: Math. Theor. 41, 175101 (2008).
Download