Supplementary (rus)

advertisement
1
Предсказание пре-миРНК
2
3
Для предсказания последовательности пре-миРНК человека мы строим контекстно-
4
структурную марковскую модель. Пре-миРНК человека представляют собой нуклеотидные
5
последовательности, образующие вторичную структуру в форме шпильки (рисунок 1а).
6
С учетом вторичной структуры шпильку пре-миРНК можно интерпретировать как парные
7
последовательности, где в каждой позиции две характеристики: символ из алфавита {A, C, G,
8
U, -} и структурное свойство (позиция находится в петле или в спирали). Последовательность
9
начинается с 5′ края пре-миРНК.
10
11
12
Рисунок 1. Представление шпилечной структуры пре-миРНК в виде последовательности
13
пар, где каждая пара содержит информацию о структуре и последовательности
14
предшественника. а) Шпилечная структура пре-миРНК hsa-let-7a-1 с двумя зрелыми
15
микроРНК hsa-let-7a-5p и hsa-let-7a-3p. b) Парные последовательности, соответствующие
16
шпильке пре-миРНК. c) Схема контекстно-структурной марковской модели.
17
18
Структура модели включает пять состояний: A, C, G, U и X и одно начальное состояние S.
19
Конечное состояние в модели не задается. Состояния A, C, G, U соответствуют символам
20
нуклеотидов. Состояние Х соответствует символам “-”, которые уравнивают число символов
21
между ветвями шпильки посредством вставки напротив нуклеотидов боковых или
22
ассиметричных внутренних петель (рисунок 1a, b).
23
Полученная модель может порождать два типа символов для каждого состояния: T - для
24
символов, имеющих комплементарную пару во вторичной структуре в рассматриваемом
25
состоянии, F - для символов, не имеющих комплементарную пару (рисунок 1b). В состоянии Х
1
порождается только символ “-”. Все допустимые переходы между состояниями модели
2
показаны на рисунке 1c.
3
4
5
6
Определим путь 𝜋 = 𝜋1 𝜋2 … 𝜋𝐿 - последовательность наблюдаемых состояний модели, в
которых порождается последовательность наблюдений 𝑥 = 𝑥1 𝑥2 … 𝑥𝐿 .
Пусть 𝑇𝑘𝑚 = 𝑃(𝜋𝑙+1 = 𝑚|𝜋𝑙 = 𝑘) – вероятность перехода из состояния k в состояние m, где
7
𝜋𝑙 - l-е состояние в пути π. В частном случае 𝑇0𝑚 - вероятность перехода из начального
8
состояния S в состояние 𝜋1 = 𝑚.
9
10
Пусть 𝐸𝑙 (𝑏) = 𝑃(𝑥𝑙 = 𝑏|𝜋𝑙 = 𝑘) – вероятность порождения символа b в состоянии l.
Вероятностная модель λ определяется набором параметров {Т, Е}, где 𝑇 = {𝑇𝑘𝑚 } - матрица,
11
состоящая из вероятностей переходов между состояниями, 𝐸 = {𝐸𝑙 (𝑏)} – матрица, состоящая
12
из вероятностей порождения символов. Параметры модели {T, E} оцениваются с помощью
13
метода, предложенного Баумом с коллегами [1], на основе информации об известных пре-
14
миРНК человека – их последовательностях и структурах.
15
Пусть модель λ = {Т, Е} порождает последовательность 𝑥 = 𝑥1 𝑥2 … 𝑥𝐿 в состояниях модели
16
𝜋 = 𝜋1 𝜋2 … 𝜋𝐿 . Используя вероятности переходов T и вероятности порождения символов E
17
можно вычислить полную вероятность порождения моделью последовательности 𝑥 в
18
состояниях модели 𝜋:
𝐿
𝑃(𝑥) = ∏ 𝑇𝜋𝑛−1 𝜋𝑛 𝐸𝜋𝑛 (𝑥𝑛 )
19
𝑛=1
20
, где L – длина последовательности, а 𝜋0 = S - стартовое состояние модели.
21
При увеличении длины последовательности величина вероятности P(x) экспоненциально
22
уменьшается. Так как длины пре-миРНК достигают 150 нуклеотидов, в вычислениях
23
используется нормированная на длину L величина:
24
25
𝐾= −
𝑙𝑜𝑔10 𝑃(𝑥)
𝐿
= −
∑𝐿𝑛=1(𝑙𝑜𝑔10 (𝐸𝜋𝑛 (𝑥𝑛 ))+𝑙𝑜𝑔10 (𝑇𝜋𝑛−1 𝜋𝑛 ))
𝐿
(1)
Поиск пре-миРНК в геномной последовательности начинается с выделения
26
подпоследовательностей, способных формировать вторичную структуру в форме шпильки и
27
удовлетворяющих условиям на длину, G+C контент, величины е-score и энергии. Так как
28
программа для расчёта структур GArna [2] основана на стохастическом алгоритме, для каждого
2
1
скользящего окна длиной L=120 нт и шагом 10 нт строится три варианта шпилечных структур с
2
разными начальными рандомизационными параметрами. Для получения шпилечных структур
3
в алгоритм программы GArna добавлены штрафы за мульти-петли и принудительное
4
связывание концов последовательности в спирали. Из трех структур выбирается оптимальная
5
структура с наименьшей энергией - кандидат в пре-миРНК.
6
По первичной и вторичной структурам кандидатов однозначно восстанавливается
7
последовательность наблюдений 𝑥 = 𝑥1 𝑥2 … 𝑥120 и состояния модели 𝜋 = 𝜋1 𝜋2 … 𝜋120 , в
8
которых последовательность порождается. Кандидат классифицируется как пре-миРНК, если
9
значение K (формула 1) для него меньше заданной величины порога. Величина порога задается
10
пользователем и определяется из анализа графика оценки качества предсказания метода.
11
Среди предсказанных пре-миРНК с совпадающими шпилечными петлями (расстояния
12
между шпилечными петлями меньше 5нт) в результат оставляется кандидат с наименьшей
13
энергией.
14
15
Предсказание микроРНК
16
17
Для поиска гомологов известных микроРНК применяются фильтры по нуклеотидному
18
контенту и алгоритм выравнивания Нидлмана-Вунша [3] со штрафом -1 за
19
вставку/удаление/замену. Выбираются только те гомологи, расстояние Хэмминга между
20
которыми и микроРНК не больше 1.
21
Метод предсказания ab initio микроРНК основан на парной скрытой марковской модели,
22
предложенной авторами программы ProMiR [4]. Метод ProMiR предсказывает границы
23
дуплекса микроРНК-микроРНК* и определяет из двух последовательностей одну зрелую
24
микроРНК.
25
Шпилька пре-миРНК интерпретируется в виде последовательности пар символов от
26
основания шпильки до ее шпилечной петли (рисунок 1а, 2а). Соответствующая
27
последовательности парная скрытая марковская модель (СММ) содержит четыре структурных
28
состояния - M (спираль), N (двухстороння петля), I (вставка) и D (удаление), и два скрытых
29
состояния – m (позиция предшественника в микроРНК) и n (позиция вне микроРНК).
30
3
1
2
Рисунок 2. Представление шпилечной структуры пре-миРНК в виде парной
3
последовательности структурных и скрытых состояний, каждое из которых содержит
4
информации о последовательности пре-миРНК и о расположении микроРНК в
5
предшественнике. а) Шпилечная структура пре-миРНК hsa-let-7a-1 с двумя зрелыми микроРНК
6
hsa-let-7a-5p и hsa-let-7a-3p. b) Последовательность состояний СММ, соответствующая 5р
7
микроРНК в предшественнике. c) Структура скрытой марковской модели.
8
9
10
11
12
13
Обозначим СММ как λ = {Т, Е}. 𝑇 ′ = 𝑇 ⊥ - транспонированная матрица вероятностей
перехода между состояниями модели.
Для каждой позиции парной последовательности вычисляются величины:
𝑃𝑚 (𝑖−1)𝑇𝑚𝑛
(𝑖−1)𝑇
𝑚
𝑚𝑛 +𝑃𝑛 (𝑖−1)𝑇𝑛𝑛
𝑆(𝑖) = 𝑃
′
𝑃𝑚 (𝑖+1)𝑇𝑚𝑛
′
′
𝑚 (𝑖−1)𝑇𝑚𝑛 +𝑃𝑛 (𝑖−1)𝑇𝑛𝑛
и 𝑆′(𝑖) = 𝑃
,где Pm(i) и Pn(i) – вероятности позиции i находиться в области микроРНК или вне
14
микроРНК, соответственно, вычисляются итерационно через параметры модели [4]; Tnm –
15
вероятность перехода из скрытого состояния n в состояние m, Tnn – вероятность перехода из
16
скрытого состояния n в состояние n; величины S(i) и S′(i) - численно характеризуют позиции
17
границ микроРНК у шпилечной петли и у основания шпильки: чем больше значения величин –
18
тем вероятнее расположение границ в позициях.
19
Основные отличия нашего подхода от работы [4] заключаются в следующем.
20
При обучении скрытых марковских моделей и при предсказании микроРНК человека мы
21
предполагаем, что длина последовательностей составляет 24 нуклеотида против наблюдаемых
22
22 нуклеотидов: граница микроРНК, ближайшая к шпилечной петле предшественника,
23
смещается нами на два нуклеотида. После предсказания микроРНК граница корректируется.
24
25
Для предсказания зрелых микроРНК мы используем не одну, а две СММ, по одной для 3′ и
5′ ветвей предшественника, что обусловлено частичной (неполной, со смещением)
4
1
комплементарностью микроРНК в дуплексе микроРНК-микроРНК*. Так как многие пре-
2
миРНК порождают две зрелые микроРНК, в процессе предсказания нами определяется дуплекс
3
микроРНК-микроРНК*, а не одна последовательность.
4
Процедура предсказания состоит из поиска границы, ближайшей к шпилечной петле
5
предшественника, и с определения по локальному максимуму второй границы, на расстоянии
6
24±2 нт от первой. Это обусловлено тем, что граница у петли шпильки более ярко выражена с
7
точки зрения вторичной структуры (увеличение числа петлевых нуклеотидов) и лучше
8
предсказывается.
9
Наконец, результатом предсказания являются оптимальная и субоптимальная пары
10
микроРНК, которые соответствуют глобальному и следующему за ним максимумам функции
11
S(i) для границы у шпилечной петли.
12
13
Предсказания сайтов связывания микроРНК-мРНК
14
15
Реализованные в представленной работе алгоритмы предсказания сайтов связывания
16
микроРНК-мРНК основываются на двух известных принципах - полной комплементарности
17
позиций № 2-8 в 5′-крае микроРНК к 3′ нетранслируемой области мРНК [5] и
18
термодинамической стабильности дуплекса микроРНК-мРНК [6].
19
Метод «5’ context search» ищет в исходной последовательности мРНК 7 нт
20
подпоследовательности, которые полностью комплементарны инвертированному участку в
21
позициях № 2-8 5′-края микроРНК.
22
Метод поиска «Free energy calculation» вычисляет дуплекс микроРНК-мРНК с наименьшей
23
энергией связывания с помощью метода полного перебора с ограничениями в виде размера
24
петель (50нт) и порогом свободной энергии. Энергия связывания получается путем
25
суммирования энергии участков полной комплементарности последовательностей,
26
вычисленной по четырем нуклеотидам, участков внутренних и боковых петель. В вычислениях
27
предполагается, что участки непрерывного взаимодействия взаимно не пересекаются, один
28
нуклеотид не может вступать во взаимодействие с несколькими нуклеотидами.
29
Метод поиска «Partition function» вычисляет среднюю населенность последовательностями
30
микроРНК каждой позиции большой РНК последовательности. Метод основан на вычислении
5
1
статистических сумм дуплексов микроРНК-мРНК. Результатами расчёта являются вероятности
2
образования дуплексов в зависимости от позиции мРНК и с учётом конкуренции микроРНК за
3
сайт связывания. Последнее обстоятельство может оказаться существенным при предсказании
4
множественных сайтов связывания, которые обеспечивают ингибирование трансляции мРНК
5
при значительных концентрациях микроРНК.
6
7
Каждая последовательность микроРНК имеет свой статистический вес в каждой координате
8
k последовательности мРНК S. Статистический вес Wk(S) определяется через энергию
9
микроРНК-мРНК дуплекса Ek:
Wk ( S )  e  Ek / T
10
11
, где T – температура (константа).
Допустимой конфигурацией K для последовательности мРНК называется один из
12
возможных способов корректного (без взаимных пересечений) размещения микроРНК на
13
последовательности мРНК. Допустимую конфигурацию можно определить, как множество
14
позиций K={k} в последовательности мРНК, соответствующих началам микроРНК из
15
конфигурации. Понятие допустимой конфигурации исключает варианты одновременного
16
связывания нескольких микроРНК с одним сайтом.
17
18
Статистический вес каждой допустимой конфигурации K для последовательности мРНК S
рассчитывается как сумма статистических весов всех микроРНК конфигурации:
W ( S )   Wk ( S )
kK
19
.
20
Пусть N – длина последовательности мРНК S, m – длина последовательности микроРНК.
21
τ – величина концентрации микроРНК в каждой позиции мРНК. При малых величинах
22
параметра концентрации результаты расчетов близки к результатам поиска термодинамически
23
наиболее стабильных микроРНК-мРНК дуплексов.
24
Вероятность расположения микроРНК, начиная с координаты i, равна сумме статистических
25
весов всех допустимых конфигураций, в которых микроРНК располагаются с координаты i,
26
деленое на сумму статистических весов всех допустимых конфигураций.
27
28
Эти суммы вычисляются в три этапа с применением алгоритма динамического
программирования.
6
1
«Прямой проход». Вычисление F1, …, Fi,…, FN - суммы статистических весов всех
2
допустимых конфигураций для подпоследовательностей мРНК S1,…,Si,…, SN, где Si –
3
последовательность длиной i начиная с 5′ края мРНК, SN – вся мРНК.
4
F0 = 1;
5
Fi = Fi-1 для 1 ≤ i ≤ m;
6
Fi = Fi-1 + Fi-m-1×τ×P(Si-m), для i ≥ m+1; где P( S k )  q  W (S k ) , а q = 10-6 – нормировочный
7
коэффициент для исключения арифметического переполнения при расчётах.
8
9
“Обратный проход”. Вычисление R1,…, Ri,…, RN – суммы статистических весов всех
10
допустимых конфигураций подпоследовательностей мРНК S1′,…, Si′,…, SN′, где Si′ –
11
последовательность длиной i начиная с 3′ края мРНК, S1′ – вся мРНК.
12
RN = 1;
13
Ri = Ri+1 для i ≥ N-m+1;
14
Ri = Ri+1 + Ri+m+1×τ×P(Si′), для i ≤ N-m;
15
16
17
“Финальный проход”. Вычисление P(i) – вероятность расположения последовательности
микроРНК начиная с координаты i в мРНК:
P(i ) 
18
19
Fi 1    q  Wi ( S )  Ri  m1
,
R1
для i ≤ N-m-1.
Числитель представляет собой сумму статистических весов всех допустимых конфигураций,
20
в которых микроРНК располагаются с координаты i в мРНК, знаменатель – это сумма
21
статистических весов всех допустимых конфигураций для мРНК.
22
Тогда средняя населенность микроРНК позиции i в мРНК вычисляется как:
Psum (i) 
23
24
25
 P(i  k ) для i ≤ N-m-1.
k 0... m1
Программа демонстрирует график вероятности связывания микроРНК с мРНК для каждой
позиции мРНК.
26
27
7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Ссылки:
1. Rabiner L. (1989). A tutorial on hidden Markov models and selected applications in speech
recognition. Proceedings of the IEEE, 77(2), 257-286.
2. Титов И.И., Воробьев Д.Г., Иванисенко В.А., Колчанов Н.А. (2002). Быстрый
генетический алгоритм для анализа вторичной структуры РНК. Известия Академии
Наук, Серия химическая, 7, 1047-1056.
3. Needleman S.B., Wunsch C.D. (1970). A general method applicable to the search for
similarities in the amino acid sequence of two proteins. Journal of molecular biology, 48(3),
443-453.
4. Nam J.W., Shin K.R., Han J., Lee Y., Kim V.N., Zhang B.T. (2005). Human microRNA
prediction through a probabilistic co-learning model of sequence and structure. Nucleic Acids
Research. 33, 3570–3581.
5. Stark A., Brennecke J., Russell R.B., Cohen S.M. 2003. Identification of Drosophila
microRNA targets. PLoS Biol, 1, E60.
6. Lewis B.P., Burge C.B., Bartel D.P. (2004). Conserved Seed Pairing, Often Flanked by
Adenosines, Indicates that Thousands of Human Genes are MicroRNA Targets. Cell. 120, 15–
20.
8
Download