ВАЛЬБА ОЛЬГА ВЛАДИМИРОВНА Топологические особенности

advertisement
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ
ИНСТИТУТ ХИМИЧЕСКОЙ ФИЗИКИ ИМ. Н.Н.СЕМЕНОВА
РОССИЙСКОЙ АКАДЕМИИ НАУК
На правах рукописи
ВАЛЬБА ОЛЬГА ВЛАДИМИРОВНА
Топологические особенности РНК-подобных молекул со случайной
первичной структурой
Специальность 01.04.17 — Химическая физика, горение и взрыв, физика
экстремальных состояний вещества
Диссертация на соискание учёной степени
кандидата физико-математических наук
Научный руководитель:
д.ф.-м.н.,
Аветисов В.А.
Москва – 2014
Оглавление
Введение
4
1
Обзор литературы
8
1.1
Особенности пространственной структуры молекул РНК . . . . . . . . .
8
1.2
Методы предсказания структуры РНК . . . . . . . . . . . . . . . . . . . .
11
1.3
Случайная первичная структура РНК . . . . . . . . . . . . . . . . . . . .
13
1.4
Термодинамические свойства . . . . . . . . . . . . . . . . . . . . . . . .
14
1.5
Описание РНК структур случайными матрицами . . . . . . . . . . . . .
18
2
3
4
Алгоритмы вычисления свободной энергии РНК-подобных структур
22
2.1
Выравнивание последовательностей . . . . . . . . . . . . . . . . . . . . .
22
2.2
Комплементарное связывание биополимеров . . . . . . . . . . . . . . . .
24
2.3
Связывание РНК с внутрипетлевым взаимодействием . . . . . . . . . . .
28
2.4
Алгоритмы восстановления структуры . . . . . . . . . . . . . . . . . . .
31
Свойства РНК структур со случайной последовательностью звеньев
38
3.1
Свободная энергия основного состояния . . . . . . . . . . . . . . . . . .
38
3.2
Распределение длин петель в РНК-подобных структурах . . . . . . . . .
43
Топология РНК-подобных молекул в зависимости от алфавита случайной
первичной структуры
48
4.1
Зависимость свободной энергии РНК-подобных структур от алфавита .
48
4.2
Топологический переход в модели Бернулли . . . . . . . . . . . . . . . .
53
4.3
Аналитическая оценка критической точки топологического перехода в
модели Бернулли . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
57
4.4
4.5
5
4.3.1
Метод среднего поля . . . . . . . . . . . . . . . . . . . . . . . . .
57
4.3.2
Комбинаторная оценка . . . . . . . . . . . . . . . . . . . . . . . .
59
4.3.3
Матричный подход . . . . . . . . . . . . . . . . . . . . . . . . . .
61
Переход случайной РНК в замороженное состояние, ограниченный топологическим переходом . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
Другие модели нецелого алфавита . . . . . . . . . . . . . . . . . . . . . .
65
4.5.1
Метод концентраций . . . . . . . . . . . . . . . . . . . . . . . . .
66
4.5.2
Коррелированная случайная последовательность . . . . . . . . .
67
4.5.3
Рациональный алфавит . . . . . . . . . . . . . . . . . . . . . . . .
69
Описание РНК-подобной структуры в терминах оптимизационной транспортной задачи
71
5.1
Оптимизационная транспортная задача . . . . . . . . . . . . . . . . . . .
71
5.2
Модель случайных интервалов первичной структуры РНК-подобной молекулы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3
73
Топологические свойства РНК-подобных структур в модели случайных
интервалов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5.3.1
Численное моделирование . . . . . . . . . . . . . . . . . . . . . .
76
5.3.2
Аналитическое описание . . . . . . . . . . . . . . . . . . . . . . .
79
Заключение
84
Список сокращений и условных обозначений
84
Литература
86
3
Введение
Актуальность темы исследования. Структура важнейших биологических макромолекул, таких как дезоксирибонуклеиновые кислоты (ДНК), рибонуклеиновые кислоты
(РНК) и белки, играет ключевую роль в их правильном функционировании в клетке.
Различают три уровня структурной упорядоченности биомакромолекул. Одна из основных их особенностей состоит в гетерополимерности. Последовательность звеньев в
ДНК, РНК и белках индивидуального организма, она называется первичной структурой,
строго зафиксирована. Далее, биополимерные цепи могут формировать спиралеобразные и складчатые участки небольшого масштаба, как в белках, или комплементарно
спаренные и петлевые участки, как в РНК. Такие фрагменты называются элементами
вторичной структуры. Различают также третичную и четвертичную пространственные
структуры биополимеров.
Данная работа посвящена исследованию топологических свойств вторичной структуры молекул РНК-типа. Известно, что биомакромолекулы являются «слабо отредактированными случайными гетерополимерами» [1,2]. Более того, для ряда свойств распределение мономерных звеньев в первичной структуре, например, функциональных РНК
можно считать случайным [3, 4]. В этом случае, модель случайной первичной структуры является базовой моделью, описывающей основной (нулевой) вклад в наблюдаемые
физические явления. Основное внимание при этом сфокусировано на нетривиальной
вторичной структуре РНК-подобных полимеров, для описания которой привлекаются
разнообразные техники, в том числе, техники квантовой теории поля и моделей Изинга [5].
Цель работы заключается в описании топологических особенностей РНК-подобных
последовательностей методами статистической физики и теории случайных процессов.
Для достижения поставленной цели необходимо было решить следующие задачи:
4
1. Разработать алгоритм вычисления свободной энергии РНК-подобной молекулы;
2. Исследовать статистические свойства распределения свободной энергии в ансамбле РНК-подобных структур со случайной последовательностью звеньев;
3. Изучить зависимость топологических свойств РНК-подобных структур от количества типов мономерных звеньев (алфавита), используемого в случайных первичных структурах.
Научная новизна работы заключается в следующем.
1. Впервые методами статистической физики и теории случайных процессов исследованы изменения топологических свойств РНК-подобных гетерополимеров со
случайной первичной структурой в зависимости от их длины и используемого в
первичной структуре алфавита.
2. Впервые теоретически обнаружено критическое изменение топологии РНКподобных структур при переходе от двухбуквенного алфавита к трехбуквенному
и проведена аналитическая оценка точки перехода в рамках комбинаторного и
матричного описания.
3. Впервые установлена взаимосвязь между наблюдаемым критическим изменением топологии РНК-подобных структур и переходом в замороженное состояние,
который обсуждался ранее в работах Т. Хва и Р. Бундшу.
4. Впервые показано, что описание топологии РНК-подобной структуры может быть
сведено к оптимизационной транспортной задаче.
Теоретическая и практическая значимость диссертационной работы обусловлена тем что, полученные результаты носят фундаментальный характер и дают более
глубокое понимание физических закономерностей, лежащих в основе формирования
вторичной структуры молекул РНК.
Методы исследования. В работе использовалось компьютерное моделирование,
включающее вычисление свободной энергии основного состояния РНК-подобных молекул и предсказание соответствующих вторичных структур. В аналитическом рассмотрении широко использовалась теория случайных процессов, а также описание
вторичной структуры РНК случайными матрицами.
5
Основные положения, выносимые на защиту:
1. алгоритмы описания вторичной структуры РНК-подобной молекулы и вычисления свободной энергии основного состояния, учитывающие внутрипетлевое взаимодействие;
2. свойства распределения свободной энергии в ансамбле РНК-подобных структур
со случайной последовательностью мономерных звеньев;
3. зависимость топологических свойств РНК-подобных структур от используемого
в первичной структуре числа различных мономерных звеньев (алфавита). Критическое изменение топологии РНК-подобных структур при переходе от двухбуквенного алфавита к трехбуквенному;
4. топологические свойства РНК-подобных структур с выбранным распределением
расстояний между мономерными звеньями и потенциалом взаимодействия между
мономерами, заданным выпуклой вниз функцией от расстояния.
Достоверность изложенных в работе результатов обеспечивается использованием
широко апробированных методов. Результаты находятся в соответствии с результатами,
полученными ранее другими авторами.
Апробация работы. Основные результаты работы докладывались и обсуждались на
12 конференциях и 11 семинарах. По результатам диссертации опубликованы 6 статей
в 5 ведущих российских и международных журналах.
Личное вклад автора заключается в развитии методов описания РНК-подобных
молекул со случайной первичной структурой. Им были разработаны соответствующие
алгоритмы вычисления свободной энергии РНК-подобных молекул. Все приведенные в
работе расчеты и обобщение полученных результатов были выполнены автором лично.
Диссертация состоит из пяти глав и заключения. Первая глава содержит обзор литературных данных. Рассматриваются топологические особенности молекул РНК, приводятся существующие подходы к предсказанию вторичной структуры РНК. Отдельно
обсуждаются термодинамические свойства РНК со случайной первичной структурой и
матричный подход описания вторичной структуры РНК.
Во Второй главе приводятся алгоритмы описания РНК-подобной структуры и вычисления свободной энергии ее основного состояния. Формулируется вспомогатель6
ная статистическая модель, описывающая взаимодействия мономерных звеньев в РНКподобной структуре с петлевыми участками. Далее, в предложенной модели учитывается вклад внутрипетлевого взаимодействия мономеров и приводится соответствующий
алгоритм динамического программирования для вычисления энергии такой иерархической структуры.
Третья глава диссертации посвящена определению свойств распределения свободной энергии ансамбля случайных последовательностей РНК. Обсуждаются такие характеристики, как среднее значение свободной энергии в ансамбле, флуктуация средней
энергии, распределение по длинам петель в пространственных структурах.
Анализ топологических свойств в модели случайной первичной структуры РНКподобной молекулы в зависимости от используемой в последовательности алфавита
вынесен в отдельную Четвертую главу. Показывается, что в зависимости от алфавита РНК-подобная структура характеризуется либо максимально связанной вторичной
структурой без пропусков (неспаренных мономеров), либо структурой с конечной долей
несвязанных мономеров. Для определения точки такого топологического перехода формулируется модель Бернулли. В рамках предложенной модели приводятся численные
и аналитические оценки критической точки перехода.
В Пятой главе описывается новый подход к описанию топологии РНК-подобных
структур, сформулированный в терминах оптимизационной транспортной задачи. В
рамках данного подхода аналитически и численно исследуются модели РНК-подобных
структур, учитывающие взаимодействие между мономерными звеньями вдоль по цепи.
В Заключении представлены основные результаты диссертационной работы.
7
Глава 1
Обзор литературы
Глава посвящена обзору литературных данных. Обсуждаются особенности пространственной структуры молекул РНК, приводятся известные алгоритмы предсказания таких структур. Отдельно обсуждаются свойства РНК-подобных молекул со случайной
последовательностью звеньев.
1.1
Особенности пространственной структуры молекул
РНК
РНК — одна из трёх основных макромолекул, которые содержатся в клетках всех
живых организмов. Так же, как ДНК, РНК состоит из длинной цепи, в которой каждое звено называется нуклеотидом. Последовательность нуклеотидов в цепи составляет
первичную структуру РНК. Каждый нуклеотид состоит из азотистого основания, сахара (рибозы) и фосфатной группы. Последовательность нуклеотидов позволяет РНК
кодировать генетическую информацию. Все клеточные организмы используют РНК для
программирования синтеза белков, такая РНК называется матричной (мРНК).
Образование водородных связей между нуклеотидами обеспечивает вторичную
структуру РНК. Азотистые основания в составе РНК могут образовывать водородные связи между цитозином C и гуанином G , аденином A и урацилом U. Такие пары
называют комплементарными (Рис. 1.1) и впервые были обнаружены Дж. Уотсоном и
Ф. Криком [6]. Помимо комплементарных пар, водородные связи могут образовываться
между основаниями U–G (Рис. 1.1). Такие пары называются неканоническими (Wobble
8
base pairs). Неканонические пары U–G влияют на вторичную и третичную структуры
РНК и ее функции. В частности, было показано, что такие пары играют существенную
роль в процессе кодон-антикодон связывания [7]. Теоретические расчеты показали, что
энергия пары U–G сравнима с энергией основных пар C–G и A–U [8] (Табл. 1.1), однако
геометрия пары отличается от канонических пар [9]. Гликозидный угол — угол, который
образует связь между азотом N и сахарным остатком с плоскостью цикла сахара, одинаков для всех оснований в комплементарных парах и отличается от соответствующих
углов в неканонической паре (Рис. 1.1).
Пара
∆𝐺0300∘ 𝐾 ,
d, Å
ккал/моль
G–C
-5.53
2.94
A–U
-4.42
2.96
G–U
-4.45
3.75
Рис. 1.1 Отличие Уотсон–Криковских пар
Таблица 1.1 Теоретическая оценка
от неканонической пары G–U.
свободной энергии и длины связи в
парах нуклеотидов [8].
Характерной особенностью структуры молекул РНК является то, что система комплементарных связей вторичной структуры представляет собой «клеверный лист»
(Рис. 1.2 (a)). Такая кактусообразная структура схематически может быть представлена
набором вложенных дуг (Рис. 1.2 (в)), где дуга — связь между комплементарно связанными нуклеотидами в цепи. Псевдоузел — элемент вторичной структуры (Рис. 1.2 (б))
— образуется довольно редко и свойствен, в основном, длинным молекулам РНК. Псев9
доузел соответствует пересечению дуг в арочном представлении вторичной структуры
(Рис. 1.2 (г)). Псевдоузлы часто несут важную функциональную роль, например, было
обнаружено что структура псевдоузла в теломерной РНК существенна для активности
теломеразы [10].
(a)
(б)
(в)
(г)
Рис. 1.2 Клеверная структура РНК (a) и псевдоузел (б); (в) и (г) — арочное
представление (а) и (б), соответственно.
Задача предсказания вторичной структуры РНК достаточно сложна. Вторичная
структура может содержать различные элементы, отличающиеся как по энергетическому вкладу в общую энергию биополимера, так и по энтропийному вкладу (Рис. 1.3) [11–14].
(а)
(б)
Рис. 1.3 (а) — 3D структура транспортной РНК дрожжей, полученная
рентгеноструктурным анализом [15]; (б) — элементы клеверной структуры РНК [16].
10
1.2
Методы предсказания структуры РНК
Наибольшую популярность приобрели методы предсказания вторичной структуры
РНК, основанные на минимизации свободной энергии [11–13, 17, 18]. Основоположниками данного метода можно назвать М. Зукера и П. Стиглера [11]. В основе подхода
лежит идея о том, что «правильная» вторичная структура РНК должна быть термодинамически наиболее стабильной и, следовательно, обладать наименьшей свободной энергией. При решении задачи минимизации энергии необходимы правила подсчета энергии
для любой структуры и эффективный алгоритм минимизации энергии. На основе разнообразных экспериментальных данных [13] сделано много попыток построения правил
подсчета свободной энергии и созданы достаточно эффективные алгоритмы, основанные на динамическом программировании [19]. Основное уравнение на статистическую
сумму вторичной структуры РНК (Рис. 1.2 (а)) записывается как:
𝑔𝑖,𝑖+𝑘 = 𝑔𝑖+1,𝑖+𝑘 +
𝑖+𝑘
∑︁
𝛽𝑖,𝑠 𝑔𝑖+1,𝑠−1 𝑔𝑠+1,𝑖+𝑘 ,
(1.1)
𝑠=𝑖+1
где 𝑔𝑖,𝑗 описывает статистический вес участка цепи с 𝑖 по 𝑗 мономер, а 𝛽𝑖,𝑗 определяется больцмановским весом контакта между 𝑖 и 𝑗 мономерами. Основное состояние
определяется как: 𝐹𝑖,𝑗 = −𝑘𝐵 𝑇 ln 𝑔𝑖,𝑗 , где𝑘𝐵 и 𝑇 — константа Больцмана и абсолютная температура, соответственно. Так как энергия комплементарной связи превышает
в десятки раз 𝑘𝐵 𝑇 при комнатной температуре (Табл. 1.1), очень часто используют так
называемое приближение нулевой температуры. В таком приближении, основное состояние определяется энергией взаимодействующих мономеров, тогда как, энтропией
цепи можно пренебречь. Отметим, что выражение (1.1) может быть дополнено различными факторами, такими как минимальная длина петли, энергия стэкинга, различная
энтропия структурных элементов РНК (Рис. 1.3 (б)). Особым случаем является предсказание пседвоузлов [20, 21], для которых разрабатываются отдельные алгоритмы с
использованием динамического программирования. Методы, основанные на минимизации энергии, на сегодняшний день — наиболее часто используемые. Но, к сожалению,
эти алгоритмы не являются надежными, и их точность сильно падает при увеличении
длины последовательности. Также следует отметить, что в настоящее время еще не
разработан подход, количественно оценивающий вероятность ошибочного предсказания РНК структуры.
11
Один из недавно предложенных подходов основан на анализе кинетики сворачивания РНК в процессе ее синтеза [22]. При этом, в отличие от методов минимизации
свободной энергии, ищутся не наиболее стабильные структуры, а структуры, кинетически доступные для сворачивания. Для этих подходов пока не проводилось массового
анализа, однако, несмотря на физическую ясность подхода, этот метод содержит в себе
довольно много неучтенных факторов.
Наконец, есть так называемый «биологический» подход, основанный на идее, что
биологически важные вторичные структуры должны сохраняться в процессе эволюции [23]. При таком подходе анализируется не одна последовательность, а множество
последовательностей, выполняющих одну биологическую функцию. Однако при анализе множества полимеров часто используют алгоритмы минимизации энергии, что
влечет за собой ошибки.
Есть ряд других алгоритмов поиска оптимальной структуры, использующих методы
стохастической оптимизации, в частности, генетические алгоритмы.
Таким образом, предсказание вторичной структуры молекулы РНК по ее первичной
— все еще открытый вопрос и исследования в этой области продолжаются [24–27].
Особое место среди таких задач занимают задачи о связывании РНК с биополимерами
(белки, ДНК, РНК). Роль таких биополимеров как ДНК и РНК в механизмах клеточной
регуляции общеизвестна. Их взаимодействие является одним из необходимых этапов
клеточного цикла, связанного с хранением и передачей генетической информации. Помимо общеизвестных механизмов трансляции и транскрипции информации, основанных на ДНК–РНК связывании, исключительно важную роль играют РНК–РНК взаимодействия. Эти взаимодействия имеют ключевое значение для регуляции экспрессии
генов [28, 29]. Молекулы РНК, посредством образования комплементарных пар, связываются с матричной РНК или ее участком и, тем самым, останавливают трансляцию
генов с данной мРНК [28]. Молекулы РНК, участвующие в процессах данного типа,
называются некодирующими РНК (нкРНК). Это название обусловлено тем, что они сами не транслируются в белки [29] и, следовательно, исключены из непосредственного
процесса транскрипции.
Важная биологическая роль РНК–РНК взаимодействий обуславливает необходимость построения эффективного алгоритма, который бы позволил по первичным струк-
12
турам молекул РНК, теоретически вычислять энергию связывания, а также предсказывать вторичную структуру такого комплекса. Эта задача тесно связана с проблемой выравнивания (alignment) двух произвольных линейных последовательностей типа ДНК.
Существенным отличием задачи выравнивания молекул РНК от аналогичной задачи для
ДНК является наличие нетривиальной вторичной структуры у молекул РНК (Рис. 1.3).
Существует ряд подходов к определению энергии РНК-РНК взаимодействия [30–34].
Однако все они применимы в своем, достаточно узком семействе РНК последовательностей и «хорошо» работают только на конкретных примерах. Проблемы определения
энергии РНК-РНК связывания аналогичны проблемам, возникающим в задачах предсказания вторичной структуры РНК, и эффективность того или иного алгоритма зависит
от выбора факторов, которыми можно и нельзя пренебречь.
Конечно, ограничения того или иного метода могут оказаться существенными для
предсказания структуры конкретной молекулы РНК, что, в свою очередь, может привести к неверным выводам о ее функции. Однако, для исследования статистических
свойств случайных последовательностей РНК, т.е. цепочек со случайной первичной
структурой, достаточно учесть основополагающие свойства полимера, — для РНК, это,
в первую очередь, иерархическая вторичная структура типа клеверного листа, образующаяся согласно комплементарности азотистых оснований, и пренебречь теми, которые
влияют, в большей степени, на структуру (и функцию) конкретной молекулы — псевдоузлами, минимальной длиной петли, стэкинг-взаимодействием.
1.3
Случайная первичная структура РНК
Данная работа посвящена исследованию последовательностей со случайной первичной структурой. Известно, что биомакромолекулы являются «слабо отредактированными случайными гетерополимерами» [1, 2]. Более того, для ряда задач распределение
мономерных звеньев в первичной структуре, например, функциональных РНК можно считать случайным [3,4]. Модель случайной первичной структуры является базовой
моделью, описывающей основной (нулевой) вклад в наблюдаемые физические явления.
В работе рассматриваются статистические особенности вторичных структур длинных (от 1000 мономеров) случайных РНК последовательностей. Такие исследования
13
играют важную роль, например, в понимании того, насколько «близки» или «далеки»
случайные РНК от реальных [35], какие свойства биополимера наиболее существенны
для выполнения им определенной функции и, в конце концов, могли ли возникнуть
функциональные РНК из случайных в ходе эволюции [36]. Случайные РНК представляют также довольно «удобную» систему для изучения термодинамических свойств
реальных молекул. Исследование фазовых переходов [37–39], ответа цепочки на внешнюю силу [40, 41] основаны на модели случайной первичной структуры биополимера.
Существенным преимуществом этой модели является возможность охарактеризовать
систему не только численно, но и аналитически.
Остановимся на двух, важных для дальнейшего рассмотрения, задачах в области
статистической физики случайных РНК: термодинамических особенностях случайных
РНК и описании вторичной структуры РНК случайными матрицами.
1.4
Термодинамические свойства
В рамках модели случайной РНК последовательности были сделаны важные шаги в
исследовании термодинамических свойств молекул РНК. Данные исследования важны
не только для предсказания структуры и функции биополимеров, но также обширно используются для разработки методов скрининга экспериментальных данных для
выявления генетических маркеров заболевания [42], секвенирования одиночных нуклеотидных полиморфизмов, выбора оптимальных условий для экспериментов по гибридизации и клонированию [43, 44]. Кроме того, разработка ДНК-чипов для быстрого
скрининга и секвенирования основана на способности предсказывать термодинамическую устойчивость комплексов, образованных олигонуклеотидными зондами [45, 46].
С пионерских работ Бундшу и Хва [37,38], несколько авторов занимались исследованиями термодинамических свойств случайных РНК [39,47–49]. К настоящему времени,
принято считать, что в этой системе имеет место фазовый переход в «замороженное»
состояние при низких температурах. Основываясь на репличном анализе, Лассиг и Визе, [50] и Давид и Визе [51] сформулировали задачу о переходе в терминах теории
поля. Ниже приводятся доводы Бундшу и Хва, доказывающие существование фазового
перехода и обсуждаются характерные свойства разных фаз.
14
В зависимости от температуры, случайная РНК находится в одной из фаз: i) «расплавленная» высокотемпературная фаза (molten phase) или ii) «замороженная» низкотемпературная фаза (glass phase). В высокотемпературной фазе большую роль играет
энтропия цепочки, нежели порядок мономеров в первичной структуре. Данная фаза
хорошо описывается в модели гомополимера, комплементарное связывание не играет
роли, и эффективно можно заменить все мономеры мономерами одного типа 𝐴. Низкотемпературная фаза, наоборот, определяется, в первую очередь, первичной структурой
цепочки, то есть, основной вклад в свободную энергию обусловлен комплементарным
связыванием мономеров. Такую фазу принято характеризовать замороженным беспорядком [37, 38]. Температура, при которой РНК переходит из одной фазы в другую,
называется температурой фазового перехода и в литературе обозначается 𝑇𝑔 .
Был предложен следующий подход к определению температуры фазового перехода. Рассмотрим пару мономеров, чье взаимодействие приводит к образованию петли
наибольшего размера, т.е. нуклеотидов с номером 1 и 𝐿/2 по цепи для последовательности длиной 𝐿 (Рис. 1.4(а)). Определим энергию выигрыша данного контакта,
которая определяется как ∆𝐹 (𝐿) = 𝑘𝐵 𝑇 ln 𝑃1,𝐿/2 , где 𝑃1,𝐿/2 — вероятность связывания
1 и 𝐿/2 мономера цепи. Данную энергию называют энергией пинча, и из выражения
для статистической суммы цепочки (1.1), легко видеть, что:
∆𝐹 (𝐿) = 𝐹1,𝐿 − (𝐹1,𝐿/2 + 𝐹𝐿/2+1,𝐿 ).
(1.2)
Вероятность образования контакта между мономерами в высокотемпературной фазе
3
зависит только от расстояния между ними, поэтому 𝑃1,𝐿/2 =
3
(𝐿/2)− 2 (𝐿/2)− 2
3
𝐿− 2
. Энергия
пинча, таким образом,
3
∆𝐹 (𝐿) ∼ 𝑇 ln 𝐿
2
(1.3)
линейно зависит от температуры. Температура, при которой нарушается линейная зависимость ∆𝐹 (𝐿), и есть температура фазового перехода. В численном моделировании
температуру перехода обычно определяют следующим образом. Зависимость ∆𝐹 (𝐿)
от длины случайной последовательности РНК аппроксимируют прямой
∆𝐹 (𝐿) = 𝑎(𝑇 ) ln 𝐿 + 𝑏(𝑇 ),
(1.4)
и строят зависимость угла наклона 𝑎(𝑇 ). В высокотемпературной фазе с хорошой точностью 𝑎(𝑇 ) = 32 𝑘𝐵 𝑇 (Рис. 1.5). В низкотемпературной фазе, в отличие от высокотемпе15
(a)
(б)
(в)
Рис. 1.4 Вычисление энергии пинча: разделение цепочки на две половинки
ограничивает число возможных конфигураций (a). Полностью комплементарные
участки, один из которых лежит между 1 и 𝐿/2, а второй — между (𝐿/2 + 1) и 𝐿 (б)
могут быть найдены почти для любой случайной РНК. Комплементарное связывание
ограничивает возможные конфигурации (в). Молекула разделяется на две петли, в
каждой из которых образование связей происходит независимо [38].
ратурной, выигрыш зависит, в первую очередь, от первичного беспорядка (структуры)
последовательности (Рис. 1.4(б,в)). Разрыв контакта между 1 и 𝐿/2 мономером определяется не столько энтропийным фактором — насколько близки или далеки данные
мономеры, а скорее энергетическими, т.е. средней энергией на мономер, числом несвязанных мономеров в цепочке. Зависимость наклона 𝑎(𝑇 ) = 23 𝑘𝐵 𝑇 нарушается (Рис. 1.5).
Низкотемпературная фаза характеризуется линейным ростом энергии пинча с уменьшением температуры. Точка пересечения двух прямых определяет температуру фазового
перехода 𝑇𝑔 . В работе [48] было высказано предположение о том, что в низкотемпературной фазе, энергия пинча зависит от логарифма длины не линейным образом
(Рис. 1.5), а квадратично.
Переход между расплавленной и замороженной фазой относится к непрерывным
переходам второго рода [50]. Было показано, что температура перехода 𝑇𝑔 непосред16
Рис. 1.5 Зависимость наклона 𝑎(𝑇 ) уравнения (1.4) от температуры для случайной
последовательности РНК [38]. Температура представлена в единицах энергии
комплементарной пары 𝑢𝑚 .
ственно связана со средним количеством несвязанных мономеров в основном состоянии [38]. Аналитическая оценка температуры перехода 𝑇𝑔 на порядок отличается от
экспериментально полученной [38].
Высокотемпературная и низкотемпературная фазы обладают разными скейлинговыми свойствами. Одна из величин, которая представляет интерес, — характерный размер
структуры РНК. Под характерным размером ℎ понимают высоту соответствующей диаграммы в арочном представлении (Рис. 1.6) Было показано численно [38] и затем подтверждено аналитически [51], что низкотемпературная фаза характеризуется степенной
зависимостью ℎ от длины последовательности
< ℎ >∼ 𝐿𝜁 ,
(1.5)
со степенью 𝜁 ≈ 0.64, что близко к 𝜁0 = 2/3, и указывает на класс универсальности
Кардара-Паризи-Жанга [52], характерного для таких процессов как, например, рост
поверхности и баллистическая депозиция [53]. В высокотемпературной фазе численный эксперимент дает степень 𝜁 ≈ 0.54 [38], что находится в согласии с ожидаемой
величиной 𝜁0 = 1/2, характеризующей размер клубка случайного полимера [2]. Сто17
(a)
(b)
Рис. 1.6 Характерный размер структуры РНК в арочном представлении (а). Размер
структуры определяется количеством пар, которые нужно разбить в максимально
возможной петле (б) [37].
ит отметить, что значительную роль в исследовании скейлинговых свойст случайной
РНК сыграл матричный подход к описанию структуры. Построенная полевая теория
перехода позволила также говорить о том, что переход происходит через образования
зародышей в расплавленной фазе [50]. В следующем разделе подробно представлены
основные положения описания структуры РНК случайными матрицами.
1.5
Описание РНК структур случайными матрицами
Для простоты предположим, что случайный полимер обладает бесконечной гибкостью, таким образом, можно пренебречь стерическими ограничениями и говорить, что
любые парные взаимодействия в цепочке возможны [54]. Статистическая сумма такой
последовательности длиной 𝐿 в этом случае может быть представлена в виде:
𝑍𝐿 = 1 +
∑︁
<𝑖𝑗>
𝑉𝑖,𝑗 +
∑︁
𝑉𝑖,𝑗 𝑉𝑘,𝑙 +
<𝑖𝑗𝑘𝑙>
∑︁
𝑉𝑖,𝑗 𝑉𝑘,𝑙 + ...,
(1.6)
<𝑖𝑘𝑗𝑙>
где 𝑉𝑖,𝑗 = 𝑒𝑥𝑝(−𝑘𝐵 𝜖𝑖,𝑗 /𝑇 ) обозначает статистический вес контакта (𝑖, 𝑗) с соответствующей энергией 𝜖𝑖,𝑗 ; < 𝑖𝑗 > обозначает все пары 𝑖 < 𝑗, < 𝑖𝑗𝑘𝑙 > — четверки 𝑖 < 𝑗 < 𝑘 < 𝑙
и т.д. Суммирование ведется по все возможным контактам в цепи 𝐿. Как было показано в [55], каждый член соответствует своей арочной диаграмме (Рис. 1.2). В этом
представлении нуклеотиды — это точки, ориентированные на горизонтальной оси в
направлении от 5‘ к 3‘ концу молекулы и каждая комплементарная пара — арка между
18
взаимодействующими основаниями. Диаграммы, состоящие из непересекающихся арок
называют планарными. Такие диаграммы соответствуют кактусообразным структурам
РНК. Структуры типа псевдоузлов в диаграммном представлении, как уже упоминалось, соответствуют пересечению арок. Основная идея матричного анализа структур
РНК заключается в следующем [55]. Рассмотрим интеграл по случайным матрицам
1
𝑍𝐿 (𝑁, 𝑉 ) =
𝐴𝐿 (𝑁 )
∫︁ ∏︁
𝐿
−𝑁
2
𝑑𝜑𝑘 𝑒
∑︀
𝑖,𝑗 (𝑉
−1 ) 𝑡𝑟(𝜑 𝜑 )
𝑖,𝑗
𝑖 𝑗
𝑘=1
𝐿
1 ∏︁
𝑡𝑟 (1 + 𝜑𝑙 ).
𝑁 𝑙=1
(1.7)
Здесь 𝜑𝑖 , где 𝑖 пробегает значения от 𝑖 = 1 до 𝑖 = 𝐿, обозначает 𝑖-ую случайную
∏︀
эрмитову матрицу, размера 𝑁 × 𝑁 и 𝐿𝑙=1 (1 + 𝜑𝑙 ) — упорядоченное произведение таких
матриц: (1 + 𝜑1 )(1 + 𝜑2 )...(1 + 𝜑𝐿 ). Нормировочный множитель
𝐴𝐿 (𝑁 ) =
∫︁ ∏︁
𝐿
𝑁
𝑑𝜑𝑘 𝑒− 2
∑︀
𝑖,𝑗 (𝑉
−1 ) 𝑡𝑟(𝜑 𝜑 )
𝑖,𝑗
𝑖 𝑗
,
(1.8)
𝑘=1
и 𝑉 — симметричная 𝐿 × 𝐿 матрица с элементами 𝑉𝑖,𝑗 . Интеграл 1.7 можно оценить используя теорему Вика. В результате, для больших 𝑁 интеграл (1.7) можно представить,
как
𝑍𝐿 (𝑁 ) = 1 +
∑︁
<𝑖𝑗>
𝑉𝑖,𝑗 +
∑︁
𝑉𝑖,𝑗 𝑉𝑘,𝑙 +
<𝑖𝑗𝑘𝑙>
1 ∑︁
𝑉𝑖,𝑗 𝑉𝑘,𝑙 + ...
𝑁 2 <𝑖𝑘𝑗𝑙>
(1.9)
Взаимосвязь полученной функции со статистической суммой (1.6) очевидна. При 𝑁 = 1
функции совпадают, для 𝑁 > 1 слагаемые (1.9) содержат информацию о топологии конфигураций. Все планарные диаграммы описываются членом 𝑂(1) (1.9), более высокие
порядки разложения 1/𝑁 2 соответствуют структурам РНК с псевдоузлами. Классификация псевдоузлов, возникающая из выражения (1.9) описана в [56]. В общем случае для
конкретной последовательности РНК, описываемой матрицей с элементами 𝑉𝑖,𝑗 , задача
определения всех возможных конфигураций оказывается очень сложной. Для точного описания топологии вторичных структур РНК пользуются рядом упрощений. Так,
предположение, что все элементы матрицы 𝑉𝑖,𝑗 равны между собой 𝑉𝑖,𝑗 = 𝜐, позволяет
вывести общую формулу для статистической суммы, причем каждое слагаемое несет
информацию и о топологии структуры и о количестве контактов в ней (Табл. 1.2). В этом
случае, многомерный интеграл (1.7) может быть сведен преобразованиями ХаббардаСтратоновича к одномерному, включающему спектральную плотность гауссовой матрицы [57]. Так как выражение для спектральной плотности хорошо известно из теории
19
случайных матриц [58], интеграл (1.7) можно вычислить точно. Так, для четырехбуквенной последовательности статистическая сумма 𝑍4 (𝑁 ) = 1 + 6𝜐 + 2𝜐 2 + 𝜐 2 /𝑁 2 , а
соответствующие разрешенные конфигурации представлены на Рис. 1.7.
Рис. 1.7 Возможные конфигурации для четырехбуквенной последовательности.
1/𝑁 2 –разложение статистической суммы 𝑍𝐿 (𝑁 ) можно представить
𝑍𝐿 (𝑁 ) =
𝐿/2
∑︁
𝑎𝑛,𝑔 𝜐 𝑛
𝑛=0
𝑁 2𝑔
,
(1.10)
где 𝑎𝑛,𝑔 описывает количество конфигураций определенного типа 𝑔 (𝑔 = 0 — планарные
диаграммы, 𝑔 = 1 — конфигурации с одним псевдоузлом) c 𝑛 арками (Рис. 1.7).
Разложение 𝑍𝐿 (𝑁 ) по степеням большим чем 1/𝑁 2 описывает конфигурации со
сложными псевдоузлами. Теория таких структур описана в [60].
20
𝐿
𝑍𝐿 (𝑁 )
1
1
2
1+𝜐
3
1 + 3𝜐
4
1 + 6𝜐 + 2𝜐 2 + 𝜐 2 /𝑁 2
5
1 + 10𝜐 + 10𝜐 2 + 5𝜐 2 /𝑁 2
6
1 + 15𝜐 + 30𝜐 2 + 5𝜐 3 + (15𝜐 2 + 10𝜐 3 )/𝑁 2
7
1 + 21𝜐 + 70𝜐 2 + 35𝜐 3 + (35𝜐 2 + 70𝜐 3 )/𝑁 2
8
1 + 28𝜐 + 140𝜐 2 + 140𝜐 3 + 14𝜐 4 +
(70𝜐 2 + 280𝜐 3 + 70𝜐 4 )/𝑁 2 + 21𝜐 4 /𝑁 2
Таблица 1.2 Разложение статистической суммы (1.7) по степеням 1/𝑁 2 для разных
длин полимера 𝐿 [59].
21
Глава 2
Алгоритмы вычисления свободной
энергии РНК-подобных структур
Данная глава посвящена разработанным алгоритмах описания вторичной структуры
биополимеров и вычисления их свободной энергии.
Сначала рассматривается задача о так называемом выравнивании двух последовательностей и приводится стандартный алгоритм динамического программирования, используемый для определения оптимальной конфигурации в такой задаче. Затем показывается, что задача о выравнивании последовательностей может быть представлена как
задача о вычислении свободной энергии основного состояния (т.е. при 𝑇 → 0) статистической модели, описывающей комплексообразование двух линейных сополимеров.
Далее, учитывая способность каждого из сополимеров образовывать РНК-подобную
структуру с иерархией петлевых участков, выводится выражение для статистической
суммы такого двунитевого комплекса. Рассматривается алгоритм определения энергии
основного состояния такого РНК-подобного комплекса и соответствующий подход к
описанию его структуры.
2.1
Выравнивание последовательностей
Задача о выравнивании двух последовательностей – это задача нахождения эффективного алгоритма поиска наибольшей общей подпоследовательности (НОП) двух произвольных линейных последовательностей. Данная проблема является одной из ключе-
22
вых задач вычислительной эволюционной биологии. В частности, она позволяет судить
о том насколько далеко (в эволюционном смысле) разошлись друг от друга два рассматриваемых гена и какие гены могут являться их общими предками [61, 62]. Задача об
НОП широко исследовалась в биологии [63–65], компьютерных науках [66–69], теории
вероятности [70–75] и позже в статистической физике [37, 76–78].
Задача о поиске НОП двух последовательностей формулируется следующим образом. Рассмотрим две произвольные последовательности (в качестве примера рассматриваются последовательности РНК, составленные из 4-х буквенного алфавита A, C, G, U):
𝑆1 = {A, C, G, C, U, A, C} длины 𝑚 = 7 и 𝑆2 = {C, U, G, A, C} длины 𝑛 = 5. Далее, везде
под алфавитом подрузамевается количество различных мономерных хвеньев в первичной структуре. Общая подпоследовательность – это подпоследовательность, содержащая буквы (нуклеотиды) как первой, так и второй последовательности, причем подпоследовательность необязательно содержит буквы, идущие непосредственно друг за
другом. Так, например, для двух последовательностей 𝑆1 и 𝑆2 можно выделить несколько различных общих подпоследовательностей, например, {C, U, A, C} или {G, A, C} –
обе эти подпоследоавтельности содержатся в 𝑆1 и 𝑆2 , и являются для них общими.
Число возможных общих подпоследовательностей с ростом длин 𝑚 и 𝑛 полимеров
растет экспоненциально. Алгоритм для определения оптимального выравнивания двух
последовательностей впервые был сформулирован в [79]. В наиболее общем смысле
каждое выравнивание двух последовательностей характеризуется числом совпадающих
и несовпадающих букв и числом пропусков (делеций) в выравненных последовательностях. Для каждого выравнивания можно ввести весовую функцию (cost function),
имеющую значение энергии [79, 80]:
𝐹 = 𝑁match + 𝜇 𝑁mis + 𝛿 𝑁gap .
(2.1)
В формуле (2.1) 𝑁match , 𝑁mis и 𝑁gap – число пар совпадающих букв, число пар несовпадающих букв и число делеций в рассматриваемом выравнивании, соответственно.
Величины 𝜇 и 𝛿 – это вклады в весовую функцию от пары несовпадающих букв и
делеции; вклад от пары совпадающих нуклеотидов, без потери общности, можно считать равным 1. В таком представлении функция 𝐹 удовлетворяет очевидному закону
сохранения:
𝑛 + 𝑚 = 2𝑁match + 2𝑁mis + 𝑁gap .
23
(2.2)
Используя (2.2), формулу (2.1) можно переписать в виде:
𝐹˜ = 𝑁match + 𝛾𝑁mis ,
(2.3)
где
𝛾=
𝜇 − 2𝛿
.
1 − 2𝛿
(2.4)
Здесь интерес представляет область 0 ≤ 𝛾 ≤ 1, так как, случай 𝛾 < 0 неотличим от
𝛾 = 0, а случай 𝛾 > 1 соответствует тому, что «несовпадения» более выгодны, чем
«совпадения» и может быть учтен простым переопределением этих понятий. Заметим,
что, хотя предлагаемая теория применима ко всему доступному интервалу значений
𝛾, все численные результаты настоящей работы получены для случая 𝛾 = 0, который
представляется наиболее физически осмысленным. Задача поиска НОП заключается в
определении выравнивания с максимальным значением весовой функции 𝐹 .
Оказывается, что для нахождения весовой функции 𝐹 удобнее всего использовать
рекурсивный алгоритм, известный как метод динамического программирования:
[︁
]︁
max
max
max
max
𝐹˜𝑖,𝑗
= max 𝐹˜𝑖−1,𝑗
, 𝐹˜𝑖,𝑗−1
, 𝐹˜𝑖−1,𝑗−1
+ 𝜁𝑖,𝑗 ,
(2.5)
где
𝜁𝑖,𝑗 =
⎧
⎪
⎨1,
для 𝑆1 (𝑖) = 𝑆2 (𝑗)
⎪
⎩𝛾,
для 𝑆1 (𝑖) ̸= 𝑆2 (𝑗).
(2.6)
Выражения (2.5)—(2.6) имеют следующий смысл. Начиная с левых концов последовательностей, на каждом шаге выбирается такое положение букв в выравнивании,
которое вносит наибольший вклад в функцию 𝐹 . Члены в (2.5) соответствуют трем возможным ситуациям: пропуску буквы в первой последовательности, пропуску во второй
последовательности и случаю, когда 𝑖-ая буква первой последовательности выравнена
с 𝑗-ой буквой второй последовательности.
2.2
Комплементарное связывание биополимеров
Цель работы заключается в разработке статистического алгоритма вычисления весовой функции, которая бы характеризовала «похожесть» двух заданных последовательностей со сложной вторичной структурой типа РНК. Эта функция должна включать
24
как энергетический вклад от непосредственного взаимодействия мономеров друг с другом, так и энтропийный вклад, обусловленный наличием ансамбля пространственных
конформаций макромолекул. При этом постараемся, по возможности, остаться в рамках статистической физики и избежать неконтролируемых эвристических соображений,
апеллирующих к опыту, полученному в результате анализа экспериментальных данных.
Прежде всего покажем, что рекуррентное соотношение (2.5) имеет прозрачный физический смысл в терминах статистической физики и формулы (2.5), (2.6) можно рассматривать как свободную энергию статистической модели, описывающей комплексообразование двух взаимодействующих линейных полимеров в пределе нулевой температуры. Затем, учитывая возможность того, что каждый из полимеров может, помимо собственно компексообразования, образовывать сложную иерархическую структуру,
обобщим выражение для статистической суммы (соответствующей ненулевой температуре) на комплексы с внутренней иерархической структурой. Переходя в конечном
выражении снова к пределу 𝑇 → 0, найдем искомую весовую функцию.
Рассмотрим вспомогательную статистическую модель, описывающую взаимодействие двух линейных полимеров с произвольными первичными последовательностями.
Пусть длины этих последовательностей, измеренные в единицах мономерных звеньев,
равны 𝑚 и 𝑛, соответственно. Каждый мономер может быть выбран из 𝑐 различных
мономеров 𝐴, 𝐵, 𝐶, 𝐷, ... (Для последовательностей РНК 𝑐 = 4). Мономеры первой последовательности могут образовывать связи с мономерами второй последовательности.
В молекулах РНК такие связи образуются согласно комплементарности азотистых оснований (1.1). Будем считать энергию связи между комплементарными нуклеотидами
равной −𝑢, а энергию между некомплементарными равной −𝑣, где 𝑢 и 𝑣 — некоторые положительные величины (|𝑣| > |𝑢|). Предположим также, что некоторые части
полимеров могут образовывать петли. На Рис. 2.1 схематически представлено взаимодействие двухбуквенных полимеров. Очевидно, что петли соответствуют делециям в
задаче о выравнивании двух последовательностей.
Задача заключается в вычислении свободной энергии описанной модели при достаточно низких температурах, при которых энтропийным вкладом можно пренебречь по
сравнению с энергетическим. Пусть 𝐺𝑚,𝑛 – статистическая сумма рассматриваемого
комплекса. По смыслу 𝐺𝑚,𝑛 – это сумма по всем возможным конфигурациям связей.
25
Рис. 2.1 Взаимодействие мономерных звеньев в РНК-подобной структуре с
петлевыми участками как выравнивание соответствующих последовательностей
(первичных структур).
При низких температурах 𝐺𝑚,𝑛 можно представить как:
⎧
𝑚,𝑛
∑︁
⎪
⎪
⎨ 𝐺𝑚,𝑛 = 1 +
𝛽𝑖,𝑗 𝐺𝑖−1,𝑗−1
𝑖,𝑗=1
(2.7)
⎪
⎪
⎩ 𝐺 = 1; 𝐺 = 1; 𝐺 = 1.
𝑚,0
0,𝑛
0,0
Смысл данной формулы очевиден: начиная с левого конца последовательностей (Рис. 2.1), находим первый существующий контакт между 𝑖-м мономером первой
цепи и 𝑗-м мономером второй, а далее суммируем по всем возможным расположениям
этого контакта. Статистические веса связей 𝛽𝑖,𝑗 определяются энергией контакта между
𝑖-ым и 𝑗-ым мономерами:
⎧
⎪
⎨𝛽 + ≡ 𝑒𝑢/𝑇 , 𝑆1 (𝑖) и 𝑆2 (𝑗) комплементарны
𝛽𝑖,𝑗 =
⎪
⎩𝛽 − ≡ 𝑒𝑣/𝑇 , 𝑆1 (𝑖) и 𝑆2 (𝑗) не комплементарны.
(2.8)
Здесь и далее, 𝑇 ≡ 𝑘𝐵 𝑇 . Легко проверить, что статистическая сумма вида (2.7) удовлетворяет рекуррентному соотношению:
𝐺𝑚,𝑛 = 𝐺𝑚−1,𝑛 + 𝐺𝑚,𝑛−1 + (𝛽𝑚,𝑛 − 1) 𝐺𝑚−1,𝑛−1 .
(2.9)
В свою очередь, статистическая сумма связана со свободной энергией комплекса 𝐹𝑚,𝑛
и температурой 𝑇 известным соотношением 𝐺𝑚,𝑛 = exp{−𝐹𝑚,𝑛 /𝑇 }. Будем интере26
соваться значением свободной энергии с точностью до знака, тогда для величины
𝐹˜𝑚,𝑛 = −𝐹𝑚,𝑛 , переходя в уравнении (2.9) к пределу 𝑇 → 0, получим:
(︁
)︁
˜
˜
˜
𝐹˜𝑚,𝑛 = lim 𝑇 ln 𝑒𝐹𝑚−1,𝑛 /𝑇 + 𝑒𝐹𝑚,𝑛−1 /𝑇 + (𝛽𝑚,𝑛 − 1) 𝑒𝐹𝑚−1,𝑛−1 /𝑇 .
𝑇 →0
(2.10)
Формулу (2.10) можно переписать в виде:
[︁
]︁
𝐹˜𝑚,𝑛 = max 𝐹˜𝑚−1,𝑛 , 𝐹˜𝑚,𝑛−1 , 𝐹˜𝑚−1,𝑛−1 + 𝜂𝑚,𝑛 ,
(2.11)
где введено обозначение:
𝜂𝑚,𝑛 = 𝑇 ln(𝛽𝑚,𝑛 − 1) =
⎧
⎪
⎨𝜂 + = 𝑇 ln(𝑒𝑢/𝑇 − 1), если 𝑆1 (𝑖) и 𝑆2 (𝑗) комплементарны
=
⎪
⎩𝜂 − = 𝑇 ln(𝑒𝑣/𝑇 − 1), если 𝑆1 (𝑖) и 𝑆2 (𝑗) не комплементарны.
(2.12)
Принимая 𝜂 + за единицу энергии, перепишем формулу (2.11) в виде:
[︁
]︁
𝐹˜𝑚,𝑛 = max 𝐹˜𝑚−1,𝑛 , 𝐹˜𝑚,𝑛−1 , 𝐹˜𝑚−1,𝑛−1 + 𝜂˜𝑚,𝑛 ,
(2.13)
с
𝜂˜𝑚,𝑛 =
⎧
⎪
⎪
⎨1,
−
𝑣/𝑇
ln(𝑒
𝜂
⎪
⎪
⎩𝑎 = + =
𝜂
ln(𝑒𝑢/𝑇
если 𝑆1 (𝑖) и 𝑆2 (𝑗) комплементарны
⃒
(2.14)
𝑣
− 1) ⃒⃒
=
,
если
𝑆
(𝑖)
и
𝑆
(𝑗)
не
комплементарны.
1
2
− 1) ⃒𝑇 →0 𝑢
И функция 𝐹˜𝑚,𝑛 удовлетворяет начальным условиям: 𝐹˜0,𝑛 = 𝐹˜𝑛,0 = 𝐹˜0,0 = 0. Видно,
что выражение свободной энергии связывания двух полимеров без петлевых взаимодействий имеет вид, совпадающий с (2.5). Далее, все результаты численного моделирования
представлены для
𝑣
𝑢
= 0.
Таким образом, рекурсия, используемая в методе динамического программирования
является ничем иным, как рекуррентным соотношением на свободную энергию взаимодействия гетерополимеров в пределе нулевой температуры. В природе существует
множество примеров образования подобных гетерополимерных комплексов, например,
образование двойной спирали ДНК.
Отметим, что предложенная выше модель является лишь первым приближением
к описанию комплексообразования биополимеров. Известно (см., например, [2]), что
для точного количественного описания такого связывания, например, двойной спирали ДНК необходимо учесть еще ряд факторов. Во-первых, не учтены так называемые
27
«петлевые факторы»: при образовании петли возможные конформации полимера ограничены условием, что ее концы обязаны сойтись в одной точке пространства, поэтому
образование каждой петли приводит к снижению энтропии комплекса. Во-вторых, в
реальной ДНК имеется выраженная кооперативность образования связей: вероятность
образования связи выше, если соседние мономеры также образуют связь. В-третьих, не
учтено, что гибкость полимера конечна и, тем самым, существует ограничение на минимальную длину петли. И наконец, не было принято во внимание то обстоятельство,
что комплементарные пары 𝐴 − 𝑇 и 𝐶 − 𝐺 имеют различную энергию связи и, что
помимо комплементарных пар, возможно образование неканонических пар (см. 1.1).
Обобщение выражений (2.7)–(2.14) с учетом кооперативности образования связи,
минимальной длины петли и различной энергией комплементарных связей — задача
вычислительно сложная, но не требующая качественного изменения предложенного
формализма, т.к. эти факторы влияют только на локальные свойства полимерных цепей. С другой стороны, петлевой фактор — характеристика нелокальная, зависящая
от расстояния между мономерами, образующими связи и в этом случае нельзя описать состояние комплекса уравнениями динамического программирования, вида (2.7).
Однако, поскольку петлевые факторы имеют энтропийную природу, в пределе низких
температур (𝑇 → 0) их вклад в свободную энергию гетерополимерного комплекса
становится пренебрежимо мал. Ситуация усложняется, если сами петли могут образовывать вторичную структуру (т.е. если внутри петли имеет место взаимодействие
между мономерами), а именно такая ситуация типична для последовательностей РНК.
В этом случае энергетический вклад от вторичной структуры петли сохраняется и в
пределе нулевой температуры, и его учет становится необходим.
2.3
Связывание РНК с внутрипетлевым взаимодействием
В этом разделе обобщается модель взаимодействия двух сополимеров на случай,
когда возможно комплементарное связывание внутри петель комплекса. Будем рассматривать иерархические структуры петель типа клеверного листа (Рис. 1.2(a)), структуры
типа псевдоузлов (Рис. 1.2(б)) в данной работе не рассматриваются. Как и в предыду28
Рис. 2.2 Диаграмма для вычисления статистического веса 𝑔 последовательности.
щем параграфе для простоты не будем учитывать кооперативность образования связей
и различие в энергиях комплементарных пар. Однако, как уже указывалось, модель
может быть обобщена с учетом этих факторов. Согласно [41] можно переписать выражение (2.7) для статистической суммы 𝐺𝑚,𝑛 двух взаимодействующих сополимеров в
виде:
⎧
𝑚,𝑛
∑︁
⎪
(1)
(2)
(1) (2)
⎪
⎨ 𝐺𝑚,𝑛 = 𝑔1,𝑚 𝑔1,𝑛 +
𝛽𝑖,𝑗 𝐺𝑖−1,𝑗−1 𝑔𝑖+1,𝑚 𝑔𝑗+1,𝑛
𝑖,𝑗=1
(2.15)
⎪
⎪
⎩ 𝐺 = 𝑔 (1) ; 𝐺 = 𝑔 (2) ; 𝐺 = 1,
𝑚,0
0,𝑛
0,0
1,𝑚
1,𝑛
(1)
(2)
где 𝑔𝑖,𝑗 и 𝑔𝑖,𝑗 обозначены статистические веса участков (с 𝑖-го нуклеотида до 𝑗-го) первой и второй последовательности, соответственно, удовлетворяющие уравнениям [81]:
⎧
𝑗−1
𝑗
∑︁
∑︁
⎪
⎪
(𝑎)
(𝑎)
(𝑎)
′
⎨ 𝑔𝑖,𝑗 = 1 +
𝛽𝑘,𝑙
𝑔𝑘+1,𝑙−1 𝑔𝑙+1,𝑗 ;
(2.16)
𝑘=𝑖 𝑙=𝑖+1+ℓ
⎪
⎪
⎩ 𝑔 (𝑎) = 1, 𝑎 = 1, 2.
𝑖,𝑖
Эти уравнения отвечают за топологию кактусообразной структуры, свойственной молекулам РНК, диаграмма, описывающая такие структуры представлена на Рис.2.2. Ко′
– это константы, описывающие взаимодействие внутри последоваэффициенты 𝛽𝑖,𝑗
тельности, аналогичные 𝛽𝑚,𝑛 . Суммирование по 𝑗 ведется от 𝑖 + 1 + ℓ до 𝑛 для того
чтобы исключить петли длиной меньше ℓ мономеров. В последующих вычислениях,
как правило, предполагается, что ℓ=0, также обсуждается случай ℓ = 3. Напомним еще
раз, что так как интерес представляет низкие температуры, можно пренебречь вкладом,
связанным с потерей энтропии при образовании петель.
(𝑎)
Сложную систему уравнений на статистические веса петлевых участках 𝑔𝑖,𝑗 , 𝑎 =
1, 2 (2.16) можно решить следующим образом. Для каждой из последовательности РНК
можно построить матрицу 𝑔, (𝑖, 𝑗)-й элемент которой определяет статистический вес
участка, начинающейся с 𝑖-го нуклеотида и заканчивающейся 𝑗-м. Таким образом, статистические веса всех возможных петель описываются матрицами размера 𝑚 × 𝑚 для
первой последовательности и 𝑛 × 𝑛 для второй. Из граничных условий (2.16) можно
29
(𝑎)
однозначно определить элементы 𝑔𝑖,𝑖+1 . Из (2.16) следует, что элементы последующих
(𝑎)
(𝑎)
субдиагоналей 𝑔𝑖,𝑖+𝑘 зависят только от элементов предыдущих субдиагоналей 𝑔𝑖,𝑖+𝑘−𝑙
матрицы:
(𝑎)
𝑔𝑖,𝑖+𝑘
=
(𝑎)
𝑔𝑖+1,𝑖+𝑘
+
𝑖+𝑘
∑︁
(𝑎)
(𝑎)
′
𝛽𝑖,𝑠
𝑔𝑖+1,𝑠−1 𝑔𝑠+1,𝑖+𝑘 .
(2.17)
𝑠=𝑖+1
Определенные таким образом матрицы статистических весов 𝑔 (𝑎) всех возможных петель позволяют вычислить статистическую сумму взаимодействия двух РНК с внутрипетлевым взаимодействием (2.15).
Как и в случае связывания последовательностей без петлевых участков, можно выполнить переход к пределу нулевой температуры – см. выражения (2.7)-(2.14). Элементы
матрицы свободной энергии при этом можно представить в виде:
[︁
]︁
(1)
(2)
𝐹𝑚,𝑛 = 𝑖=1,...,𝑚
max 𝑓1,𝑚 + 𝑓1,𝑛 , 𝑄𝑚,𝑛
𝑖,𝑗
(2.18)
𝑗=1,...,𝑛
]︁
[︁
(𝑎)
(𝑎)
где 𝑓𝑖,𝑗 = lim 𝑇 ln 𝑔𝑖,𝑗 (𝑎 = 1, 2) имеют смысл с точностью до знака свободных
𝑇 →0
энергий петлевых участков последовательностей с 𝑖-го нуклеотида по 𝑗-й, 𝑄𝑚,𝑛
𝑖,𝑗 – (𝑖, 𝑗)ый элемент суммы (2.15), который в пределе нулевой температуры есть:
(2)
(1)
˜𝑖,𝑗 .
𝑄𝑚,𝑛
𝑖,𝑗 = 𝐹𝑖−1,𝑗−1 + 𝑓𝑖+1,𝑚 + 𝑓𝑗+1,𝑛 + 𝜂
(2.19)
Элемент 𝑄𝑖,𝑗 описывает энергию комплекса взаимодействующих РНК, не имеющих
(𝑎)
контакта правее пары (𝑖, 𝑗). Из (2.17) следует, что функции 𝑓𝑖,𝑗 удовлетворяют:
)︁]︁
[︁
(︁
(𝑎)
′(𝑎)
(𝑎)
(𝑎)
(𝑎)
,
(2.20)
𝑓𝑖,𝑖+𝑘 = max 𝑓𝑖+1,𝑖+𝑘 , max 𝑓𝑖+1,𝑠−1 + 𝑓𝑠+1,𝑖+𝑘 + 𝜂˜𝑖,𝑠
𝑠
′(𝑎)
здесь величина 𝜂˜𝑖,𝑗 – величина, как в (2.14), 𝜂˜𝑖,𝑠 – аналогичная величина, описывающая взаимодействие внутри петель. На свободную энергию накладываются граничные
условия, как это следует из (2.15):
⎧
⎪
⎪
𝐹 = 0;
⎪
⎨ 0,0
(1)
𝐹𝑖,0 = 𝑓1,𝑖 ; 1 ≤ 𝑖 ≤ 𝑚
⎪
⎪
⎪
⎩ 𝐹 = 𝑓 (2) ; 1 ≤ 𝑗 ≤ 𝑛.
0,𝑗
1,𝑗
(2.21)
Таким образом, для того, чтобы вычислить энергию основного состояния комплекса
двух взаимодействующих РНК, необходимо построить матрицы 𝑓 (1) и 𝑓 (2) и, далее,
применяя (2.18)-(2.19), определить элементы матрицы 𝐹 .
Отметим, что выражения (2.17), (2.20) можно использовать для непосредственного
вычисления свободной энергии основного состояния одноцепочечной РНК.
30
2.4
Алгоритмы восстановления структуры
В данном разделе показывается, как алгоритм для вычисления энергии основного
состояния может быть применен для восстановления структуры. Рассмотрим сначала
комплексообразование двух линейных сополимеров.
Нахождение НОП двух линейных последовательностей
В отличие от (2.13) будем теперь интересоваться, не количеством мономеров в наибольшей общей подпоследовательности, а ее составом, т.е. определением, из каких
мономеров состоит общая НОП. Отметим, что, вообще говоря, задача может иметь
множество решений, т.е., основное состояние может быть вырождено. Алгоритм, который будет описан ниже, позволяет определить все возможные НОП двух цепочек. Здесь
и далее, в численном моделировании использовались параметры |𝑢| = 1 и |𝑣| = 0. В
таком рассмотрении функция 𝐹 (??),(??) совпадает с количеством комплементарных
связей в структуре основного состояния.
Рассмотрим действие алгоритма на конкретном примере. Возьмем две последовательности:
C G U U C C −S1
G C G G A A −S2
(очевидно, что 𝑚 = 𝑛 = 6), и построим матрицу 𝜂 с 𝜂𝑖,𝑗 = 1, если 𝑖–й мономер первой последовательности комплементарен 𝑗–му мономеру второй последовательности
и 𝜂𝑖,𝑗 = 0, в противном случае (см. Рис. 2.3(а)). Далее, строим матрицу 𝐹 , используя рекурсивный алгоритм (2.13)-(2.14) (см. Рис. 2.3(б)). Нижний правый элемент этой
матрицы 𝐹6,6 = 4 соответствует количеству комплементарных связей в основном состоянии комплекса. Теперь, чтобы установить, какие конкретно мономеры образуют
связь, нам нужно, восстановить каждый шаг алгоритма (2.13). Вся информация содержится в матрице 𝐹 . Действительно, сравним (𝑖, 𝑗)–элемент матрицы 𝐹 с соседними ему
элементами 𝐹𝑖−1,𝑗−1 , 𝐹𝑖−1,𝑗 , 𝐹𝑖,𝑗−1 и:
1. если 𝐹𝑖−1,𝑗−1 = max [𝐹𝑖−1,𝑗−1 , 𝐹𝑖−1,𝑗 , 𝐹𝑖,𝑗−1 ], тогда в оптимальном выравнивании
𝑖-й нуклеотид первой последовательности связан с 𝑗-м мономером второй;
31
2. если 𝐹𝑖−1,𝑗 = max [𝐹𝑖−1,𝑗−1 , 𝐹𝑖−1,𝑗 , 𝐹𝑖,𝑗−1 ], то в оптимальном выравнивании 𝑖-й
нуклеотид первой цепочки не участвует в комплексообразовании и таким образом,
является пропуском (петлевым мономером);
3. и, наконец, если 𝐹𝑖,𝑗−1 = max [𝐹𝑖−1,𝑗−1 , 𝐹𝑖−1,𝑗 , 𝐹𝑖,𝑗−1 ], то пропуском является 𝑗-й
мономер второй последовательности.
В случае, когда выполняется несколько пунктов одновременно, основное состояние
является вырожденным, и необходимо проследовать по всем образующимся путям в
матрице 𝐹 . Начальной точкой всегда является элемент (𝑚, 𝑛) матрицы 𝐹 . Для рассматриваемых последовательностей описанный алгоритм приводит к структурам, изображенным на Рис. 2.3(в, г).
32
(а)
(б)
(в)
(г)
Рис. 2.3 Алгоритм восстановления связей при взаимодействии двух РНК с петлевыми
участками: матрица возможных контактов 𝜂 (а) и матрица 𝐹 (б), построенная
согласно (2.13)-(2.14); оптимальные пути на матрице 𝐹 и соответствующие им
оптимальные структуры (в), (г).
33
Структура комплекса с внутрипетлевым взаимодействием
Более сложной является процедура восстановления структуры комплекса с внутрипетлевым взаимодействием. Схематически алгоритм определения контактов в оптимальной конфигурации показан на Рис. 2.4.
Рис. 2.4 Алгоритм определения оптимальной конфигурации комплементарного
связывания РНК-подобных молекул с внутрипетлевым взаимодействием.
Начальным элементом, как и в задаче без петлевых участков, выбирается нижний
правый элемент матрицы 𝐹𝑚,𝑛 . Если 𝐹𝑚,𝑛 > 𝑓1,𝑚 + 𝑓1,𝑛 (см. (2.18)), то информация о
контакте в оптимальной конфигурации содержится в матрице 𝑄 (2.19). Отметим, что
каждая пара (𝑖, 𝑗) характеризуется своей матрицей 𝑄. Максимальный элемент матрицы 𝑄𝑝,𝑞 говорит о контакте между 𝑝-м мономером первой последовательности и 𝑞-м
нуклеотидом второй (Рис. 2.4). Далее описанная процедура повторяется. Как и в предыдущем параграфе, рассмотрим действие алгоритма на конкретном примере:
A U C U C A C −S1
G C C A G G G −S2
Для последовательностей 𝑆1 и 𝑆2, на Рис. 2.5 приведены соответствующие матрицы (2.20)-(2.20). Элемент 𝐹7,7 = 6 показывает, что в оптимальной конфигурации содержатся 6 комплементарных пар. Чтобы, установить какие именно мономеры образуют пары, согласно разработанному алгоритму, рассматриваем матрицы 𝑄 для последовательно устанавливаемых контактов. Так, максимальный элемент 𝑄7,7 для 𝐹7,7
показывает, что 7-ой мономер 𝑆1 и 7-ой мономер 𝑆2 образуют пару. На следующем
34
шаге рассматриваем матрицу 𝑄 для элемента 𝐹6,6 (2.19). Если матрица 𝑄 содержит
несколько одинаковых максимальных элементов, это свидетельствует о вырожденности
основного состояния. В данном случае процедура повторяется для каждого из элементов. Отдельно восстанавливается структура комплементарных связей внутри петель
комплекса. Отметим, что эта задача идентична восстановлению структуры отдельной
цепочки РНК. Алгоритм восстановления структуры петли основан на (2.20) и заключается в установлении, какая пара мономеров (𝑖, 𝑠) обеспечивает наибольший вклад в
выражение для 𝑓 . На Рис. 2.5 приведены две возможные конфигурации рассматриваемых последовательностей 𝑆1 и 𝑆2.
35
(а)
(б)
(в)
(г)
(д)
(е)
(ж)
(з)
Рис. 2.5 Алгоритм определения оптимальной конфигурации связывания РНК с
внутрипетлевым взаимодействием: матрицы контактов внутри последовательностей
(а, б) и между ними (в); матрицы 𝑓 1 (г) и 𝑓 2 (д), и 𝐹 (е), вычисленные по (2.18)-(2.20);
соответствующие матрицы 𝑄 для контактов (ж) в соответствующих оптимальных
конфигурациях (з).
36
Разработанные алгоритмы были использованы для описания взаимодействий двух
молекул РНК. На Рис. 2.6 представлены структуры получаемых комплексов. Следует
отметить, что структура образующегося комплекса двух полимеров сильно зависит от
деталей модели. Так, структуры (б) и (в) (Рис. 2.6) отличаются только одним параметром
в модели: минимальным размером петли ℓ. Сильная чувствительность глобальной топологии оптимальной структуры к микроскопическим деталям модели ясно показывает,
что для того чтобы получать экспериментально достоверные результаты, необходимо
иметь подробную информацию о точных значениях петлевого фактора, энергий связей и параметра кооперативности. Как уже указывалось, при необходимости все эти
параметры можно учесть не выходя за рамки предложенной модели.
(а)
(б)
(в)
Рис. 2.6 Комплементарное связывание двух РНК: с петлевыми участками (a), с
внутрипетлевым взаимодействием и минимальной длиной петли ℓ = 0 (б), и ℓ = 3 (в).
37
Глава 3
Свойства РНК структур со случайной
последовательностью звеньев
В данной главе обсуждаются свойства распределения свободной энергии основного состояния в ансамбле РНК-подобных молекул со случайной первичной структурой.
Также, приводятся результаты для распределения длин петель в РНК-подобных структурах и обсуждаются аналитические модели их описания.
3.1
Свободная энергия основного состояния
Связывание двух РНК с петлевыми участками
Задача поиска оптимальной конфигурации линейного выравнивания случайных последовательностей неоднократно рассматривалась в литературе (см., например, [82,83])
в рамках так называемой модели «бернуллиевского сравнения», т.е. в предположении о
том, что матричные элементы 𝜂𝑚,𝑛 (2.14) являются независимыми случайными величинами, принимающими значения 1 с вероятностью 𝑝 = 𝑐−1 и 0 с вероятностью 𝑞 = 1 − 𝑝,
где 𝑐 — алфавит, используемый в случайной первичной структуре полимера. В работе [83] было показано что для длин последовательностей 𝑛, 𝑚 ≫ 1 распределение
энергии основного состояния имеет вид:
√︂
[︂
]︂2/3
√
2 𝑝𝑚𝑛 − 𝑝(𝑚 + 𝑛) (𝑝𝑚𝑛)1/6
𝑝
⟨𝐹𝑚,𝑛 ⟩ =
+
(1 + 𝑝) −
(𝑚 + 𝑛)
𝜒
𝑞
𝑞
𝑚𝑛
38
(3.1)
где 𝜒 – случайная величина с распределением Трейси–Видома (⟨𝜒⟩ = −1.7711... и
⟨𝜒2 ⟩ − ⟨𝜒⟩2 = 0.8132...)(более подробное описание этого распределения можно найти,
например, в обзоре [84]). При 𝑚 = 𝑛, оптимальная конфигурация характеризуется:
⟨𝐹𝑛,𝑛 ⟩ ≈
где
2
√ 𝑛 + 𝑓 (𝑐) ⟨𝜒⟩ 𝑛1/3 ,
1+ 𝑐
(3.2)
√
𝑐1/6 ( 𝑐 − 1)1/3
√
.
𝑓 (𝑐) =
𝑐+1
Флуктуации свободной энергии подчиняются: [83]:
𝜎≡
√︁⟨︀
2
𝐹𝑛,𝑛
⟩︀
− ⟨𝐹𝑛,𝑛 ⟩
2
√︁
≈
⟨𝜒2 ⟩ − ⟨𝜒⟩2 𝑓 (𝑐)𝑛1/3 .
(3.3)
Показатель 1/3 является типичным для стохастической динамики сильно коррелированных систем и относится к классу универсальности Кардара-Паризи-Занга (Kardar–
Parisi–Zhang (KPZ)) [52].
Результаты численного моделирования распределения свободной энергии основного
состояния для ансамбля случайных первичных структур РНК представлены на Рис. 3.1.
Угловой коэффициент прямой 𝑘 ≈ 0.65 (Рис. 3.1(a)), что хорошо согласуется с величиной 𝑘 = lim
𝑛→∞
⟨𝐹𝑛,𝑛 ⟩
𝑛
→ 23 , вычисленной по формуле (3.2). Для флуктуации энергии
полученный наклон 0.34 (Рис.3.1(б)) также близок к значению 13 . Таким образом, уравнение (3.2), полученное в приближении бернуллиевского сравнения, удовлетворительно
описывает численно наблюдаемую зависимость энергии основного состояния при связывании сополимеров с петлевыми участками от длины случайных цепей.
Связывание двух РНК с внутрипетлевым взаимодействием
Аналогичный анализ был проведен и для двух последовательностей, образующих
структуру с внутрипетлевым взаимодействием и минимальной длиной петли ℓ = 0. Соответствующие графики зависимости свободной энергии и флуктуации энергии представлены на Рис. 3.2. Как и для взаимодействия с петлевыми участками, ⟨𝐹𝑛,𝑛 ⟩ (𝑛) = 𝑘𝑛
при 𝑛 ≫ 1 (Рис. 3.2), но угловой коэффициент прямой 𝑘 ≈ 0.92 гораздо выше, что
обусловлено взаимодействием нуклеотидов внутри петель. Зависимость флуктуации
энергии основного состояния остается такой же (см. Рис. 3.2(б)).
39
(а)
(б)
Рис. 3.1 Взаимодействие РНК с петлевыми участками: зависимость среднего значения
свободной энергии основного состояния 𝐹𝑛,𝑛 (а) и флуктуации энергии 𝜎 (б) от длины
случайной последовательности 𝑛. Усреднение проводилось по ансамблю из 105
случайных пар последовательностей для каждого значения длины.
(а)
(б)
Рис. 3.2 Связывание РНК с внутрипетлевым взаимодействием: зависимость энергии
основного состояния 𝐹𝑛,𝑛 (а) и флуктуации свободной энергии 𝜎 (б) от длины
случайной последовательности 𝑛. Усреднение проводилось по ансамблю из 105
случайных пар последовательностей для каждого значения длины.
40
Рис. 3.3 Иерархическая модель связывания двух полимеров с внутрипетлевым
взаимодействием. Петли первого (𝑖 = 1), второго (𝑖 = 2) и третьего (𝑖 = 3)
иерархических уровней.
Оценим аналитически величину коэффициента 𝑘 в зависимости свободной энергии
от длины цепи для внутрипетлевого взаимодействия (Рис. 3.2). Будем рассматривать
комплекс, который образуют две случайные последовательности РНК, как структуру,
состоящую из петель различных иерархических уровней, занумерованных индексом 𝑖
(см. Рис. 3.3).
Каждую петлю 𝑖-ого иерархического уровня можно рассматривать как комплекс двух
взаимодействующих подпоследовательностей из которых она состоит. Из выражения
(3.1) следует, что наибольший вклад в свободную энергию наблюдается для комплекса,
состоящего из двух последовательностей равной длины, 𝑚 = 𝑛. Это позволяет оценить
сверху свободную энергию петли как свободную энергию двух взаимодействующих половинок этой петли. Представление комплекса двух молекул РНК в виде иерархической
структуры позволяет использовать идеи ренормализационной группы [85]. А именно,
комплексы 𝑖-ого иерархического уровня содержат петли, которые будем считать комплексами (𝑖 + 1)-ого уровня (Рис.3.3) (𝑖 = 1, 2, ...).
Формализуя эту идею, будем полагать, что комплекс двух молекул РНК иерархического уровня 𝑖 – это комплекс двух последовательностей с петлевыми участками,
в которых энергия взаимодействующих мономеров перенормирована энергией петель
иерархического уровня (𝑖+1). Пользуясь тем, что энергия петель в первом приближении
(𝑖)
(𝑖)
пропорциональна длине (3.2), представим ее в виде: 𝐹𝑠 ≈ 𝑘𝑟 𝑠, где 𝑠 — длина петли, а
41
𝑘𝑟 — соответствующий 𝑖-ому уровню коэффициент связывания. Подставляя в формулу
(2.15) статистические веса петель 𝑔𝑖,𝑖+𝑠 = 𝑒−𝑘𝑟 𝑠/𝑇 , получим выражение для определения
свободной энергии комплекса двух случайных РНК–последовательностей 1 :
]︀
[︀
(𝑖+1)
= max 𝐹𝑚−1,𝑛 + 𝑘𝑟(𝑖) , 𝐹𝑚,𝑛−1 + 𝑘𝑟(𝑖) , (𝐹𝑚−1,𝑛−1 + 𝑢)𝒫(𝑚, 𝑛) .
𝐹𝑚,𝑛
(3.4)
Выражение (3.4) нужно понимать следующим образом. Прежде всего, определим сво(2)
бодную энергию комплекса 𝐹𝑚,𝑛 , в котором могут образовываться петли только первого
иерархического уровня. Далее определим энергию связывания на один мономер в петлях второго уровня как
(2)
𝑘𝑟(2) =
𝐹𝑚,𝑛
.
𝑚+𝑛
(3.5)
Подставляя полученный коэффициент связывания снова в формулу (3.4), получим
(3)
значения энергии для петель третьего иерархического уровня, 𝑘𝑟 , и т.д. Величина
𝒫(𝑚, 𝑛) учитывает ограничение на минимальное количество мономеров, которые могут образовать петлю 𝑖-ого иерархического уровня:
⎧
⎨ 1 мономеры 𝑚 и 𝑛 могут образовать связь
𝒫(𝑚, 𝑛) =
⎩ 0 в противном случае
(3.6)
Будем считать, что 𝑚-й и 𝑛-й мономеры могут образовать связь, если:
𝑖
, 𝑚 − 1] последовательности 𝑆1 не имеет связей с участком [𝑛 −
а) участок [𝑚 − 𝑙𝑚𝑖𝑛
𝑖
𝑖
– минимальное количество нуклеотидов,
, 𝑛 − 1] подпоследовательности 𝑆2 , где 𝑙𝑚𝑖𝑛
𝑙𝑚𝑖𝑛
𝑖
необходимых для формирования петли определенного уровня (если 𝑚 < 𝑙𝑚𝑖𝑛
и/или
𝑖
𝑛 < 𝑙𝑚𝑖𝑛
, то рассматриваются соответственно участки последовательностей [1, 𝑚] и/или
по [1, 𝑛]);
б) 𝑚 − 1-й мономер первой последовательности взаимодействует с 𝑛 − 1-м мономером
второй последовательности, и при замене (𝑚 − 1) → 𝑚, (𝑛 − 1) → 𝑛 выполняется а)
(или б)).
В таблице 3.1 приведены значения для коэффициента связывания и минимальное количество нуклеотидов в петлях 𝑖-ого уровня; вычисления проводились для случайных
последовательностей равной длины 𝑚 = 𝑛 = 104 . Длины последовательностей слабо
1
Здесь, как и ранее, 𝐹 имеет смысл свободной энергии с обратным знаком
42
влияют на средний коэффициент связывания, однако рассмотрение больших длин позволяет провести оценку для большего количества иерархических уровней. Отметим, что
коэффициент связывания, определяемый по данной иерархической процедуре, медленно (логарифмически) стремится к 1 с ростом количества иерархических уровней (т.е.
при 𝑛 → ∞). Логарифмическая зависимость обусловлена экспоненциальным ростом
𝑖−1
𝑖
минимального числа мономеров, которые могут образовать петлю, 𝑙𝑚𝑖𝑛
= 3𝑙𝑚𝑖𝑛
+6
(𝑖 > 2) с увеличением номера иерархического уровня 𝑖( см. Табл. 3.1).
Таким образом, численно наблюдаемый коэффициент связывания 𝑘 (Рис. 3.2(а)) в
действительности зависит от длин рассматриваемых последовательностей и полученное нами значение 𝑘 ≈ 0.92 лишь указывает на то, что последовательности длиной
400 ÷ 1000 мономеров образуют структуру всего с двумя–тремя иерархическими уровнями.
Уровень, 𝑖
2
3
4
5
6
7
Минимальная длина петли
2
6
24
78
240
726
Коэффициент связывания
0.851
0.912
0.931
0.937
0.94
0.941
Таблица 3.1 Вероятность связывания мономеров в зависимости от числа уровней в
иерархической модели взаимодействия двух полимеров.
3.2
Распределение длин петель в РНК-подобных структурах
Связывание двух РНК с петлевыми участками
Было проанализировано распределение длин петель в структуре комплекса с петлевыми участками и внутрипетлевым взаимодействием. На Рис. 3.4 представлена зависимость 𝑊 (𝑠) числа петель различной длины 𝑠 для структуры с петлевыми участками.
Видно, что зависимость с хорошей точностью является экспоненциальной. Такое распределение характерно для системы, в которой связывание различных мономеров в
цепи происходит независимо (т.е. вероятность того, что следующий по цепи мономер
43
образует связь, никак не зависит от того, образует ли связь предыдущий мономер).
Действительно, величину 𝑘 =
⟨𝐹𝑛,𝑛 ⟩
𝑛
при 𝑛 ≫ 1 можно рассматривать, как вероятность
связывания мономера в структуре. Считая, что взаимодействие мономеров независимым, число петель длиной 𝑠 в структуре двух взаимодействующих сополимеров длиной
𝑛 можно оценить, как:
𝑊 (𝑠) = 𝑛𝑘 2 (1 − 𝑘)𝑠 .
(3.7)
Такое распределение длин петель при 𝑛 ≫ 1 удовлетворяет очевидному соотношению
∑︀𝑛
𝑠=1 𝑠𝑊 (𝑠) = (1−𝑘)𝑛. Из Рис. 3.4 видно, что численные результаты хорошо аппроксимируются в логарифмическом масштабе прямой 𝑦(𝑠) = 𝑎−𝑏𝑠, где c хорошей точностью
𝑎 ≈ ln(𝑛𝑘 2 ) и 𝑏 ≈ ln(1 − 𝑘) (см. (3.7)). Таким образом, в связывании сополимеров с
петлевыми участками статистика петель выглядит в точности так, как происходит при
независимом связывании мономеров. Однако стоит отметить, что модель независимого
связывания дает хорошие результаты для последовательностей, в которых количество
различных сортов мономеров 𝑐 ≥ 4. Для двухбуквенных и трехбуквенных алфавитов,
взаимодействие сополимеров оказывается коррелированным, и формула (3.1) плохо
описывает энергию оптимальной конфигурации.
Связывание двух РНК с внутрипетлевым взаимодействием
Существенно иное поведение имеет статистика петель в комплексах с внутрипетлевым взаимодействием. На Рис.3.5(а) представлена зависимость числа петель с длиной 𝑠 по набору из 103 пар случайных последовательностей. Отметим особенности
наблюдаемого распределения. Во-первых, для данной зависимости характерно степенное поведение. Показатель степенной зависимости для РНК разной длины меняется в
интервале [1.38, 1.5]. Во-вторых, распределения для РНК с различной длиной 𝑛 совпадают, что позволяет проводить вычисления для набора коротких последовательностей.
В-третьих, при малых 𝑛 (𝑛 ≤ 5) характерно небольшое число петель с нечетной длиной и большое число петель с четной длиной. Последнее обстоятельство связано с тем,
что для структуры комплекса с внутрипетлевым взаимодействием и ℓ = 0 характерно высокое значение средней энергии на один нуклеотид (𝑘 ≈ 0.92), обусловленное
связыванием внутри петель, а образование петли малой длины с нечетным числом
44
Рис. 3.4 Распределение длин петель в структуре комплекса с петлевыми участками.
Вычисления были выполнены для случайных последовательностей длины 𝑁 = 104 ,
результаты усреднялись по набору из 105 сополимеров.
нуклеотидов приводит к потере, по крайней мере, одной возможной связи внутри петли. Таким образом, образование петель с нечетным числом мономеров энергетически
невыгодно. Наконец, для распределения характерно наличие плато при больших 𝑠, что
обусловлено эффектом конечного размера (см., например, [86], где построена теория
аналогичного эффекта).
Полученные численные распределения можно интерпретировать следующим образом. Поставим каждой вторичной структуре полимера в соответствие одномерное случайное блуждание на (1+1)-мерной решетке, построенное следующим образом (см.
Рис. 3.6). Каждому мономерному звену соответствует один шаг блуждания. Этот шаг
направлен направо вверх, если мономер является «началом петли» (т.е. связан с мономером, расположенным после него по цепи), направо вниз, если он является «концом
петли» (т.е. связан с мономером, расположенным до него по цепи) или горизонтально,
если мономер не образует связи. Легко видеть, что такое построение задает соответствие между РНК-подобными вторичными структурами и так называемыми путями
Моцкина [87] — состоящими из горизонтальных и диагональных участков дискретными случайными блужданиями в верхней полуплоскости, концы которых закреплены
45
Рис. 3.5 (a) Распределение длин петель в структуре комплекса с внутрипетлевым
взаимодействием. Вычисления проводились для последовательностей с длинами
𝑛 = 𝑚 = 75, 100 и 200, для каждого 𝑛 было выполнено 103 накоплений, для 𝑛 ≥ 30
функция распределения сглаживалась по 10 соседним значениям); (б) Распределение
путей Моцкина по длинам (длина пути случайного блуждания 200 шагов, количество
накоплений -104 , для 𝑛 ≥ 30 функция распределения сглаживалась по 10 соседним
значениям).
на оси абсцисс. Возвращение на ось абсцисс соответствует образованию одной петли в структуре комплекса. Как известно, [88], количество различных путей Моцкина
𝑊𝑀 (𝑠, 𝑡) длины 𝑠 с заданным количеством горизонтальных шагов 𝑡 определяется числами Каталана:
⎛
𝑊𝑀 (𝑠, 𝑡) = ⎝
⎛
где ⎝
𝑠
𝑠
𝑡
⎞
⎛
⎠ 𝐶(𝑠−𝑡)/2 = ⎝
𝑠
𝑡
⎞
⎠
⎛
𝑠−𝑡
2
1
⎝
+1
𝑠−𝑡
𝑠−𝑡
2
⎞
⎠,
(3.8)
⎞
⎠ – биномиальные коэффициенты, 𝐶(𝑠−𝑡)/2 – числа Каталана. При 𝑠 ≫ 1
𝑡
(3.8) имеет асимптотическую зависимость 𝑊𝑀 (𝑠, 𝑡) ∼ 𝑠−3/2 от длины пути. Было построено распределение длин петель для случайных путей Моцкина с вероятностью
диагонального шага вверх или вниз равной 𝑝𝑀 ≈
𝑘
2
= 0.46, где 𝑘 = 0.92 — наблюдаемое
в численном моделировании значение вероятности образования связи, а вероятность
горизонтального шага 1 − 2𝑝𝑀 . Результат приведен на рисунке 3.5(б). Видно, что зави-
46
симость обладает всеми характерными свойствами, наблюдаемыми для распределения
длин петель в структуре с внутрипетлевыми взаимодействиями.
Рис. 3.6 Вторичная структура РНК с пропусками и соответствующий ей путь
Моцкина (а); Полностью связанная структура РНК без пропусков и соответствующий
ей путь Дика (б).
Представление структур РНК в виде путей Моцкина, статистика которых известна,
позволяет сделать интересное наблюдение. А именно, показать, что для РНК-подобных
структур характерно критическая зависимость структуры основного состояния в зависимости от числа различных сортов мономеров, используемых в последовательности.
47
Глава 4
Топология РНК-подобных молекул в
зависимости от алфавита случайной
первичной структуры
Данная глава посвящена исследованию топологии пространственной структуры
РНК-подобной молекулы в основном состоянии и ее изменений в зависимости от алфавита, используемого в случайной первичной структуре. А именно, показывается, что
существует некоторая критическая точка (критический алфавит) в которой происходит
изменение топологии основного состояния РНК-подобной молекулы. В главе приводятся аналитические и численные оценки критической точки топологического перехода и
обсуждается связь данного топологического перехода с температурным фазовым переходом в замороженное состояние.
4.1
Зависимость свободной энергии РНК-подобных
структур от алфавита
Рассмотрим случайную последовательность длиной 𝐿 и алфавита 𝑐, образующую
вторичную структуру типа РНК (Рис. 1.2(a)). Зададимся вопросом о том, к какому пределу стремится доля комплементарных пар в основном состоянии длинной (𝐿 → ∞)
цепи РНК. Другими словами, интерес представляет удельная (в расчете на одно звено)
энергия основного состояния длинной РНК. Вначале, приведем доводы, подтвержда48
ющие наличие критического изменения удельной энергии в зависимости от алфавита.
Предположим, что существует критическое значение алфавита 𝑐 = 𝑐𝑐 такое, что при
𝑐 < 𝑐𝑐 доля связанных мономерных звеньев стремится к 1, тогда как при 𝑐 > 𝑐𝑐
предельная доля связанных звеньев меньше 1. Убедиться в этом можно следующим
образом. Для того чтобы доля связанных звеньев в РНК-подобной структуре, образуемом случайной последовательностью, была равна 1, каждой последовательности из 𝑐𝐿
возможных должен соответствовать так называемый путь Дика (т.е. путь Моцкина, в
котором нет горизонтальных шагов) (Рис. 3.6(б)). Количество путей Дика 𝐺(𝐿) длины
𝐿 определяется формулой (3.8) (𝐺(𝐿) = 𝑊𝑀 (𝐿, 0)). При 𝑡 = 0 и при 𝐿 >> 1 𝐺(𝐿)
имеет асимптотическое выражение
𝐺(𝐿) ∼
4𝐿/2
.
𝐿3/2
(4.1)
Заметим, что один и тот же путь Дика может описывать несколько РНК-подобных структур. Действительно, каждая пара подъем/спуск в пути Дика может быть, независимо от
остальных, реализована 𝑐 разными способами (в случае РНК возможные варианты —
это A-U, U-A, C-G и G-C). Таким образом, число различных первичных структур, для
которых существуют полностью связанные вторичные структуры, не превышает
𝑊 (𝑐, 𝐿) = 𝐺(𝐿)𝑐𝐿/2 ∼
(4𝑐)𝐿/2
.
𝐿3/2
(4.2)
Это оценка сверху, т.к., вообще говоря, одной и той же последовательности может соответствовать несколько различных РНК-подобных структур и, таким образом, несколько
путей Дика. Тем не менее, естественно ожидать, что при 𝑐 → 𝑐𝑐 число таких последовательностей с двумя и более полностью связанными вторичными структурами становится малым. В таком случае, сравнивая (4.2) с полным числом возможных первичных
структур 𝑊0 (𝑐, 𝐿) = 𝑐𝐿 , можно записать (𝐿 ≫ 1):
⎧
1
1
⎪
⎨ lim ln 𝑊 (𝑐, 𝐿) > lim ln 𝑊0 (𝑐, 𝐿), для 2 ≤ 𝑐 < 𝑐𝑐
𝐿→∞ 𝐿
𝐿→∞ 𝐿
1
⎪
⎩ lim ln 𝑊 (𝑐, 𝐿) < lim 1 ln 𝑊 (𝑐, 𝐿), для 𝑐 > 𝑐 .
0
𝑐
𝑛→∞ 𝐿
𝐿→∞ 𝐿
(4.3)
Откуда, 𝑐𝑐 = 4. Подчеркнем, что несмотря на то, что эта оценка является грубой оценкой
сверху, она демонстрирует характерное изменение свойств РНК-структур со случайной
первичной структурой.
49
Таким образом, при 𝑐 < 𝑐𝑐 в пределе 𝐿 → ∞ практически любой последовательности соответствует полностью связанная вторичная структура, и энергия оптимальной
конфигурации на одну пару нуклеотидов стремится к 1, в то время как для случайных
цепочек с 𝑐 > 𝑐𝑐 доля последовательностей, допускающих совершенную вторичную
структуру, экспоненциально мала. Добавление горизонтальных шагов в пути случайных блужданий приводит к увеличению возможных РНК-подобных конфигураций (3.8),
что позволяет сопоставить каждой случайной последовательности из ансамбля 𝑐𝐿 путь
в случайном блуждании, соответствующий ее оптимальной вторичной структуре. Однако в этом случае доля связанных звеньев в оптимальной вторичной структуре остается
в пределе 𝐿 → ∞ меньше единицы. Путь Моцкина длиной 𝐿, включающий 𝑡 горизонтальных шагов определяется (согласно (3.8)) как
𝑊𝑀 (𝐿, 𝑡) =
𝐿!
𝐶(𝐿−𝑡) .
𝑡!(𝐿 − 𝑡)!
(4.4)
Для нечетных (𝐿 − 𝑡) функция 𝑊𝑀 (𝐿, 𝑡) равна 0. Для четных (𝐿 − 𝑡) воспользуемся
(4.1) и формулой Стирлинга для оценки асимптотического поведения:
(︂
)︂
1
1−𝑎
ln 𝐿
ln 𝑊𝑀 (𝐿, 𝑎) = −𝑎 ln 𝑎 − (1 − 𝑎) ln
+𝑜
𝐿
4
𝐿
(4.5)
𝜕 1
ln 𝑊𝑀 (𝐿, 𝑎) → +∞, при 𝑎 → +0,
𝜕𝑎 𝐿
где введено обозначение 𝑎 = 𝐿𝑡 (𝑎 > 0). Последнее выражение (4.5) показывает рост
𝑊𝑀 для малых, но конечных 𝑎.
Как много различных структур могут иметь один и тот же путь Моцкина (Рис. 3.6(а))?
Как и в случае полностью связанных структур, каждая связанная пара имеет вырожденность 𝑐, тогда как каждый несвязанный мономер также может быть выбран 𝑐 разными
способами. Суммарная вырожденность 𝑍 имеет вид
𝑍(𝑐, 𝐿, 𝑎) = 𝑐(𝐿−𝑎𝐿)/2 𝑐𝑎𝐿 = 𝑐𝐿(1+𝑎)/2 ,
(4.6)
и является возрастающей функцией 𝑎.
А теперь оценим минимальное количество несвязанных мономеров (горизонтальных
шагов в пути Моцкина), 𝑎(𝑐) = 1 − 𝑓 (𝑐), в основном состоянии при 𝑐 > 4. Наибольшее
количество структур, имеющих в основном состоянии долю несвязанных мономеров
меньше или равной 𝑎 определяется выражением:
𝑊 (𝑐, 𝐿, 𝑎) =
𝑎𝐿
∑︁
𝑍(𝑐, 𝐿, 𝑗/𝐿)𝑊𝑀 (𝑗, 𝐿).
𝑗=0
50
(4.7)
Для 𝑐 > 4 и 𝑎 = 0 эта сумма меньше 𝑊0 (𝑐, 𝐿) = 𝑐𝐿 , и растет с увеличением 𝑎 так, что
при некотором 𝑎
¯ величины 𝑊 (𝑐, 𝐿, 𝑎) и 𝑊0 (𝑐, 𝑛) сравниваются. Для 𝐿 ≫ 1 сумму (4.7)
можно оценить методом перевала. Введем обозначение
1 𝑊 (𝑐, 𝐿, 𝑎)
ln
.
𝐿→∞ 𝐿
𝑊0 (𝑐, 𝐿)
∆𝑤(𝑎, 𝑐) = lim
Тогда
где 𝑎m =
√
⎧
𝑐(1 − 𝑎)
⎪
⎪
− 𝑎 ln 𝑎; 𝑎 < 𝑎m
⎨ −(1 − 𝑎) ln
2
(︂
√ )︂
∆𝑤(𝑎, 𝑐) =
⎪
𝑐
⎪
⎩ ln 1 +
> 0;
𝑎 > 𝑎m ,
2
√
𝑐
√ .
2+ 𝑐
(4.8)
Для 𝑎 < 𝑎m сумма в (4.8) определяется вкладом от верхней границы,
тогда как для 𝑎 > 𝑎m максимум достигается в точке 𝑎m и, таким образом, не зависит от
верхнего предела суммирования. Величина 𝑎
¯(𝑐) определяется из уравнения ∆𝑤(𝑎, 𝑐) =
0. На Рис. 4.1 представлена функция 𝑓 (𝑐) = 1 − 𝑎(𝑐). Напомним, что данная оценка
является верхней границей, так как не учитывает корреляции между оптимальными
конфигурациями.
Оценка (4.8) сделана в предположении так называемого среднего поля: связывание
на каждой паре подъем/спуск Рис. 3.6 происходит независимо с вероятностью 1/𝑐 и
все пути случайных блужданий считаются статистически независимыми. В разделе
4.3 приводится более точная оценка критического алфавита, учитывающая корреляции
между конфигурациями.
Результаты численного моделирования для РНК-подобных структур со случайной
последовательностью звеньев различного алфавита представлены на Рис. 4.1. Для простоты предполагается, что комплементарные связи образуются согласно правилу A–A,
т.е., только одинаковые мономеры могут комплементарно связываться. Напомним, что
в реальных молекулах РНК действуют перекрестные правила комплементарности. Однако, анализ случайных последовательностей показал, что правила комплементарности
незначительно влияют на свойства РНК-подобных структур. Тогда как, комплементарное связывания типа A–A позволяет исследовать цепочки не только с четным алфавитом
как в случае перекрестного связывания, но и с нечетным. Соответственно, для каждого
значения 𝑐 = 3, 4, ..7 были построены зависимости удельной энергии 𝑓 =< 𝐹 > /𝐿 от
длины случайной первичной структуры. Как видно (Рис. 4.1(а)), удельная энергия при
𝐿 → ∞ действительно стремится к некоторому усредненному значению 𝑓∞ , которое яв51
(a)
(б)
Рис. 4.1 (a) Зависимость удельной энергии 𝑓 от длины случайной последовательности
с заданным алфавитом 𝑐; (б) зависимость предельного значения энергии 𝑓∞ от
алфавита для последовательностей с дискретным алфавитом (красным), в модели
Бернулли (синим), и верхняя оценка энергии (черным) в модели независимого
связывания. Дополнительный график: зависимость предельного значения энергии от
алфавита в модели Бернулли демонстрирует, что критический алфавит является
нецелым и принадлежит интервалу 2 < 𝑐𝑐 < 3.
ляется только функцией от 𝑐 (Рис. 4.1(б)). Результаты численного моделирования существенно расходятся с аналитической оценкой (Рис. 4.1(б)). Зависимость, полученная в
численном моделировании имеет критическую точку топологического перехода 𝑐𝑐 = 2,
которая является очевидной оценкой снизу. Действительно, рассмотрим произвольную
двухбуквенную последовательность, например, 𝐴𝐵𝐴𝐴𝐵𝐵𝐵𝐴𝐴𝐴𝐵𝐵𝐴𝐵𝐴𝐴𝐴𝐵 и будем последовательно находить комплементарые пары (в предположении А–А связывания) следующим образом. Ближайшие соседи по цепи одного сорта образуют комплементарную пару, и далее, вычеркиваются из последовательности. Легко видеть, что
такая процедура приводит к формированию РНК-подобной структуры. Рассматриваемая цепочка после первой итерации будет выглядеть: 𝐴𝐵𝐵𝐴𝐴𝐵𝐴𝐵, последующее
вычеркивание приведет к 𝐴𝐵𝐴𝐵. Понятно, что данная процедура для любой случайной двухбуквенной последовательности приведет к тому, что, либо в остатке будет
𝐴𝐵𝐴𝐵, либо последовательность будет полностью вычеркнута. Второй вариант означает, что все мономеры участвуют в формировании вторичной структуры, удельная
энергия которой 𝑓 = 1. В случае остатка 𝐴𝐵𝐴𝐵, данный участок цепочки образует
52
конфигурацию с двумя пропусками, но, в термодинамическом пределе, 𝑓∞ = 1. Если
структура образуется согласно перекрестным правилам комплементарности, то остатком будет |𝐿1 − 𝐿2 | букв одного сорта, где 𝐿1 и 𝐿2 — количество мономеров A и B
√
соответственно. В случайной последовательности |𝐿1 − 𝐿2 | ∼ 1/ 𝐿. Таким образом,
для случайных последовательностей с алфавитом 𝑐 = 2 можно записать:
⎧
𝑐𝑜𝑛𝑠𝑡
⎪
⎪
; для A-A связывания
⎨ 1−
𝐿
𝑓 (𝐿) =
(4.9)
𝑐𝑜𝑛𝑠𝑡
⎪
⎪
√
;
для
A-B
связывания.
1
−
⎩
𝐿
Таким образом, аналитическое расcмотрение буквенных последовательностей позволило говорить о том, что критическое значение алфавита 2 ≤ 𝑐𝑐 ≤ 4. Более строгое
рассмотрение [89] показало, что критическое значение алфавита лежит в интервале:
2 < 𝑐𝑐 < 3 1 .
Подводя итог, подчеркнем еще раз, что при изменении алфавита, используемого в
первичной структуре случайной последовательности, существует переход от полностью связанной РНК-подобной структуры до структуры с конечной долей несвязанных
мономеров. Такой переход в работе называется топологическим. Критическая точка топологического перехода принадлежит интервалу (2 < 𝑐𝑐 < 3), т.е. эффективно является
нецелым.
Как можно трактовать нецелый алфавит в случайных последовательностях типа
РНК? Далее, попробуем ответить на этот вопрос.
4.2
Топологический переход в модели Бернулли
Модель случайной последовательности с эффективно нецелым алфавитом может
быть построена следующим образом. Будем считать, что матрица контактов 𝜂 ′ в урав′
нении (2.20) является случайной: вероятность того, что 𝜂𝑖,𝑗
= 1, равна 𝑝, а вероятность
′
𝜂𝑖,𝑗
= 0 равна соответственно 1 − 𝑝. То есть теперь случайная последовательность
характеризуется не первичной структурой — последовательностью мономеров из 𝑐 различных типов, как это было раньше, а некой матрицей контактов, (𝑖, 𝑗)-элемент которой
1
Для доказательства использовалось понятие максимального паросочетания без пересечений на слу-
чайном слове, работа была выполнена после доклада в ИППИ РАН (май 2012)
53
разрешает или запрещает образование комплементарной пары между 𝑖 и 𝑗 мономером
цепи. Мономеры цепи в данной модели не различаются по сортам и, в целом, любой мономер может образовать связь с любым другим в цепи, однако, в среднем, вероятность
такого события равна 𝑝. Каждой последовательности в рассматриваемой модели можно
сопоставить граф Эрдёша–Реньи, изображающего все возможные контакты между 𝐿
мономерами. Основное отличие данной модели от дискретных буквенных последовательностей — нарушение свойства транзитивности. Если 1-й мономер может образовать
связь со 2-м, а 2-й с 3-м, отсюда, вообще говоря, не следует (как это было для последовательностей с дискретным алфавитом), что 1-й мономер может связаться с 3-м. Однако,
как, например, уже упоминалось, подобная модель бернуллиевского сравнения в задачах выравнивания случайных последовательностей является хорошей аппроксимацией.
Вероятности 𝑝 случайной матрицы контактов соответствует алфавит, равный:
1
𝑐𝑒𝑓 𝑓 = .
𝑝
(4.10)
Таким образом, оказывается возможным генерировать случайную последовательность
с любым нецелым значением алфавита 𝑐. На Рис. 4.1(б) приведена зависимость удельной энергии 𝑓∞ в термодинамическом пределе от алфавита 𝑐 (4.10), полученная в
численном моделировании. Во-первых, отметим, что значения 𝑓∞ для бернуллиевского
алфавита не более, чем на 1% отличается от соответствующих величин для случайных
последовательностей с дискретным алфавитом, что оправдывает применимость данной
модели. Случайный бернуллиевский полимер характеризуется критической вероятностью 𝑝𝑐 . Для 𝑝 > 𝑝𝑐 , в термодинамическом пределе,𝑓∞ = 1 (так называемая «полочка»
на зависимости удельной энергии (см. дополнительный график на Рис. 4.1(б)), что соответствует полностью связанной вторичной структуре, тогда как для 𝑝 < 𝑝𝑐 , даже в
пределе бесконечной длины, основное состояние характеризуется 𝑂(𝐿) количеством
несвязанных мономеров. Критическое значение вероятности согласно (4.10) соответствует критическому значению алфавита 𝑐𝑐 = 2.6. Таким образом, модель Бернулли
позволяет численно получить точку перехода.
Для более точной оценки критической точки топологического перехода были проведены следующие численные эксперименты. Рассмотрим ансамбль, состоящий из
𝑁 (𝑁 = 105 ) случайных бернуллиевских полимеров длиной 𝐿 и подсчитаем количество последовательностей с полностью связанной вторичной структурой 𝑁𝑐 . Доля
54
полностью связанных структур в таком ансамбле 𝜂𝐿 = 𝑁𝑐 /𝑁 есть функция 𝑝 (см.
Рис. 4.2). Естественно ожидать, что в пределе 𝐿 → ∞ (Рис. 4.2(а)), функция 𝜂𝐿 (𝑝) вырождается в ступенчатую функцию. Скейлинг-анализ полученных зависимостей 𝜂𝐿 (𝑝)
обеспечивает критическое значение 𝑝𝑐 = 0.37, что соответствует алфавиту:
𝑐𝑐 ≈ 2.67.
(а)
(б)
Рис. 4.2 Зависимость доли полностью связанных РНК-подобных структур в ансамбле
случайных первичных структур различной длины (а) от параметра 𝑝 модели Бернулли;
скейлинг-анализ полученных зависимостей (б). Для каждого значения 𝑝 и 𝐿 было
выполнено 105 накоплений.
Можно провести аналогию между данным топологическим переходом и переходом,
наблюдаемым в теории перколяции [90]. В перколяционной теории задача формулируется следующим образом (одна из возможных формулировок). Рассмотрим протекание
жидкости через пористую среду, причем пористую среду будем моделировать дискретной решеткой (сетью) — набором сайтов, между которыми есть связи — каналы.
Жидкость протекает по этим каналам, которые могут быть открыты или закрыты c вероятностью 𝑝 и 1 − 𝑝 соответственно. Существует пороговое значение вероятности 𝑝𝑡ℎ
выше которой, протекание через данную среду возможно, т.е. существует связанный
кластер на решетке, а ниже которой, построить связанный кластер невозможно. Пере55
ход между этими двумя состояниями в теории перколяции называют геометрическим
фазовым переходом и относят к переходам второго рода [90].
Таким образом, можно предполагать, что топологический переход между полностью
связанной РНК-подобной структурой и структурой с пропусками является фазовым
переходом второго рода. В пользу этого предположения также свидетельствует непрерывное изменение вырожденности основного состояния (числа полностью связанных
РНК-подобных структур) от вероятности 𝑝.
Был также выполнен анализ областей алфавита, лежащего выше и ниже критической
точки топологического перехода в модели Бернулли. Во-первых, области характеризуются различной зависимостью от длины случайной последовательности: 𝐿:
⎧
⎪
⎨ 𝑓 (𝐿) ∼ 1 − 𝐶1 𝑒−𝐿/ℓ для 𝑝 > 𝑝𝑐
(4.11)
⎪
⎩ 𝑓 (𝐿) ∼ 𝑓∞ − 𝐶2 𝐿−𝛼 для 𝑝 < 𝑝𝑐 ,
где 𝐶1 и 𝐶2 — некоторые константы. Для допереходной фазы (𝑝 > 𝑝𝑐 ) характерно экспоненциальное приближение к предельному значению удельной энергии (𝑓∞ = 1), тогда
как в области больших алфавитов (𝑝 < 𝑝𝑐 ) энергия приближается к своему предельному значению степенным образом (Рис. 4.3). Показатель степени 𝛼 в (4.11) находится в
пределах [0.75, 1] (сравните с (Рис. 4.1(а))). В допереходной области случайная последовательность из алфавита 𝑝 может быть охарактеризована некоторой релаксационной
длиной ℓ, указывающей на характерный масштаб длин, на котором энергия основного
состояния сходится к своему предельному значению 𝑓∞ = 1. Ясно, что зависимость релаксационной длины ℓ от вероятности 𝑝 имеет вертикальную асимптоту в точке 𝑝 = 𝑝𝑐 .
Естественно ожидать, что асимптотическое поведение 𝑓 (𝐿) зависит от выбранной модели случайного полимера, в частности от правил комплементарности — см. (4.9).
Области отличаются также зависимостями флуктуаций свободной энергии от длины случайной последовательности 𝐿. Допереходная область характеризуется быстрым (экспоненциальным) падением флуктуаций с ростом 𝐿. Тогда как для 𝑝 < 𝑝𝑐 ,
характерен степенной рост флуктуаций с увеличением длины последовательности
𝐿 (см. Рис. 3.2(б)).
56
(а)
(б)
Рис. 4.3 Асимптотическое поведение удельной энергии 𝑓 (𝐿) до (а) и после (б)
топологического перехода. Зависимость (𝑓∞ − 𝑓 (𝐿)) в логарифмическом масштабе (а)
и двойном логарифмическом масштабе (б) (см. (4.11)).
4.3
Аналитическая оценка критической точки топологического перехода в модели Бернулли
4.3.1
Метод среднего поля
Для простоты переформулируем задачу в терминах планарных диаграмм (Рис. 1.7).
Рассмотрим граф, вершины которого (мономеры вдоль цепочки) перенумерованы, а
матрица контактов 𝑉 — матрица инцидентности графа. Задача о полностью связанной
РНК-подобной структуре на данном графе сводится к вопросу о том, как выбрать среди
разрешенных контактов 𝐿/2 связей, которые обеспечивают планарную структуру на
заданном случайном графе, т.е. все вершины входят в конфигурацию ровно один раз и
любые пары связей (𝑖1 , 𝑗1 и (𝑖2 , 𝑗2 ) удовлетворяют соотношению [91]:
(𝑗1 − 𝑖1 )(𝑗2 − 𝑖1 )(𝑗1 − 𝑖2 )(𝑗2 − 𝑖2 ) > 0.
(4.12)
Другими словами, как разместить 𝐿/2 непересекающихся арок, принимая во внимание
ограничения, накладываемые матрицей 𝑉 . В модели Бернулли каждый элемент 𝑉𝑖𝑗
равен 1 либо 0 с соответствующими вероятностями 𝑝 и 1 − 𝑝, кроме того, матрица
57
контактов — симметричная с нулевыми диагональными элементами:
𝑃 (𝑉𝑖𝑗 ) = ([𝑝𝛿(𝑉𝑖𝑗 − 1) + (1 − 𝑝)𝛿(𝑉𝑖𝑗 )] 𝜃(𝑖 − 𝑗) + 𝛿(𝑉𝑗𝑖 − 𝑉𝑖𝑗 )𝜃(𝑗 − 𝑖)) (𝛿𝑖𝑗 − 1). (4.13)
Здесь 𝛿(𝑥) и 𝜃(𝑥) — дельта-функция Дирака и функция Хевисайда, соответственно. Для
𝑝 = 1 (когда все элементы 𝑉𝑖𝑗 равны 1), количество всех возможных арочных структур,
удовлетворяющих (4.12) определяется числами Каталана (см. (4.4))
# = 𝐶𝐿/2 =
𝐿!
.
− 1)!
( 𝐿2 )!( 𝐿2
(4.14)
Когда 𝑝 ̸= 1, некоторые из конфигураций # запрещены матрицей контактов 𝑉 . Введем
обозначение 𝑝1 — вероятность, того, что одна выбранная из # конфигурация разрешена.
Очевидно, что
𝑝1 = 𝑝𝐿/2 .
(4.15)
Аналогично, определим 𝑝𝑘 как вероятность, что 𝑘 диаграмм из # разрешены, для 𝑘 = 2,
например
𝑝2 = 𝑝𝐿/2 𝑝𝐿/2 𝑝−𝑛1∩2 = 𝑝𝐿 𝑝−𝜅2 𝐿 ,
(4.16)
где 𝑛1∩2 ≡ 𝜅2 𝐿 равно количеству общих арок для двух случайно выбранных планарных
диаграмм, усредненному по ансамблю #. Для 𝑝3 можно записать:
2
𝑝3 = (𝑝𝐿/2 )3 𝑝−𝑛1∩2∩3 = 𝑝3𝐿/2 𝑝−𝐶3 𝜅2 𝐿 𝑝𝜅3 𝐿 .
(4.17)
Величины 𝜅𝑘 могут быть вычислены с любой точностью. К примеру, 𝜅2 лежит строго в
интервале [1/15, 1/14.8]. Вероятность иметь по крайней мере одну планарную конфигурацию для данной заполненности 𝑝 матрицы 𝑉 (4.13) определяется как:
𝒫 = #𝑝1 −
#(# − 1)
3
𝑝2 + 𝐶 #
𝑝3 + . . .
2
(4.18)
Предполагая, что все диаграммы в ансамбле # независимы, т.е., 𝑝𝑘 = 𝑝𝑘1 , для 𝒫 из (4.18)
можно записать:
𝒫 = 1 − (1 − 𝑝1 )# = 1 − exp(−𝑝1 #).
(4.19)
В пределе больших 𝐿, величина 𝒫 равна либо нулю, либо единице, в зависимости от
соотношения между # и 𝑝1 . Используя (4.15), для критического значения вероятности
можно записать уравнение:
lim 𝑝𝑐 [#]2/𝐿 = 1.
𝐿→∞
58
(4.20)
Условие (4.20) можно интерпретировать как то, что переход наблюдается в точке, при
которой плотность единиц в матрице контактов 𝑉 такая, что в среднем разрешена
только одна планарная конфигурация. Вспоминая, асимптотику чисел Каталана (4.16),
для критического значения вероятности получим 𝑝𝑐 = 1/4, что совпадает с верхней
оценкой 𝑐𝑐 = 4 из (4.2).
4.3.2
Комбинаторная оценка
Предположение о независимости планарных конфигураций соответствует так называемому приближению среднего поля. Естественным следующим шагом является
введение ненулевых корреляций между конфигурациями: 𝜅𝑘 ̸= 0. Чтобы учесть корреляции между различными планарными диаграммами, поступим следующим образом.
Перепишем (4.20) как:
lim 𝜉(𝑝𝑐 ) [#]2/𝐿 = 1,
(4.21)
𝐿→∞
где 𝜉(𝑝) — некоторая функция, учитывающая корреляции между планарными диаграммами. Основная идея дальнейшего рассмотрения следующая: арки разной длины встречаются в оптимальной планарной конфигурации с различной вероятностью. Рассмотрим полностью связанную планарную конфигурацию, состоящую из 𝒩 =
𝐿
2
арок,
соединяющих 𝐿 точек. Возвращаясь к представлению планарных диаграмм через пути Дика (см.Рис. 3.6), можно увидеть, что арка между 𝑖-ой и 𝑗-ой точками возможна,
только если 𝑖-й и 𝑗-й шаг имеют одну и ту же пространственную координату 𝑦. Тогда
можно определить вероятность арки между 𝑖-ой и 𝑗-ой точками как:
𝑃 (𝑖, 𝑗) =
1 × 𝐶(𝑗−𝑖−1)/2 × 1
.
2𝑗−𝑖+1
(4.22)
В знаменателе правой части (4.22) стоит суммарное число возможных шагов вверх/вниз
на длине (𝑗 − 𝑖 + 1), в числителе — “1” соответствуют выбору шага вверх и вниз на
позициях 𝑖 и 𝑗 соответственно; число Каталана 𝐶(𝑗−𝑖−1)/2 описывает все возможные
конфигурации петли между парой (𝑖, 𝑗) (так как 𝑖-й и 𝑗-й шаги находятся на одной
высоте, петля между ними должна быть тоже путем Дика). Вероятности 𝑃 (𝑖, 𝑗) зависят
только от длины арки (𝑗 − 𝑖) и не равны нулю только для арок нечетной длины, т.е.,
𝑃 (𝑖, 𝑖 + 1) = 41 , 𝑃 (𝑖, 𝑖 + 3) =
1
,
16
𝑃 (𝑖, 𝑖 + 5) =
59
2
,
32
т.д.. Если просуммировать 𝑃 (𝑖, 𝑗)
по всем возможным арочным длинам, то результатом будет
∑︀𝐿−1
𝑘=1
𝑃 (𝑖, 𝑖 + 𝑘) =
1
2
—
вероятность того, что в 𝑖-ой позиции находится левая граница арки (шаг вверх).
Отметим, что доля коротких арок чрезвычайно высока. Действительно, вероятность,
в типичной арочной конфигурации иметь арку длиной ℓ = 1 равна 14 , арку длиной
ℓ = 3, уже
1
,
16
и т.д.. С другой стороны, количество всех возможных кратчайших арок
— (𝐿 − 1). Поэтому, в типичной конфигурации
1
4
среди них должны быть «разрешены».
Естественно, что веса таких коротких арок в бернуллиевской модели (элементы 𝑉𝑖,𝑖+1
матрицы контактов) выше, чем длинных арок.
Принимая во внимание эту выделенность коротких арок, оценим функцию 𝜉(𝑝)
в (4.21). Вместо независимого выбора набора арок, теперь предположим, что построение типичной арочной конфигурации происходит следующим образом:
1. выбор
𝐿
4
непересекающихся коротких арок (ℓ = 1) из (𝐿 − 1) возможных
2. выбор остальных 𝒩 −
𝐿
4
=
𝐿
4
из длинных (ℓ > 2) арок
Так как общее число длинных арок порядка 𝐿2 ≫ 𝐿4 , будем считать, что длинные арки
выбираются независимо друг от друга с вероятностью 𝑝. И, таким образом, вклад от
длинных арок в функцию 𝜉(𝑝) равен 𝑝𝐿/4 .
Иная ситуация при выборе кратчайших арок длиной “1”. Для бернуллиевского полимера с матрицей контактов 𝑉 только 𝑝𝐿 единичных арок разрешены. Таким образом,
выбор коротких арок для оптимальной конфигурации без пропусков оказывается сильно
ограниченным. Вероятность выбрать 𝐿/4 непересекающихся арок из 𝑝𝐿 разрешенных
можно оценить следующим образом. Определим сначала число способов 𝒵 выбора
𝐿
4
непересекающихся единичных арок из всех (𝐿 − 1) возможных (Рис. 4.4). Единичные
арки можно рассматривать как стенки ящиков, тогда задачу можно переформулировать
следующим образом. Будем интересоваться количеством способов, которыми можно
заполнить ( 𝐿4 − 1) ящика 𝐿/2 свободными точками (шарами). Результат известен из
3𝐿/4−1
𝑛
, где 𝐶𝑚
— число сочетаний 𝑚 по 𝑛.
(︀ 𝐿
)︀
Можно считать, что среди них 𝑝 3 4 − 1 арок разрешены первичной структурой
комбинаторики и 𝒵 = 𝐶𝐿/4
𝑝(3𝐿/4−1)
полимера (матрицей контактов 𝑉 ) и величина 𝐶𝐿/4
описывает вес коротких арок в
полностью связанной РНК-подобной структуре случайного полимера. Учет корреляций
между планарными конфигурациями на уровне единичных дуг приводит к следующими
60
выражению для 𝜉(𝑝) (4.21):
𝑝(3𝐿/4−1)
𝜉(𝑝)𝐿/2 = 𝑝𝐿/4 𝐶𝐿/4
[︁
3𝐿/4−1
𝐶𝐿/4
]︁−1
.
(4.23)
В пределе 𝐿 → ∞, после упрощений, получим:
Рис. 4.4 Пояснение к вычислению 𝒵(𝑝): (a) Выбор
𝐿
4
единичных арок на 𝐿 вершинах
случайного графа ( 𝐿2 свободных вершин) аналогичен комбинаторной задаче о
расположении
ln 𝜉(𝑝) =
𝐿
2
точек по
𝐿
4
− 1 ящикам (б).
1
3𝑝 3𝑝 3𝑝 − 1 3𝑝 − 1 3 3
ln 𝑝 +
ln
−
ln
− ln .
2
2
2
2
2
2 2
(4.24)
Подставляя этот результат в (4.21):
ln 𝜉(𝑝𝑐 ) = − ln 4;
(4.25)
𝑝𝑐 ≈ 0.35 (𝑐𝑐 = 2.87).
4.3.3
Матричный подход
Еще один подход оценки критического алфавита основан на матричном описании вторичной структуры РНК (1.5). Напомним, что статистическую сумму 𝑍𝐿 (𝑁, 𝑉 )
61
случайного полимера можно представить через случайные эрмитовы матрицы 𝜑
как (см. (1.7),(1.8)):
∫︁
𝑍𝐿 (𝑁, 𝑉 ) =
1
𝑑𝜑1 ...𝑑𝜑𝐿 𝑒−𝑆0 tr (𝜑1 ...𝜑𝐿 )
𝑁
∫︁
≡ ⟨𝜑1 ...𝜑𝐿 ⟩𝑆0 ,
−𝑆0
𝑑𝜑1 ...𝑑𝜑𝐿 𝑒
(4.26)
где
𝑆0 ≡ 𝑆0 {𝑉, 𝜑1 , . . . , 𝜑𝐿 } =
𝑁 ∑︁ −1
(𝑉 )𝑖𝑗 tr(𝜑𝑖 𝜑𝑗 ).
2 𝑖,𝑗
(4.27)
В отсутствии замороженного беспорядка, т.е., если 𝑉𝑖𝑗 ≡ 1, задача (4.26) может быть
решена точно. В частности, множитель 𝑎𝐿/2,0 перед 𝜐 𝐿/2 , описывающий планарные
конфигурации с 𝐿/2 арками (1.10), т.е. полностью связанные структуры, вносит наибольший вклад в общую статистическую сумму полимера и определяется числами
Каталана:
lim 𝑍𝐿 (𝑁 ; 𝑉 ) = 𝐶𝐿/2 ∼
𝑁 →∞
4𝐿/2
√ .
(𝐿/2)3/2 𝜋
(4.28)
Как и ранее будем вычислять функцию 𝜉(𝑝) в (4.21) усредняя статистическую сумму
𝑍𝐿 (𝑁, 𝑉 ) по распределению (4.13). Для этого выполним стандартное преобразование
Хаббарда-Стратоновича и будем интегрировать по 𝑉 с весом (4.13):
∫︁
𝑑𝑉 𝑃 (𝑉 ) 𝑍𝐿 (𝑁, 𝑉 ) =
∫︁ ∏︁
∫︁ ∏︁
𝐿
𝐿
∑︀
1
𝑑ℎ𝑚 𝑒𝑖𝑁 𝑖 tr(ℎ𝑖 𝜑𝑖 ) 𝑒𝒮 ,
𝑑𝜑𝑘 tr (𝜑1 . . . 𝜑𝐿 )
𝑐𝑜𝑛𝑠𝑡
𝑁
𝑚=1
𝑘=1
где 𝒮 = 𝒮0 + 𝑈 , и
𝒮0 = −
𝑈=
𝑝𝑁 ∑︁
tr(ℎ𝑖 ℎ𝑗 ),
2 𝑖𝑗
𝑝(1 − 𝑝)𝑁 2 ∑︁
[tr(ℎ𝑖 ℎ𝑗 )]2
8
𝑖𝑗
𝑝(1 − 𝑝)(1 − 2𝑝)𝑁 3 ∑︁
[tr(ℎ𝑖 ℎ𝑗 )]3 + . . .
−
48
𝑖𝑗
(4.29)
(4.30)
(4.31)
Величина 𝒮0 соответствует единичной матрице контактов с дополнительным фактором 𝑝. Учет только этого слагаемого, после обратного преобразования ХаббардаСтратоновича, приводит к 𝜉(𝑝) = 𝑝, и оценке 𝑝𝑐 = 41 , совпадающей с оценкой в предположении среднего поля. Действие 𝑈 (4.31) сдвигает значение 𝑝𝑐 в сторону меньших
значений. Но, так как 𝑈 содержит бесконечное число слагаемых (4.31), теория возмущений в данном случае неприменима. В этой связи было предложено следующее
62
приближение: все поля {ℎ𝑖 }𝑖=1,...,𝐿 в (4.31) эквивалентны, поэтому можно считать, что
в среднем, ⟨𝑁 tr(ℎ𝑖 ℎ𝑗 )⟩𝒮0 ≡ 𝑇 не зависит от (𝑖, 𝑗). В рамках данного средне-полевого
приближения можно сделать замену 𝑒𝒮 = 𝑒𝒮0 𝑒⟨𝑈 ⟩ , где:
𝑝(1 − 𝑝)𝑁 ∑︁
⟨𝑈 ⟩ =
𝑇
tr(ℎ𝑖 ℎ𝑗 )
8
𝑖𝑗
𝑝(1 − 𝑝)(1 − 2𝑝)𝑁 2 ∑︁
−
𝑇
tr(ℎ𝑖 ℎ𝑗 ) + . . .
48
𝑖𝑗
(4.32)
Упрощение выражения (4.32) приводит к следующему уравнению на пропагатор 𝑇 :
[︂
(︂
)︂]︂
−2
𝑇
1
=
log 1 − 𝑝 + 𝑝 exp −
.
(4.33)
𝑇
𝑇
2
[︁
√ ]︁
𝑒
, и окончательно можно написать:
Выражение (4.33) дает 𝑇 = −2 log 1 − 1−1/
𝑝
𝒮=−
𝜉(𝑝)𝑁 ∑︁
tr(ℎ𝑖 ℎ𝑗 ),
2
𝑖𝑗
(4.34)
где
(︂
[︂
√ ]︂)︂−1
1 − 1/ 𝑒
1
.
(4.35)
𝜉(𝑝) = = −2 log 1 −
𝑇
𝑝
Подстановка (4.35) в (4.21) приводит к оценке критического алфавита 𝑝*𝑐 = 0.4551.
Большая расходимость полученного результата с численным 𝑝𝑐 = 0.37 означает, что
предложенного приближения недостаточно для описания топологического перехода.
4.4
Переход случайной РНК в замороженное состояние,
ограниченный топологическим переходом
Рассмотрим как данный топологический переход ограничивает фазовый переход в
замороженное состояние 1.4. Отметим, что аналогичный вопрос исследуется и в теории
перколяции, где тоже предполагается взаимосвязь перколяционного перехода и температурного фазового перехода, наблюдаемого, например, в модели Изинга [92].
Были проанализированы температурные зависимости свободной энергии пинча (2.2)
случайной последовательности в модели Бернулли разной вероятности 𝑝. Как уже обсуждалось, температура перехода в замороженное состояние 𝑇𝑔 непосредственно связано со средним числом пропусков в структуре основного состояния. В [38] было
показано, что температура перехода не превосходит 𝑇 *
𝑇 * = 𝜆−1 𝜎,
63
(4.36)
где 𝜎 — среднее число пропусков на пару мономеров, а 𝜆 определяется из зависимости наибольшего общего непрерывного сегмента ℓ двух половинок последовательности
РНК: ℓ = 𝜆−1 ln 𝐿 (см. Рис. ??). Известно, что для цепочек РНК 𝜆 = ln 2. Для случайного бернуллиевского процесса 𝜆 определяется как 𝜆 = ln(1/𝑝) [79]. Таким образом,
выражение (4.36) можно переписать в виде
𝑇* =
𝜎
.
ln(1/𝑝)
(4.37)
Доля несвязанных мономеров 𝜎 растет с ростом алфавита 1/𝑝 сильнее, чем логарифм (см. Рис. 4.1(б)) и из (4.37) непосредственно следует, что в допереходной области
(𝑝 > 𝑝𝑐 ) фазовый переход в замороженное состояние наблюдаться не будет. Температура
перехода 𝑇𝑔 эффективно равна нулю, т.е., случайный полимер во всем температурном
диапазоне находится в расплавленной фазе. Данное предположение дополнительно подтверждается наблюдением того, что для случайных последовательностей с алфавитом
𝑐 = 2 переход имеет место только при накладывании ограничений на структуру, а
именно, введением минимального размера петли [39].
Результаты численного моделирования представлены на Рис. 4.5. Был проанализирован температурный коэффициент 𝑎(𝑇 ) (2.4) для последовательностей с разной вероятностью 𝑝. Температура перехода определяется точкой, в которой нарушается линейная
зависимость 𝑎(𝑇 ) = 23 𝑇 , характерная для расплавленной фазы. Из полученных данных
видно, что температура перехода уменьшается с ростом вероятности 𝑝 и в допереходной области становится равной нулю (𝑝 = 0.5 на Рис. 4.5). Вблизи критического
значения 𝑝𝑐 численный эксперимент усложняется тем, что корректный анализ требует
рассмотрения достаточно длинных случайных цепочек (с длиной, превышающей соответствующую релаксационную длину ℓ(𝑝), см. (4.11)), что приводит к существенному
увеличению времени численного моделирования. Также стоит отметить, что в связи с
наблюдаемой степенной зависимостью свободной энергии основного состояния от длины последовательности ((4.11)), аппроксимация уравнением (2.2) вблизи точки 𝑇 = 0,
вообще говоря, неверна.
Предполагается, что критическая точка топологического перехода между полностью
связанной РНК-подобной структурой и структурой с пропусками является пороговым
значением для термодинамического перехода. В области последовательностей 𝑝 > 𝑝𝑐
возможна только расплавленная фаза вне зависимости от температуры. Рис. 4.6 пока64
0.8
a(T)
0.6
0.4
p=0.15
p=0.2
0.2
p=0.25
p=0.35
0.0
0.0
0.1
0.2
0.3
0.4
0.5
T
Рис. 4.5 Зависимость коэффициента 𝑎(𝑇 ) (1.4) для случайной последовательности
разной вероятности 𝑝 в модели Бернулли.
зывает фазовую диаграмму на (𝑇, 𝑝) плоскости. Это предположение подтверждается
исследованием энергии пинча от длины случайной последовательности в точке 𝑇 = 0.
Точка пересечения зависимостей для разных длин (см. дополнительный график на
Рис. 4.6) разделяет два топологических режима и близка к наблюдаемому критическому алфавиту.
4.5
Другие модели нецелого алфавита
Основной недостаток бернуллиевской модели полимера заключается в отсутствии
ясного соответствия матрицы контактов 𝑉 для произвольного 𝑝 и первичной структуры
полимера. Как уже указывалось, в модели Бернулли нет разделения на сорта мономеров,
все мономеры, рассматриваются однотипными. В этом разделе, речь пойдет о некоторых
подходах генерации полимера с нецелым алфавитом и разными сортами мономеров.
65
расплав
структура
с пропусками
полностью
связанная
структура
замороженное
состояние
Рис. 4.6 Фазовый переход в замороженное состояние, ограниченный топологическим
переходом в модели Бернулли. Дополнительный график: зависимость энергии пинча в
пределе 𝑇 → 0 от вероятности 𝑝.
4.5.1
Метод концентраций
Одна из самых простых моделей нецелого алфавита, сохраняющего свойство транзитивности — модель концентраций. В такой модели предполагается, что случайный
полимер состоит из трех типов мономеров, A, B и C, но мономеры распределены в
цепочке не случайно, а коррелировано. В модели так называемых «локальных концентраций» предполагается, что концентрация, количество мономеров третьего типа [𝐶] не
равна концентрации мономеров [𝐴] = [𝐵], а зависит от алфавита 𝑝. В частности, концентрацию [𝐶] можно определить по заполненности матрицы контактов 𝑉 . Изменение
концентрации [𝐶] от 0 до
1
3
описывает последовательности с нецелым алфавитом от
𝑐 = 2 до 𝑐 = 3. Однако, для алфавитов, немного превышающих 𝑐 = 2 (𝑐 = 2 + 𝜖), данная
модель приводит к случайной двухбуквенной последовательности, слабо разбавленной
третьим типом мономеров 𝐶. Из-за малого количества [𝐶], эти мономеры появляются редко в цепочке, и из-за специфического комплементарного взаимодействия С–С,
это приводит к сильным ограничениям на конфигурации основного состояния. Как
66
уже упоминалось, основное состояние характеризуется большим количеством коротких арок, т.е., взаимодействием ближайших соседей в цепочке. Таким образом, важнее
оказывается не количество различных типов мономеров в первичной структуре, а их
распределение. Модель концентраций может быть улучшена, если распределять [𝐶] мономеров третьего типа не случайно, а согласно некому распределению, характерному
для случайных трехбуквенных (двухбуквенных) последовательностей. Грубо говоря, это
приведет к тому, что мономеры третьего типа C будут появляться в первичной структуре блоками. Но даже такая модель обладает существенным недостатком — выделенной
ролью мономеров типа C, по сравнению с мономерами типа А и B.
4.5.2
Коррелированная случайная последовательность
Модель, которая устраняет этот недостаток — модель так называемой коррелированной последовательности, в которой распределение трех типов мономеров является не
случайным, а сильно коррелированным. Различный алфавит 𝑝 определяется в таких последовательностях не количеством (концентрацией) мономеров, а тем, насколько сильно скоррелировано появление мономеров различного типа в цепочке. Распределение
мономеров в первичной структуре определяется согласно Марковскому процессу [88]:
A
B
C
A
1 − 2𝜖
𝜖
𝜖
B
𝜖
1 − 2𝜖
𝜖
C
𝜖
𝜖
1 − 2𝜖,
т.е., вероятность встретить, например, мономер типа А за мономером А не равна вероятности появления А после B (или C). Изменение 𝜖 в диапазоне [0, 31 ] обеспечивает
диапазон алфавитов [1, 3]. Взаимосвязь между параметром модели 𝜖 и алфавитом 𝑐 можно установить, используя определение информационной энтропии по Шеннону [93]:
(︂
)︂2𝜖
1
1
−2
.
(4.38)
𝑐=
𝜖
1 − 2𝜖
Результатом данной модели является полимер с блочной первичной структурой, причем размер блока зависит от параметра модели 𝜖. На Рис. 4.7 представлены результаты
численного моделирования в модели такой коррелированной последовательности. Скачкообразного изменения удельной энергии от алфавита 𝑐 в численном моделировании не
67
Рис. 4.7 Модель коррелированной последовательности: зависимость удельной
энергии 𝑓∞ от алфавита (красным); для сравнения приведена зависимость
предельной энергии в модели Бернулли (черным).
наблюдается. Отметим, что даже для алфавитов, эффективное значение которых меньше 2, идеальные полностью связанные структуры не образуются. Объяснить такую
зависимость можно следующим образом. После процедуры вычеркивания (см. 4.1),
корреллированный полимер с трехбуквенным алфавитом сводится к последовательности со случайно распределенными мономерами трех сортов, для которой, как было показано (Рис. 4.1) свойственно образование 𝑂(𝐿) пропусков. Длина остаточного
полимера (после вычеркивания) зависит от параметра 𝜖, и для достаточно длинных
последовательностей пропорциональна 𝐿. Таким образом, любая модель с тремя сортами мономеров (коррелированная последовательность или модель концентраций) всегда
сводится к модели случайной последовательности с алфавитом 𝑐 = 3, который лежит
в послепереходной области. Тем не менее, стоит отметить, что для зависимости удельной свободной энергии (см. Рис. 4.7) в модели коррелированной последовательности
характерен резкий спад удельной энергии основного состояния при 𝑐 > 𝑐𝑐 .
68
4.5.3
Рациональный алфавит
Другая модель, частично сохраняющая свойство транзитивности, — модель рационального алфавита — заключается в следующем. Последовательность с алфавитом
𝑃
𝑄
можно представить, как полимер, состоящий из P сортов мономеров, правила комплементарности для которых разрешают Q связей для каждого мономера. Например,
алфавит 𝑐 =
5
2
означает пятибуквенный алфавит в первичной структуре и с правилами
комплементарности, организованными, к примеру, по пятиугольнику (Рис. 4.8). Такие
правила можно построить для рационального алфавита любой величины. Численные
результаты для данной модели приведены на Рис. 4.8 и показывают критическое изменение топологии вторичной структуры РНК.
Отметим, что модель чувствительна к выбору 𝑃 и 𝑄, так например, один и тот же
алфавит 𝑐 = 2.8, представленный как
14
5
и
28
10
дает разные результаты для удельной
энергии основного состояния. В пределе 𝑃 → 𝐿 рассматриваемая модель сводится к
модели Бернулли. Модель рационального алфавита, интуитивно, кажется ближе к алфавиту, используемого природой в молекулах РНК. Как указывалось, в молекулах РНК,
помимо комплементарных пар, образуются неканонические пары (1.1), т.е. правила образования связей, во-первых, не транзитивны, а во-вторых, система правил похожа на
систему связей в модели рационального алфавита (Рис. 4.8).
Каков алфавит в реальных молекулах РНК? Понятно, что учет неканонических пар
эффективно приводит к уменьшению алфавита. С другой стороны, учет, к примеру,
минимальной длины петли увеличивает алфавит в последовательностях РНК. Образование псевдоузлов и стэкинг взаимодействия приводит к сдвигу алфавита к меньшим
значениям. Таким образом, фактический алфавит в молекулах РНК определяется многими факторами. Однако, логично предполагать, что алфавит в РНК находится вблизи
критического. Почему выгодно реальным молекулам РНК иметь алфавит вблизи критического? Для того чтобы РНК выполняла свою биологическую функцию, она должна
удовлетворять следующим критериям: i) ее фолдинг должен быть достаточно уникален
и ii) структура должна быть устойчива к тепловому шуму. Короткие алфавиты 𝑐 < 𝑐𝑐
не обеспечивают первый критерий, так как для допереходной фазы характерна сильная
вырожденность основного состояния. С другой стороны, длинным алфавитам 𝑐 >> 𝑐𝑐
свойственны структуры с длинными петлями — несвязанными мономерами, которые
69
Рис. 4.8 Модель рационального алфавита: зависимость удельной энергии основного
состояния 𝑓∞ от алфавита (красным). Для сравнения приведена зависимость,
полученная в модели Бернулли (черным).
неустойчивы к тепловым флуктуациям. Таким образом, биологический алфавит, повидимому, находится вблизи критического.
70
Глава 5
Описание РНК-подобной структуры в
терминах оптимизационной
транспортной задачи
В данной главе показывается, что задача о вторичной структуре РНК-подобного полимера может быть сформулирована в терминах оптимизационной транспортной задачи
(ОТЗ). Заимствованная из ОТЗ процедура оптимизации позволяет описать топологические свойства РНК-подобных структур, если задано распределение расстояний между
мономерными звеньями, и потенциал взаимодействия между мономерами имеет вид
возрастающей и выпуклой вверх функции от расстояния.
5.1
Оптимизационная транспортная задача
Классическая транспортная задача заключается в поиске оптимального распределения однородных объектов из пунктов наличия 𝜇 (например, железные рудники) к приемникам 𝜈 (например, заводы) с минимизацией затрат на перемещение. Затраты на перевозку одной единицы руды с рудника 𝑥 ∈ 𝜇 до завода 𝑦 ∈ 𝜈 задаются ценовой функцией
𝑤(𝑥, 𝑦), поэтому ОТЗ может быть сформулирована как задача линейного программирования. Транспортная задача ещё называется задачей Монжа-Канторовича. Она впервые
была формализована французским математиком Гаспаром Монжем в 1781 году. Основные продвижения в этой задаче сделал выдающийся советский математик и экономист
71
Леонид Канторович в середине 20-го века [94]. В теории сложности вычислений транспортная задача принадлежит классу сложности NP ( non-deterministic polynomial) [95],
т.е. решение задачи не определяется за время, не превосходящее полинома от размера
данных. Существует множество методов и алгоритмов решения этой задачи в разных
предельных случаях, например, симплекс-метод, метод северо-западного угла, метод
наименьшего элемента, метод падающего камня, метод потенциалов [96]. Для математического удобства используют и другие эквивалентные формулировки транспортной
задачи [96, 97].
В частности, ОТЗ может быть сформулирована как задача поиска оптимального
полного паросочетания на полном графе [98]. Паросочетанием на графе называется
множество попарно несмежных рёбер, то есть рёбер, не имеющих общих вершин.
Паросочетание, включающее в себя все вершины графа называется полным. Ясно, что
поиск полного паросочетания на двудольном графе, одни вершины которого описывают
пункты наличия продукта 𝜇, а другие пункты доставки 𝜈 (и 𝜇 = 𝜈), соответствует
построению оптимального плана в ОТЗ. Вес ребра графа, соединяющего вершину 𝜇𝑖 c
вершиной 𝜈𝑗 определяется соответствующей ценовой функцией 𝑤(𝜇𝑖 , 𝜈𝑗 ).
Рассмотрим ОТЗ на прямой, когда все пункты наличия продукта и пункты доставки распределены вдоль одного пути. Следуя [99], будем считать 𝑤 ценовой функцией
выпуклого типа, если для любых 𝑥1 , 𝑥2 , 𝑦1 , 𝑦2 из R неравенство
𝑤(𝑥1 , 𝑦1 ) + 𝑤(𝑥2 , 𝑦2 ) ≤ 𝑤(𝑥1 , 𝑦2 ) + 𝑤(𝑥2 , 𝑦1 )
(5.1)
означает, что интервалы [𝑥1 , 𝑦1 ] и [𝑥2 , 𝑦2 ] либо не пересекаются, либо один полностью
лежит в другом. Примерами такой ценовой функции служат: 𝑤(𝑥, 𝑦) = |𝑥 − 𝑦|𝛼 с
0 < 𝛼 < 1, или 𝑤(𝑥, 𝑦) = ln |𝑥 − 𝑦| с доопределением 𝑤 → −∞ на диагонали 𝑥 = 𝑦.
Если ценовая функция 𝑤 симметрична и пространственно однородна, т.е., 𝑤(𝑥, 𝑦) =
𝑔(|𝑥 − 𝑦|),функция 𝑔 должна быть строго возрастающая и строго выпуклой вверх [99].
Хотя такое рассмотрение является некоторой идеализацией ОТЗ, оно кажется вполне
разумным, если считать, что доставка руды производится по одному маршруту (одна
железнодорожная линия), а выпуклость ценовой функции отражает увеличение суммарных затрат с увеличением расстояния доставки, несмотря на уменьшение удельных
затрат на один километр. Задаче с выпуклой вверх ценовой функцией уделено гораздо меньше внимания чем аналогичной задаче с выпуклой вниз функцией затрат. Было
72
показано, что для выпуклой вверх ценовой функции оптимальный транспортный план
обладает некоторыми топологическими особенностями [98–100]. Рассмотрим эти особенности, сформулировав ОТЗ следующим образом.
Определим набор точек 𝑥1 < 𝑥2 < · · · < 𝑥2𝑛 на действительной прямой R и рассмотрим полный граф 𝐾2𝑛 на этих точках, при этом каждому ребру графа (𝑥𝑖 , 𝑥𝑗 ) припишем
вес 𝑤(𝑥𝑖 , 𝑥𝑗 ). ОТЗ заключается в поиске полного паросочетания с минимальным суммарным весом на графе 𝐾2𝑛 .
На Рис. 5.1 графически представлена процедура оптимизации в ОТЗ с выпуклой
вниз ценовой функцией. Взяв ценовую функцию в виде 𝑤(𝑥𝑖 , 𝑦𝑖 ) = ln |𝑥𝑖 − 𝑦𝑖 |, можно непосредственно проверить, что паросочетание с минимальным суммарным весом
Ω(𝑥1 , 𝑦1 ; ...; 𝑥𝑛 , 𝑦𝑛 ), где
∑︁
Ω(𝑥1 , 𝑦1 ; ...; 𝑥𝑛 , 𝑦𝑛 ) =
ln |𝑥𝑖 − 𝑦𝑖 |,
{i,j∈M(K2n )}
достигается на планарных конфигурациях (см. Рис. 5.1). Здесь введено обозначение
𝑀 (𝐾2𝑛 ) для полного паросочетания на графе 𝐾2𝑛 .
x1
x2 x3
x4
y3 y1 y4
y2
x1
x2 y2
y1
x3 x4 y4
y3
Рис. 5.1 Планарные конфигурации как результат оптимизации с выпуклой вниз
ценовой функцией.
5.2
Модель случайных интервалов первичной структуры РНК-подобной молекулы
Построим модель РНК-подобной структуры, в котором энергия взаимодействия мономеров 𝜀𝑖,𝑗 — выпуклая вниз функция расстояния между мономерами вдоль цепи.
Возьмем
𝜀𝑖,𝑗 = 𝑢 ln |𝑥𝑖 − 𝑥𝑗 |;
73
(𝑗 ̸= 𝑖),
(5.2)
где 𝑢 — некоторая положительная величина, и 𝑥𝑖 , 𝑥𝑗 — координаты мономеров 𝑖 и 𝑗
вдоль последовательности. В предложенной модели, расстояния 𝑑𝑖 = |𝑥𝑖+1 − 𝑥𝑖 | между
соседними мономерами подчиняются распределению 𝑃 (𝑑𝑖 = 𝑑). Схематически типичный полимер в данной модели изображен на Рис. 5.2 в арочном представлении (a) и в
представлении пути случайного блуждания (б).
di
(a)
1 2
3
4
5 6
78
9
10
(b)
Рис. 5.2 Модель случайных интервалов РНК-подобной молекулы: арочное
представление (a) и соответствующий путь Дика (б).
Подчеркнем, что главная особенность модели заключается в том, что потенциал
взаимодействия между мономерами 𝜀𝑖,𝑗 — выпуклая вниз и возрастающая функция
расстояния между звеньями цепи (5.2). Естественно, можно взять 𝜀𝑖,𝑗 и в виде 𝜀𝑖,𝑗 =
𝑢|𝑥𝑗 −𝑥𝑖 |𝛼1 , где 0 < 𝛼1 < 1, или 𝜀𝑖,𝑗 = −𝑢|𝑥𝑗 −𝑥𝑖 |−𝛼2 , где 𝛼2 > 0 (𝑗 ̸= 𝑖), вид функции 𝜀𝑖,𝑗
определяет лишь детали модели.
После упрощений функцию свободной энергии основного состояния (2.20) можно
переписать в форме:
𝐹𝑖,𝑖+𝑘 =
min
𝑠=𝑖+1,𝑖+3,...,𝑖+𝑘
[︁
]︁
𝜀𝑖,𝑠 + 𝐹𝑖+1,𝑠−1 + 𝐹𝑠+1,𝑖+𝑘 ,
(5.3)
с граничными условиями 𝐹𝑖+1,𝑖 = 0 для любого 𝑖. Заметим, что достаточно рассматривать только петли четной длины. Петли нечетной длины приводят к образованию
пропусков, что энергетически невыгодно. Отметим особенности функции (5.3).
1. Выражение (5.3) содержит все возможные планарные диаграммы на полном графе
𝑥𝑖 , 𝑥𝑖+1 , . . . , 𝑥𝑖+𝑘 . В частности, это означает, что
𝐹𝑖,𝑖+𝑘 ≤ 𝜀𝑖,𝑖+𝑘 + 𝐹𝑖+1,𝑖+𝑘−1
74
(5.4)
для любых 𝑖 и всех четных 𝑘 ≥ 1 и
𝐹𝑖,𝑖+𝑘 ≤ 𝐹𝑖,𝑖+ℓ + 𝐹𝑖+ℓ+1,𝑖+𝑘
(5.5)
для всех 𝑖 и 1 ≤ ℓ < 𝑘 с четными 𝑘 и ℓ. Последнее свойство может быть рассмотрено как субаддитивность функционала 𝐹 : для двух неперекрывающихся конфигураций 𝑥1 < 𝑥2 < · · · < 𝑥𝑖+ℓ и 𝑥𝑖+ℓ+1 < 𝑥𝑖+ℓ+2 < · · · < 𝑥𝑖+𝑘 , величина 𝐹𝑖,𝑖+𝑘 для единой
оптимальной конфигурации не больше суммы величин 𝐹𝑖,𝑖+ℓ и 𝐹𝑖+ℓ+1,𝑖+𝑘 на частичных
конфигурациях.
2. Для ценовой функции 𝑤(𝑥𝑖 , 𝑥𝑗 ) = 𝜀𝑖𝑗 выпуклого типа, функционал энергии не
только субаддитивен, но имеет и более строгое свойство: для любого 𝑖, четного ℓ c
1 < ℓ < 𝑘 и нечетного 𝑗 с 𝑗 ≤ ℓ + 1, функция 𝐹 удовлетворяет неравенству
𝐹𝑖,𝑖+𝑘 + 𝐹𝑖+𝑗,𝑖+ℓ ≤ 𝐹𝑖,𝑖+ℓ + 𝐹𝑖+𝑗,𝑖+𝑘
(5.6)
неравенство (5.5)— частный случай (5.6), соответствующий 𝑗 = ℓ + 1. Это свойство
функционала 𝐹 называется субмодулярностью. Отметим, что при 𝑥1 < 𝑥2 < 𝑦2 <
𝑦1 , (5.6) эквивалентно (5.1). Для 𝑗 = 2 и ℓ = 𝑘 − 2:
𝐹𝑖,𝑖+𝑘 ≤ 𝐹𝑖,𝑖+𝑘−2 + 𝐹𝑖+2,𝑖+𝑘 − 𝐹𝑖+2,𝑖+𝑘−2
(5.7)
В [98] было показано, что функция 𝐹 удовлетворяет рекурсивному соотношению:
𝐹𝑖,𝑖+𝑘
=
[︀
min 𝜀𝑖,𝑖+𝑘 + 𝐹𝑖+1,𝑘−1 ;
]︀
𝐹𝑖,𝑖+𝑘−2 + 𝐹𝑖+2,𝑖+𝑘 − 𝐹𝑖+2,𝑖+𝑘−2 , (5.8)
включающему (5.3) и (5.7). Другими словами, 𝐹 – субмодулярная функция, удовлетворяющая также (5.3).
Таким образом, функция, описывающая свободную энергию основного состояния
𝐹𝑖,𝑖+𝑘 для выпуклого потенциала взаимодействия между мономерами удовлетворяет не
только стандартному уравнению (2.20), но также и локальной рекурсии (5.8). Полный
вывод уравнения (5.8) приведен в [98].
5.3
Топологические свойства РНК-подобных структур в
модели случайных интервалов
Характеристикой топологии оптимальной конфигурации может служить характерный размер конфигурации или высота соответствующего пути Дика (см. Рис. 1.6). Вы75
сота конфигурации показывает максимальную вложенность арочной структуры. Опишем топологические особенности РНК-подобной структуры полимера с мономерными
звеньями, расстояние между которыми подчиняется распределению Гаусса и степенному распределению.
5.3.1
Численное моделирование
Распределение Гаусса
Рассмотрим случайную цепочку, в которой расстояния между соседними мономерами 𝑑𝑖 = |𝑥𝑖+1 − 𝑥𝑖 | подчиняются распределению Гаусса, определенному на интервале
[𝑑𝑚𝑖𝑛 𝑑𝑚𝑎𝑥 ]:
⎧
(𝑑−𝜇)2
⎪
⎨ √ 𝐶 𝑒− 2𝜎2 ,
𝑑min < 𝑑 < 𝑑max
2𝜋𝜎
𝑓 (𝑑, 𝜎) =
(5.9)
⎪
⎩ 0,
иначе,
)︁
(︁
)︁]︁−1
[︁ (︁
√ −𝜇 + erf 𝜇−𝑑
√ min
- нормировочная константа, определенная
где 𝐶 = 2 erf 𝑑max
2𝜎
2𝜎
∫︀ 𝑑max
из условия 𝑑min 𝑓 (𝑥, 𝜎) 𝑑𝑥 = 1. Чтобы избежать противоречий, потребуем, чтобы все
энергии (5.4) были положительны. Без потери общности, были выбраны следующие
параметры распределения в (5.9): 𝜇 = 2; 𝑑min = 1; 𝑑max = 3. Функция распределения
(5.9) представлена на Рис. 5.3 для различных значений параметра 𝜎.
76
Рис. 5.3 Модель случайных интервалов первичной структуры РНК-подобной
молекулы: распределение Гаусса 𝑓 (𝜎) расстояний между мономерными звеньями в
цепи полимера для разных значений параметра распределения 𝜎 = 0.1; 0.5; 2.0.
Результаты численного моделирования показали наличие критического поведения
топологии оптимальной конфигурации от параметра распределения (𝜎). Значениям
𝜎 < 𝜎cr соответствует узкое распределение Гаусса. Несмотря на дисперсию распределения, выгодным оказывается попарное взаимодействие ближайших соседей. Высота
оптимальной конфигурации равна 1 (см. Рис. 5.4). При 𝜎 > 𝜎cr высота конфигурации
превышает 1. Критическое изменение высоты РНК-подобной конфигурации от параметра распределения носит характер кроссовера, а не фазового перехода [101]. Величина
𝜎cr определяет точку кроссовера и зависит от длины последовательности 𝑁 . С увеличением 𝑁 критическая точка сдвигается к меньшим значениям и, очевидно, достигает
нуля в пределе 𝑁 → ∞. Рис. 5.4 представляет результаты численного моделирования
для последовательностей длины 𝑁 = 250, 500, 1000 мономеров. Выше точки кроссовера, для 𝜎 > 𝜎cr высота основной конфигурации растет монотонно с 𝜎 и достигает
некоторой средней величины, характерной для равномерного распределения интервалов (𝜎 → ∞).
77
Рис. 5.4 Модель случайных интервалов РНК-подобной структуры: зависимость
высоты конфигурации ⟨ℎ⟩ от параметра распределения Гаусса 𝜎 для первичных
структур разной длины 𝑁 .
Степенное распределение
Более естественным распределением расстояний между мономерными звеньями является степенное распределение без характерного размера (scale-free). Определим следующее распределение интервалов 𝑑𝑖 :
𝑓 (𝑑, 𝛾) =
𝐶
,
1 + 𝑑𝛾
(5.10)
с 𝛾 > 0 и 𝑑min < 𝑑 < 𝑑max . Нормировочный фактор 𝐶 ≡ 𝐶𝛾 (𝑑max , 𝑑min )
𝐶(𝑑max , 𝑑min ) = [𝐴𝛾 (𝑑max ) − 𝐴𝛾 (𝑑min )]−1 ;
(5.11)
𝐴𝛾 (𝑥) =
2 𝐹1
(1, 𝛾
−1
,1 + 𝛾
−1
𝛾
, −𝑥 ) ,
где 2 𝐹1 (...)– гипергеометрическая функция. В численном моделировании были использованы: 𝑑min = 1; 𝑑max = 20. В отличии от распределения Гаусса, в таком степенном
распределении, вероятность иметь ближайших соседей на большом расстоянии друг от
друга (так называемые «тяжелые хвосты» распределения) не мала экспоненциально.
78
Рис. 5.5 Модель случайных интервалов первичной структуры РНК-подобной
молекулы: cтепенное распределение 𝑓 (𝑑, 𝛾) расстояний между мономерными
звеньями вдоль цепи для разных параметров 𝛾.
Наличие таких тяжелых хвостов в распределении существенно влияет на топологию
оптимальной конфигурации. С увеличением 𝛾 в (5.10) степень вложенности ℎ ведет
себя не монотонно: при малых 𝛾 > 0 она растет до некоторого максимального значения (при 𝛾 ≈ 1), а затем уменьшается до величины, характерной для равномерного
распределения интервалов (при 𝛾 → ∞) — см. Рис. 5.6.
Именно тяжелые хвосты распределения приводят к вложенности в оптимальной
конфигурации. В следующем параграфе описываются аналитически топологические
особенности случайного полимера в данной модели, обусловленные свойствами распределений.
5.3.2
Аналитическое описание
Вложенность конфигурации РНК-подобной молекулы в модели случайных интервалов первичной структуры обусловлена двумя факторами. Во-первых, вложенность
79
Рис. 5.6 Модель случайных интервалов: зависимость высоты оптимальной
конфигурации ⟨ℎ⟩ от параметра степенного распределения 𝛾 для первичных структур
разной длины 𝑁 .
возникает из геометрии первичной структуры последовательности. При определенном
соотношении между тремя последовательными интервалами 𝑑𝑖−1 , 𝑑𝑖 , 𝑑𝑖+1 вложенная
конфигурация оказывается энергетически выгоднее конфигурации с последовательно
взаимодействующими мономерами. Возникающая вложенность отражает локальные
свойства первичной структуры РНК-подобной молекулы.
С другой стороны, возможно образование большой арки между далекими по цепи
мономерами 𝑖 и 𝑗, если конфигурация петли между ними характеризуется минимумом
функции 𝐹𝑖+1,𝑗−1 . Энергия петли компенсирует затраты энергии на образование длинной арки (𝑖, 𝑗). Такая вложенность отражает геометрические особенности полимера в
целом.
Рассмотрим подробнее первый фактор — возникновение вложенности на трех последовательных интервалах, обусловленное локальными геометрическими свойствами
полимера. Вложенная конфигурация энергетически выгоднее, чем последовательное
спаривание, если 𝜔𝑖−1,𝑖+2 , 𝜔𝑖−1,𝑖 , 𝜔𝑖,𝑖+1 , 𝜔𝑖+1,𝑖+2 удовлетворяют:
𝜔𝑖−1,𝑖+2 + 𝜔𝑖,𝑖+1 < 𝜔𝑖−1,𝑖 + 𝜔𝑖+1,𝑖+2 .
80
(5.12)
Подставляя 𝜔𝑖,𝑗 = 𝑢 ln |𝑥𝑖 − 𝑥𝑗 |, легко получить из (5.12) условия на длины интервалов 𝑑𝑖−1 , 𝑑𝑖 , 𝑑𝑖+1 :
⎧
⎪
⎪
⎨ 𝑑𝑖−1 > 𝑑𝑖
(5.13)
𝑑𝑖 (𝑑𝑖−1 + 𝑑𝑖 )
⎪
⎪
⎩ 𝑑𝑖+1 >
𝑑𝑖−1 − 𝑑𝑖
или в более симметричном виде:
𝑑𝑖−1 + 𝑑𝑖+1
𝑑𝑖 <
2
(︃√︃
)︃
4𝑑𝑖−1 𝑑𝑖+1
1+
−1 .
(𝑑𝑖−1 + 𝑑𝑖+1 )2
(5.14)
Зная вид распределения 𝑓 (𝑑) на [𝑑min , 𝑑max ], можно вычислить вероятность того, что
неравенство (5.14) имеет место. Так как интервалы 𝑑𝑖−1 , 𝑑𝑖 , 𝑑𝑖+1 независимы, вычисляемая вероятность 𝑃 определяется трехмерным интегралом
∫︁
𝑑max
𝑃 =
∫︁
𝑑max
𝑓 (𝑥) 𝑑𝑥
𝑑min
∫︁
𝑥+𝑦
2
𝑓 (𝑦) 𝑑𝑦
𝑑min
(︁√︁
1+
)︁
4𝑥𝑦
−1
(𝑥+𝑦)2
𝑓 (𝑧) 𝑑𝑧,
(5.15)
𝑑min
где интегрирование по 𝑑𝑖−1 заменено на интегрирование по переменной 𝑥, 𝑑𝑖+1 на 𝑦 и
𝑑𝑖 на 𝑧.
Интеграл (5.15) описывает появление вложенности первого уровня (ℎ = 2). Более того, он присутствует как множитель в вероятности иметь вложенность второго
уровня (ℎ = 3), так как любая вложенность последующего уровня требует наличия
вложенности предыдущего уровня. Таким образом, естественно ожидать, что зависимости ℎ(𝜎) и ℎ(𝛾) (Рис. 5.4, Рис. 5.6) будут отражать свойства распределения Гаусса
𝑓 (𝑑, 𝜎) и степенного распределения 𝑓 (𝑑, 𝛾) соответственно.
Распределение Гаусса
Функция 𝑃 для распределения Гаусса 𝑓 (𝑑, 𝜎) (5.9) с параметрами (𝜇 = 2; 𝑑min =
1; 𝑑max = 3) представлена на Рис. 5.7. Отметим, что зависимость 𝑃 (𝜎) повторяет профиль ⟨ℎ(𝜎)⟩, полученный в численном моделировании (Рис. 5.4). Кривая полученная
аналитически отражает только локальные геометрические свойства первичной структуры полимера. Кривая хорошо описывает «зарождение» вложенности в оптимальной
конфигурации. Однако, она не отражает, например, влияние длины полимера на критическую точку кроссовера. Дело в том, что длина полимера относится к параметрам, влияющим на глобальные свойства вторичной структуры. Учесть аналитически
81
Рис. 5.7 Аналитическое описание модели случайных интервалов: зависимость
функции 𝑃 (5.15) от параметра распределения Гаусса 𝜎.
вклад глобальных геометрических особенностей цепочки даже в рамках распределения Гаусса оказывается сложным. Отметим также, что появление вложенности второго
уровня в Гауссовом полимере (ℎ > 2) уже обусловлено глобальной реорганизацией
связей. Действительно, если предположить что вложенность второго уровня локальна, т.е. имеет место конфигурация с тремя последовательно вложенными друг в друга арками (такая конфигурация реализуется на шести последовательных интервалах),
то условие (5.12) должно выполняться для 𝑑𝑖−2 , 𝑑(1) , 𝑑𝑖+2 , где введено обозначение
𝑑(1) = 𝑑𝑖−1 + 𝑑𝑖 + 𝑑𝑖+1 . Наименьшее значение интервала 𝑑(1) , как следует из (5.12), равно
√
𝑑(1) = 2( 2+1)𝑑min +𝑑min . Для рассматриваемого распределения Гаусса 𝑑(1) > 𝑑max , что
приводит к противоречию. Таким образом, конфигурации с ℎ > 2 имеют, по крайней
мере, одну длинную связь.
82
Степенное распределение
Аналогичный анализ был проведен и для степенного распределения 𝑓 (𝑑, 𝛾) (5.10).
Аналитическая кривая 𝑃 имеет четкий максимум (Рис. 5.8) в точке 𝛾 = 1. При 𝛾 ≫
1 вероятность стремится к нулю. В отличие от распределения Гаусса, вложенность
второго уровня разрешена распределением, 𝑑(1) < 𝑑max , однако петли третьего уровня
√
уже запрещены — 𝑑(2) = 2( 2 + 1)𝑑(1) + 𝑑(1) > 𝑑max . Таким образом, конфигурации
с ℎ > 3 обусловлены глобальными геометрическими особенностями цепочки.
Рис. 5.8 Аналитическое описание модели случайных интервалов: зависимость
функции 𝑃 (5.15) от параметра 𝛾 степенного распределения.
Было показано, что в модели случайных интервалов РНК-подобной молекулы для
распределения Гаусса имеет место топологический кроссовер между конфигурацией с
последовательным взаимодействием мономеров и вложенной. Параметр, контролирующий кроссовер — значение дисперсии в распределении Гаусса 𝑓 (𝑑, 𝜎).
Для степенного распределения 𝑓 (𝑑, 𝛾) (5.10) наличие тяжелых хвостов приводит к
другому топологическому поведению в зависимости от параметра распределения 𝛾.
Степенное распределение характеризуется наличием максимума функции ⟨ℎ(𝛾)⟩ при
𝛾 = 1.
Важный результат данного исследования заключается в том, что показана возможность перейти от нелокального уравнения на свободную энергии основного состояния
83
РНК (2.20) к локальной рекурсии (5.8). В рамках предположения выпуклого потенциала
взаимодействия между мономерами, выражение (5.8) существенно упрощает алгоритм
предсказания вторичной структуры. Время численного счета уменьшается с 𝑁 3 до 𝑁 2 ,
где 𝑁 — длина последовательности.
84
Заключение
В диссертационной работе представлен анализ топологических свойст РНКподобных молекул со случайной первичной структурой методами статистической физики и теории случайных процессов. Основные результаты работы заключаются в следующем.
1. Получено выражение для статистической суммы, описывающие взаимодействие
двух сополимеров, учитывающий способность каждого из сополимеров образовывать РНК-подобную структуру с иерархией петлевых участков. Разработан соответствующий алгоритм динамического программирования вычисления свободной
энергии основного состояния таких РНК-подобных молекул.
2. Численно и аналитически показано критическое поведение РНК-подобной структуры в зависимости от используемого в первичной структуре алфавита. Существует две области: для алфавитов 𝑐 < 𝑐𝑐 свойственна максимально связанная
вторичная структура без пропусков, тогда как для 𝑐 > 𝑐𝑐 вторичная структура
содержит конечную долю несвязанных мономеров. Аналитическая оценка точки
топологического перехода 𝑐𝑐 = 2.87 близка к наблюдаемой в численном моделировании 𝑐𝑐 = 2.67.
3. Показано, что описание топологии РНК-подобной структуры может быть сведено
к оптимизационной транспортной задаче. Разработан алгоритм вычисления свободной энергии в модели первичной структуры со случайными расстояними между мономерными звеньями вдоль по цепи и потенциалом взаимодействия между
мономерами, заданного выпуклой функцией от расстояния. Показана зависимость
топологии РНК-подобной структуры от параметров распределения.
85
Список сокращений и условных
обозначений
ДНК — дезоксирибонуклеиновая кислота,
РНК — рибонуклеиновая кислота,
А — аденин,
U — урацил,
C — цитозин,
G — гуанин,
мРНК — матричная РНК,
нкРНК — некодирующая РНК,
НОП — наибольшая общая подпоследовательность,
KPZ — Кардар-Паризи-Занг (Kardar-Parisi-Zhang),
ОТЗ — оптимизационная транспортная задача.
86
Литература
1. Птицын Б.О., Финкельштейн А. Физика белка: Курс лекций // Москва: Университет,
2002. — 376 C.
2. Гросберг Ю.А., Хохлов Р.А. Статистическая физика макромолекул / под ред. Главной редакции физико-математической литературы // Москва: Наука, 1989. — 344
С.
3. Workman C., Krogh A. No evidence that mRNAs have lower folding free energies than
random sequences with the same dinucleotide distribution // Nucleic Acids Research. —
1999. — V. 27. — N. 24. — P. 4816-4822.
4. Clote P., Ferre F., Kranakis E., Krizanc D. Structural RNA has lower folding energy than
randomRNA of the same dinucleotide frequency // RNA. — 2005. — V. 11. — N. 5. —
P. 578-591.
5. Brezin E.E., Itzykson C., Parisi G., Zuber J.B. Planar diagrams // Communications in
Mathematical Physics. — 1978. — V. 59. — N. 1. — P. 5-51.
6. Watson D.J. J, Crick H.C.F. Molecular structure of nucleic acids // Nature. — 1953. —
V. 171. — P. 737-738.
7. Alberts B., Johnson A., Lewis J., Raff M., Roberts K., Walter P. Molecular Biology of
the Cell / 4th ed. // New York: Garland Science, 2002. — 1616 P.
8. Vendeix F.A.P., Munoz A.M., Agris P.F. Free energy calculation of modified base-pair
formation in explicit solvent: A predictive model // RNA. — 2009. — V. 15. — N. 12. —
P. 2278-2287.
87
9. Varani G., and McClain W.H. The G–U wobble base pair // The European Molecular
Biology Organization Reports. — 2000. — V. 1. — N. 1. — P. 18-23.
10. Chen J.-L. Functional analysis of the pseudoknot structure in human telomerase RNA
// Proceedings of the National Academy of Sciences. — 2005. — V. 102. — N. 23. —
P. 8080-8085.
11. Zuker M., Stiegler P. Optimal computer folding of large RNA sequences using
thermodynamic and auxiliary information // Nucleic Acids Research. — 1981. — V. 9. —
N. 1. — P. 133-138.
12. Akutsu T. Dynamic programming algorithms for RNA secondary structure prediction
with pseudoknots // Discrete Applied Mathematics. — 2000. — V. 104. — P. 45-62.
13. Zuker M. Mfold web server for nucleic acid folding and hybridization prediction //
Nucleic Acids Research. — 2003. — V. 31. — N. 13. — P. 3406-3415.
14. Mathews D.H. Revolutions in RNA secondary structure prediction // Journal of Molecular
Biology. — 2006. — V. 359. — N. 3. — P. 526-532.
15. Shi H., Moore P.B. The crystal structure of yeast phenylalanine tRNA at 1.93 A resolution:
a classic structure revisited // RNA. — 2000. — V. 6. — N. 8. — P. 1091-105.
16. Zhang J., Lin M., Chen R., Wang W., Liang J. Discrete state model and accurate
estimation of loop entropy of RNA secondary structures // The Journal of Chemical
Physics. — 2008. — V. 128. — N. 12. — P. 125107.
17. Eddy S.R. How do RNA folding algorithms work? // Nature Biotechnology. — 2004. —
V. 22. — N. 11. — P. 1457-8.
18. Hofacker I., Fontana W., Stadler P., Bonhoeffer S., Tacker M., Schuster P. Fast folding
and comparison of RNA secondary structures // Monatshefte fur Chemie. — 1994. —
V. 125. — P. 167-188.
19. Eddy S.R. What is dynamic programming? // Nature Biotechnology. — 2004. — V. 22. —
N. 7. — P. 909-10.
88
20. Rivas E., Eddy S.R. A dynamic programming algorithm for RNA structure prediction
including pseudoknots // Jourmal of Molecular Biology. — 1999. — V. 285. — N. 5. —
P. 2053-2068.
21. Ruan J., Stormo G.D., Zhang W. An iterated loop matching approach to the prediction
of RNA secondary structures with pseudoknots // Bioinformatics. — 2004. — V. 20. —
N. 1. — P. 58-66.
22. Миронов А. Метод поиска консервативных структур // Молекулярная биология. —
2007. — T. 41. — N. 4. — C. 711-18.
23. Anfinsen C.B. Principles that govern the folding of protein chains // Science. — 1973. —
V. 181. — N. 4096. — P. 223-230.
24. Laing C., Schlick T. Computational approaches to 3D modeling of RNA // Journal of
Physics: Condensed Matter. — 2010. — V. 22. — N. 28. — P. 283101.
25. Sato K., Kato Y., Hamada M., Akutsu T., Asai K. IPknot: fast and accurate
prediction of RNA secondary structures with pseudoknots using integer programming
// Bioinformatics. — 2011. — V. 27. — N. 13. — P. i85-i93.
26. Bon M., Orland H. Tt2ne: a novel algorithm to predict RNA secondary structures with
pseudoknots // Nucleic Acids Research. — 2011. — V.39. — N. 14. — P. e93-e93.
27. Bon M., Micheletti C., Orland H. Mcgenus: a Monte Carlo algorithm to predict RNA
secondary structures with pseudoknots // Nucleic Acids Research. — 2013. — V. 41. —
N. 3. — P. 1895-1900.
28. Ambros V. Development: Dicing up RNAs // Science. — 2001. — V. 293. — N. 5531. —
P. 811-813.
29. Eddy S.R. Computational genomics of noncoding RNA genes // Cell. — 2002. — V. 109.
— N. 2. — P. 137-140.
30. Gerlach W., Giegerich P. Guugle: a utility for fast exact matching under RNA
complementary rules including G–U base pairing // Bioinformatics. — 2006. — V. 22. —
N. 6. — P. 762-764.
89
31. Bernhart S. H., Tafer H., Muckstein U., Flamm C., Stadler P.F., Hofacker I.L. Partition
function and base pairing probabilities of RNA heterodimers // Algorithms for Molecular
Biology. — 2006. — V. 1. — N. 1. — P. 3-8.
32. Dirks R.M., Bois J.M., Schaeffer J.M., Winfree E., Pierce N.A. Thermodynamic analysis
of interacting nucleic acid strands // Society for Industrial and Applied Mathematics
Review. — 2007. — V. 49. — N. 1. — P. 65-88.
33. Busch A. . Richter A.S., Backofen R. IntaRNA: efficient prediction of bacterial sRNA
targets incorporating target site accessibility and seed regions // Bioinformatics. — 2008.
— V. 24. — N. 24. — P. 2849-56.
34. Chitsaz H., Salari R., Sahinalp S.C., Backofen R. A partition function algorithm for
interacting nucleic acid strands // Bioinformatics. — 2009. — V. 25. — N. 12. — P. i365i373.
35. Higgs P.G. RNA secondary structure: a comparison of real and random sequences //
Journal de Physique I. — 1993. — V. 3. — N. 1. — P. 43-59.
36. D. Ward. The RNA world / ed. by Gesteland R. F., Atkins J.F // New York: Spring
Harbor Press, 1993. — 630 P.
37. Bundschuh R., Hwa T. RNA secondary structure formation: A solvable model of
heteropolymer folding // Physical Review Letters. — 1999. — V. 83. — N. 7. — P. 14791482.
38. Bundschuh R., Hwa T. Statistical mechanics of secondary structures formed by random
RNA sequences // Physical Review E. — 2002. — V. 65. — N. 3. — P. 031903.
39. Pagnani A., Parisi G., Ricci-Tersenghi F. Glassy transition in a disordered model for
the RNA secondary structure // Physical Review Letters. — 2000. — V. 84. — N. 9. —
P. 2026-2030.
40. Maier B., Bensimon D., Croquette V. Replication by a single DNA polymerase of a
stretched single-stranded DNA // Proceedings of the National Academy of Sciences. —
2000. — V. 97. — N. 22. — P. 12002-12007.
90
41. Tamm M., Nechaev S.K. Unzipping of two random heteropolymers: Ground-state energy
and finite-size effects // Physical Review E. — 2008. — V. 78. — N. 1. — P. 011903.
42. Chee M., Yang R., Hubbell E., Berno A., Huang X.C., Stern D., Winkler J., Lockhart
D.J., Morris M.S., Fodor S.P.A. Accessing genetic information with highdensity DNA
arrays // Science. — 1996. — V. 274. — N. 5287. — P. 610-614.
43. Gibbs R.A. DNA amplification by the polymerase chain reaction // Analytical Chemistry.
— 1990. — V. 62. — N. 13. — P. 1202-1214.
44. Valenzuela J.G., Francischetti I., Ribeiro J. Purification, cloning, and synthesis of a novel
salivary anti-thrombin from the mosquito anopheles albimanus // Biochemistry. — 1999.
— V. 38. — N. 34. — P. 11209-11215.
45. Service R.F. DNA chips survey an entire genome // Science. — 1998. — V. 281. —
N. 5380. — P. 1122a-1122a.
46. Marshall A., Hodgson J. DNA chips: An array of possibilities // Nature Biotechnology.
— 1998. — V. 16. — N. 1. — P. 27-31.
47. Krzakala F., Mezard M., Muller M. Nature of the glassy phase of RNA secondary
structure // Europhysics Letters. — 2002. — V. 57. — N. 5. — P. 752-758.
48. Hui S., Tang L.H. Ground state and glass transition of the RNA secondary structure //
The European Physical Journal B. — 2006. — V. 53. — N. 1. — P. 77-84.
49. Monthus C., Garel T. Directed polymer in a random medium of dimension 1+1 and 1+3:
weights statistics in the low temperature phase // Journal of Statistical Mechanics: Theory
and Experiment. — 2007. — V. 2007. — P. 03011.
50. Lassig M., Wiese K.J. Freezing of random RNAs // Physical Review Letters. — 2006. —
V. 96. — N. 22. — P. 228101.
51. David F., Wiese K.J. Systematic field theory of the RNA glass transition // Physical
Review Letters. — 2007. — V. 98. — N. 12. — P. 128102.
52. Kardar M., Parisi G., Zhang Y.C. Dynamic scaling of growing interfaces // Physical
Review Letters. — 1986. — V. 56. — N. 9. — P. 889-892.
91
53. Khanin K., Nechaev S.K., Oshanin G., Sobolevski A., Vasilyev O. Ballistic deposition
patterns beneath a growing kardar-parisi-zhang interface // Physical Review E. — 2010.
— V. 82. — N. 6. — P. 061107.
54. Zee A. Random matrix theory and RNA folding // Acta Physica Polonica B. — 2005. —
V. 36. — N. 9. — P. 2829-36.
55. Orland H., Zee A. RNA folding and large N matrix theory // Nuclear Physics B. — 2002.
— V. 620. — P. 456-476.
56. Bon M., Vernizzi G., Orland H., Zee A. Topological classification of RNA structures //
Journal of Molecular Biology. — 2008. — V. 379. — N. 4. — P. 900-911.
57. Dumitriu I., Rassart E. Path counting and random matrix theory // Electronic Journal of
Combinatorics. — 2003. — V. 10. — N. 1. — P. 43-59.
58. Edelman A., Rao N.R. Random matrix theory // Acta Numerica. — 2005. — V. 14. —
N. 1. — P. 233-297.
59. Vernizzi G., Orland H., Zee A. Enumeration of RNA structures by matrix models //
Physical Review Letters. — 2005. — V. 94. — N. 16. — P. 168103.
60. Mansfield M. Efficient knot group identification as a tool for studying entanglements of
polymers // The Journal of Chemical Physics. — 2007. — V. 127. — N. 24. — P. 244901.
61. Ito J., Braithwaite D.K. Compilation and alignment of DNA polymerase sequences //
Nucleic Acids Research. — 1991. — V. 19. — N. 15. — P. 4045.
62. D. K., and Ito J. Compilation, alignment, and phylogenetic relationships of DNA
polymerases // Nucleic Acids Research. — 1993. — V. 21. — N. 4. — P. 787.
63. Needleman S. B., Wunsch C.D. A general method applicable to the search for similarities
in the amino acid sequence of two proteins // Journal of Molecular Biology. — 1970. —
V. 48. — N. 3. — P. 443-453.
64. Smith T. F., Waterman M.S. Identification of common molecular subsequences // Journal
of Molecular Biology. — 1981. — V. 147. — P. 195-197.
92
65. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. Basic local alignment search
tool // Journal of Molecular Biology. — 1990. — V. 215. — N. 3. — P. 403-410.
66. Sankoff D. Simultaneous solution of the RNA folding. alignment and protosequence
problems // Society for Industrial and Applied Mathematics: Journal on Applied
Mathematics. — 1985. — V. 45. — N. 5. — P. 810-825.
67. Apostolico A., Guerra C. The longest common subsequence problem revisited //
Algorithmica. — 1987. — V. 2. — N. 14. — P. 315-336.
68. Wagner R., Fischer M. The string-to-string correction problem // Journal of the
Association for Computing Machinery. — 1974. — V. 21. — N. 1. — P. 168-173.
69. Gusfield D. Algorithms on strings, trees and sequences: computer science and
computational biology // New York: Cambridge University Press, 1997. — 416 P.
70. Chvatal V., Sankoff D. Longest common subsequences of two random sequences //
Journal of Applied Probability. — 1975. — V. 12. — N. 2. — P. 306-315.
71. Deken B. Some limit results for longest common subsequences // Discrete Mathematics.
— 1979. — V. 26. — N. 1. — P. 17-31.
72. Steele M.J. Long common subsequences and the proximity of two random strings //
Society for Industrial and Applied Mathematics: Journal on Applied Mathematics. —
1982. — V. 42. — N. 4. — P. 731-737.
73. Dancik V., Paterson M. Upper bounds for the expected length of a longest common
subsequence of two binary sequences // Random Structures and Algorithms. — 1995. —
V. 6. — N. 4. — P. 449-58.
74. Alexander K.S. The rate of convergence of the mean length of the longest common
subsequence // The Annals of Applied Probability. — 1994. — V. 4. — N. 4. — P. 10741082.
75. Kiwi M., Loebl M., Matouvsek J. Expected length of the longest common subsequence
for large alphabets // Advances in Mathematics. — 2005. — V. 197. — N. 2. — P. 480-498.
93
76. Zhang M., Marr J.T. Alignment of molecular sequences seen as random path analysis //
Journal of Theoretical Biology. — 1995. — V. 174. — N. 2. — P. 119-129.
77. Hwa T., Lassig M. Similarity detection and localization // Physical Review Letters. —
1996. — V. 76. — N. 14. — P. 2591-94.
78. Boutet de Monvel J. Extensive simulations for longest common subsequences // The
European Physical Journal B. — 1999. — V. 7. — N. 2. — P. 293-308.
79. Waterman M.S., Vingron M. Sequence comparison significance and poisson
approximation // Statistical Science. — 1994. — V. 9. — P. 367-381.
80. Drasdo D., Hwa T., Lassig M. Scaling laws and similarity detection in sequence alignment
with gaps // Journal of Computational Biology. — 2000. — V. 7. — N. 12. — P. 115-141.
81. de Gennes P.G. Statistics of branching and hairpin helices for the dat copolymer //
Biopolymers. — 1968. — V. 6. — N. 5. — P. 715-729.
82. Boutet de Monvel J. Mean-field approximations to the longest common subsequence
problem // Physical Review E. — 2000. — V. 62. — N. 1. — P. 204-212.
83. Majumdar S.T., Nechaev S.K. Exact asymptotic results for the bernoulli matching model
of sequence alignment // Physical Review E. — 2005. — V. 72. — N. 2. — P. 020901.
84. Kriecherbauer T., Krug J. A pedestrian’s view on interacting particle systems: KPZ
universality and random matrices // Journal of Physics A: Mathematical and Theoretical.
— 2010. — V. 43. — N. 40. — P. 403001.
85. Ма Ш. Современная теория критических явлений // Москва: Мир, 1980. — 380 С.
86. Тамм М.В., Лисаченко Н.Г., Ерухимович И.Я., Иванов В.А. Эффекты конечного
объема в системе равновесных циклических полимеров: теория и компьютерное
моделирование // Высокомолекулярные соединения. — 2005. — T. 47. — N. 7. —
C. 348-352.
87. Ландо К. Лекции о производящих функциях // Москва: Московский центр непрерывного математического образования, 2007. — 144 C.
94
88. Feller W. An introduction to probability theory and its applications. — V. 1. // New York:
Wiley, 1968. – 509 P.
89. Владимиров А.А. Паросочетания без пересечений // Проблемы передачи информации. — 2013. — T. 49. — N. 1. — С. 61-65.
90. Grimmett G. What is Percolation? // New York: Springer, 1999. — 444 P.
91. Tamm M., Nechaev S. Necklace-cloverleaf transition in associating RNA-like diblock
copolymers // Physical Review E. — 2007. — V. 75. — N. 3. — P. 031904.
92. Toninelli C., Biroli G., Fisher D. Jamming percolation and glass transitions in lattice
models // Physical Review Letters. — 2006. — V. 96. — N. 3. — P. 035702.
93. Shannon C.E., Weaver W. A mathematical theory of communication // The Bell System
Technical Journal. — 1948. — V. 27. — P. 379-423.
94. Канторович В.Л. О перемещении масс // Доклады Академии Наук СССР. — 1942.
T. 37. — N. 3 — C. 227-229.
95. Кормен T.Х., Лейзерсон Ч.И., Ривест Р.Л., Штайн К. Алгоритмы: построение и
анализ. 2-е изд. // Москва: Вильямс, 2006. — 1296 С.
96. Кузнецов В.А., Холод И.Н., Костевич С.Л. Руководство к решению задач по математическому программированию // Минск: Вышэйшая школа, 1978. — 128 C.
97. Schrijver A. Combinatorial Optimization - Polyhedra and Efficiency // New York:
Springer, 2003. — 632 P.
98. Delon J., Salomon J., Sobolevski A. Local matching indicators for transport problems
with concave costs // Society for Industrial and Applied Mathematics: Journal on Discrete
Mathematics. — 2012. — V. 26. — N. 2. — P. 801-827.
99. Mccann R.J. Exact solutions to the transportation problem on the line // Proceedings
of the Royal Society A: Mathematical, Physical and Engineering Sciences. — 1999. —
V. 455. — N. 1984. — P. 1341-1380.
95
100. Aggarwal A., Bar-Noy A., Khuller S. Kravets D., Schieber B. Efficient minimum cost
matching using quadrangle inequality // Journal of Algorithms. — 1995. — V. 19. — N. 1.
— P. 116-143.
101. Postal M.P. Cross-over phenomena // New York: Rinehart and Winston, 1971. — 156 P.
96
Download