Исследование вторичной структуры РНК с помощью методов

advertisement
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
имени М.В. ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ
Исследование вторичной структуры РНК с помощью методов
высокопроизводительного секвенирования
Дипломная работа
Студент:
Курочкин И.И.
Научные руководители:
к.ф.-м.н. Первушин Д.Д.
д.б.н., к.ф-м.н. Миронов А.А.
Москва, 2013
2
СОДЕРЖАНИЕ
1
ВВЕДЕНИЕ
4
2
ОБЗОР ЛИТЕРАТУРЫ
6
2.1
РНК. Общие сведения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2
Структуры РНК . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3
Экспериментальные методы определения вторичной структуры РНК . . . . .
9
2.3.1
Прямое определение . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3.2
Косвенное определение . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.3
“In-line probing” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.4
Использование ионов свинца для определения структуры РНК in vivo
2.4
17
Вычислительные методы предсказания структуры РНК . . . . . . . . . . . . . 18
2.4.1
Методы предсказания на основе одной последовательности . . . . . . 18
2.4.2
Методы предсказания на основе нескольких последовательностей . . 21
2.5
РНК-связывающие белки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6
Определение мест связывания РНК с РНК-связывающими белками . . . . . . 25
2.7
2.6.1
Метод тоепринтинг . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.2
Футпринтинг с использованием гидроксильного радикала . . . . . . . 25
2.6.3
Метод PAR-CLIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Методы определения вторичной структуры РНК с использованием высокопроизводительного секвенирования . . . . . . . . . . . . . . . . . . . . . . . . 26
3
4
2.7.1
Определение вторичной структуры РНК в S. cerevisiae . . . . . . . . . 27
2.7.2
Метод FragSeq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.3
Метод SHAPE-seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
МАТЕРИАЛЫ И МЕТОДЫ
31
3.1
Метод FragSeq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2
Метод PAR-CLIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3
Принцип работы программы IRBIS . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4
Данные проекта “1000 геномов” . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5
Метод SHAPE-seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
4.1
40
Исследования структуры РНК методом FragSeq и сравнение с результатами
предсказания RNAfold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.1
Качественое сравнение показателя разрыва с результатами предсказаний RNAfold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.2
Показатель разрыва у неспаренных нуклеотидов в среднем выше,
чем у спаренных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2
Соотношение предсказания структур РНК с сайтами связывания белков . . . 45
4.3
Расчет количества SNP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4
Сравнение предсказанной структуры РНК методом SHAPE-seq и RNAfold с
реальной 3D структурой . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5
ЗАКЛЮЧЕНИЕ
51
6
ВЫВОДЫ
52
7
ДОПОЛНИТЕЛЬНЫЕ МАТЕРИАЛЫ
53
8
СПИСОК ЛИТЕРАТУРЫ
62
4
1. ВВЕДЕНИЕ
РНК — одна из трёх ключевых макромолекул, которая участвует во множестве различных клеточных процессов, начиная от трансляции, регуляции экспрессии генов, биосинтеза белка, и заканчивая поддержанием стабильности генома. Функции молекулы РНК
связаны с её способностью складываться в пространственные структуры. Для описания
структуры РНК используется иерархический подход, согласно которому выделяют первичную, вторичную, третичную и четвертичную структуры. Первичная структура описывает
нуклеотидную последовательность, вторичная структура описывает взаимодействия комплементарных нуклеотидов, третичная структура — укладку цепи в пространстве, а четвертичная — взаимодействие РНК с другими биомолекулами.
Знание вторичной структуры РНК является одним из ключевых моментов понимания механизма сворачивания РНК и сборки РНП комплексов. Существующие методы предсказания структуры РНК можно условно разделить на две группы: экспериментальные и
вычислительные. В свою очередь экспериментальные методы подразделяются на прямые
и косвенные. К прямым относят кристаллографию и ЯМР, а к косвенным относят набор
методов, в которых вторичная структура РНК может быть детектирована с использованием
небольших молекул или ферментов, чувствительных к локальной структуре. Выделяют два
типа таких молекул и ферментов. Молекулы и ферменты, которые реагирует с неспаренными азотистыми основаниями, принадлежат к первому типу. Второй тип взаимодействует
с остовом РНК, а именно с 2’-гидроксилом. Химические агенты или нуклеазы реагируют
с основаниями РНК в зависимости от их структурного окружения, позволяя различать основания, которые участвуют в спаривании или других стабилизирующих взаимодействиях.
Обычно такие методы используют для изучения коротких РНК или коротких фрагментов
длинных РНК.
Из всего многообразия вычислительных методов предсказания вторичной структуры РНК можно выделить методы предсказания на основании одной последовательности
и методы предсказания на основании нескольких последовательностей. В основе методов
предсказания на основании одной последовательности, как правило, лежит термодинамическая модель. Алгоритмы, лежащие в основе модели, используют принцип динамического программирования для расчета структуры путем оптимизации свободной энергии. Достоверность предсказания вторичной структуры РНК на основе минимизации свободной
энергии имеет ряд ограничений. Во-первых, молекула РНК, сворачиваясь, может оказаться в локальном, а не глобальном минимуме. Во-вторых, некоторые молекулы РНК имеют
более, чем одну активную конформацию (например, рибопереключатели). Кроме того, проблемой динамического программирования является то, что этот метод не позволяет найти
5
псевдоузлы — тип вторичной структуры, в котором внутримолекулярные спаривания “перекрещиваются”. Методы предсказания на основании нескольких последовательностей обладают большей достоверностью, а упрощенные модели взаимодействия позволяют определять структуры с псевдоузлами.
Благодаря развитию методов высокопроизводительного секвенирования область использования экспериментальных методов определения структуры РНК может увеличиться
до масштабов полных геномов. В данной работе мы проводим cравнительный анализ результатов, опубликованных в научной литературе, пилотных исследований структуры РНК
методами высокопроизводительного секвенирования и результатов предсказания вторичной структуры РНК, полученных биоинформатическими методами.
В рамках дипломной работы планируется решить следующие задачи:
1. Провести биоинформатическими методами анализ данных, полученных методами
высокопроизводительного секвенирования.
2. Провести качественное и количественное сравнение вторичной структуры РНК, полученной по методу FragSeq с предсказаниями программы RNAfold.
3. Определить как соотносятся вторичная структура РНК и данные высокопроизводительных экспериментов по определению сайтов связывания белков.
4. Используя данные проекта “1000 геномов”, выяснить как соотносятся вторичная
структура РНК и мутации, изменяющие эту структуру.
5. Определить эффективность метода SHAPE-seq для предсказания вторичной структуры S-домена РНКазы P.
6
2. ОБЗОР ЛИТЕРАТУРЫ
2.1
РНК. Общие сведения
Рибонуклеиновая кислота (РНК) — это одна из трех основных молекул, которые
содержатся в клетках всех живых организмов. РНК является отрицательно заряженным
линейным биополимером, состоящим из четырех основных типов нуклеотидов (аденин
(A), гуанин (G), цитозин (C) и урацил (U)), а также включающим большое разнообразие модифицированных нуклеотидов. Каждый нуклеотид состоит из сахаро-фосфатного
остова (рибоза-5-фосфат), к которому в положении 1’ присоединено азотистое основание.
Модифицированные основания являются химическими модификациями основных типов
нуклеотидов, причем модификация может быть как в азотистом основании, так и в сахарофосфатном остове.
Молекула РНК очень похожа на молекулу ДНК. Отличие заключается в замене углевода 2’-дезоксирибозы в ДНК на рибозу в РНК и замене метильной группы у тимидина
на атом водорода у урацила. По сравнению с ДНК РНК содержат значительно большее
количество модифицированных основания, что также связано с особенностью выполняемых РНК функций. Отличие в выполняемых ДНК и РНК функциях приводит к различиям
в структурах. Посколько ДНК выполняет функцию хранения генетической информации,
большинство молекул ДНК имеет структуру двойной спирали, в то время как молекулы
РНК обычно подстраивают свою структуру под белковые структуры для связывания с ними и для выполнения функций в составе РНП-комплекса.
2.2
Структуры РНК
Структуру РНК часто описывают в иерархических терминах по аналогии с терминалогией, используемой для описания структур белков: первичные, вторичные, третичные и
четвертичные структуры [1]. Понятие первичной структуры обычно используется для обозначения последовательности оснований молекулы РНК. В отличие от белков, которые в
большинстве случаев функционируют только, когда они правильно свернуты, многие молекулы РНК функционируют в неструктурированном, одноцепочечном состоянии. Например,
матричная РНК должна находится в одноцепочечном состоянии для прохождения процесса
трансляции, а стабильная вторичная структура ингибирует биосинтез белка.
Вторичная структура ДНК и РНК определяется образованием Уотсон-Криковских
пар, которые приводят к формированию структуры двойной спирали различной длины [1].
Одиночные пары оснований термодинамически не стабильны, однако формирование нескольких последовательных пар существенно увеличивает стабильность и приводит к образова-
7
нию различных структур. Приведенные на Рис. 1 мотивы вторичных структур являются
необходимыми частями, из которых может быть построена третичная структура. Существует фундаментальное различие между структурами белков и РНК. Вторичная структура
белков не стабильна в отсутствии стабилизирующих третичных взаимодействий, в то время
как вторичная структура РНК стабильна в отсутствии таких взаимодействий. Таким образом, основной для РНК является вторичная структура, а не третичная. Третичная структура
формируется путем образования относительно слабых взаимодействий между предварительно сформированными мотивами вторичной структуры. В связи с такой особенностью,
вторичная структура РНК может быть успешно предсказана, используя термодинамические
модели [1].
Шпилька
Спираль
Выпячивание
Множественная
петля
Внутренняя петля
5'
Псевдоузел
3'
Рис. 1. Основные элементы вторичной структуры.
Вторичная структура РНК определяется образованием двойной спирали, стабилизируемой Уотсон-Криковскими парами и удерживаемой энергией стэкинг-взаимодействием.
В отличие от ДНК, эти спирали относительно короткие, обычно короче 8-10 пар оснований
в длину, они прерываются одноцепочечными нуклеотидами и ветвлениями. Условно спиральные участки молекулы называют “стеблями”, а соединяющие их одноцепочечные тяжи
– “петлями”. К элементам, формирующим петли, относятся шпильки, выпеливания и внутренние петли. Они являются основными мотивами вторичной структуры и строительными
блоками, из которых построено большинство сложно устроенных структур РНК.
Образование псевдоузлов происходит, когда комплементарные первичные последовательности в шпильках или во внутренних петлях одноцепочечного участка взаимодей-
8
ствуют друг с другом через образование Уотсон-Криковских пар. При формировании псевдоузла между шпилечной петлей и комплементарным одноцепочечным участком возможно
образование двух альтернативных шпилечных структур.
Третичная структура образуется на основе элементов вторичной структуры с помощью водородных связей внутри молекулы. В естественных условиях РНК укладывается
в 3D структуру, при этом спирали и неспаренные участки строго определенно располагаются друг относительно друга в пространстве, образуя так называемые третичные взаимодействия [1]. Третичные взаимодействия обычно состоят из взаимодействия петель.
Важную роль в образовании и стабилизации третичной структуры РНК играет спиральный (коаксиальный) стекинг. Процесс укладки (фолдинга) в 3D структуры обычно зависит
от присутствия в растворе двухвалентных катионов и температуры раствора. Роль катионов особенно важна для формирования компактной структуры, в которой отрицательно
заряженные атомы фосфора уложены близко друг к другу [1].
Четвертичной структурой называется форма молекулы, которую она приобретает,
связываясь в комплекс с другими биомолекулами [1]. Существует относительное небольшое количество примеров, описывающих образование молекулами РНК супрамолекулярных четвертичных структур. Например, матричные РНК связываются с пятью основными
РНП, так называемыми малыми ядерными РНП, во время сплайсинга пре-мРНК. мяРНП
взаимодействуют друг с другом и с мРНК. Такие взаимодействия, их динамическое нарушение и формирование РНК-РНК четвертичных взаимодействий существены для протекания сплайсинга.
В большинстве имеющихся примеров образование четвертичной структуры РНК
происходит с помощью обычных Уотсон-Криковских пар. Например, антисмысловые РНК
(это одноцепочечные РНК, которые комплементарны мРНК, транскрибируемой в клетке)
образовывают межмолекулярные дуплексы в течении контроля экспресии генов у прокариот и эукариот. Аналогично, гидовая РНК распознает комплементарные последовательности, чтобы определить сайты, где мРНК редактируется посттранскрипционно. Хотя более
сложные четвертичные структуры не зависят только от Уотсон-Криковских пар, канонические пары все еще очень важны. Так называемые “kissing-hairpins” структуры образуются
между нуклеотидами комплементарных петелей двух стебль-петля структур (Рис. 2А). Эти
структуры являются сайтом узнавания белка, участвуя таким образом в регуляции количества плазмид у прокариот. Наилучшим примером, характеризующим супрамолекулярное
образование молекул РНК с помощью неканонических (не Уотсон-Криковских) взаимодействий, является так называемая “G-квадруплекс” структура (Рис. 2Б). Эти структуры легко
получаются in vitro для последовательностей РНК и ДНК, содержащих участки гуанина и
урацила, но не ясно смогут ли они образовываться in vivo.
9
Рис. 2. Примеры четвертичной структуры.
При изучении вторичной структуры РНК используются, как экспериментальные, так
и биоинформатические методы.
2.3
Экспериментальные методы определения вторичной структуры
РНК
Среди экспериментальных методов можно выделить прямые и косвенные. К прямым
методам относят методы рентгено-структурного анализа (РСА) и ядерно-магнитного резонанса (ЯМР). В данных методах на молекулу РНК не воздействуют химическими агентами,
которые модифицируют РНК, а получают структуру РНК на основании её взаимодействия
с электромагнитным излучением. В основе косвенных методов лежит воздействие химическими агентами, которые специфически взаимодействуют с определенными основаниями
РНК, а затем на основании данных модификаций судят о структуре РНК.
2.3.1
2.3.1.1
Прямое определение
Рентгено-структурный анализ
Рентгено-структурный анализ (РСА) – метод, позволяющий определять атомную и
молекулярную структуру кристалла, он основан на диффракции рентгеновских лучей на
атомах в кристалле. Измерив углы и интенсивности дифрагированных рентгеновских лучей, можно получить функцию плотности электронов в кристалле. По функции плотности
10
электронов можно определить среднюю позицию атома в кристалле. Основной сложностью данного метода является получение особого кристалла из исследуемого объекта [2].
2.3.1.2
Ядерно-магнитный резонанс
Наиболее популярным инструментом для определения структуры РНК является ЯМР.
Также, как и РСА, он позволяет определить структуру РНК с высоким разрешением. Половина известных структур РНК определено при помощи ЯМР. По сравнению с РСА, ЯМР
имеет ряд преимуществ. Во-первых, в ЯМР исследуемая молекула находится в растворе,
а не в кристалле, который может изменять структурные свойства молекулы. Во-вторых,
ЯМР позволяет следить за динамикой молекулы, однако, в результате мы получаем менее
точные и детальные структуры, чем в РСА [2].
Для определения структуры РНК используют, так называемый, двумерный ЯМР.
Он включает в себя корреляционную спектроскопию (COSY), позволяющую определять
J-пары между ядрами, и спектроскопию ядерного эффекта Оверхауза (NOESY), определяющую образование пар между ядрами, которые расположены близко в пространстве. Для
определения структур РНК в ЯМР обычно используют ядра 1H,
13
C,
15
Nи
31
P.
Параметры, которые обычно получаются из спектров излучения, могут быть использованы для определения локальных структурных особенностей, как, например, углы
гликозидных связей, двугранные углы и особые конформации сахаро-фосфатного остова.
ЯМР очень полезен для определения структур с нестандартной геометрией, таких как,
изгиб, не-Уотсон-Криковское спаривание и стэкинг, при анализе структур естественных
РНК олигонуклеотидов, у которых имелись сложные конформации, такие, как стебли и
псевдоузлы. Метод также незаменим при анализе связывания РНК с другими молекулами,
например, с белками или низкомолекулярными соединениями, анализ сдвига резонансного
спектра позволяет определить места связывания РНК с другой молекулой [2].
2.3.2
Косвенное определение
При описании косвенных методов следует отметить методы детекции специфических модификаций и химические агенты, которые специфически модифицируют определенные основания.
2.3.2.1
Определения разрезания по меченым концам РНК
В методе разрезания по меченым концам молекула РНК помечается на 5’ или 3’конце перед тем, как быть обработанной химическим агентом или РНКазой. Маркировка
5’-конца осуществляется путем переноса γ-фосфата от [γ 32 P]−ATP на терминальную OH
группу РНК, используя T4 полинуклеотид киназу. В присутствии 5’-фосфат РНК перед
маркировкой обрабатывается щелочной фосфотазой. Альтернативой является маркировка, использующая реакцию обмена между γ-фосфатом [γ 32 P]−ATP и 5’-фосфатом РНК,
11
осуществляемое также ферментом T4 полинуклеотид киназой. Маркировка 3’-конца осуществляется путем добавления [5’ − 32P]−pCp к 3’ − OH РНК при помощи ферфента T4
РНК лигазы.
Затем меченная РНК обрабатывается химическим агентом, либо нуклеазой в статистических условиях в присутствии переносчика РНК (добавляется для контроля отношения агент/РНК). После остановки реакции, следует фенольная экстракция. За химическими
модификациями следует дальнейшая химическая обработка для получения разрывов цепи
РНК в местах модифицированных нуклеотидов. Затем полученные фрагменты РНК разгоняются по размеру путем электрофореза на полиакриламид-мочевинном геле, и в конце
этого процесса используется авторадиография. Определение размера фрагментов облегчается путем разгонки реакции щелочного гидролиза и секвенирования [3].
2.3.2.2
Удлинение праймера
Этот метод был изначально разработан для определения структур длинных молекул РНК. После остановки реакции расщепления РНКазой или химическим агентом, РНК
экстрагируется фенолом, а затем гибридизуется с комплементарным олигодезоксирибонуклеотидом к выбранному участку РНК. Олигимер, который может быть синтезирован или
получен путем рестрикции ДНК, используется в качестве праймера для обратной транскрипции. Процесс элонгации происходит от 3’-конца праймера в 5’-направлении и в присутствии 4 dNTPs. В результате получаем набор неполноразмерных кДНК. Это происходит
из-за того, что обратная транскриптаза терминируется в местах разрыва, полученных обработкой РНК различными агентами. Модификация Уотсон-Криковской пары приводит к
тому, что обратная транскрипция блокируется на нуклеотиде предшествующем модифицированному основанию. Это происходит в случае модификации N1 аденина и N3 цитидина
— ДМС, N1 гуанина и N3 уридин — ЦМКТ, N1 и N2 гуанина — кетоксалем. Для не УотсонКриковских пар эффект может зависеть от агента. Например, метилирование N7 гуанина с
помощью ДМС не оказывает влияние на удлинение праймера. В этом случае необходима
последующая обработка анилином для разрезания соответствующей фосфодиэфирной связи. Карбоэтоксилирование (присоединение этоксикарбонильной группы) N7 аденина при
помощи ДЭПК приводит к раскрытию имидазольного кольца, что является достаточным
для остановки обратной транскрипции [3].
Маркировка синтезированных кДНК может осуществляться двуми способами. В
первом методе в присутствии [γ 32 P]−ATP праймер по 5’-концу метится перед гибридизацией. Этот способ используется в случае небольшого количества матриц РНК для достижения высокой специфичности. Во втором методе праймер не метится, а процесс элонгации
идет в присутствии [α 32 P]−dATP или [α 35 S]−dATPαS. Этот способ реализуется в случае
низкого выхода гидридизации, и поэтому избыток праймеров может быть использован без
удаления первых продуктов элонгации. Для меченных таким способам кДНК определяется
12
длина, сравнивая её с кДНК, полученной при использование того же праймера и немодифицированной РНК.
Одно из ограничений метода удлинения праймера связано со свойством обратной
транскриптазы останавливаться на модифицированных Уотсон-Криковских парах. Таким
образом, модифицированные основания, присутствующие в РНК, такие, как m 2 G и m 6 2G,
останавливают обратную транскрипцию. Паузы, связанные с особенностью транскриптазы
расплавлять некоторые сложно свернутые участки РНК, также приводят к блокировке обратной транскрипции. Поэтому необходимо ставить элонгационные контроли в параллель
с исходным опытом для определения мест — естественных пауз и обрывов матриц [3].
2.3.2.3
Масс-спектрометрия
Еще одним косвенным методом определения структуры РНК является масс-спектрометрия. На первом этапе, как и в предыдущих методах, мы метим РНК одним из химических агентов: диметилсульфатом (ДМС), кетоксалем, либо ЦМКТ, а затем используется
электроспрей масс-анализатор ионно-циклотронного резонанса с Фурье-преобразованием
(ESI-FTICR-MS).
В результате Фурье-преобразования ESI-FTICR получается масс-спектр, на котором
хорошо различим сдвиг по молекулярной массе за счет связывания с модифицирующим
агентом. Относительно низкая насыщенность алкилированными аддуктами, по сравнению
с их не модифицированными аналогами, является результатом изначально низкого соотношения модифицирующего агента/субстрата, что в конечном итоге приводит к снижению
искажения структур. Для получения перекрывающихся участков используется нуклеаза с
различными специфичностями, что увеличивает вероятность правильности определения
алкилированных оснований [4].
2.3.2.4
Химические модификации
Химические агенты, их мишени и способы детекции приведены в Таблице 1 [3].
Механизмы реакций агентом с основаниями показаны на Рис. 3 [3].
1. Диметил сульфат (ДМС) является одним из самых древних и универсальных химических реагентов, который используют для определения вторичной структуры РНК.
ДМС метилирует N1 аденозина и N3 цитозина. Из-за метильной группы данные основания не могут образовывать комплементарных пар. ДМС может метилировать
аденозин и цитозин, которые находятся в одноцепочечном состоянии, в спаренном
состоянии на конце спирали, или основание, расположенное рядом с GU парой. Затем полученные молекулы РНК проверяют на гель электрофорезе. Нуклеотиды могут
быть защищены от ДМС образованием комплементарных пар, третичными контактами или белок-РНК взаимодействием. Этот подход является одним из первых методов
определения вторичной структуры РНК [5].
13
Рис. 3. Механизмы химических реакций.
2. 1-циклогесил-(2-морфолиноэтил)карбодиимид мета-пара-толуол сульфонат (ЦМКТ)
реагирует с N3-U в большей степени, чем с N1-G при pH 8.0. Реакция не идет при
кислотных и нейтральных значениях pH. Тимидин также реагирует с ЦМКТ, но в
меньшей степени. Псевдоуридин реагирует с ЦМКТ, образуя либо моно-, либо дизамещенное производное в зависимости от условий.
3. Диэтил пирокарбонат (ДЭПК) в основном реагирует с атомом N7 аденозина, который
является частично доступным для карбоэтоксилирования при нейтральных значениях pH. Модификация нарушает резонс гетероцикла, что приводит к раскрыванию
14
имидазольного конца между атомами N7 и C8, создавая сайт для разрезания цепи
анилином. Поскольку молекулярная масса аддукта выше, ДЭПК более чувствителен
к стэйкингу, чем ДМС, и все аденины в спиралях являются не активными.
Агент
ДМС
Таблица 1. Нуклеазы и химические агенты.
Молекулярная
Специфичность Меченные
Удлинение
масса
концы
праймера
N3-C
+
+
N1-A
-
+
N7-G
+
+
N7-A
+
+
N3-U
-
+
N1-G
-
+
126
ДЭПК
174
ЦМКТ
424
Кетоксаль
148
N1-G, N2-G
-
+
Бисульфат
104
неспаренные C
+
+
ЭНМ
117
Фосфаты
+
+
РНКаза TI
11000
неспаренные G
+
+
РНКаза V1
15900
спаренные или
+
+
+
+
+
+
стейкинговые N
РНКаза U2
12490
неспаренные
A>G
РНКаза
16800
CL3
неспаренные
CA>U
РНКаза T2
36000
неспаренные N
+
+
РНКаза S1
32000
неспаренные N
+
+
Нуклеаза
55000
неспаренные N
+
+
N. crassa
4. 1,1-дигидрокси-3-этокси-2-бутанон (кетоксаль), производное глиоксилата, специфически реагирует с неспаренными гуанозинами и образует новое кольцо, используя
N1 и N2 положения гуанинового кольца и обе карбонильных группы кетоксаля.
Кетоксаль-гуаниновый аддукт стабилен при pH 5.5-6.5, но распадается при щелочных значениях pH. Присутствие иона BO3 3- стабилизирует аддукт.
5. Бисульфитная модификация способствует превращению цитозина в уридин. Бисульфит реагирует с цитозином с образованием 5,6-дигидроцитозин-6-сульфонат. При высокой концентрации бисульфита (>1M) и pH 5-6 образование производного цитозина
облегчает нуклеофильную замену экзоциклической амино группы, как результат 5,6-
15
дигидроцитозин-6-сульфонат превращается в 5,6-дигидроурацил-6-сульфонат. Детекция превращения цитидина в уридин может быть осуществленна при помощи уридин
специфической реакции секвенирования, используя гидразин.
6. Этилнитрозомочевина (ЭНМ) — это N-нитрозо алкилирующий реагент, имеющий аффиность к фосфатным кислородам нуклеиновых кислот по сравнению с другими
алкилирующими агентами (такими, как ДМС, который алкилирует в основном гетероциклические азаты). В случае РНК, получившиеся трифосфоэфиры нестабильны и
легко разщепляются под действием слабых щелочных агентов. Алкилирование позволяет специфически определять фосфаты, не вовлеченные в образование третичных
взаимодействий и не учавствующие в координации катионов. Фосфаты в спиралях
отлично реагируют с ЭМН.
2.3.2.5
Специфические нуклеазы
С развитием технологий стало возможным использовать не химические агенты, а
нуклеазы, которые селективно разрезают одноцепочечные районы РНК. Различные нуклеазы описаны в Таблице 1 [3].
1. РНКаза T1 из Aspergillus orizae специфически разрезает межнуклеотидную связь
3’-фосфата неспаренного гуанозина в РНК с образованием интермедиата — 2’-3’циклогуанозин фосфат. N1 и O6 взаимодействую посредством водородных связей с
РНКазой. Модифицированные основания РНК m1G и m7G не могут быть определены
этим ферментом.
2. РНКаза V1 из яда кобры Naja naja oxiana специфически разрезает двухцепочечные или структурированные участки, что приводит к образованию фрагментов с
5’-фосфатом. Минимальный размер РНК для распознавания данным ферментом 4-6
нуклеотидов определяется из условия образования 3-4 ионных взаимодействий между положительно заряженными аминокислотами нуклеазы и фосфатами РНК. Кроме
того, РНКаза V1 разрезает также одноцепочечные участки, которые находятся в стейкинг конформации. Для работы данного фермента необходимы ионы магния.
РНКазы T1 и V1 могут быть использованы для определения петель и спиралей [6].
3. РНКаза U2 из Ustilago sphaerogena специфически разрезает 3’-5’ фосфодиэфирную
связь неспаренных аденинов. Однако, у данного фермента не абсолютная специфичность (A>GC>U).
4. РНКаза CL3 из печени цыплёнка специфически разрезает неспаренные цитидины и
генерируют фрагменты с 3’-терминальным фосфатом. Фермент также разрезает РНК
16
по аденозинам и уридинам, однако требуется гораздо более длительный инкубационный период и большие концентрации фермента. Увеличение активности РНКазы
происходит в присутствии ионов магния.
5. РНКаза T2 из Aspergillus orizae является специфической одноцепочечной эндонуклеазой, которая разрезает РНК по остаткам аденозина. РНКаза T2 ингибируется ионами
тяжелых металлов, в особенности Cu++ .
6. РНКаза S1 из Aspergillus orizae — это специфическая одноцепочечная эндонуклеаза,
для работы которой необходимы ионы Zn++ . Фермент расщепляет не только РНК, но
и ДНК, в результате получаются фрагменты с 5’-фосфатом.
7. Нуклеаза из Neurospora crassa — это специфическая одноцепочечная нуклеаза, содержащая ионы Co++ в качестве простетической группы ферментов. Она расщепляет
либо РНК, либо ДНК, образуя фрагменты с 5’-фосфатом. Фермент сохраняет свою
активность вплоть до температуры 650 C. Присутствие EDTA ингибирует его активность за счет хелатирования ионов Co++ .
2.3.2.6
Метод SHAPE
Метод SHAPE заключается в селективном ацелировании 2’-гидроксила РНК в зависимости от того в спаренном или неспаренном состоянии находится данный нуклеотид.
Результаты ацелирования можно анализировать по продуктам удлинения праймера. Этот
подход является популярным биохимическим методом, который активно используется в
последнее время, позволяя получать информацию о состоянии одиночного нуклеотида и о
его влиянии на вторичную и третичную структуру РНК [7].
Рис. 4. Реакция образования 2’-O-аддукта [7].
В методе SHAPE РНК обрабатывается электрофильным реагентом, например Nметил изатиновым ангидридом (NMIA) или 1-метил-7-нитроизатиновым ангидридом (1М7),
17
которые селективно реагируют с 2’-гидроксилом нуклеотида, находящемся в подвижном
состоянии (Рис. 4). Известно, что неспаренные нуклеотиды могут находится в достаточно
редких конформациях, в результате которых 2’-гидроксил является более нуклеофильным,
что приводит к образованию 2’-О-аддукта. По сравнению с химическими агентами, используемыми в других техниках зондирования РНК, эти реагенты имеют одну особенность. На
их химические свойства не влияет тип основания, т.е. все четыре нуклеотида показали
примерно одинаковую скорость образования 2’-О-аддукта, находясь в неспаренном состоянии или не участвуя в других взаимодействиях. Нуклеотиды, которые образуют пары или
участвуют в каких-то взаимодействиях, практически не образуют 2’-О-аддукт [7].
2.3.3
“In-line probing”
Метод “In-line probing” не включает в себя использование каких-либо химических
реагентов, которые модифицируют РНК [8]. Метод основан на том, что РНК с особой
структурой может спонтанно рваться, поскольку одноцепочечные участки более подвижны и со временем расщепляются, и структура РНК не всегда стабильна. Метод “In-line
probing” позволяет также определять места структурных изменений, ассоциированных со
связыванием лиганда, что в свою очередь приводит к изменению в патерном расщеплении
РНК. Процесс “In-line probing” включает в себя длительную инкубацию РНК в течение
нескольких дней, а затем наблюдение за полученными РНК, используя электрофорез. Этот
эксперимент проводят в двух условиях: с добавлением или без добавления лиганда. “In-line
probing” позволяет выявлять изменения в подвижности структуры и сайтах связывания в
ответ на добавления кого-либо лиганда. Данный метод широко применяется для изучения
рибопереключателей.
2.3.4
Использование ионов свинца для определения структуры РНК in vivo
Pb(II) разрывает одноцепочечные участки РНК, петли, выпетливания, в то время,
как двуцепочечные участки остаются нетронутыми. Описано два типа механизмов разрыва
РНК под действием Pb(II) [9]. Первый отвечает за место сильного разрыва, наблюдаемого
около или в координационном сайте, и который, возможно, является структурным мотивом, разрыв которого приводит к образованию “тугого” сайта связывания магния. Второй
тип механизма разрыва РНК отвечает за место слабого разрыва, которое наблюдается во
множестве подвижных участков, таких, как внеспиралевые или петлевые участки, а также
в выпетливающихся нуклеотидах. Механизм разрезания заключается в следующем. Гидратированный ион Pb 2+ существует в частично депротонированной форме, поэтому он оттягивает протон от 2’-ОН рибозы в сайте разрезания, что приводит к нуклеофильной атаке
2’-O – соседней фосфодиэфирной связи и разрыву цепи. Так как ион Pb 2+ легко проходит
через бактериальную клеточную стенку, его можно использовать для in-vivo эксперимен-
18
тов. Позиции разрыва определют с помощью обратной транскрипции всей экстрагированной РНК.
2.4
Вычислительные методы предсказания структуры РНК
2.4.1
Методы предсказания на основе одной последовательности
2.4.1.1
Минимизация свободной энергии
Самым популярным методом предсказания вторичной структуры на основе одной
последовательности является метод минимизации свободной энергии (МСЭ). Когда некоторая структура i находится в равновесии с одноцепочечной, состояние равновесия описывается как константа равновесия Ki :
Ki =
∆G0
Структура i
i
= e− RT
Одноцепочечечное состояние
Свободная энергия Гиббса для структуры i — ∆G0i оценивает предпочтительность данной структуры по сравнению с её несвернутым состоянием. Аналогичным образом можно
записать равновесие между некоторыми структурами i и j:
0
(∆G0
i −∆Gj )
Структура i
Ki
−
RT
=
=e
Структура j
Kj
Таким образом, свободная энергия Гиббса показывает предпочтительность структуры при
определенной температуре. Структура с наименьшей свободной энергией Гиббса будет
преобладать в растворе в состоянии равновесия [10].
Изменение свободной энергии может быть оценено, используя “модель ближайшего соседа”. Эта модель предполагает, что изменение свободной энергии для образования
спаренных пар зависит от идентичности пар и мгновенного образование пар оснований.
Свободная энергия, связанная с формированием петель и других структурных участков не
зависит от оснований, не расположенных внутри петли. Таким образом, свободная энергия
вычисляется как сумма энергий, связанных с образованием всех пар и других структурных
мотивов. Параметры этой модели определяются экспериментально [11].
Одним из подходов, реализующих предсказание структуры методом МСЭ, является
динамическое программирование [12]. Динамическое програмирование неявно перебирает
все возможные структуры и гарантирует оптимальное решение, однако это требует значительное количество времени. Время работы алгоритма составляет порядка O(N 3 ), где N —
длина последовательности РНК.
Для оценки эффективности, надежности и точности предсказаний алгоритмов обычно используют такие две величины: чувствительность (Se) и положительное предсказательное значение (PPV). Чувствительность показывает количество предсказанных пар оснований в известной структуре, т.е. чувствительность выражается отношением количества
19
истино положительно предсказанных пар (TPP) к полному числу предсказанных пар:
TPP
,
Se =
TPP + FNP
где FNP — ложное число положительно непредсказанных пар. Положительное предсказательное значение показывает сколько пар оснований было предсказано правильно, т.е.
положительное предсказательное значение – это процент верифицированных случаев предсказанных пар среди всех предсказанных пар с положительными тестами:
TPP
PPV =
,
TPP + FPP
где FPP — ложное число положительно предсказанных пар. Идеальная модель обладает
100 % чувствительностью. Предсказанные структуры данным методом для последовательностей короче 800 нуклеотидов имеют чувствительность около 74% и PPV ≈ 66% [13].
Для более длинных последовательностей эти значения существенно ниже.
2.4.1.2
Предсказание вероятностей спаривания пар
Предсказание вторичной структуры методом МСЭ предполагает, что РНК находится
в равновесии, т.е. у РНК есть всего одна конформация и параметры “модели ближайшего
соседа” определены правильно. Последнее предположение не всегда верно, поскольку оно
не учитывает эффектов “не-ближайшего соседа”, свойства которых недавно были изучены [14], а некоторые эффекты, связанные со специфичностью последовательностей, усредняются. Первые два, упомянутые выше, предположения, вероятно, не являются верными
для всех РНК.
В результате предсказания мы имеем пары, которые предсказаны истинно и ложно.
Расчёт статистической суммы для минимизации свободной энергии позволяет предположить, какие из предсказанных пар вероятнее всего истинны. Под статистической суммой
Q понимается сумма всех констант равновесия Ki для всех возможных структур:
X
X
∆G0
i
Q=
Ki =
e− RT
все структуры
все структуры
Таким образом, вероятность структуры i в растворе может быть рассчитана как:
∆G0
i
e− RT
Pi =
Q
Вероятность образования пары между нуклеотидами i и j может быть рассчитана как отношение суммы констант равновесия для структур, содержащих данную пару, к
статсумме Q:
P (i − j) =
X e−
k
∆G0
k
RT
Q
Алгоритм для расчета статсумм так же использует динамическое программирование. Кроме того, предпочтительные спаренные пары на основание статсумм являются наиболее
правильно предсказанными. Расчёт статсумм требует время порядка O(N 3 ).
20
2.4.1.3
Предсказание “максимально ожидаемых точных структур”
Существует другой метод предсказания точных структур, он использует априорную информацию о самых предпочтительных спаренных основаниях. На начальном этапе
используются литературные данные для предсказания вероятности образования пар. Ожидаемая точность определяется как [15]:
Ожидаемая точность(S) = γ
X
(i,j)∈BP
2PBP (i, j) +
X
PSS (k),
k∈SS
где PBP (i, j) — вероятность спаривания оснований в позиции i и j, PSS (k) — вероятность
нуклеотида в положение k находится в одноцепочечном состоянии.
Фактор γ — это весовой коэффициент между двумя суммами. “Максимально ожидаемые точные структуры” (МОТС) могут быть получены, используя вероятности спаривания оснований, на основе расчета статсумм. Последние затем используются в программе
MaxExpect [16]. Для большого набора семейств РНК MaxExpect имеет такую же чувствительность, как и метод МСЭ, но несколько большее значение PPV ≈ 66 − 68%. Время
работы MaxExpect составляет порядка O(N 3 ) [10].
2.4.1.4
Предсказание субоптимальных структур
Субоптимальные структуры — это структуры, имеющие близкие параметры с предсказанной структурой, у которой эти параметры определены наилучшим образом. Например, в случае метода МСЭ субоптимальными являются структуры, которые имеют небольшие изменения свободной энергии. Данные структуры являются альтернативными к той
структуре РНК, которая предсказана как оптимальная. Это связано с тем, что методы МСЭ
и МОТС не всегда точны, а субоптимальные структуры могут быть близки к принятым
структурам. Кроме того, некоторые РНК могут иметь несколько вторичных структур, например, рибопереключатели, которые изменяют вторичную структуру после связывания
лиганда. В этом случае одна лишь оптимальна структура не может содержать всей структурной информации. Существует несколько методов, позволяющих получать субоптимальные структуры с низкими энергиями [10].
Одним из способов получения субоптимальных структур является эвристический
метод, который вычисляет вероятность существования определенных альтернативных вторичных структур. Наилучшая субоптимальная структура, полученная данным методом имела чувствительность ≈ 87%. Возможно, так же получить все возможные вторичные структуры в пределах небольшого отклонения от минимального значения свободной энергии.
Такой подход является вычислительно дорогим, так как количество возможных субоптимальных структур экспоненциально растет с увеличением диапазона энергий. Полный
перебор субоптимальных структур может быть использован в случае, если имеются экспериментальные данные, на основе которых могут быть отобраны достоверные структуры из
всего спектра предсказанных структур [10].
21
Для получения субоптимальных структур используется еще один подход в соответствии с их вероятностями в каноническом (больцмановском) ансамбле. Такой подход
реализован в программах Sfold [17], RNAstructure [18] и Vienna Package [19], которые позволяют получать один или более структурных кластеров с похожими структурами. Одна
из выбранных структур большого кластера называется центройдной структурой, которая
является наиболее правильной по сравнению с структурой, имеющей наименьшую свободную энергию.
2.4.1.5
Предсказание псевдоузлов
Псевдоузлы являются проблемой для алгоритмов, предсказывающих структуры на
основе последовательностей. Псевдоузел определяется, по крайней мере, двумя спаренными парами i-j и i’-j’, в случае, если i предшествует i’, i’ — j, а j — j’. Нахождение структуры
с минимальной свободной энергией и с учетом псевдоузлов любой топологии является
NP задачей. Это означает, что при увеличении длины последовательности, время растет
по экспоненте. При расчете другими методами, энергетические параметры псевдоузлов не
были определены. Однако, существуют модели такие, как полимерная модель, решетчатая
модель и эмпирический подход, в которых заданы определенные наборы параметров [10].
Все описанные выше методы исключают наличие псевдоузлов в структуре. Однако,
псевдоузлы могут быть обнаружены в важных местах РНК, например, в активном сайте самосплайсирующих интроном I типа. Были разработаны методы, которые позволяют
определить эти сложные для определения, но функционально важные мотивы. Первый
подход реализован на основе динамического программирования и позволяет определить
псевдоузлы заданной топологии [20]. Второй метод использует итерационный подход для
предсказания структуры теми алгоритмами, которые не могут предсказать псевдоузлы на
первой итерации[21]. Третий подход заключается в симуляции пути, по которому сворачивается РНК, путем последовательного добавления спиральных участков[22]. Недавно был
разработан новый метод, являющийся модификацией метода предсказания “максимально
ожидаемых точных структур”. Не смотря на то, что данный подход позволяет определять
псевдоузлы любой топологии, его точность достаточно низкая [10].
2.4.2
2.4.2.1
Методы предсказания на основе нескольких последовательностей
Алгоритм одновременного предсказания структуры и выравнивания
Один из первых алгоритмов предсказания структур гомологичных РНК был предложен Давидом Санковым [23]. Этот подход позволяет одновременно строить и выравнивать
структуры на основании нескольких последовательностей. Алгоритму требуется время порядка O(N 3s ) и память O(N 2s ), где s — это количество последовательностей длины N. Как
и большинство методов предсказывающих структуру на основании одной последовательности, этот подход не позволяет предсказывать псевдоузлы.
22
Первой реализацией алгоритма Санкова стала программа FOLDALIGN [24]. В основе работы алгоритма лежит принцип максимизации количества пар оснований, а не модель
“ближайшего соседа” и минимизации свободной энергии. Программа не учитывает ветвистые структуры, которые являются важными мотивами в структуре РНК. Исключение
ветвистых структур снижает сложность алгоритма до O(N 4 ). Используя модель свободной
энергии и эвристическую модель, позднее в FOLDALIGN была реализована возможность
предсказания ветвистых структур, что значительно увеличило точность алгоритма. Другой
реализацией алгоритма Санкова является программа Dynalign [25]. Используя термодинамические параметры из модели “ближайшего соседа”, эта программа имеет возможность
предсказывать ветвистые структуры. Она использует простейшую модель выравнивания,
которая только учитывает количество пропусков, а штраф за пропуск является “псевдосвободным”. Всё это значительно увеличивает точность предсказания вторичной структуры
по сравнению с методами предсказания структур на основании одной последовательности.
Например, чувствительностить предсказания для малой субъединицы рРНК улучшается
от 47.4 до 73.3 %, а PPV изменяется от 47.5 до 73.1 %. Кроме того, Dynalign позволяет
получать субоптимальные консервативные структуры. В программе LocARNA [26] используется иной подход к реализации алгоритма Санкова. Вместо модели минимизации свободной энергии, программа LocARNA использует максимизацию вероятностей образования
пар оснований для всех последовательностей. Данные вероятности вычисляются на основе данных отдельных вероятностей образования пар оснований, полученных из расчета
статсумм для каждой отдельной последовательности и значения подобия, полученного из
выравнивания. Производительность LocARNA высока, поскольку учитываются пары оснований только с большими вероятностями. Данный подход приводит к снижению сложности
алгоритма до O(N 2 ∗ (N 2 + M 2 )) для двух последовательностей длины N и количества пар
оснований с большими вероятностями М. Не смотря на выигрыш по времени, программа
LocARNA проигрывает программам FOLDALIGN и Dynalign по точности.
Существует еще один алгоритм, который одновременно предсказывает и выравнивает структуры - PARTS (вероятностное выравнивание для одновременного предсказания
вторичной структуры РНК) [27]. В основе PARTS лежит вычисление статсумм для консервативных структур двух последовательностей. По аналогии с LocARNA, данный подход,
вместо модели минимизации свободной энергии, использует вероятностную модель образования пар оснований, полученных из отдельных последовательностей. Таким образом,
PARTS использует модель “соответствия спирального участка” для выравнивания консервативных структур и вероятностный подход для определения наиболее вероятных структур.
Реализация алгоритма Санкова для более, чем двух последовательностей, является
трудновыполнимой задачей в связи с резким увеличением сложностии. Однако, все же существуют способы реализации этого алгоритма для большого числа последовательностей.
23
FOLDALIGNM использует частоты образования пар, полученные в результате попарного
запуска FOLDALIGN между последовательностями. Multilign [28], являющийся производным от Dynalign, использует попарный Dynalign для определения консервативности пар оснований во всех рассматриваемых последовательностях. Multilign линейно зависит от количества последовательностей. Программа mLocARNA использует результаты попарного выравнивания LocARNAдля получения множественного выравнивания. Программа RAF [29]
сразу работает с большим числом последовательностей. Сначала она работает одновремено
с двумя последовательностями, а затем на каждой итерации она выравнивает между собой
выравнивания, а не последовательности. На контрольных выборках (золотых стандартах)
FOLDALIGNM и mLocARNA дают лучшие результаты на коротких последовательностях, а
Multilign и RAF на длинных.
2.4.2.2
Алгоритм последовательного выравнивания и предсказания структуры
Вторая парадигма предсказания вторичной структуры заключается в том, что сначала последовательности выравнивают, а затем на основании выравнивания предсказывают вторичную структуру. Этот подход был реализован в программе RNAalifold [30].
RNAalifold определяет минимальную свободную энергию консенсусной структуры, которая может быть получена из множественного выравнивания. Обычно такое выравнивание
можно получить путем запуска программ множественного выравнивания или из курируемых БД, в этом случае точность предсказания увеличивается. RNAalifold работает быстро
и точно для хорошо выровненных последовательностей. Однако точность значительно падает при плохом выравнивании, в частности, если попарная идентичность ниже 60%.
Еще одной реализацией данной парадигмы является программа CentroidFold [31].
Вместо того, чтобы получить консенсусную структуру, используя метод МСЭ, в этом подходе получают центройдную структуру по аналогии с Sfold [17]. Центройдная структура является центральной структурой в наибольшем кластере похожих структур, который
был получен стохастическим распределением ансамбля гомологичных структур. Вероятности, необходимые для определения центройдной консенсусной структуры, могут быть
определены при помощи модели “ближайшего соеседа” или путем обучения на выборке
последовательностей с известными структурами.
Одной из последних реализаций данного подхода является TurboFold [32], которая
использует в качестве входных данных множественное количество последовательностей,
рассчитывает их попарные вероятностные выравнивания и вероятности образования пар на
основании одной последовательности. Выравнивания используются для отбора вероятных
структур. Вероятности образования пар для одной последовательности – это “внутренняя
информация”. Комбинированные вероятностные выравнивания и вероятности образования
пар для всех остальных последовательностей являются “внешней информацией”. На основании “внешней информации” расчитываются вероятности образования пар для каждой
24
последовательности, а затем на основании этих вероятностей пересчитывается “внешняя
информация”. Построенный таким образом итерационный процесс позволяет более точно определить вероятности образования пар для каждой последовательности. Предсказание структуры осуществляется после заданного количества итераций, используя алгоритм
“максимально ожидаемых точных структур”. Программа TurboFold обычно превосходит
аналогичные алгоритмы по чувствительности на случайных наборах гомологичных РНК,
у которых попарная идентичность ниже 60% и имеет примерно такие же значения PPV.
Важной отличительной чертой TurboFold является то, что по сравнению с аналогичными
программами, она выдаёт не одну, а несколько общих структур.
2.4.2.3
Алгоритм последовательного предсказания структуры и выравнивания
последовательностей
Третьей парадигмой предсказания на основе нескольких последовательностей является подход, который сначала предсказывает структуру, а затем выравнивает последовательности. Этот подход реализован в программе RNAshapes [33]. Вначале мы получаем
абстрактное пространство “форм” для каждой последовательности по отдельности, а затем
вычисляем вероятности для каждой из “форм” и определяем термодинамически оптимальную структуру, которая имеет общую “форму” для всех последовательностей. Информация
об абстрактных “формах” несет в себе отличительные особенности структуры РНК, а не
полную информацию о спаренных основаниях. Существует множество более низкоэнергетических “форм”, чем структур, поэтому такой подход имеет право на существование.
RNAshapes имеет высокое быстродействие, время работы линейно зависит от количества
последовательностей. Точность этой программы сравнима с другими программами, которые предсказывают структуры на основе нескольких последовательностей. RNAshapes не
выдает информации о выравнивании, но она может быть получена, подав консервативную
структуру на вход программе RNAforester [34].
2.5
РНК-связывающие белки
В клетках эукариот уровень мРНК не соответствует уровню белка, так как мРНК
сначала процессируется, транспортируется, стабилизуется, и только после этого транслируется в белок. Все процессы регулируются посттранскрипционно, контролируются и осуществляются при помощи РНК-связывающих белков и малых РНК, которые связываются
с определенными участками, расположенными в нетранслируемых областях мРНК.
Существуют тысячи РНК-связывающих белков, но у большинства из них функции
не известны. Считается, что малые РНК взаимодействуют с мРНК в определенном порядке, чтобы регулировать локализацию мРНК, её время жизни и количество белка, которое
будет получено из мРНК. Совместное влияние этих факторов на мРНК представляет собой
25
“посттранскрипционный регуляторный код”. Для того чтобы расшифровать этот код, необходимо определение большого количества сайтов связывания РНК-связывающих белков.
РНК-связывающие белки могут иметь тысячи функциональных сайтов связывания, поэтому были разработаны методы, которые позволяют обнаруживать взаимодействия белковмРНК, и определять такие места в геноме [35].
Семейство РНК-связывающих белков Hu/ELAV является консервативным в Metazoa
и участвует в метаболизме РНК. HuR (ELAV1) экспрессируется во многих тканях, а его
нокаут является смертельным для мышей. Другие белки семейства Hu: HuB, HuC и HuD
специфичны для нейронов и необходимы для развития нервной системы. Они регулируют
альтернативный сплайсинг мРНК путем связывания с U-богатыми учатками интронов, а в
некоторых случаях и путем взаимодействия HuR с экзонами [35].
2.6
Определение мест связывания РНК с РНК-связывающими
белками
2.6.1
Метод тоепринтинг
Метод тоепринтинг позволяет определять 3’-конец мРНК, которая взаимодействует
с рибосомами или другими РНК-связывающими белками. Этот метод использовался для
изучения образования трансляционного инициаторного комплекса. Идея данного подхода
заключается в том, что интересующую нас РНК смешивают с 30S субъединицей рибосомы
(или интересующим РНК-связывающим белком), ДНК праймером, который гибрибизуется
4 дезоксинуклеотид фосфатами и обратной транскриптазой ниже сайта связывания. Ревертаза синтезирует кДНК за счет удлинения праймера к 5’-концу РНК. Однако, связывание
с рибосомой или белком блокирует обратную транскрипцию, что приводит к укорочению кДНК, так называемому тоепринту, который затем узучают, используя сиквенсовый
гель [36].
2.6.2
Футпринтинг с использованием гидроксильного радикала
Футпринтинг с использованием гидроксильного радикала - это техника, которая используется для определения мест связывания белков на РНК. Так как гидроксильные радикалы живут в растворе короткое время, их необходимо генерировать. Это может быть сделано с помощью H2 O2 и комплекса Fe 2+ −EDTA. Реакция Фентон, взаимодействие Fe 2+ −EDTA
с перекисью водорода: [Fe(EDTA)] 2+ + H2 O2 −→ · OH + OH – , является основой гидроксильного футпринтинга. Гидроксильные радикалы атакуют кольца рибозы или дезоксирибозы, что в свою очередь приводит к расщеплению фосфатного остова вне зависимости от
вторичной структуры, поскольку все остовы доступны и в одно, и в двуцепочечного состоянии. Связавшийся белок защищает РНК от разрезания. В конце процессинга полученные
пробы просматривают на гель электрофорезе [36].
26
2.6.3
Метод PAR-CLIP
Метод PAR-CLIP позволяет определять места связывания некоторых известных РНКсвязывающих белков и микроРНК в составе РНП. Алгоритм PAR-CLIP основан на включении в РНК живых клеток фотореакционноспособных аналогов рибонуклеозидов, таких,
как 4-тиоуридин и 6-тиогуанозин (Рис. 5 A).
Рис. 5. Метод PAR-CLIP [37].
Облучение клеток ультрафиолетом длиной волны 365 нм индуцирует эффективное
сшивание фотореакционноспособных нуклеозид-меченых клеточных РНК с взаимодействующими с ними РНК-связывающими белками (Рис. 5 B). Далее проводят коиммунопреципитацию РНК-связывающих белков с поcледующим выделением участка РНК, с которым связан белок, и реверсией фотореактивных связей. Выделенные РНК путем обратной
транскрипции превращают в кДНК, которые затем секвенируют. Во время обратной транскрипции и секвенирования 4-тиоуридин и 6-тиогуанозин превращаются в цитидин и аденозин. Позиции цитидина и аденозина определяют место связывания РНК-связывающих
белков на РНК [37].
2.7
Методы определения вторичной структуры РНК с
использованием высокопроизводительного секвенирования
Развитие технологий высокопроизводительного секвенирования привело к появлению метода RNA-seq, который позволяет измерить точные границы генов, патерны сплайсинга, изменение эксперессии генов. Основные этапы метода RNA-seq показаны на Рис. 6.
27
Дальнейшее развитие этого метода позволило измерять структурные свойства молекул
РНК [38].
Рис. 6. Метод RNA-seq [38].
2.7.1
Определение вторичной структуры РНК в S. cerevisiae
В одной из первых работ, посвященных определению вторичной структуры РНК
дрожжей с помощью секвенирования (Рис. 7), была получена полиаденилированная фракция РНК, которую затем ренатурировали и разделили на две части.
Рис. 7. Измерение структурных свойств РНК при помощи секвинирования [39].
28
Одна часть была обработана РНКазой V1, а вторая — РНКазой S1. РНКаза V1 расщепляет фосфодиэфирную связь двухцепочечной РНК, в то время как РНКаза S1 разрезает
одноцепочечную РНК. Полученные куски РНК были фрагментированы, к концам фрагментов были пришиты адапторы и с помощью обратной транскрипции была получена библиотека кДНК, которые затем секвенировали. В итоге полученные прочтения картировались
на геном, и по 5’-концу каждого прочтения можно было судить о состоянии одиночного
основания. Используя полученные данные в результате независимой обработки РНКазой
V1 и S1, рассчитывалась вероятность того, что нуклеотид находится в одноцепочечном или
двуцепочечном состоянии [39].
2.7.2
Метод FragSeq
Метод FragSeq позволяет объединить вычислительные подходы предсказания вторичной структуры РНК с биохимическими методами.
Рис. 8. Алгоритм FragSeq [40].
В основе алгоритма FragSeq лежит разделение очищенной ядерной РНК на три части. Первая часть остаётся без изменений, вторая обрабатывается полинуклеотид киназой
для определения случайных разрывов молекулы РНК, а на третью воздействуют нуклеазой
P1, которая специфически разрезает одноцепочечную РНК. Далее к кускам РНК определенной длины (20-100 п.о.) пришиваются адапторы и с помощью обратной транскрипции
получают кДНК, которые затем секвенируют. Полученные прочтения картировались на
29
геном, а затем расчитывается количество 5’- и 3’-концов прочтений. На основании этих
данных определяется вероятность событий того, что в этом месте фосфодиэфирная связь
была разрезана нуклеазой, или является местом случайного разрыва. Логарифм отношения
вероятностей этих событий определяет показатель разрыва [40]. Основные шаги алгоритма
FragSeq показаны на Рис. 8.
Высокий коэффициент разрезания определяет только участки одноцепочечной РНК.
На Рис. 9 показаны показатели разрыва, наложенные на известную структуру РНК U1a.
Полученные показатели разрыва хорошо согласуются с раннее известной структурой РНК
U1a [40].
Рис. 9. Сравнение известной структуры РНК с результами метода FragSeq [40].
2.7.3
Метод SHAPE-seq
Дальнейшее развитие метода SHAPE с использованием технологии высокопроизводительного секвинирования привело к появлению алгоритма SHAPE-seq (Рис. 10). Для
того, чтобы РНК можно было точно различать, каждая молекула должна содержать уникальную последовательность (“штрих-код”) вблизи 3’ конца. Молекулы РНК перемешиваются и разделяются на две группы. Первую часть (-) обрабатывают обычным буффером,
а вторую (+) SHAPE-реагентом (в данном случае 1M7). Далее к РНК пришиваются адапторы, причем для каждой группы разные, и с помощью обратной транскрипции из них
получают кДНК. Таким образом, получают набор кДНК разной длины в зависимости от
места модификации оснований реагентом 1M7 (+), так как обратная транскрипция останавливается на 1M7 модифицированных основаниях или же просто от случайного прерывания работы обратной транскриптазы (-). Затем данный набор кДНК секвенируется,
полученные прочтения картируются на геном и разделяются по двум группам (+ и -) и
30
“штрих-коду”. Используя метод максимального правдоподобия, на основании этих данных
вычисляются вероятности того, что данный участок является одноцепочечным для каждого
“штрих-кода”. Полученные значения вероятностей используются как входные данные для
программы предсказания вторичных структур [41].
Рис. 10. Алгоритм SHAPE-seq [41].
31
3. МАТЕРИАЛЫ И МЕТОДЫ
Поскольку целью данной работы является изучение структуры РНК методами высокопроизводительного секвенирования, в этом разделе мы опишем такие экспериментальные методы и способы обработки их результатов
3.1
Метод FragSeq
Как уже говорилось, метод FragSeq определяет нуклеотиды, которые находятся в
неспаренном состоянии. В публичном доступе имеется только один набор данных подходящего качества, а именно эксперименты лаборатории Д. Хасслера, в которой этот метод
собственно и был разработан [42]. В этой работе использовался контроль, что позволяет
утверждать, что мы действительно видим неспаренные основания, а не случайные события
разрыва цепи.
В эксперименте использовались две клеточные линии: UNDIFF — недифференцированные стволовые клетки мышей и D5NP — клетки, являющиеся предшественниками
нервных клеток. Выделенную тотальную ядерную РНК очищали, а затем были отобраны
фрагменты длиной 70-300, так как авторы данного эксперимента искали некодирующие
РНК. РНК разделили на 3 фракции: контрольную и две опытные. Первая опытная фракция
обрабатывалась полинуклеотид киназой (ПНК), т.е. РНК подвергалась фосфорилированию
на 5’-конце. Вторая опытная фракция обрабатывалась нуклеазой P1, т.е., нуклеазой, которая
специфически разрезает одноцепочечную РНК и оставляет фосфат на 5’-конце, в результате чего получались фрагменты длиной 20-100 нуклеотидов. Контрольная фракция ничем
не обрабатывалась. После этого, из полученных фракций при помощи гель-электрофореза
были отобраны фрагменты РНК длиной 20-100 нуклеотидов (такая длина была необходима для использования протокола высокопроизводительного секвенирования). Полученные
фрагменты лигировались с известными адаптерами, подвергались обратной транскрипции
и амплификации ПЦР с праймерами, содержащими “штрих-код”. Затем ДНК была секвенирована при помощи технологии Солид. В результате секвенирования были получены
прочтения длиной 50, которые картировались на геном используя Bowtie. Кратко эти результаты представлены в Таблице 2.
Таким образом, конечным результатом эксперимента является набор файлов, в которых содержится информация о месте положения коротких фрагментов в геноме. Посколько последовательность адептера таже известна, то можно получить координаты разрезания
нуклеазой P1, т.е. места одноцепочечности. Данная информация является локальной, то
есть разные участки генома имеют разные систематические ошибки. Это происходит изза специфичности амплификации при ПЦР, специфичности обратной транскрипции из-за
32
других процедур на этапах подготовки к секвенированию и непосредственно в ходе самого
секвенирования.
Таблица 2. Характеристики файлов эксперимерта FragSeq.
GEO samples Клеточная Фракция
Количество Количество
Линия
прочтений
кар-
тированных
прочтений
GSM607090
UNDIFF
Контроль
13058357
5946923 (45.54%)
GSM607084
UNDIFF
ПНК
15911200
3502921 (22.02%)
GSM607085
UNDIFF
Нуклеаза
15306303
4585725 (29.96%)
GSM607091
D5NP
Контроль
20441839
5570529 (27.25%)
GSM607087
D5NP
ПНК
14000788
2576880 (18.41%)
GSM607088
D5NP
Нуклеаза
9734816
2376953 (24.42%)
Авторы метода [40] разработали программное обеспечение, вычисляющее степень
доступности нуклеотидов для заданного набора участков, которые мы в нашем контексте
будем условно называть транскриптами. Транскрипт — это участок хромосомы, у которого
заданы начало и конец, а также указано, на какой цепи данный участок располагается.
Для того, чтобы получить из картированных прочтений информацию об участках одноцепочечной РНК, была использована программа разработанная авторами [40](http://
users.soe.ucsc.edu/~auzilov/FragSeq/). В качестве входных данных программа использует файлы с данными картированных прочтений: Контроль (Mcon ) и Нуклеаза
(Mnuc ) для одной из клеточных линий, и файл, содержащий координаты интересующих
нас “транскриптов” (T), на основании которых выдаётся информация о том, находятся ли
нуклеотиды интересующих нас “транскриптов” в одноцепочечном состоянии.
В основе этой программы лежит следующий алгоритм. На первом шаге он задает
множество для каждого из интересующих нас “транскриптов” (t ∈ T):
Mnuc (t) = m ∈ Mnuc : (m.L ≥ t.L) ∩ (m.R ≤ t.R) ∩ (m.S = t.S)
Mcon (t) = m ∈ Mcon : (m.L ≥ t.L) ∩ (m.R ≤ t.R) ∩ (m.S = t.S)
S(t) = i ∈ Z : t.L ≥ i ≥ t.R,
где t — “транскрипт” некоторого типа , S(t) — это множество всех нуклеотидов этого “транскрипта”, L и R — начало и конец “транскрипта”. Для каждого “транскрипта” рассчитывается количество концов выровненных прочтений:
εnuc (i|t) = km ∈ Mnuc : (m.L = i) ∪ ((m.R = i) ∩ (N (m) ≤ l))k
∀i ∈ S(t)
εcon (i|t) = km ∈ Mcon : (m.L = i) ∪ ((m.R = i) ∩ (N (m) ≤ l))k
∀i ∈ S(t)
33
Далее из всех вариантов отбираются те случаи, которые и в контрольной, и в нуклеазной выборках, больше некоторого порогового значения с:
S 0 (t) = i ∈ S(t) : (εnuc (i|t) ≥ c) ∪ (εcon (i|t) ≥ c)
Поскольку нас не интересуют случаи с естественными концами, из рассмотрения в
указанных выборках были убраны случаи 5’- и 3’-концов “транскриптов”. Поэтому естественно вводится некоторый порог d, определяющий количество нуклеотидов, на которые
мы отступаем с начала и не доходим до конца:
S 00 (t) = i ∈ S 0 (t) : t.L + d ≤ i ≤ t.R − d
На следующем этапе рассчитываются псевдоотсчёты для получения значимых результатов в случае, если в нулеазной выборке имеется достаточно значений, т.е. εnuc (i|t) ≥
c, а в контрольной выборке εcon (i|t) = c. Значения псевдоотсчётов Ψnuc (t) и Ψcon (t) рассчитываются отдельно для каждого “транскрипта” и выборки (Контроль и Нуклеаза).
sP
i∈S 00 (t) εnuc (i|t)
kS 00 (t)k
Ψnuc (t) =
sP
Ψcon (t) =
i∈S(t) εcon (i|t)
kS 00 (t)k
Полученные значения псевдоотсчётов добавляются к значениям концов (ε(i|t)). После нормализации рассчитывается вероятность разрыва, т.е. вероятность того, что определенный нуклеотид из “транскрипта” находится в одноцепочечном состоянии.
nnuc (i|t) = P
εnuc (i|t) + Ψnuc (t)
: ∀i ∈ S 00 (t)
[ε
(j|t)
+
Ψ
(t)]
nuc
j∈S 00 (t) nuc
ncon (i|t) = P
εcon (i|t) + Ψcon (t)
: ∀i ∈ S 00 (t)
[ε
(j|t)
+
Ψ
(t)]
con
j∈S 00 (t) con
На последнем шаге рассчитывается, так называемый, показатель разрыва (c(i|t)).
Показатель разрыва определяется как логарифм отношения полученных выше вероятностей. Несложно заметить из определения, что показатель разрыва может принимать как
положительные, так и отрицательные значения, однако отрицательные значения бессмысленны в плане работы фермента нуклеазы P1. Если в доступном месте наблюдается случайный разрыв, а нуклеаза не разрезала участок в этом месте, то мы не можем сказать
об этом участке, находится ли он в одноцепочечном состоянии или нет. Следовательно,
функция показателя разрыва будет определяться как:
(
c(i|t) =
(i|t)
ln nnnuc
,
con (i|t)
if εnuc (i|t) > εcon (i|t)
∅,
if εnuc (i|t) ≤ εcon (i|t)
34
В качестве исходных “транскриптов” использовались сегменты, полученные с помощью программы IRBIS [43], то есть сегментация, индуцированная интронно-экзонной
структурой. На этапе инициализации данных программа IRBIS загружает необходимые
данные и создает библиотеку ортологичных сегментов, сегментирование идет по границам экзонов. Один вид из клады объявляется в качестве основного (например, человек для
млекопитающих), а транскрипты в остальных видах получаются при помощи процедуры
liftOver [43], т.е. в результате попарного полногеномного выравнивания.
В результате обработки экспериментальных данных программой Fragseq [40] было
полученно 4 файла в формате BigWig [44] для “+” и “-” цепи, и для каждой клеточной
линии. Для визуализации полученных данных использовался USCS Genome Browser [45].
Затем координаты одноцепочечных участков, которые были определены при помощи эксперимента FragSeq, сравнивались с предсказаниями программы RNAfold [46] из
пакета ViennaRNA [19]. Определение статистической значимости взаимосвязи предсказания вторичной структуры и результата FragSeq проводилось на основе p-value. Значение
p-value определялось как процент случаев, в которых Trf > Tf s , где Tf s — процент правильности предсказания исходного результата FragSeq и RNAfold, т.е. когда нуклеотид имеет
ненулевое значение показателя разрыва согласно FragSeq, а RNAfold предсказывает этот
нуклеотид, как одноцепочечный участок, а Trf — процент правильности предсказания случайного результата FragSeq и RNAfold. Все значения показателя разрыва, полученные для
одного транскрипта, распределяются случайным образом по этому транскрипту. После этого вычисляется процент правильности предсказания, по аналогии с Tf s .
3.2
Метод PAR-CLIP
Для того, чтобы выяснить, как соотносятся предсказания структур РНК и сайты
связывания белков, мы воспользовались банком данных doRiNA [47], который содержит
информацию о сайтах связывания РНК-связывающих белков у человека. Параметры, использованных в работе файлов данных, приведены в Таблице 3.
Таблица 3. Параметры файлов данных из БД doRiNA.
Белок
AGO1-4
Тип
экспери-
Количество
Протяженность сайта связывания
мента, Автор,
сайтов
1 квар-
Год
связываний
тиль
PAR-CLIP,
41 450
24
29
33
38
52 767
40
40
97
40
Медиана
Среднее 3 квартиль
Hafner, 2010
AGO2
CLIP-SEQ,
Kishore, 2011
35
AGO2-
PAR-CLIP,
MNASE
Kishore, 2011
AGO2
PAR-CLIP,
52 042
40
40
97
40
86 500
40
40
104
40
9 873
40
40
46
40
144 891
40
40
83
48
10 778
40
40
48
40
32 129
26
30
38
43
151 468
21
24
25
28
19 019
23
27
29
32
39 983
22
24
25
28
24 448
4
8
9
13
43 530
79
114
140
165
10 962
26
32
34
38
12 035
28
32
32
32
23 629
33
40
41
48
8 677
22
25
26
28
118 703
10
18
26
30
21 884
7
14
18
24
Kishore, 2011
ELAVL1 CLIP-SEQ,
Kishore, 2011
ELAVL1- PAR-CLIP,
MNASE
Kishore, 2011
ELAVL1 PAR-CLIP,
Kishore, 2011
ELAVL1 PAR-CLIP,
Lebedeva, 2011
ELAVL1 PAR-CLIP,
Mukherjee,
2011
EWSR1
PAR-CLIP,
Hoell, 2011
FUS
PAR-CLIP,
Hoell, 2011
hnRNPC iCLIP, Koenig,
2010
IGF2BP1 PAR-CLIP,
Hafner, 2010
PUM2
PAR-CLIP,
Hafner, 2010
QKI
PAR-CLIP,
Hafner, 2010
SF2-
CLIP-SEQ,
ASF
Sanford, 2009
TAF15
PAR-CLIP,
Hoell, 2011
TDP-43
iCLIP,
Tollervey,
2011
TIA1
iCLIP,
2010
Wang,
36
TIAL1
iCLIP,
Wang,
51 751
10
18
22
28
2010
Координаты этих сайтов были получены с использванием метода PAR-CLIP или его
модификаций. Алгоритм PAR-CLIP основан на включении в РНК живых клеток фотореакционноспособных аналогов рибонуклеозидов, таких как 4-тиоуридин и 6-тиогуанозин.
Облучение клеток ультрафиолетом длиной волны 365 нм индуцирует эффективное сшивание фотореакционноспособных нуклеозид-меченых клеточных РНК с взаимодействующими с ними РНК-связывающими белками. Далее проводят коиммунопреципитацию РНКсвязывающих белков с поcледующим выделением участка РНК, с которым связан белок,
и реверсией фотореактивных связей. Выделенные РНК путем обратной транскрипции превращают в кДНК, причем во время обратной транскрипции и секвенирования продукты
реверсии 4-тиоуридина и 6-тиогуанозина превращаются в цитидин и аденозин, соответственно. Позиции цитидина и аденозина определяют место связывания РНК-связывающих
белков на РНК. Полученные кДНК затем секвенируют. Полученные прочтения картируются на геном с допущением одного несовпадения, а из картированных прочтений формируются кластеры. Два прочтения помещаются в один кластер, если их координаты пересекаются по крайне мере по одному нуклеотиду. Затем каждый кластер аннотируется
согласно аннотации его прочтений. Если большинство прочтений входящих в состав кластера имеют одинаковую аннотацию, то кластер аннотируется также, как и эти прочтения.
После этого были выбраны мРНК-аннотированные кластеры (по крайне мере 5 прочтений
аннотированы, как мРНК) и для них применен алгоритм для расчета вероятности того, что
данный кластер является истинным сайтом связывания.
Используя программу IRBIS был получен файл, который содержит информацию
о всех некодирующих сегментах белок-кодирующих генов у человека. В качестве критерия выборки выступал один из белков, связанных с некодирующими сегментами белоккодирующих генов. Результаты такой выборки использовались, как входные данные программы IRBIS [43].
3.3
Принцип работы программы IRBIS
Можно выделить несколько ключевых моментов работы алгоритма выбора комплементарных участков в программе IRBIS [43]. Входными данными является выборка невыровненных ортологичных сегментов Sij . Сегмент j = 1 . . . n записывается таким образом,
что ортологичные сегменты в разных видах i получают один и тот же идентификатор j. Такой выборкой, например, может быть набор коротких интронных участков, расположенных
около сайтов сплайсинга, или набор бактериальных межгенных участков, сопоставленных
37
на основании их расположения в локусе. Пропущенным сегментам приписывается Sij = ∅.
По молчанию нет ограничений на длину сегмента. Однако, если его длина превышает некоторую пороговую длину M, то учитываются только первые M/2 нуклеотидов и M/2 последних нуклеотидов. Кроме того, видам сегментов приписывается некоторый весовой фактор
fi , i = 1 . . . m, сумма которого по всем организмам равняется 1. На этапе инициализации
данных программа IRBIS загружает необходимые данные и создает библиотеку ортологичных сегментов. Сегментация индуцирована интронно-экзонной структурой генома.
Последовательность сегментов кодируется в слова определенной длины. Пробегая
по последовательности от начала до конца, каждому слову приписывается его позиция,
которая вместе с идентификатором сегмента заносится в хеш-таблицу. Хеш-таблицей является отображение сопоставляющее каждому слову набор сегментов и позиций, в которых
оно встречается в этих сегментах. Поскольку мы двигаемся от начала к концу последовательности, этот набор позиций всегда оказывается линейно упорядоченным. Затем создаем
ещё одну хеш-таблицу, где n-меру будем сопоставлять позиции, в которых встречается
его обратный комплемент. Поэтому для того, чтобы определить, где были взаимно комплементарные участки, достаточно взять пересечение множеств этих хеш-таблиц. Можно
модифицировать эти таблицы так, чтобы эти слова содержали пропуски. Тогда для каждого слова отображением будет позиция, в которой оно встречается, и размер пропуска.
Данные таблицы заполняются для определенного количества видов всех его сегментов.
Далее отбираем консервативные слова, которые присутствуют в одном и том же сегменте
у достаточно большого количества видов. Пересечение множества консервативных слов с
множеством обратных комплементов дает нам в итоге набор консервативных комплементарных участков. Чтобы не определять все возможные пересечения таких множеств, можно указать априори интересующие нас множества, например, только для некодирующих
сегментов белок-кодирующих генов. В результате мы получим набор комплементарных
участков некодирующих сегментов белок-кодирующих генов.
3.4
Данные проекта “1000 геномов”
Для оценки количества однонуклеотидных полиморфизмов (SNPs), которые попадают в комплементарные участки некодирующих сегментов белок-кодирующих генов был
получен спискок SNPs, используя данные проекта “1000 геномов” [48]. Эти данные содержат информацию об SNPs, вариациях числа копий генов, делециях и инсерциях в каждой
хромосоме. Из всех этих файлов были извлечены данные, связанные с SNPs, и объединены
в один файл. Используя информацию обо всех комплементарных участкак некодирующих
сегментов белок-кодирующих генов, полученных при помощи программы IRBIS и данные обо всех SNP, было определено, какое количество SNP попадает в комплементарные
участки некодирующих сегментов белок-кодирующих генов. Для оценки статистической
38
значимости полученный результат сравнивался со случайным. Количество SNP рассчитывалось для случайного участка такой же длины, как комплементарный участок , из того
же самого сегмента. Данная процедура была повторена 1000000 раз. 95% доверительный
интервал количества мутаций рассчитывался по формуле:
s
CI = x ± t1−α/2 √ ,
n
где x, s — выборочное среднее и выборочное стандартное отклонение количества SNPs, n
— размер выборки (в нашем случае 1000000).
3.5
Метод SHAPE-seq
В лаборатории Дж. Лакса был разработан метод SHAPE-seq, который позволяет
определить нуклеотиды, находящиеся в неспаренном состоянии [41]. Суть метода состоит в
том, что молекулы РНК обрабатывают химическим агентом – 1-метил-7-нитроизатиновым
ангидридом (1М7), который специфически взаимодействует с 2’-OH неспаренных нуклеотидов. Специфичность связана прежде всего с высокой реакционной способностью 2’-ОН
группы неспаренного нуклеотида, которая заметно снижается в случае конформационных
изменений [7]. Молекулы разделяются на две группы. Первую часть (-) обрабатывают буффером, а вторую (+) обрабатывают SHAPE-реагентом (в данном случае 1М7). Полученные
фрагменты лигировались с известными адаптерами, подвергались обратной транскрипции
и амплификации ПЦР с праймерами, содержащими “штрих-код”. Таким образом, получают набор кДНК разной длины в зависимости от места модификации оснований реагентом
1M7(+), так как обратная транскрипция останавливается на 1M7 модифицированных основаниях или же просто от случайного прерывания работы обратной транскриптазы, в случае
фракции (-). Данный набор кДНК секвенируется, полученные прочтения картируются на
геном и разделяются по двум группам (+ и -). Авторы метода разработали программное
обеспечение, которое используя метод максимального правдоподобия, на основании этих
данных вычисляются вероятности того, что данный участок является одноцепочечным.
Коэффициенты метода максимального правдоподобия подаются на вход программы предсказания вторичных структур [49].
К сожалению, на сегодняшний день с помощью этого подхода были получены только данные для небольшой молекулы РНК рибонуклеазы P [50], поскольку отсутствует полный набор геномных данных. На основе имеющихся данных была определена вторичная
структура для РНК рибонуклеазы P. Используя программу RNAfold, для этой последовательности РНК была предсказана вторичная структура РНК.
Рибонуклеаза P (РНКаза P) — это фермент, осуществляющий процессинг 5’-конца
пре-тРНК [50]. Данный фермент является рибопротеиновым комплексом, т.е. содержит как
белковый компонент, так и РНК. РНК компонент бактериальной РНКазы P содержит от
39
350 до 450 нуклеотидов, в то время как белковый состоит из 120 аминокислот. Большие
молекулы РНК могут быть образованы из нескольких доменов, которые сворачиваются
независимо друг от друга. Бактериальная РНКаза P состоит из 2 доменов: специфического
домена (S-домен) и каталитического домена (C-домена). S-домен, в отсутствии всех остальных компонентов РНКазы Р, может связываться с пре-тРНК. S-домен (Рис. 11) состоит из
нескольких структурных мотивов: “крест”, образованный за счет стэкинга участов P7, P10
и P11 и стэкинга спиралей P8 и P9; мотив, образованный спиралями P10.1 и P12; необычно
свернутый участок, связывающий P11 и P12 (J11/12-J12/11) и содержащий большое количество консервативных нуклеотидов. Последний участок стабилизируется без канонического
Уотсон-Криковского взаимодействия.
Рис. 11. S-домен РНКазы P.
Благодаря тому, что для S-домена рибонуклеазы P имеется 3D структура (PDB id:
1NBS [50]), использую базу данных RNA FRABASE 2.0 [51], была полученна достоверная
вторичная структура для S-домена РНКазы P. Полученная структуры РНК сравнивались со
вторичной структурой, полученной методом SHAPE-seq и программой RNAfold.
40
4. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
4.1
Исследования структуры РНК методом FragSeq и сравнение с
результатами предсказания RNAfold
В данном разделе мы сравним структуры РНК, определенные методом FragSeq, с
предсказаниями программы RNAfold.
Используя описанную в предыдущей части методику (см. раздел 3.1) для клеточной линии UNDIFF и связанной с ней сегментацией генома, были рассчитаны как значения показателя разрыва, так и средние значения этого показателя для каждого сегмента.
В результате из 492 870 сегментов только 4 696 содержали ненулевые средние значения
показателя разрыва, что составляет менее 1% от общего числа сегментов. Такое большое
количество нулевых значений объясняется в первую очередь тем, что авторы данного эксперимента интересовались некодирующими РНК и по этой причине отбирали фрагменты
молекул РНК длиной 70-300 нуклеотидов. Поэтому большие молекулы, соответствующие
большинству исследуемых сегментов, в эту выборку не попали. Кроме того, как указывалось в разделе Материалы и методы (см. раздел 3.1), по построению показатель разрыва
может принимать только положительные и нулевые значения, так как программа автоматически заменяет отрицательные значения на нулевые. Следовательно, некоторые одноцепочечные участки могли быть не учтены из-за того, что в этом месте РНК рвалась сама по
себе чаще, чем в случае обработки этого же участка ферментом.
Рис. 12. Гистограмма распределения среднего показателя разрыва.
41
На Рис. 12 представлено распределение среднего значения показателя разрыва (по
сегменту) в генеральной совокупности сегментов, содержащих хотя бы одно ненулевое
значение показателя разрыва.
Показатель разрыва можно интерпретировать как эффективную величину, отражающую вероятность разреза молекулы РНК в данном месте по сравнению с соответствующим
контролем. Показатель разрыва определяется как логарифм отношения правдоподобия (см.
раздел 3.1). Но все его отрицательные значения отображаются в ноль, поэтому функция
показателя разрыва является разрывной, несимметричной функцией.
Из Рис. 12 видно, что распределение средних значений показателя разрыва смещено
вправо. Это смещение обусловлено тем, что показатель разрыва задается как логарифм отношения правдоподобия, а распределение логарифмов отношения правдоподобия смещено
вправо [52]. Основные характеристики распределения ненулевых значений показателя разрыва приведены в Taблице 4.
Минимум
Tаблице 4. Основные характеристики распределения
1 квартиль
3 квартиль
Максимум
0.004339
0.1846
0.507
3.159
Mедиана
Среднее Значение
Коэффициент ассиметрии
Коэффициент эксцесса
0.3298
0.3897
2.12
8.05
4.1.1
Качественое сравнение показателя разрыва с результатами предсказаний
RNAfold
Используя качественные характеристики сравнения показателя разрыва, определим
статистическую значимость и взаимосвязь предсказания вторичной структуры РНК с результатами FragSeq.
Из сегментов, содержащих ненулевые значения показателей разрыва (менее 1% от
общего числа сегментов), были отобранны сегменты, у которых имеется минимум 5 значений показателя разрыва на сегменте. В результате осталось 110 сегментов. Нижний порог
показателя разрыва был установлен для того, чтобы последующие статистические тесты
имели смысл. Например, если на сегменте есть только одно ненулевое значение показателя
разрыва, то приведенная ниже процедура оценки значимости может работать неправильно.
Положение показателей разрыва для отобранных сегментов сравнивалось с неспаренными позициями, предсказанными программой RNAfold. На Рис. 13 предказание вторичной структуры программой RNAfold показаны в виде точечно-скобочной записи [53], а
ненулевые значения показателей разрыва показаны на отдельной строке звездочками. Тогда степень правильности предсказания RNAfold можно определить как процент случаев,
в которых точки совпадают со звездочками.
Попытаемся ответить на вопрос, насколько полученный нами результат отличается от случайного результата. В предположении нулевой гипотезы о том, что предсказания
42
Рис. 13. Визуализация данных FragSeq и результат предсказания RNAfold.
вторичной структуры и результаты FragSeq не связанны между собой, расположение звездочек должно было быть случайным по отношению к расположению скобок и точек. Для
проверки данной гипотезы использовалась следующая процедура. Звездочки случайным
образом разбрасывались по последовательности и вычислялся процент совпадения звездочек и точек. Эта процедура проделывалась 1 000 000 раз, после чего для каждого сегмента
рассчитывалось p-value, как процент выборок, в которых количество совпадений звездочек
с точками оказалось таким же, или большим, чем количество, наблюдаемое для данной
структуры. Для полученных p-value применялась поправка на множественное тестировние
Бенжамини-Хохберга [54]. Значения p-value для отобранных сегментов в отсортированном
виде представлены в Дополнительной Таблице 1.
На уровне значимости 5% для 55 из 110 сегментов нулевая гипотеза была отвергнута, т.е. данные свидетельствуют о том, что предсказанные программой RNAfold и определенные методом FragSeq вторичные структуры согласуются между собой. На Рис. 13
43
представлен один из таких сегментов (p-value = 0.004). Как видно из рисунка, расположение звездочек (доступных позиций по методу FragSeq) в большинстве случаев совпадают
с неспаренными позициями, предсказанными программой RNAfold. Следует отметить, что
показанная на Рис. 13 молекула обладает выраженной вторичной структурой (имеются три
длинные шпильки) и неспаренные позиции определены однозначно.
На Рис. 14 представлен сегмент с p-value = 0.85. Из рисунка видно, что расположение звездочек в большинстве случаев не совпадает с неспаренными позициями, предсказанными программой RNAfold. Структура на Рис. 14 имеет три выраженных шпильки,
но данные неспаренные позиции не определены согласно методу FragSeq. Возможно, это
связано с тем, что в клетке молекула РНК находилась в состоянии, когда её свободная
энергия не была минимальна, то есть для выполнения определенных функций молекула
РНК может сворачиваться в структуру таким образом, что минимальная свободная энергия
не достигается. Программа же предсказывает структуры РНК с минимальной свободной
энергией.
Рис. 14. Визуализация данных FragSeq и результат предсказания RNAfold
Интересно проверить, существует ли взаимосвязь между p-value и свободной энергией структуры. На Рис. 15 представлено распределение логарифма p-value как функции
свободной энергии. Из рисунка видно, что никакая закономерность в расположении точек
не прослеживается (точки распределены случайным образом). Таким образом, мы не находим свидетельств тому, что p-value и свободная энергия структуры связаны между собой.
Такой факт неудивителен, так как свободная энергия зависит от длины РНК (чем длиннее
44
РНК, тем меньше свободная энергия). Среди участков с наименьшим значением p-value
обнаружены как короткие, так и более длинные РНК (например, 53 и 186)
Рис. 15. Логарифм p-value как функция свободной энергии.
4.1.2
Показатель разрыва у неспаренных нуклеотидов в среднем выше, чем у
спаренных
Если в предыдущем параграфе мы обсуждали качественные отличия (нулевые против ненулевых), то в этом мы сфокусируемся на количественных характеристиках спаренности участков. С этой целью нам следует проверить утверждение, что показатель разрыва
у неспаренных участков в среднем выше, чем у спаренных. Проверка этого утверждения
была проведена следующим образом. Для этого значения показателя разрыва для отобранных выше 110 сегментов были поделены на две группы. В первую группу попали неспаренные участки, т.е. те случаи, которые были правильно предсказаны программой RNAfold
(истинное значение), когда звездочки совпадают с точками. Во вторую группу попали спаренные участки, ложно предсказанные программой RNAfold (ложное значение), случай
совпадения звездочек со скобками. Плотности распределения данных двух групп показателя разрыва представлены на Рис. 16.
Проверим, зависит ли показатель разрыва от характера спаренности участка. С целью проверки данного утверждения рассмотрим нулевую гипотезу о том, что средний показатель разрыва у неспаренных участков равняется среднему показателю разрыва у спа-
45
Рис. 16. Плотность распределений показателя разрыва.
ренных. Для того чтобы, использовать статистические тесты (параметрические, либо непараметрические) необходимо было проверить являются данные выборки нормально распределенными. С этой целью были использованы тест Шапиро и тест Колмогорова-Смирнова
в сравнении со случайно сгенерированной нормальной выборкой, оба распределения показателя разрыва были проверены на нормальность. Обе выборки оказались распределены не
нормально, поэтому в дальнейшем мы использовали непараметрические тесты: ранговый
тест Вилкоксона (p-value = 4.009e-06) и тест Манни-Уитни (p-value = 1.453e-06).
Если зафиксировать уровень значимости на уровне 5%, тогда согласно двум критериям мы отвергаем нулевую гипотезу, которая утверждает, что в среднем показатель
разрыва у неспаренных участков равен показателю разрыва у спаренных. Это дает возможность утверждать, что показатель разрыва у неспаренных участков в среднем выше, чем у
спаренных.
4.2
Соотношение предсказания структур РНК с сайтами связывания
белков
Одним из важных аспектов предсказания вторичной структуры является вопрос о
том, как соотносятся между собой предсказания вторичной структуры РНК и сайты связывания белков.
46
Для ответа на этот вопрос мы использовали банк данных doRiNA [47], который содержит информацию о сайтах связывания РНК-связывающих белков у человека. Используя
аналогию с процедурой анализа данных FragSeq, для каждого сегмента была рассчитана
некоторая эффективная величина — степень сродства, т.е вероятность того, что данный
участок является настоящим сайтом связывания белка. Кроме того, для каждого сегмента
было рассчитано среднее значение степени сродства, для того чтобы оценить, как много
имеется сегментов, в которых обнаруживаются сайты связывания. Подобная процедура была использована для всех, имеющихся в БД, человеческих РНК-связывающих белков. На
примере белка ELAVL1 из эксперимента PAR-CLIP, Mukherjee, на Рис. 17 представлены
две гистограммы распределения степени сродства. Первая содержит все значения, а вторая
— все ненулевые значения.
Рис. 17. Гистограмма распределения степени сродства.
Используя программу IRBIS, были получены данные, которые содержат информацию о некодирующих сегментах белок-кодирующих генов у человека. Такой файл данных
содержит 362630 сегментов. Исходный файл был разделен нами на две выборки. В одну
выборку мы включили сегменты, которые имеют ненулевые значения степени сродства хотя бы для одного РНК-связывающего белка. Таких сегментов оказалось 102802. К другой
выборке мы отнесли все остальные сегменты, т.е. такие, которые имеют нулевые значения
степени сродства для всех РНК-связывающих белков. Во второй выборке оказалось 259828
сегмента.
47
Используя данные двух выборок и программу IRBIS, мы получили 29 комплементарных участков. Из них было отобрано пять участков, на которых РНК-связывающий белок связывается только с одним из комплементарных участков. Полученные пять комплементарных участков генов HNRNPA1, UBE2Q1, TARDBP, UBE2K, SF1 приведены в разделе
Дополнительные материалы (см. Рис. 19 – 23). Консервативные комплементарные участки
у млекопитающих показаны желтым цветом, а зеленым цветом отмечены места связывания
с РНК-связывающими белками, такими как AGO2, ELAVL1, TIAL1, SF2-ASF и IGF2BP1.
Комплементарный участок гена SF1 связывается с белком AGO2 так, как данный участок
попадает в 3’-нетранслируемую область (3’-UTR) в которой имеются сайты связывания
этого белка. Ранее комплементарный участок гена SF1 (см. Рис. 23) обсуждался в литературе [55], как пример регуляции альтернативного сплайсинга структурой РНК.
4.3
Расчет количества SNP
В этом разделе мы оценим какое количество SNP попадает в комплементарные
участки некодирующих сегментов белок-кодирующих генов. В этой связи естественно возникает вопрос: не обеднены ли наши комплементарные участки некодирующих сегментов
белок-кодирующих генов мутациями и нет ли какого-то определенного типа мутаций, который был бы для них характерен? Количество SNP в комплементарных участках некодирующих сегментов белок-кодирующих генов является ключом для ответа на этот вопрос.
На основе данных проекта “1000 геномов” [48] были отобраны SNP, затем определили какое количество SNP содержится в комплементарных участках некодирующих сегментов белок-кодирующих генов. В комплементарных участках некодирующих сегментов
белок-кодирующих генов оказалось 165 SNP, из которых 102 гена составляют транзиции,
а 63 трансверсии. Из всех полученных транзиций были отобраны только те, в которых сохраняюся вторичные структуры. Например, следует учитывать только замены А в G и T в
C, но не наоборот. В результате нами было отобрано 69 таких транзиций, то есть 42% от
общего числа SNP способствуют сохранению структуры.
Для оценки статистической значимости нам следует понять, насколько отличается
полученный нами результат от аналогичного случайного результата. Для этой цели требуется определить, какое количество SNP попадает в случайные участки такой же длины.
Алгоритм процедуры оценки статистической значимости был следующим. Количество SNP
рассчитывалось для случайного участка такой же длины, как и исходный комплементарный
участок, а SNP брались и из того же самого сегмента. Данная процедура была повторена
1000000 раз. На основе полученных значений был построен 95% доверительный интервал
для случайных SNP - [180, 256]. В результате количество SNP (165) в комплементарных
участкак некодирующих сегментов белок-кодирующих генов оказалось меньше, чем в случайных участках, т.е. меньше, чем нижняя граница (180) доверительного интервала случай-
48
ных SNP. Этот факт может являться свидетельством того, что комплементарные участки
некодирующих сегментов белок-кодирующих генов закрепились в ходе эволюции.
4.4
Сравнение предсказанной структуры РНК методом SHAPE-seq и
RNAfold с реальной 3D структурой
Последнее время активно развивается подход к моделированию трехмерных струк-
тур малых и средних РНК по известной вторичной структуре. Поэтому вызывает интерес
насколько эффективно методы SHAPE-seq и RNAfold могут предсказать вторичную структуру. Для этой цели мы провели сравнение структуры РНК рибонуклеазы P, полученной
методами SHAPE-seq и кристаллографии, и предсказанной программой RNAfold.
Используя программное обеспечение, разработанное авторами метода SHAPE-seq [49],
нами были рассчитаны профили реактивности для каждого нуклеотида S-домена РНКазы P.
Использую базу данных RNA FRABASE 2.0 [51], была получена вторичная структура для
РНК длиной 155 нуклеотидов рибонуклеазы P, среди них были выделены спаренные и
неспаренные нуклеотиды для 3D структуры. Для вторичных структур, полученных методом SHAPE-seq и предсказанных программой RNAfold, были также определены спаренные
и неспаренные нуклеотиды (См. Таблица 5).
Таблица 5. Количество спаренных и неспаренных нуклеотидов.
Метод SHAPE-seq
RNAfold
Кристалл
Количество
спарен-
96
85
84
59
70
71
ных оснований
Количество неспаренных оснований
На Рис. 18 представлен профиль реактивностей, полученных методом SHAPE-seq.
Реактивность — это эффективная величина, отражающая скорость протекания реакции при
модификации 2’-гидроксила химическим агентом 1M7. Чем выше скорость модификации
нуклеотида в неспаренном состоянии, тем выше реактивность. Из-за специфичности химического агента 1M7 [7], спаренные основания модифицируются очень медленно, либо
не модифицируются совсем, т.е. коэффициент реактивности близок к нулю.
Рис. 18. Профили реактивностей.
49
50
На Рис. 18А синим цветом показаны нуклеотиды, которые предсказаны как спаренные, а согласно 3D структуре, они находятся в неспаренном состоянии. На Рис. 18Б,
по аналогии с методом SHAPE-seq, синим показаны нуклеотиды, для которых программа RNAfold дала неверное предсказание. Красным цветом показаны нуклеотиды, которые
предсказаны методом RNAfold как неспаренные, а согласно 3D структуре, они находятся в
спаренном состоянии. В результате было определено, какое количество спаренных оснований, предсказанных методом SHAPE-seq и программой RNAfold, совпадает со спаренными основаниями 3D структуры. Анализ данных показал, что метод SHAPE-seq правильно
предсказал 84 спаренных оснований, а программа RNAfold всего 68 из 84 оснований согласно 3D структуре (см. Таблица 5). Для сравнения достоверности предсказания SHAPEseq и RNAfold были рассчитаны чувствительность и положительное предсказательное значение (см. раздел 2.4.1.1). Данные значения приведены в Таблице 6.
Таблица 6. Чувствительность и PPV для SHAPE-seq и RNAfold.
Чувствительность, %
PPV, %
SHAPE-seq
100
87.5
RNAfold
81
80
Анализ данных Таблицы 6 показывает, что чувствительность и положительное предсказательное значение для метода SHAPE-seq выше, чем у RNAfold. Чувствительность
метода равна 100 %, что говорит об очень высоком предсказательном потенциале метода
SHAPE-seq для данной структуры.
51
5. ЗАКЛЮЧЕНИЕ
Одним из ключевых моментов понимания механизма сворачивания РНК и сборки
РНП комплексов является знание вторичной структуры РНК. Существующие до недавнего
времени экспериментальные и вычислительные методы не давали полной информации о
вторичной структуре молекул РНК. Благодаря развитию высокопроизводительного секвенирования и комбинированных экспериментально-вычислительных методов стало возможным получать более достоверные предсказания.
В рамках данной работы было проанализировано большинство существующих данных высокопроизводительного секвенирования, а именно данные, полученные методами
FragSeq, SHAPE-seq, PAR-CLIP, а также данные проекта “1000 геномов”.
Данные по одноцепочечным участкам РНК, полученные методами FragSeq, сравнивались с результами предсказания программы RNAfold как качественно, так и количественно. Качественное сравнение показало, что вторичные структуры, предсказанные методом FragSeq хорошо согласуются с термодинамическими предсказаниями. Количественное
сравнение проводилось на основе показателя разрыва для неспаренных и спаренных нуклеотидов, и оно показало, что этот показатель в среднем выше у неспаренных нуклеотидов,
чем у спаренных.
Используя данные Par-CLIP и программу IRBIS, были определены комплементарные участки некодирующих сегментов белок-кодирующих генов, с которыми связываются
белки. Было определено пять таких комплементарных участков, только один из этих участков для гена SF1 ранее уже обсуждался в литературе.
Используя данные проекта “1000 геномов”, была проверена гипотеза об обедненности комплементарных участков некодирующих сегментов белок-кодирующих генов мутациями. Анализ показал, что количество мутаций в комплементарных участках некодирующих сегментов белок-кодирующих генов снижено по сравнению с случайными участками
случайной длины и это может быть свидетельством того, что комплементарные участки
некодирующих сегментов белок-кодирующих генов закрепились в ходе эволюции.
Пример сравнения чувствительности образования вторичной структуры РНК для Sдомена РНКазы P, полученной методом SHAPE-seq и предсказанной программой RNAfold,
с реальной 3D структурой показал более высокий предсказательный потенциал метода
SHAPE-seq. Чувствительность метода SHAPE-seq равна 100 %.
52
6. ВЫВОДЫ
На основании результатов работы можно сделать следующие выводы:
1. Найдено 55 сегментов, у которых вторичные структуры, предсказанные программой
RNAfold и определенные методом FragSeq, согласуются между собой (p-value < 0.05).
2. Показатель разрыва у неспаренных нуклеотидов в среднем выше, чем у спаренных.
3. Определены пять комплементарных участков некодирующих сегментов белок-кодирующих
генов, с которыми связываются белки.
4. Консервативные комплементарные участки некодирующих сегментов белок-кодирующих
генов обеднены мутациями. Транзиции являются характерными мутациями для данных участков.
5. Чувствительность метода SHAPE-seq равна 100 % для вторичной структуры S-домена
РНКазы P.
53
7. ДОПОЛНИТЕЛЬНЫЕ МАТЕРИАЛЫ
Дополнительная Таблица 1. P-value для отобранных сегментов.
ID Сегмента
Длина Сегмента
Название Гена
P-value
Скорректированное P-value
142157
186
Rpl7a
0.000000
0.000000
142170
66
Rpl7a
0.000000
0.000000
208874
128
Rps25
0.000000
0.000000
521142
53
Nop56
0.000000
0.000000
521160
92
Nop56
0.000000
0.000000
698624
147
Pabpc4
0.000000
0.000000
737115
90
Rpl7a
0.000000
0.000000
716212
135
Trub1
0.000000
0.000000
417074
175
Ctage5
0.000001
0.000012
238761
137
2700023E23Rik
0.000002
0.000018
495642
201
Pabpc4
0.000002
0.000018
393312
150
Snora64
0.000002
0.000018
15273
150
Snora64
0.000004
0.000034
522157
105
1500012F01Rik
0.000005
0.000039
141193
152
Snora64
0.000006
0.000044
190157
106
Snord12
0.000012
0.000082
71543
234
Ell2
0.000071
0.000459
729399
141
Snord2
0.000138
0.000843
9582
69
Rpl5
0.000460
0.002663
15919
151
Rpl10
0.000692
0.003806
24752
153
SNORA8
0.000885
0.003891
66479
153
SNORA8
0.000886
0.003891
357229
153
SNORA8
0.000941
0.003891
403012
103
Nop58
0.000816
0.003891
505830
153
SNORA8
0.000859
0.003891
716258
258
Nop58
0.000955
0.003891
313220
198
Nap1l1
0.000882
0.003891
186372
84
Snora44
0.001297
0.004999
587157
157
Snhg4
0.001318
0.004999
487954
146
Snora65
0.001845
0.006765
54
10015
153
Rpl10
0.003087
0.009362
84881
152
Rpl10
0.002664
0.009362
169597
153
Rpl10
0.003149
0.009362
488682
153
Rpl10
0.003007
0.009362
544513
295
Morc3
0.003104
0.009362
674789
153
Rpl10
0.003087
0.009362
696391
153
Rpl10
0.003060
0.009362
201197
146
Zfp808
0.004227
0.011922
669872
155
Rpl10
0.004186
0.011922
454127
149
Nop56
0.005831
0.015272
609247
149
Nop56
0.005780
0.015272
764174
149
Nop56
0.005725
0.015272
334621
157
Rpl10
0.008358
0.021381
815813
180
Tipin
0.012370
0.026260
7808
138
Ctage5
0.012144
0.026260
117128
87
Snora81
0.012183
0.026260
228544
138
Ctage5
0.012414
0.026260
381416
137
Ctage5
0.010598
0.026260
432164
138
Ctage5
0.012331
0.026260
483342
138
Ctage5
0.012205
0.026260
667697
138
Ctage5
0.012322
0.026260
721781
138
Ctage5
0.012300
0.026260
756542
149
SNORA1
0.014237
0.029548
71196
162
Zfp808
0.018092
0.036184
473780
191
Malt1
0.018024
0.036184
90060
171
Tipin
0.027127
0.053285
340812
252
Popdc2
0.031373
0.059586
363692
250
Ptchd3
0.031418
0.059586
117134
211
Eif4a2
0.033225
0.061945
707178
299
Rpl4
0.035204
0.064541
205290
201
Mov10l1
0.035988
0.064896
186371
139
Snora44
0.037722
0.064972
292539
103
Mir124a-3
0.037174
0.064972
614027
160
snoZ40
0.037802
0.064972
658222
213
Rpl27a
0.039317
0.066536
55
81845
101
A930011O12Rik
0.046533
0.076465
723323
79
A930011O12Rik
0.046574
0.076465
495652
162
Pabpc4
0.051792
0.083781
554127
97
Snord96a
0.065354
0.104188
475605
294
Lipn
0.067028
0.105330
687478
81
Snhg1
0.069586
0.107809
199716
110
Mob4
0.074679
0.114093
13073
109
Snord91a
0.085526
0.128875
451537
167
Poldip3
0.100997
0.148974
619308
167
Poldip3
0.101573
0.148974
193611
276
Dopey2
0.111132
0.160849
669888
174
Rpl27a
0.125867
0.178447
146265
233
Popdc2
0.126535
0.178447
572192
110
Rpl5
0.135251
0.185970
589497
238
Sarnp
0.133987
0.185970
691718
115
Rpl4
0.139554
0.189518
129579
199
Snhg1
0.146091
0.195976
591690
225
Pds5b
0.150613
0.197212
32561
122
RP23-242C19.6
0.152391
0.197212
435336
221
Gnb2l1
0.150455
0.197212
491027
184
Dimt1
0.157590
0.201569
513350
130
Wdr43
0.201199
0.254390
675507
262
Gsr
0.235073
0.293841
365255
152
Odc1
0.258783
0.316457
571803
152
Odc1
0.258919
0.316457
503054
260
Tmco5b
0.303097
0.362399
1280
91
Snhg1
0.302419
0.362399
234877
148
Snora47
0.353577
0.418209
513335
173
Wdr43
0.461473
0.540022
48033
135
Dntt
0.474790
0.545834
435337
245
Gnb2l1
0.476364
0.545834
650292
149
Fam178a
0.512943
0.581688
152875
235
Ubac2
0.544533
0.611211
80412
209
Rttn
0.630022
0.700024
364906
280
1500010J02Rik
0.642974
0.707271
56
707182
185
Rpl4
0.686056
0.747190
612201
89
Rpl4
0.735777
0.793485
230442
187
Prim1
0.791795
0.845606
624672
157
Gm5611
0.803327
0.849673
758891
147
Gm15355
0.821344
0.852338
7129
287
Smarcc2
0.816290
0.852338
495726
114
Fbxo15
0.932580
0.958727
610698
264
Atl1
0.945270
0.962775
565090
157
Orc6
0.973212
0.982141
449915
186
Med23
0.992671
0.992671
H.Sap
R.Mac
P.Tro
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
F.Cat
B.Tau
E.Cab
S.Sus
L.Afr
gtaagtttttta...139...-agttttcattgtcaaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
gtaagtttttta...140...-cgttttcattgtcaaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
gtaagtttttta...139...-agttttcattgtcaaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
gtaagtttttta...139...-agttttcattgtcaaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
gtaagtttccta...138...-catttttcctgttaaatactTT-TGTCTTaTTGAGaagacttgtattcttatag
gtaagtttctta...138...-gatttttcttgttaaatactTT-TGTCTTaTTGAGaagacttgtattcttgtag
gtaagtttttaa...138...-attatatattgttaaatactTT-TGTCTTaTTGAGaagaattgtattcttatag
gtaagtctttaa...143...-gattttgattgttaaatactTT-TGTCTTaTTGAGaagaattgtattcttatag
gtaagtttattt...128...-ggttttgactgtgaaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
gtaagtttatct...131...-ggttttgattgttgaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
gtaagttttttt...129...-gaatttgactgctgaatactTT-TGTCTTaTTGAGaagacttgtattcttgtag
gtaagttctttt...137...-gattttgactgttgaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
gtaagttttttt...208...agaatttgaatgttgaatac-TTGTgTCTTaTTGAGaagaattgtattcttgtag
gtgagtatggtt...161...-gatactgatcattgaatactTT-TGTCTTaTTGAGaagaattgtattcttgtag
****************************************************************************
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
gtggttat
********
ttaattag
ttaattag
ttaattag
ttaattag
ttaattag
acatacag
aattacag
tactccag
actgccag
actgccag
actgccag
actgccag
actgccag
actgccag
actgccag
********
gtaagtaagcac...191...aacaactttattccatattgTTCAAcAG
gtaagtaagcac...191...aacaactttattccatattgTTCAAcAG
gtaagtaagcac...191...aacaactttattccatattgTTCAAcAG
gtaagtaagcac...191...aacaactttattccatattgTTCAAcAG
gtaagtacatac...192...aacaactttattccatattgTTCAAcAG
ccaggtaagtgc...191...aacaactttattccatattgTTCAAcAG
ccaggtaagtgc...191...aacaactttattccatattgTTCAAcAG
gtaagcaagcac...187...aacaactttattccatattgTTCAAcAG
gtaagtaaacac...207...aacaactttattccatattgTTCAAcAG
gtaagtaaacac...189...aacaactttattccatattgTTCAAcAG
gtaagtaaacat...194...aacaactttattccatattgTTCAAcAG
gtaagtgaacac...195...aacaactttattccatattgTTCAAcAG
gtaagtatgcac...190...aacaactttattccatattgTTCAAcAG
gtaagtgaacac...197...aacaactttattccatattgTTCAAcAG
gtaagtaagcac...196...aacaactttattccatattgTTCAAcAG
*************************************************
GAaaCAAa...
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaaCAAa
GAaACAAa
GAaaCAAa
********
Рис. 19. Комплементарный участок гена HNRNPA1
segm.id=165217 gene=ENSG00000135486 name=HNRNPA1 segment=chr12_54678102_54678332_1 type=IN
SF2-ASF
H.Sap
R.Mac
P.Tro
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
F.Cat
B.Tau
E.Cab
S.Sus
L.Afr
segm.id=165208 gene=ENSG00000135486 name=HNRNPA1 segment=chr12_54676659_54676862_1 type=IN
taatgatg
taatgatg
taatgatg
caatgatg
caatgatg
caatgatg
taatgacg
taatgacg
taatgacg
taacgatg
taatgacg
taatgatg
taatgacg
taatgacg
********
57
H.Sap
R.Mac
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
S.Sus
O.Avi
L.Afr
ctccccag
ctccccag
ctccccag
cctcccag
ctccccag
ctccccag
ctccccag
ctccccag
ctccccag
ctccccag
ctcctcag
tgccgcag
ctccccag
ctccccag
ctccccag
ctccccag
ttccccag
********
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcagtatagcctgacgagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcagtatagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcagtacagtctgacgagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tcccagtacagcctgacgagagcacagcagtcctacaaGTCCcTGGTgcAGA
tctcaatacagcctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcagtacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcagtacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
tctcaatacagtctgacaagagcacagcagtcctacaaGTCCTTGGTgcAGA
****************************************************
Tccacgaa...
Tccacgaa...
Tccacgaa
Tccacgaa
Tccacgaa
Tccacgaa
Tccacgaa
Tccatgaa
Tccacgaa
Tccacgaa
Tccatgaa
Tccacgag
Tccacgaa
Tccacgaa
Tccacgaa
Tccacgaa
Tccacgaa
********
aggcaccactgg...1762...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
aggcaccactgg...1768...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
aggcaccactgg...1770...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
aggcaccactgg...1831...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
aggcaccactgg...1741...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
aggcaccactgg...1584...ttttgtaatgtatttttctcATCTACCAAaGGATgaatcaaataaagttatttaaata
aggcaccactgg...1558...ttttgtaatgtatttttctcATCTACCAAaGGATgaatcaaataaagttatttaaata
aggcaccactgg...1673...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaagttatttaaata
aggcaccactgg...1499...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
aggcgccactgg...1499...ttttgtaatgtatttttctcATCTACCAaaGGATgaaacaaataaaattatttaaata
aggcaccactgg...1678...ttttgtaatgtatttttctcATCTACCAAaGGATggaacaaataaaattatttaaata
aggcaccactgg...1767...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
aggcaccactgg...1681...ttttgtaatgtatctttctcATCTACCAAaGGATgaagcaaataaaattatttaaata
aggcaccactgg...1674...ttttgtaatgtatttttctcATCTACCAAaGGATggaacaaataaaattatttaaata
aggcaccactgg...1737...ttttgtaatgtatttttctcATCTACCAAaGGATgaaacaaataaaattatttaaata
********************************************************************************
gtttggct
gtttggct
gtttggct
gtttggct
gtttggct
gtttggct
gtttggct
gtttcgct
gtttggct
gtttggct
gtttggct
gtttggct
gtttggct
gtttggct
gtctggct
********
Рис. 20. Комплементарный участок гена UBE2Q1
segm.id=175691 gene=ENSG00000160714 name=UBE2Q1 segment=chr1_154521053_154522884_-1 type=E3
ccctcccc
ccctcccc
ccctcccc
ccctcccc
ccctcccc
tcctcccc
tcctcccc
cctccccc
ccctcccc
tcttcccc
ccttcccc
ccttcccc
ccttcccc
ccttcccc
ccttcccc
********
segm.id=175687 gene=ENSG00000160714 name=UBE2Q1 segment=chr1_154523429_154523480_-1 type=EC
AGO2
IGF2BP1
H.Sap
R.Mac
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
S.Sus
O.Avi
L.Afr
58
H.Sap
R.Mac
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
L.Afr
ctaaaatg
ctaaaatg
ctaaaatg
ctaaaatg
ctaaaatg
ctaaaatg
ctaaaatg
gtaaaatg
acctcatg
ctaaaatg
ctaaaatg
ctaaaatg
ctacaatg
********
ELAVL1
H.Sap
R.Mac
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
L.Afr
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTtTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC--TTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC--TTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcCTTTTT-tgacccttttgagatggaac-----------...47...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTTTTGACCCTtttgagatggaactttgata----...40...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcC-TTTTTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcCTTTTtTTGACCCTTTTGagatggaactttcataaagt...36...atttgaaaagtt
ccctgaatgcaaagaattcataGCAGTTAATTCCcCTTTTtTTGAcccttttgagatggaacttt--------...44...atttgaaaagtt
ctctgaatgcaaagaattcataGCAGTTAATTCCcCTTTTTttggcccttttgagatggaa------------...48...atttgaaaagtt
*********************************************************************************************
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtctcaag
gtttcaag
********
Рис. 21. Комплементарный участок гена TARDBP
segm.id=507871 gene=ENSG00000120948 name=TARDBP segment=chr1_11084393_11085076_1 type=AN
gtaagcagtacc...178...-----------gcaccttcctagtttgggatTTGAAAAGtGGAATTAATTGCagtagggataaagtagaaga...421...agtttcctctgt
gtaagcagtacc...175...-----------gtaccttcctagtttgagatTTGAAAAGtGGAATTAATTGCaatagggataaagtagaaga...421...ggtttcctctgt
gtaagcagtacc...178...-----------gcacgttcctagtttgggatTTGAAAAGtGGAATTAATTGCagtagggataaagtagaaga...426...agtttcctctgt
gtaagcagtacc...178...-----------gcaccttcctagtttgggatTTGAAAAGtGGAATTAATTGCagtagggataaagtagaaga...426...agtttcctctgt
gtaagcagtacc...176...-----------gcaccttcctagtttgggatTTGAAAAGtGGAATTAATTGCaatagggataaagtagaaga...396...ggtttcctctgt
gtaagcagttac...160...----------agcacctttct-gtttgggatTTGAAAAGtGGAATTAATTGCaatagggatgaagtagaaga...408...agtatcctctgt
gtaagcagttac...161...----------agcacctttct-gtttgggatTTGAAAAGtGGAATTAATTGCaatagggatgaagtagaaga...407...agtatcctctgt
gtaagcagtacc...180...-----------gtatctttctg--ctgggatctGAAAAGtGGAATTAATTGCaatagggataaagtagaaga...424...agtttcttctgt
gtaagcagtgcc...162...-----atctcagcgcctttctagttGGGGatTTGAAAAGtGGAATTAATTGCaatagggataaaggagaaga...397...agtttcttctgt
gtaagcagtacc...185...-----------gcacctttcgagtttgggatTTGAAAAGtGGAATTAATTGCagtagggataaagtagaaga...427...agtttcttctgt
gtaagcagtacc...168...agggaatatcagcacctttcTGGAtGGGGatTTGAAAAGtGGAATTAATTGCaatagggataaagtagaaga...416...agtttcctctgt
gtaagcagtacc...181...-----------gcacctttctagttttggatTTGAAAAGtGGAATTAATTGCaatagggataaagtagaaga...425...agttttctctgt
gtaagcagtacc...173...-------------acttttctggtttgggatttGAAAAGtGGAATTAATTGCcatagggataaagtagaaga...427...aatttcctgtat
******************************************************************************************************************
segm.id=507867 gene=ENSG00000120948 name=TARDBP segment=chr1_11084121_11084240_1 type=AN
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
ttttgcag
********
aaagggat
aaagggat
aaagggat
aaagggat
aaagggat
aaaaggat
aaaaggat
aaaaggat
aaaagggt
aaaaggat
aaaggatc
aaagggat
aaaaggat
********
59
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
gcgaggag
********
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcaggaacgag...4948...ctaacatttattttctgtttATTTTtAAG
gtcaggaatgag...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
gtcagaaatgaa...4948...ctaacatttattttctgtttATTTTtAAG
***************************************************
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
ACGAGcaa
********
ctctacag
ctctacag
ctctacag
ctctacag
ctctacag
ctctacag
ctttacag
ctttacag
ttctgcag
ctccacag
ccctacag
ttctacag
ctctgcag
ttctacag
ttctacag
ctctacag
********
aatgcagtaatagtggcCTTGTCTT
aatgcagtaatagtggcCTTGTCTT
aatgcagtaatagtggcCTTGTCTT
aatgcagtaatagtggcCTTGTCTT
aatgcagtaatagtggcCTTGTCTT
aatgcagtaatagtggcCTTGTCTT
aacgcagtaatagtggcCTTGTCTT
aacgcagtaatagtggcCTTGTCTT
aatgcagtaatagtggcCTTGTCTT
aacgcggtaattgtggcCTTGTCTT
aatgcggtaatagtggcCTTGTCTT
aatgcggtaatagtggcCTTGTCTT
aatgctgtaatagtggcCTTGTCTT
aatgcggtaatagtggcCTTGTCTT
aatgcggtaatagtggcCTTGTCTT
aatgcagtaatagtggcCTTGTCTT
*************************
cAAAATca...
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
cAAAATca
********
Рис. 22. Комплементарный участок гена UBE2K
segm.id=268993 gene=ENSG00000078140 name=UBE2K segment=chr4_39779980_39780004_1 type=EC
AGO2
H.Sap
R.Mac
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
S.Sus
O.Avi
L.Afr
segm.id=268982 gene=ENSG00000078140 name=UBE2K segment=chr4_39700011_39739039_1 type=IN
H.Sap
R.Mac
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
S.Sus
O.Avi
L.Afr
60
H.Sap
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
S.Sus
L.Afr
ggcgccccgtagcatcgagtgtcTTCTtTGTCTTCTTTCTCTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgtcTTCTtTGTCTTCTTTCTCTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgtcTTCTtTGTCTTCTTTCTCTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgtcTTCTtTGTCTTCTTTCTCTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgtcTTCTtTGTCTTCTTTCTCTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgtcttcTTTGTCTTCTTTCTCTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgtcttctttgtcttctttctctcCTCACCCAaCTCCCTTTGCCTctccccaaaccgggccgccag
ggca-cctgtagcatcgagtgtcttctttgtcttctc----TCCTCACCCAaCTCCCtctgcctctccccaaaccgggccgccag
ggcgccctgtagcatcgagtgtcttctttgtcttctctc----CTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtg---TCTTCTTtGTCTTTCTCTcCTCACCCAaCTCCCtttgcctctccccaaactgggccgccag
ggcg-cctgtagcatcgagtg---TCTTTGTCT--TTTCTCTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgTCTTCTTTGTCTtcTTTCtcTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgagtgTCTTCTTtGTCTTCTTTCTCTCCTCACCCAaaTCCCttTGCCtctccccaaactgggccgccag
ggcgccccgtagcatcgagtgtCTTCTTTGtCTTCtTTCTCTCCTCACCCAaCTCCCtttgcctcttcccaaaccgggccgccag
ggcgccccgtagcatcgagtgtcTTCTTTGTCTTCTTTCTCTCCTCACCCAaaTCCCtttgcctctccccaaaccgggccgccag
ggcgccccgtagcatcgaGTGTcTTCTTTGTCTTcTTTCtcTCCTCACCCAaCTCCCtttgcctctccccaaaccgggccgccag
*************************************************************************************
Рис. 23. Комплементарный участок гена SF1
segm.id=532030 gene=ENSG00000168066 name=SF1 segment=chr11_64532991_64533075_-1 type=AN
gctctcct
gctctcct
gctctcct
gctctcct
gctctcct
gctctcct
gctcttct
gctttcct
gctctcct
gctctcct
gctctcct
gctctcct
gctctcct
gctctcct
gctctcct
gctctcct
********
segm.id=532024 gene=ENSG00000168066 name=SF1 segment=chr11_64533886_64534371_-1 type=AN
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
gatccctc
********
gtgagtagaatattttgggcttgtGGGGGTGGGTGGGAt---GGGGGtGGGGctGACAGGAA----ccatagagcct-------cacacaagc--...395...ttcttgtgtctg
gtgagtagaatattttgggcttgtGGGGGTGGGTGGGAt---GGGGGtGGGGctGACAGGAA----ccatagagcct-------cacacaagc--...395...ttcttgtgtctg
gtgagtagaatattttgggcttgtGGGGGTGGGTGGGAt---GGGGAtGGGGctGACAGA----aaccatagagcct-------cacacaa----...397...ttcttgtgtctg
gtgagtagaatattttgggcttgtgggcgtGGGTGGGat---GGGGGTGGGccTGAG----aggaaccgtagagcct-------caca-------...407...tttttgtgtctg
gtgagtggaatattttgggcttgtGGGGGTGGGTGGGA-------------------------tgtgggctagggct-------gagggg-----...423...ttcttgtgtctg
gtgagtgaaatattttgggcttgtGGGGGTGGGTGGG-------------------------ttgtgggctgggact-------gagag------...426...ttcttgtgtttg
gtgagtggagtattttaggctcgtGGGGGTGGGTGGGac--AGGGGttGGGACtGAGAGGAactgtagaaata-----------catggctc---...365...ttcttgtgtctg
gtgagtggcatattttgggctcgtGGGGGTGGGTGGGAt--GGGGGGtgGGGCtgAGAGG----acctgcggcacct-------cacagct----...378...ttcttgtgtctg
gtgagtggaatattttgggcttgtGGGGGTGGGTGGGAt-GAAGAGATGGGGctGAGA---ggagcaagagaa-cct-------cacag------...402...ttcttgtgtctg
gtgagtggaatattttgggctGGTGGGGGTGGGTGGGAttGGGGGGGtGGGGCtGAGAGGA---atgagagac-cct-------cacagctc---...352...ttcttgtgtctg
gtgagtggaatattttgggctcctGGGGGTGGGTGGGtc-GGGGGGGtGGGGcTGAGaGGAG-----caagaa-cct-------cgcaggcgggt...367...ttcttgtgtctg
gtgagtggaatattttggactcctGGGGgTGGGTGGGatGGGGGGGAGGGGGCtGAGGAA-----taagagac-cct-------cgcggctca--...382...ttcttgtgtctg
gtgagtggagtatgttgggctcgtGGGGGTGGGTGGGAt---GGGGttGGGGCtgGGAGGAACAC---atgaa-cctcagctcacacac------...406...ttcttgtgtctg
********************************************************************************************************************
AGO2
ELAVL1
TIAL1
H.Sap
P.Tro
P.Abe
C.Jac
M.Mus
R.Nor
C.Por
O.Cun
C.Fam
B.Tau
E.Cab
S.Sus
L.Afr
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
gcagcaaa
********
gtaccttc
gtaccttc
gtaccttc
gtaccttc
gaactttc
gaactttc
gtactttc
gtgctttt
gtaccttc
gtaccttc
gtaccttc
gtaccttt
gtaccttc
********
61
62
8. СПИСОК ЛИТЕРАТУРЫ
[1] Y. Chen and G. Varani, “RNA Structure.,” eLS., 2010.
[2] L. X. Shen, Z. Cai, and I. Tinoco, “RNA structure at high resolution,” FASEB J., vol. 9,
pp. 1023–1033, Aug 1995.
[3] C. Ehresmann, F. Baudin, M. Mougel, P. Romby, J. P. Ebel, and B. Ehresmann, “Probing
the structure of RNAs in solution,” Nucleic Acids Res., vol. 15, pp. 9109–9128, Nov 1987.
[4] E. T. Yu, A. Hawkins, J. Eaton, and D. Fabris, “MS3D structural elucidation of the HIV-1
packaging signal,” Proc. Natl. Acad. Sci. U.S.A., vol. 105, pp. 12248–12253, Aug 2008.
[5] P. Tijerina, S. Mohr, and R. Russell, “DMS footprinting of structured RNAs and RNAprotein complexes,” Nat Protoc, vol. 2, no. 10, pp. 2608–2623, 2007.
[6] P. Guo, “RNA nanotechnology: engineering, assembly and applications in detection, gene
delivery and therapy,” J Nanosci Nanotechnol, vol. 5, pp. 1964–1982, Dec 2005.
[7] J. L. McGinnis, C. D. Duncan, and K. M. Weeks, “High-throughput SHAPE and hydroxyl
radical analysis of RNA structure and ribonucleoprotein assembly,” Meth. Enzymol.,
vol. 468, pp. 67–89, 2009.
[8] S. C. Gopinath, “Mapping of RNA-protein interactions,” Anal. Chim. Acta, vol. 636,
pp. 117–128, Mar 2009.
[9] M. Lindell, P. Romby, and E. G. Wagner, “Lead(II) as a probe for investigating RNA
structure in vivo,” RNA, vol. 8, pp. 534–541, Apr 2002.
[10] M. G. Seetin and D. H. Mathews, “RNA structure prediction: an overview of methods,”
Methods Mol. Biol., vol. 905, pp. 99–122, 2012.
[11] D. H. Mathews, J. Sabina, M. Zuker, and D. H. Turner, “Expanded sequence dependence
of thermodynamic parameters improves prediction of RNA secondary structure,” J. Mol.
Biol., vol. 288, pp. 911–940, May 1999.
[12] D. H. Mathews and D. H. Turner, “Prediction of RNA secondary structure by free energy
minimization,” Curr. Opin. Struct. Biol., vol. 16, pp. 270–278, Jun 2006.
[13] D. H. Mathews, “Using an RNA secondary structure partition function to determine
confidence in base pairs predicted by free energy minimization,” RNA, vol. 10, pp. 1178–
1190, Aug 2004.
63
[14] R. Kierzek, M. E. Burkard, and D. H. Turner, “Thermodynamics of single mismatches in
RNA duplexes,” Biochemistry, vol. 38, pp. 14214–14223, Oct 1999.
[15] C. B. Do, D. A. Woods, and S. Batzoglou, “CONTRAfold: RNA secondary structure
prediction without physics-based models,” Bioinformatics, vol. 22, pp. e90–98, Jul 2006.
[16] Z. J. Lu, J. W. Gloor, and D. H. Mathews, “Improved RNA secondary structure prediction
by maximizing expected pair accuracy,” RNA, vol. 15, pp. 1805–1813, Oct 2009.
[17] Y. Ding and C. E. Lawrence, “A statistical sampling algorithm for RNA secondary structure
prediction,” Nucleic Acids Res., vol. 31, pp. 7280–7301, Dec 2003.
[18] J. S. Reuter and D. H. Mathews, “RNAstructure: software for RNA secondary structure
prediction and analysis,” BMC Bioinformatics, vol. 11, p. 129, 2010.
[19] R. Lorenz, S. H. Bernhart, C. Honer Zu Siederdissen, H. Tafer, C. Flamm, P. F. Stadler, and
I. L. Hofacker, “ViennaRNA Package 2.0,” Algorithms Mol Biol, vol. 6, p. 26, 2011.
[20] R. M. Dirks and N. A. Pierce, “A partition function algorithm for nucleic acid secondary
structure including pseudoknots,” J Comput Chem, vol. 24, pp. 1664–1677, Oct 2003.
[21] J. Ruan, G. D. Stormo, and W. Zhang, “An iterated loop matching approach to the prediction
of RNA secondary structures with pseudoknots,” Bioinformatics, vol. 20, pp. 58–66, Jan
2004.
[22] J. P. Abrahams, M. van den Berg, E. van Batenburg, and C. Pleij, “Prediction of RNA
secondary structure, including pseudoknotting, by computer simulation,” Nucleic Acids Res.,
vol. 18, pp. 3035–3044, May 1990.
[23] D. Sankoff, “Simultaneous solution of the RNA folding, alignment and protosequence
problems.,” SIAM. J. Appl. Math., vol. 45, pp. 810–825, 1985.
[24] J. Gorodkin, L. J. Heyer, and G. D. Stormo, “Finding the most significant common sequence
and structure motifs in a set of RNA sequences,” Nucleic Acids Res., vol. 25, pp. 3724–
3732, Sep 1997.
[25] D. H. Mathews and D. H. Turner, “Dynalign: an algorithm for finding the secondary
structure common to two RNA sequences,” J. Mol. Biol., vol. 317, pp. 191–203, Mar 2002.
[26] S. Will, K. Reiche, I. L. Hofacker, P. F. Stadler, and R. Backofen, “Inferring noncoding RNA
families and classes by means of genome-scale structure-based clustering,” PLoS Comput.
Biol., vol. 3, p. e65, Apr 2007.
64
[27] A. O. Harmanci, G. Sharma, and D. H. Mathews, “PARTS: probabilistic alignment for
RNA joinT secondary structure prediction,” Nucleic Acids Res., vol. 36, pp. 2406–2417,
Apr 2008.
[28] Z. Xu and D. H. Mathews, “Multilign: an algorithm to predict secondary structures
conserved in multiple RNA sequences,” Bioinformatics, vol. 27, pp. 626–632, Mar 2011.
[29] C. B. Do, C. S. Foo, and S. Batzoglou, “A max-margin model for efficient simultaneous
alignment and folding of RNA sequences,” Bioinformatics, vol. 24, pp. 68–76, Jul 2008.
[30] P. P. Gardner, A. Wilm, and S. Washietl, “A benchmark of multiple sequence alignment
programs upon structural RNAs,” Nucleic Acids Res., vol. 33, no. 8, pp. 2433–2439, 2005.
[31] M. Hamada, H. Kiryu, K. Sato, T. Mituyama, and K. Asai, “Prediction of RNA secondary
structure using generalized centroid estimators,” Bioinformatics, vol. 25, pp. 465–473, Feb
2009.
[32] A. O. Harmanci, G. Sharma, and D. H. Mathews, “TurboFold: iterative probabilistic
estimation of secondary structures for multiple RNA sequences,” BMC Bioinformatics,
vol. 12, p. 108, 2011.
[33] P. Steffen, B. Voss, M. Rehmsmeier, J. Reeder, and R. Giegerich, “RNAshapes: an integrated
RNA analysis package based on abstract shapes,” Bioinformatics, vol. 22, pp. 500–503, Feb
2006.
[34] M. Hochsmann, B. Voss, and R. Giegerich, “Pure multiple RNA secondary structure
alignments: a progressive profile approach,” IEEE/ACM Trans Comput Biol Bioinform,
vol. 1, no. 1, pp. 53–62, 2004.
[35] S. Lebedeva, M. Jens, K. Theil, B. Schwanhausser, M. Selbach, M. Landthaler, and
N. Rajewsky, “Transcriptome-wide analysis of regulatory interactions of the RNA-binding
protein HuR,” Mol. Cell, vol. 43, pp. 340–352, Aug 2011.
[36] T. D. Tullius and B. A. Dombroski, “Hydroxyl radical "footprinting": high-resolution
information about DNA-protein contacts and application to lambda repressor and Cro
protein,” Proc. Natl. Acad. Sci. U.S.A., vol. 83, pp. 5469–5473, Aug 1986.
[37] M. Hafner, M. Landthaler, L. Burger, M. Khorshid, J. Hausser, P. Berninger, A. Rothballer,
M. Ascano, A. C. Jungkamp, M. Munschauer, A. Ulrich, G. S. Wardle, S. Dewell,
M. Zavolan, and T. Tuschl, “Transcriptome-wide identification of RNA-binding protein
and microRNA target sites by PAR-CLIP,” Cell, vol. 141, pp. 129–141, Apr 2010.
65
[38] Z. Wang, M. Gerstein, and M. Snyder, “RNA-Seq: a revolutionary tool for transcriptomics,”
Nat. Rev. Genet., vol. 10, pp. 57–63, Jan 2009.
[39] M. Kertesz, Y. Wan, E. Mazor, J. L. Rinn, R. C. Nutter, H. Y. Chang, and E. Segal,
“Genome-wide measurement of RNA secondary structure in yeast,” Nature, vol. 467,
pp. 103–107, Sep 2010.
[40] J. G. Underwood, A. V. Uzilov, S. Katzman, C. S. Onodera, J. E. Mainzer, D. H. Mathews,
T. M. Lowe, S. R. Salama, and D. Haussler, “FragSeq: transcriptome-wide RNA structure
probing using high-throughput sequencing,” Nat. Methods, vol. 7, pp. 995–1001, Dec 2010.
[41] J. B. Lucks, S. A. Mortimer, C. Trapnell, S. Luo, S. Aviran, G. P. Schroth, L. Pachter,
J. A. Doudna, and A. P. Arkin, “Multiplexed RNA structure characterization with selective
2’-hydroxyl acylation analyzed by primer extension sequencing (SHAPE-Seq),” Proc. Natl.
Acad. Sci. U.S.A., vol. 108, pp. 11063–11068, Jul 2011.
[42] T. Barrett, D. B. Troup, S. E. Wilhite, P. Ledoux, D. Rudnev, C. Evangelista, I. F. Kim,
A. Soboleva, M. Tomashevsky, K. A. Marshall, K. H. Phillippy, P. M. Sherman, R. N.
Muertter, and R. Edgar, “NCBI GEO: archive for high-throughput functional genomic data,”
Nucleic Acids Res., vol. 37, pp. D885–890, Jan 2009.
[43] D. Pervouchine, “A package for ultrafast detection of conserved complementary n-mers in a
set of orthologous sequences.” https://github.com/pervouchine/irbis.git,
2012.
[44] W. J. Kent, A. S. Zweig, G. Barber, A. S. Hinrichs, and D. Karolchik, “BigWig and BigBed:
enabling browsing of large distributed datasets,” Bioinformatics, vol. 26, pp. 2204–2207,
Sep 2010.
[45] D. Karolchik, A. S. Hinrichs, and W. J. Kent, “The UCSC Genome Browser,” Curr Protoc
Bioinformatics, vol. Chapter 1, p. Unit1.4, Dec 2009.
[46] I. Hofacker, M. Fekete, and P. Stadler, “Secondary structure prediction for aligned RNA
sequences,” J. Mol. Biol., vol. 319, pp. 1059–1066, 2002.
[47] G. Anders, S. D. Mackowiak, M. Jens, J. Maaskola, A. Kuntzagk, N. Rajewsky,
M. Landthaler, and C. Dieterich, “doRiNA: a database of RNA interactions in posttranscriptional regulation,” Nucleic Acids Res., vol. 40, pp. D180–186, Jan 2012.
[48] G. R. Abecasis, D. Altshuler, A. Auton, L. D. Brooks, R. M. Durbin, R. A. Gibbs, and al.,
“A map of human genome variation from population-scale sequencing,” Nature, vol. 467,
pp. 1061–1073, Oct 2010.
66
[49] S. A. Mortimer, C. Trapnell, S. Aviran, L. Pachter, and J. B. Lucks, “Shape–seq: Highthroughput rna structure analysis,” Current Protocols in Chemical Biology, pp. 275––297,
2009.
[50] A. S. Krasilnikov, X. Yang, T. Pan, and A. Mondragon, “Crystal structure of the specificity
domain of ribonuclease P,” Nature, vol. 421, pp. 760–764, Feb 2003.
[51] M. Popenda, M. Szachniuk, M. Blazewicz, S. Wasik, E. K. Burke, J. Blazewicz, and R. W.
Adamiak, “RNA FRABASE 2.0: an advanced web-accessible database with the capacity
to search the three-dimensional fragments within RNA structures,” BMC Bioinformatics,
vol. 11, p. 231, 2010.
[52] S. Mahmud, W. W. Lou, and N. W. Johnston, “A probit- log- skew-normal mixture model
for repeated measures data with excess zeros, with application to a cohort study of paediatric
respiratory symptoms,” BMC Med Res Methodol, vol. 10, p. 55, 2010.
[53] I. Hofacker, W. Fontana, P. Stadler, L. Bonhoeffer, M. Tacker, and P. Schuster, “Fast folding
and comparison of RNA secondary structures.,” Monatsh. Chem., vol. 125, pp. 167–188,
1994.
[54] Y. Benjamini and Y. Hochberg, “Controlling the false discovery rate: a practical and
powerful approach to multiple testing,” J. Roy. Statist. Soc. Ser. B, vol. 57, no. 1, pp. 289–
300, 1995.
[55] D. D. Pervouchine, E. E. Khrameeva, M. Y. Pichugina, O. V. Nikolaienko, M. S. Gelfand,
P. M. Rubtsov, and A. A. Mironov, “Evidence for widespread association of mammalian
splicing and conserved long-range RNA structures,” RNA, vol. 18, pp. 1–15, Jan 2012.
Download