Эволюция некодирующих РНК в геномах рода

advertisement
Эволюция некодирующих РНК в геномах рода Drosophila
Журавлева Е.В.
ФББ МГУ,
студентка
zhuravlka@mail.ru
Johns Hopkins
University
School of Medicine
favorov@sensi.org
Миронов А.А.
ФББ МГУ
ИППИ РАН
mironov@bioinf.fbb.m
su.ru
Ставровская Е.Д
ФББ МГУ,
ИППИ РАН
stavrovskaya@gmail.
com
Фаворов А.В.
ГосНИИГенетика,
ИОГЕН РАН,
идентификации
участков
структуры
нкРНК,
находящихся
под
отбором,
были
применены
эволюционные тесты
dN /dS и МакдональдаКрейтмана [1].
Было показано, что петли более полиморфны по
сравнению со стеблями, но отличаются меньшей
дивергенцией.
Несогласованность
вариации
по
полиморфизмам
и
дивергенции
может
свидетельствовать о наличии большого количества
слабо вредных мутаций в петлях, либо о действии
положительного отбора на нуклеотидные замены в
стеблях. Также показана большая полиморфность
петель и стеблей в классах нкРНК с высокими
удельными свободными энергиями, что, вероятно,
говорит о том, что такие нкРНК подвержены
действию более сильного отрицательного отбора.
Аннотация
Некодирующими называются такие РНК молекулы,
которые не транслируются в белок. НкРНК является
важными функциональными молекулами. В последние
десятилетия количество молекул, относимых к классу
нкРНК, существенно возросло.
К основным классам нкРНК относят малые
ядерные, малые ядрышковые, микроРНК, длинные
некодирующие РНК и регуляторные элементы. НкРНК
различных классов участвуют в процессах регуляции
транскрипции, трансляции, химической модификации
молекул в клетке, поддержании теломер. По общим
оценкам регуляция посредством нкРНК затрагивает
подавляющее большинство процессов в клетке.
Поэтому изучение этих молекул, в частности
закономерностей их эволюции является важной
задачей современной биологии.
Последовательность
нкРНК
формирует
вторичную структуру, которая может быть
представлена петлями, стеблями и псевдоузлами.
Изучение эволюции элементов структуры нкРНК
является важной задачей с практической точки
зрения. Информацию о связи свободной энергии
структуры с отбором в различных участках
последовательности нкРНК можно, в частности,
использовать для улучшения работы ряда алгоритмов
по поиску генов нкРНК в геноме.
Данная работа посвящена исследованию отбора,
действующего на различные элементы вторичной
структуры основных классов нкРНК, а также связи
отбора cо свободной энергией структуры.
В
качестве
анализируемых
организмов
рассмотрены плодовые мушки рода Drosophila. Для
1. Введение
Некодирующие РНК – это молекулы РНК, которые
не транслируются в белки. Некодирующие РНК
принимают участие в регуляции
процессов
транскрипции
и
трансляции,
в
химической
модификации других молекул в клетке, в поддержании
теломер, а также имеют ряд других важных клеточных
функций.
НкРНК подразделяют на различные классы,
основываясь на размере молекулы, а также на типе и
механизме осуществляемой функции. Помимо классов
тРНК и рРНК, выделяют классы малой ядрышковой
РНК (мякРНК), малой ядерной РНК (мяРНК),
микроРНК, длинной некодирующей РНК, а также
нкРНК, относимых к регуляторным элементам.
63
Из линейной молекулы нкРНК формируется
некоторая вторичная структура, которая образуется за
счет
взаимодействий
пар
нуклеотидов
в
последовательности. В формировании вторичной
структуры участвуют канонические пары оснований АТ и GC, а также неканонические пары, такие как,
например,
GU. Последние также важны для
формирования и функционирования молекулы нкРНК.
Спаренные основания образуют элементы вторичной
структуры - стебли, а неспаренные – петли.
Отдельные локальные участки структуры, как и вся
структура нкРНК в целом, характеризуется некоторой
свободной энергией молекулы.
Эта энергия
складывается из энергий стэкингового взаимодействия
пар оснований, а также вклада неспаренных
нуклеотидов, формирующих петли. Свободная энергия
определяет стабильность той или иной формы
вторичной структуры РНК. В результате мутационного
процесса могут появляться замены нуклеотидов,
которые меняют свободную энергию структуры.
Данная работа посвящена исследованию отбора,
действующего на различные типы вторичной
структуры основных классов нкРНК, а также связи
отбора cо свободной энергией структуры.
(http://infernal.janelia.org/). Полученное выравнивание
нкРНК
с
консенсусной
последовательностью
семейства, а также с описанием предполагаемой
вторичной структуры в формате WUSS, было
использовано для классификации позиций нуклеотидов
в составе нкРНК с точки зрения их структурной
принадлежности к петлям или к стеблям. Все вставки в
последовательности
нкРНК
в
сравнении
с
консенсусной
последовательностью
семейства
интерпретировались как принадлежащие к петле.
Были посчитаны частоты встречаемости замен
нуклеотидов для различных элементах структуры в
различных классах нкРНК. Смысл оценки дивергенции
и полиморфизма – показать отличие эволюции
рассматриваемых
позиций
от
позиций,
эволюционирующих
нейтрально.
В
качестве
нейтральных сайтов мы рассматривали четырежды
вырожденные третьи позиции кодонов. Т.е. таких
кодонов, замена нуклеотида в третьих позициях
которых, не ведет к замене аминокислоты в белковой
последовательности.
Для подсчета частот замен нуклеотидов по
нейтральным
позициям
были
использованы
множественные
выравнивания
ортологичных
последовательностей (CDS) из базы данных FlyBase
(ftp://ftp.flybase.net/genomes/12_species_analysis/clark_ei
sen/alignments/) для дрозофил филогенетической
группы melanogaster. При вычислении координат
третьих позиций четырежды вырожденных кодонов
использовались данные о координатах экзонов в
транскриптах
(http://www.ensembl.org/biomart/martview/).
После
классификации
нуклеотидов
по
принадлежности их к различным элементам структуры,
в рамках каждого класса нкРНК были посчитаны
отношения по дивергенции и по полиморфизмам для
петель и стеблей. Помимо этого для полученных
данных был применен тест Макдональда-Крейтмана.
Одной из наиболее существенных проблем теста
Макдональда-Крейтмана является то, что при большой
доли нуклеотидных замен под слабо отрицательным
отбором происходит недооценка параметра альфа,
поскольку такие замены вносят вклад в отношение по
полиморфизмам, но не в отношение по дивергенции. В
данной
работе
нами
были
отфильтрованы
полиморфизмы с аллельными частотами в популяции
<5%, поскольку, они с большой вероятностью являются
слабо вредными. Таким образом, мы стремились
нивелировать недооценку параметра альфа.
Для структур нкРНК, предсказанных Rfam, были
посчитаны свободные энергии молекул с помощью
программы
rnaeval
пакета
ViennaRNA
(http://rna.tbi.univie.ac.at/). Для анализа данных в работе
были
разработаны
скрипты
на
языках
программирования bash и python. Для хранения
полученных результатов и работы с данными была
создана база данных mysql.
2. Материалы и методы
В качестве исходных данных нами были
рассмотрены данные по нкРНК геномов Drosophila
melanogaster. Данные о координатах нкРНК в геноме
Drosophila melanogaster, были взяты из базы данных
Rfam [2], которая содержит информацию о семействах
нкРНК с консервативной вторичной структурой. Всего
было рассмотрено 298 нкРНК из 140 семейств 5
классов нкРНК.
Для статистики однонуклеотидных полиморфизмов
(SNP) использованы данные проекта Drosophila
Population
Genomics
Project
(DPGP)
(http://www.dpgp.org/). Для аннотации по SNP мы
использовали данные первой версии проекта DPGP
(ftp://ftp.ensembl.org/pub/release75/variation/gvf/drosophila_melanogaster/), собранные по
50 геномам Drosophila melanogaster, поскольку только в
этой версии представлена информация об аннотации
SNP. Далее эта информация была перенесена на данные
второй версии, то есть SNP были размечены в 139
геномах второй версии проекта. По аннотации
координат снипов вычислены аллельные частоты.
Для каждой нкРНК была выбрана в Rfam
соответствующая ей ковариационная модель. Эта
ковариационная модель была использована для поиска
вторичной
структуры
на
ортологичных
последовательностях
нкРНК
в
родственных
организмах.
Для
поиска
ортологичных
последовательностей были использованы средcтва
Blast
(http://blast.ncbi.nlm.nih.gov/Blast.cgi).
Восстановление вторичной структуры нкРНК было
осуществлено средствами cmscan пакета Infernal.
64
Фишера 2*2, p-value=0.0019). Соответственно петли
более вариантны по числу полиморфизмов в сравнении
со стеблями, но менее вариантны по числу межвидовых
замен, т.е. по дивергенции. Это может быть
свидетельством того, что в петлях содержится большое
количество слабо вредных мутаций относительно
высоких частотных вариантов, а также наличия
некоторого положительного отбора в стеблях нкРНК.
Значение индекса нейтральности указывает на то,
что во всех классах нкРНК, за исключением мякРНК,
последовательности
стеблей
более
близки
к
нейтральным по сравнению с петлями. Отрицательные
значения альфа, свидетельствует о недооценки этого
параметра, вероятно, в силу недостатков присущих
методу Макдональда-Крейтмана. Мутации со слабо
вредным эффектом могут не испытывать сильного
давления отрицательного отбора, и потому появляться
в популяции достаточно часто в результате процессов
случайного дрейфа. Наличие таких мутаций приводит к
тому, что доля сайтов α, закрепившихся под
положительным отбором, недооценивается.
НкРНК были разделены на две равные группы по
величине удельной энергии на нуклеотид. Для нкРНК в
этих группах были посчитаны значения по дивергенции
и полиморфизму. Для всех классов нкРНК, за
исключением микроРНК, значение по полиморфизмам
больше для нкРНК с низкой энергией, чем с высокой.
Дивергенция при этом выше в группе нкРНК с высокой
энергией.
В группе нкРНК с высокой энергией для всех
классов нкРНК, за исключением микроРНК выше
дивергенция в стеблях, по сравнению с петлями. За
исключением
мяРНК,
подобное
соотношение
наблюдаются и в группе нкРНК с низкой энергией. В
целом, в обоих классах по энергии сохраняется
распределение по дивергенции между петлями и
стеблями, наблюдаемое в общей группе. Менее
полиморфны петли и стебли нкРНК с высокими
энергиями. Это может свидетельствовать о большей
силе отрицательного отбора на нкРНК этой группы.
Вероятно, это связано с тем, что при большей
свободной энергии структуры эффект от мутаций
оказывается более существенным, чем при низкой.
В силу небольшого количества данных по нкРНК,
проведенный анализ эволюции нкРНК не является
исчерпывающим. Однако для нас интерес представлял
анализ именно нкРНК с наиболее достоверным
предсказанием вторичной структуры, опирающимся в
основном экспериментальные данные.
В ходе данного исследования нам удалось выявить
некоторые интересные особенности эволюции нкРНК в
различных типах структуры, а также изучить различия
эволюционных
закономерностей
для
последовательностей нкРНК с высокой и низкой
удельной свободной энергией структур. Анализ
показал, что петли нкРНК более полиморфны по
сравнению со стеблями, но отличаются меньшей
дивергенцией.
Это может говорить о наличии
большого количества слабо вредных мутаций в петлях,
3. Результаты и обсуждение
В рамках каждого анализируемого класса нкРНК
все нуклеотиды были размечены по принадлежности к
типу вторичной структуры: петле либо стеблю.
Каждому классу нкРНК соответствует собственное
соотношение числа нуклеотидов в стеблях и петлях в
силу особенностей структуры и функциональности.
Так, например, для мякРНК характерны большие
петли, которые содержат специфические сайты
связывания белков. В классах длинных некодирующих
РНК
и
мяРНК
количество
нуклеотидов,
расположенных в стеблях, сравнимо по величине с
аналогичным показателем для петель. Структура типа
«стебель» преобладает в классах микроРНК и в
регуляторных элементах. Большая часть нуклеотидов в
стеблях находится в составе канонических (УотсонКриковских) пар A-U и G-C. От 7 до 16 % нуклеотидов
в различных классах нкРНК находится в составе пары
G-U, которая является наиболее распространённой из
неканонических [3].
Что
касается
распределения
количества
нуклеотидов по различным частотам в петлях и стеблях
в нкРНК, то можно отметить, что в целом преобладают
низкочастотные варианты. В стеблях и петлях внутри
классов нкРНК доля различных низкочастотных
вариантов приблизительно одинакова. Во всех классах
нкРНК, кроме мякРНК, полиморфизмов с частотой
<1% больше в стеблях. Это может свидетельствовать в
пользу относительно большей вредности мутаций в
стеблях, что не позволяет мутациям достигать больших
частот в популяции. Однако уже для интервала частот
полиморфизмов от 1% до 6% наблюдается
противоположная картина: больше замен с такими
частотами наблюдается в петлях. Полиморфизмов с
высокими аллельными частотами (от 16 до 51%)
немного больше в стеблях, чем в петлях для длинных
некодирующих РНК, мяРНК и мякРНК. Большую
вариацию по полиморфизмам в петлях показывают
микроРНК и регуляторные элементы. Наиболее
значительная разница в количестве полиморфных
сайтов в последовательности наблюдается в классе
микроРНК. Последнее может свидетельствовать о том,
что в стеблях микроРНК наблюдается относительно
большее количество нейтральных замен.
Значения по полиморфизмам и дивергенции для
различных типов структур нкРНК превосходят
соответствующие значения для синонимичных сайтов.
После применения фильтрации низкочастотных
вариантов число SNP резко сократилось. Это
затрудняет работу с данными, поскольку различие в
числе замен нуклеотидов между петлями и стеблями в
отдельных классах достоверно оценить невозможно.
Однако,
если
оценивать
общее
количество
полиморфизмов и межвидовых однонуклетидных
несовпаданий по петлям и стеблям, то можно показать
ассоциированность
дивергенции
(межвидовой
вариации) и полиморфности (внутривидовой вариации)
с разделением по петлям и стеблям (двусторонний тест
65
либо о наличии положительного отбора на
нуклеотидные замены в стеблях. Также можно
предположить, что для нкРНК с высокой энергией
более выражено действие отрицательного отбора в
стеблях и петлях. Это может быть связано с большей
полиморфностью петель и стеблей в классах нкРНК с
высокими удельными свободными энергиями.
Список цитируемой литературы
[1] McDonald JH, Kreitman M. Adaptive evolution at the Adh
locus in Drosophila. Nature. (1991)
[2] Rfam 11.0: 10 years of RNA families. S.W. Burge, J. Daub, R.
Eberhardt, J. Tate, L. Barquist, E.P. Nawrocki, S.R. Eddy,
P.P. Gardner, A. Bateman.Nucleic Acids Research (2012)
[3] Ananth P, Goldsmith G, Yathindra N. An innate twist between
Crick's wobble and Watson-Crick base pairs. RNA. (2013)
66
Download