Лаборатория регуляторной геномики

advertisement
Лаборатория регуляторной геномики
Участники проекта: Кирилл Бабеев, Софья Буянова, Мария Сысоева
Руководитель проекта: Иван Кулаковский
Научный консультант: Ирина Елисеева
В рамках биологической школы нами была предпринята попытка провести небольшое, но
полноценное боинформатическое исследование, подразумевающее компьютерный
анализ регуляторных последовательностей биополимеров (ДНК и РНК). Предполагалось,
что участники познакомятся с основными базами данных (идентификаторы генов,
разметка геномов и пр.) и основами программирования на каком-либо скриптовом языке.
Далее, используя новоприобретенные знания, будет проведена попытка воспроизвести
какой-либо недавний опубликованный результат по анализу регуляторных
последовательностей.
В роли объекта исследования были взяты мРНК-мишени mTOR-каскада, для которых в
недавно опубликованной работе [Hsieh и др., Nature, 2012, PubMed ID: 22367541] был
обнаружен новый пиримидин-богатый регуляторный мотив.
Процесс исследовательского проекта
Для обмена результатами и обсуждения мы активно использовали совместно
редактируемые документы в Google Documents, так, всеми участниками велся общий
лабораторный журнал (на его основе написан этот совместный отчет).
Выбранная задача оказалась достаточно сложной, причины были как довольно типичные
(необходимость ручной курирации списков целевых генов, картирования
идентификаторов генов между разными версиями геномных аннотаций и пр.) так и
достаточно нежиданные (неудачная форма представления и ошибки в анализе данных в
исходной статье). Дополнительную сложность создавала необходимость решать
проблемы на двух технических уровнях (собственные программные скрипты,
разработанные в рамках проекта и существующие программные инструменты для
анализа) и одновременно разбираться в двух содержательных уровнях (транскрипции и
трансляции).
К середине школы стало понятно, что нам не удается повторить опубликованный
результат; для того, чтобы разобраться в происходящем, пришлось оперативно привлечь
дополнительный открытый источник экспериментальных данных. Работа из простой
учебной постановки (воспроизвести опубликованный результат) вышла на полноценный
научный уровень (разобраться в том, что именно происходит и почему опубликованный
результат не воспроизводится).
Ниже приведен научный отчет по проекту, написанный по окончании проекта его
непосредственными участниками (с минимальной редакторской правкой научного
руководителя и научного консультанта).
Дополнительный последующий анализ и обсуждение результатов проекта, а также
детальное сопоставление с имеющимися литературными данными, были проведенны
осенью в почтовой переписке уже по окончании летней школы.
Компьютерный анализ регуляторных
последовательностей 5' UTR mRNA мишеней mTOR-сигнального каскада
Определения и сокращения
TOP - terminal oligopyrimidine tract - терминальный олигопиримидиновый тракт
PRTE - pyrimidine-rich translational element - пиримидин богатый трансляционный элемент
TORTE - terminal oligopyrimidine regulatory translational element - терминальный
олигопиримидиновый регуляторный трансляционный элемент
upstream - находящийся в 5' области последовательности
downstream - находящийся в 3' области последовательности
UTR (НТО) - untranslated region (нетранслируемая область)
TSS - transcription start site - старт транскрипции
Кэп - (от англ. cap, шапочка) - модифицированный нуклеотид на 5'-конце mRNA
Ингибирование - замедление, выключение
1. Введение
В жизни эукариотической клетки важную играет регуляторный каскад, управляемый
белком mTOR (main target of rapamycine). mTOR-каскад выполняет регуляторные функции
и на уровне транскрипции, и на уровне трансляции. На уровне трансляции mTOR
регулирует (активирует) трансляцию многих рибосомальных белков, факторов инициации
и элонгации трансляции. Интерес представляет детальное изучение особенностей
последовательностей UTR в mRNA, трансляция которых ингибируется при выключении
mTOR-сигнального каскада.
Предположительная структура 5' UTR mRNA-мишеней mTOR
Из статьи [Hsieh и др., Nature, 2012, PubMed ID: 22367541] мы знаем о
предположительной структуре 5' UTR:
TOP - короткая СТ богатая последовательность, состоящая из 5-ти и более нуклеотидов в
начале 5’ UTR
PRTE - СТ богатая последовательность, состоящая из 10 и более нуклеотидов в
середине и конце последовательности 5’ UTR
Кроме того, авторами выдвигалось предположение, что PRTE-последовательность
содержит 100% консервативный нуклеотид U в позиции 6; и что PRTEпоследовательность не имеет позиционных предпочтений по локализации в 5' UTR.
2. Методы
2.1. Предварительная работа с выборкой генов-мишеней и
установление соответствия имя-ID
Выборка генов-мишеней была взята из статьи [Hsieh и др., Nature, 2012, PubMed ID:
22367541]. В этой работе метод рибосомного профайлинга был использован для
определения mRNA в линии клеток PC-3 (рак простаты человека), трансляция которых
существенно ингибировалась химическими агентами, блокирующими mTOR-сигнальный
каскад.
На основе списка mRNA, приведенного в таблице 5, см. дополнительные
материалы к статье [Hsieh и др.], мы выбрали 144 мишени, трансляция которых
значительно ингибировалась при выключении mTOR.
С помощью Custom Downloads сайта http://www.genenames.org мы извлекли
полную таблицу соответствий "имя гена - идентификаторы в базах данных". Нас
интересовали UCSC known gene ID.
На языке Ruby мы разработали скрипт, который автоматически сопоставил имена
генов и идентификаторы генов UCSC по последней сборке человеческого генома hg19.
Не всем генам удалось автоматически сопоставить идентификаторы; для нескольких
генов мы сделали это вручную напрямую с помощью веб-ресурса UCSC Genome Browser:
http://genome.ucsc.edu/ (далее по ссылке "Genomes"). В дальнейшем нам понадобилось
картирование имен и на идентификаторы предыдущей сборку hg18, для чего мы
модифицировали скрипты для картирования имен.
2.2. Построение выборок 5' UTR последовательностей
Последовательности 5' UTR были извлечены из базы данных UCSC,
http://genome.ucsc.edu/cgi-bin/hgTables?command=start, при этом мы создали 3 выборки UTR "как есть" в базе данных, с upstream-последовательностью в 5 и в 10 нуклеотидов.
Обратите внимание, мы работаем с базой даных DNA-последовательностей, это дает
нам возможность работать с upstream-областями 5' UTR (доступными в геноме). Везде
где мы говорим о "букве" Т (тимине) на уровне mRNA это соответствует урацилу (U).
С помощью скриптов на языке Ruby мы выделили из общего геномного набора
mRNA последовательности, соответствующие тестовой выборке (т.е. именам генов,
mRNA которых ингибируются mTOR-сигнальным каскадом).
2.3. Прикидочный поиск CT-богатого мотива
С помощью программ XXMotif (www.xxmotif.genzentrum.lmu.de), SeSiMCMC
(www.favorov.bioinfolab.net/SeSiMCMC/) и ChIPMunk (www.autosome.ru/ChIPMunk) мы
осуществили предварительный поиск мотивов в последовательностях 5' UTR и выяснили,
что многие последовательности действительно содержат CT-богатый мотив, который
может быть как TOP так и PRTE-последовательностью.
2.4. Поиск TOP и PRTE-мотивов с помощью регулярных
выражений
Для оценки обогащенности выборки mTOR-зависимых mRNA (тестовая выборка)
лидерными TOP/внутренними PRTE мы выбрали простые модели - регулярные
выражения. Наличие TOP проверяли в лидерных последовательностях длины 10 и 20
нуклеотидов.
Проверка наличия TOP
5' UTR без upstream
ВСЕГО ПОСЛЕДОВАТЕЛЬНОСТЕЙ
Тестовая выборка: 144
Геномная выборка: 50366 уникальных (69050 неуникальных)
модель
лидер 10
нуклеотидов,
тестовая
выборка
лидер 10
нуклеотидов,
все геномные
mRNA
лидер 20
нуклеотидов,
тестовая
выборка
лидер 20
нуклеотидов,
все геномные
mRNA
минимум 5 букв,
ТОЛЬКО CT
[CT]+
55
8322
74
16285
1 вставка A или G
допустима, 6 букв
[CT]+[AG]?[CT]+
65
11578
89
22187
2 вставки, 7 букв
[CT]+[AG]?[CT]+[AG]?[CT]+
65
11851
91
23225
Расширенный 5' UTR (5 нуклеотидов upsteam)
Тестовая выборка: 144
Геномная выборка: 51613 уникальных (неуникальных = 80922)
модель
лидер 10
нуклеотидов,
тестовая
выборка
лидер 10
нуклеотидов,
все геномные
mRNA
лидер 20
нуклеот.,
тестовая
выборка
20 букв
голова, все
геномные
mRNA
минимум 5 букв, ТОЛЬКО CT.
[CT]+
52
8061
75
16634
1 вставка A или G допустима,
минимум 6 букв.
[CT]+[AG]?[CT]+
55
10004
94
21595
2 вставки, минимум 7 букв.
[CT]+[AG]?[CT]+[AG]?[CT]+
55
11284
93
23306
Расширенный 5’UTR, 10 нуклеотидов upstream
Тестовая выборка: 144
Геномная выборка: 59911 (неуникальных = 80922)
модель
лидер 10
нукл.,
тестовая
выборка
лидер 10
нукл., все
геномные
mRNA
лидер 20
нукл.,
тестовая
выборка
лидер 20
нукл., все
геномные
mRNA
минимум 5 букв, ТОЛЬКО CT.
[CT]+
34
13217
78
20471
1 вставка A или G допустима,
минимум 6 букв. [CT]+[AG]?[CT]+
47
17647
94
27632
2 вставки, минимум 7 букв
[CT]+[AG]?[CT]+[AG]?[CT]+
47
18149
96
28834
Предварительные результаты совпадают с оценками из статьи [Hsieh и др.], порядка 90
mRNA содержат TOP-последовательность.
Кроме того, тестовая выборка действительно обогащена лидерным TOP. На примере
5'UTR c 10 нуклеотидов upstream подсчитаем частоты (лидер 20 нукл.):
Частота TOP-содержащих последовательностей в тестовой выборке:
94/144=0.65
Частота TOP-содержащих последовательностей в геноме:
27632/59911=0.46
Проверка наличия PRTE
При проверке наличия PRTE мы отрезали лидерную часть mRNA длиной в 20 букв, в
которой на предыдущем этапе мы искали TOP.
Число PRTEсодерж.
последов-й
Слишком короткие
UTR
Полное число
последовательностей
Тестовая
выборка
90
1
144
Все геномные
mRNA
33244
10800
59911
Регулярное выражение /[CT]+[AG]?[CT]+[AG]?[CT]+/ для PRTE задает CTпоследовательность с двумя возможными заменами CT на A или G; дополнительно мы
контролировали длину (не менее 12 букв).
Частоты PRTE-содержащих последовательностей:
90/(144-1) = 0.63
33244/(59911-10800) = 0.680
Таким образом мы не видим отличия между всеми геномными mRNA и тестовой
выборкой.
2.5. Поиск мотива с помощью MEME - просмотр расстояний
В качестве контрольного теста мы решили построить PRTE-мотивы на UTR
последовательностях с upstream-областями в 10 нуклеотидов. Для этого мы
использовали программу MEME (http://meme.sdsc.edu/meme/intro.html), которая исходно
применялась авторами [Hsieh и др.] для установления последовательности PRTE.
Выборка 5'UTR на основе сборки генома hg18:
Мотив найден в 97 последовательностях; в ~20 случаях мотив найден в начале
последовательности (подозрение на TOP).
Выборка 5'UTR на основе сборки генома hg19:
Мотив найден в 110 последовательностях; в ~20 случаях мотив найден в начале
последовательности (подозрение на TOP).
2.6. Аннотация TSS и обнаружение TORTE
Чтобы аккуратно установить локализацию PRTE относительно старта транскрипции нам
недостаточно баз данных, указывающих единственную координату старта транскрипции.
Как показывают данные, полученные с помощью технологии hCAGE в ходе проекта
FANTOM
(http://fantom.gsc.riken.jp/zenbu/gLyphs/#config=yiEiVQVLIlvlWVcT0KsiWB;loc=hg18::chr1:429
19983..42921680, см. дорожку all hCAGE data) старты транскрипции многих генов
являются достаточно размытыми. Таким образом множество mRNA, транскрибируемых с
конкретного гена, будет иметь существенно разные лидерные последовательности в
своих 5' UTR. Более того, старты транскрипции, аннотированные в существующих базах
данных (например, UCSC known gene, которой мы пользовались) часто далеко
промахиваются мимо реальных стартов.
Внимательное исследование ряда генов mTOR-зависимых mRNA (см. секцию
"Результаты") показывает, что типичная ширина старта транскрипции составляет не
менее 3-4 нуклеотидов. Это значит, что большинство mRNA будут иметь разную
лидерную последовательность.
Чтобы удостовериться, что все mRNA с этого гена будут mTOR-зависимыми, нужно их
всех обеспечить CT-лидером.
Это, в свою очередь, возможно, если над стартом транскрипции расположить широкую
CT-богатую область. Именно широкую CT-богатую область мы наблюдаем над
множеством стартов транскрипции, и именно эта область была ошибочно названа в
статье [Hsieh и др.] как новый регуляторный PRTE-элемент.
К сожалению, данные hCAGE (точное картирование TSS) опубликованы только для
клеточных линий THP-1 и HeLa. Это не дает нам возможности однозначно утверждать
какой именно TSS работает для mRNA, которые ингибировались в эксперименте с линией
PC-3 в статье [Hsieh и др.]. Однако, мы внимательно фиксировали факты наличия
альтернативных минорных TSS и TORTE-последовательностей в их окрестности.
Результаты и обсуждение
TORTE: ключевой регуляторный элемент, порождающий TOP в 5'
UTR mRNA - целях mTOR сигнального каскада
Наши результаты показывают, что PRTE на самом деле является TORTEпоследовательностью, которая на этапе транскрипции служит для порождения TOPпоследовательностей в большинстве mRNA. Картированный в базе данных старт
является ошибочным, что и вызывает нахождение "внутренних" PRTEпоследовательностей, регуляторную роль которых трудно объяснить.
TORTE-последовательность существует в DNA. TOP-последовательность - кусок TORTE.
Размер куска TORTE, попадающего в 5'UTR mRNA и становящегося TOPпоследовательностью, зависит от места старта транскрипции.
Статистика по обнаруженным TORTE
1. Для 75 генов найден TORTE > 10 нуклеотидов непосредственно над мажорным стартом
(по данным hCAGE геномного просмотрщика Zenbu:
http://fantom.gsc.riken.jp/zenbu/gLyphs/#config=yiEiVQVLIlvlWVcT0KsiWB;loc=hg18::chr1:429
19983..42921680)
2. Для 19 генов найден небольшой TORTE (6-10 нуклеотидов) над мажорным стартом
транскрипции.
3. Для 18 генов найден TORTE над альтернативным стартом.
4. Для 32 генов не найден выраженный TORTE; в некоторых случаях имеется слабо
выраженное обогащение СТ вокруг стартов транскрипции.
В группы 1-3 попадают рибосомные белки, факторы инициации и элонгации трансляции.
Группа 4 состоит из различных белков.
Пример TSS группы 1: RPL28 (ген на основной цепи)
Пример TSS группы 2: EEF2 (ген на обратной цепи)
Пример TSS группы 3: RPS25 (ген на обратной цепи)
Пример TSS группы 4: NCLN (ген на основной цепи)
В заключение хочется особенно выделить группу генов, которые не содержат TORTE
мотивов в районе TSS. Мы предполагаем, что соответствующие mRNA регулируются по
принципиально другому механизму, возможно через 3' UTR.
5' UTR этих генов, будучи проанализированными отдельно, не содержат выраженного
общего мотива, предварительный анализ 3' UTR этих генов показывает одновременное
наличие C-богатого и G-богатого мотива (возможно они соответствуют каким-то
характерным вторичным структурам).
Дополнительные наблюдения
Мы выяснили насколько хорошо картированы мажорные старты транскрипции для геновмишеней mTOR-каскада:
63 гена аннотированы в базе данных относительно правильно (реальный старт не
дальше 10 нуклеотидов от картированного); 70 генов - от 10 до 100 нуклеотидов;
11 генов - крайне плохо аннотированы (реальный мажорный старт удален более чем на
100 нуклеотидов от картированного).
Download