Лаборатория регуляторной геномики Участники проекта: Кирилл Бабеев, Софья Буянова, Мария Сысоева Руководитель проекта: Иван Кулаковский Научный консультант: Ирина Елисеева В рамках биологической школы нами была предпринята попытка провести небольшое, но полноценное боинформатическое исследование, подразумевающее компьютерный анализ регуляторных последовательностей биополимеров (ДНК и РНК). Предполагалось, что участники познакомятся с основными базами данных (идентификаторы генов, разметка геномов и пр.) и основами программирования на каком-либо скриптовом языке. Далее, используя новоприобретенные знания, будет проведена попытка воспроизвести какой-либо недавний опубликованный результат по анализу регуляторных последовательностей. В роли объекта исследования были взяты мРНК-мишени mTOR-каскада, для которых в недавно опубликованной работе [Hsieh и др., Nature, 2012, PubMed ID: 22367541] был обнаружен новый пиримидин-богатый регуляторный мотив. Процесс исследовательского проекта Для обмена результатами и обсуждения мы активно использовали совместно редактируемые документы в Google Documents, так, всеми участниками велся общий лабораторный журнал (на его основе написан этот совместный отчет). Выбранная задача оказалась достаточно сложной, причины были как довольно типичные (необходимость ручной курирации списков целевых генов, картирования идентификаторов генов между разными версиями геномных аннотаций и пр.) так и достаточно нежиданные (неудачная форма представления и ошибки в анализе данных в исходной статье). Дополнительную сложность создавала необходимость решать проблемы на двух технических уровнях (собственные программные скрипты, разработанные в рамках проекта и существующие программные инструменты для анализа) и одновременно разбираться в двух содержательных уровнях (транскрипции и трансляции). К середине школы стало понятно, что нам не удается повторить опубликованный результат; для того, чтобы разобраться в происходящем, пришлось оперативно привлечь дополнительный открытый источник экспериментальных данных. Работа из простой учебной постановки (воспроизвести опубликованный результат) вышла на полноценный научный уровень (разобраться в том, что именно происходит и почему опубликованный результат не воспроизводится). Ниже приведен научный отчет по проекту, написанный по окончании проекта его непосредственными участниками (с минимальной редакторской правкой научного руководителя и научного консультанта). Дополнительный последующий анализ и обсуждение результатов проекта, а также детальное сопоставление с имеющимися литературными данными, были проведенны осенью в почтовой переписке уже по окончании летней школы. Компьютерный анализ регуляторных последовательностей 5' UTR mRNA мишеней mTOR-сигнального каскада Определения и сокращения TOP - terminal oligopyrimidine tract - терминальный олигопиримидиновый тракт PRTE - pyrimidine-rich translational element - пиримидин богатый трансляционный элемент TORTE - terminal oligopyrimidine regulatory translational element - терминальный олигопиримидиновый регуляторный трансляционный элемент upstream - находящийся в 5' области последовательности downstream - находящийся в 3' области последовательности UTR (НТО) - untranslated region (нетранслируемая область) TSS - transcription start site - старт транскрипции Кэп - (от англ. cap, шапочка) - модифицированный нуклеотид на 5'-конце mRNA Ингибирование - замедление, выключение 1. Введение В жизни эукариотической клетки важную играет регуляторный каскад, управляемый белком mTOR (main target of rapamycine). mTOR-каскад выполняет регуляторные функции и на уровне транскрипции, и на уровне трансляции. На уровне трансляции mTOR регулирует (активирует) трансляцию многих рибосомальных белков, факторов инициации и элонгации трансляции. Интерес представляет детальное изучение особенностей последовательностей UTR в mRNA, трансляция которых ингибируется при выключении mTOR-сигнального каскада. Предположительная структура 5' UTR mRNA-мишеней mTOR Из статьи [Hsieh и др., Nature, 2012, PubMed ID: 22367541] мы знаем о предположительной структуре 5' UTR: TOP - короткая СТ богатая последовательность, состоящая из 5-ти и более нуклеотидов в начале 5’ UTR PRTE - СТ богатая последовательность, состоящая из 10 и более нуклеотидов в середине и конце последовательности 5’ UTR Кроме того, авторами выдвигалось предположение, что PRTE-последовательность содержит 100% консервативный нуклеотид U в позиции 6; и что PRTEпоследовательность не имеет позиционных предпочтений по локализации в 5' UTR. 2. Методы 2.1. Предварительная работа с выборкой генов-мишеней и установление соответствия имя-ID Выборка генов-мишеней была взята из статьи [Hsieh и др., Nature, 2012, PubMed ID: 22367541]. В этой работе метод рибосомного профайлинга был использован для определения mRNA в линии клеток PC-3 (рак простаты человека), трансляция которых существенно ингибировалась химическими агентами, блокирующими mTOR-сигнальный каскад. На основе списка mRNA, приведенного в таблице 5, см. дополнительные материалы к статье [Hsieh и др.], мы выбрали 144 мишени, трансляция которых значительно ингибировалась при выключении mTOR. С помощью Custom Downloads сайта http://www.genenames.org мы извлекли полную таблицу соответствий "имя гена - идентификаторы в базах данных". Нас интересовали UCSC known gene ID. На языке Ruby мы разработали скрипт, который автоматически сопоставил имена генов и идентификаторы генов UCSC по последней сборке человеческого генома hg19. Не всем генам удалось автоматически сопоставить идентификаторы; для нескольких генов мы сделали это вручную напрямую с помощью веб-ресурса UCSC Genome Browser: http://genome.ucsc.edu/ (далее по ссылке "Genomes"). В дальнейшем нам понадобилось картирование имен и на идентификаторы предыдущей сборку hg18, для чего мы модифицировали скрипты для картирования имен. 2.2. Построение выборок 5' UTR последовательностей Последовательности 5' UTR были извлечены из базы данных UCSC, http://genome.ucsc.edu/cgi-bin/hgTables?command=start, при этом мы создали 3 выборки UTR "как есть" в базе данных, с upstream-последовательностью в 5 и в 10 нуклеотидов. Обратите внимание, мы работаем с базой даных DNA-последовательностей, это дает нам возможность работать с upstream-областями 5' UTR (доступными в геноме). Везде где мы говорим о "букве" Т (тимине) на уровне mRNA это соответствует урацилу (U). С помощью скриптов на языке Ruby мы выделили из общего геномного набора mRNA последовательности, соответствующие тестовой выборке (т.е. именам генов, mRNA которых ингибируются mTOR-сигнальным каскадом). 2.3. Прикидочный поиск CT-богатого мотива С помощью программ XXMotif (www.xxmotif.genzentrum.lmu.de), SeSiMCMC (www.favorov.bioinfolab.net/SeSiMCMC/) и ChIPMunk (www.autosome.ru/ChIPMunk) мы осуществили предварительный поиск мотивов в последовательностях 5' UTR и выяснили, что многие последовательности действительно содержат CT-богатый мотив, который может быть как TOP так и PRTE-последовательностью. 2.4. Поиск TOP и PRTE-мотивов с помощью регулярных выражений Для оценки обогащенности выборки mTOR-зависимых mRNA (тестовая выборка) лидерными TOP/внутренними PRTE мы выбрали простые модели - регулярные выражения. Наличие TOP проверяли в лидерных последовательностях длины 10 и 20 нуклеотидов. Проверка наличия TOP 5' UTR без upstream ВСЕГО ПОСЛЕДОВАТЕЛЬНОСТЕЙ Тестовая выборка: 144 Геномная выборка: 50366 уникальных (69050 неуникальных) модель лидер 10 нуклеотидов, тестовая выборка лидер 10 нуклеотидов, все геномные mRNA лидер 20 нуклеотидов, тестовая выборка лидер 20 нуклеотидов, все геномные mRNA минимум 5 букв, ТОЛЬКО CT [CT]+ 55 8322 74 16285 1 вставка A или G допустима, 6 букв [CT]+[AG]?[CT]+ 65 11578 89 22187 2 вставки, 7 букв [CT]+[AG]?[CT]+[AG]?[CT]+ 65 11851 91 23225 Расширенный 5' UTR (5 нуклеотидов upsteam) Тестовая выборка: 144 Геномная выборка: 51613 уникальных (неуникальных = 80922) модель лидер 10 нуклеотидов, тестовая выборка лидер 10 нуклеотидов, все геномные mRNA лидер 20 нуклеот., тестовая выборка 20 букв голова, все геномные mRNA минимум 5 букв, ТОЛЬКО CT. [CT]+ 52 8061 75 16634 1 вставка A или G допустима, минимум 6 букв. [CT]+[AG]?[CT]+ 55 10004 94 21595 2 вставки, минимум 7 букв. [CT]+[AG]?[CT]+[AG]?[CT]+ 55 11284 93 23306 Расширенный 5’UTR, 10 нуклеотидов upstream Тестовая выборка: 144 Геномная выборка: 59911 (неуникальных = 80922) модель лидер 10 нукл., тестовая выборка лидер 10 нукл., все геномные mRNA лидер 20 нукл., тестовая выборка лидер 20 нукл., все геномные mRNA минимум 5 букв, ТОЛЬКО CT. [CT]+ 34 13217 78 20471 1 вставка A или G допустима, минимум 6 букв. [CT]+[AG]?[CT]+ 47 17647 94 27632 2 вставки, минимум 7 букв [CT]+[AG]?[CT]+[AG]?[CT]+ 47 18149 96 28834 Предварительные результаты совпадают с оценками из статьи [Hsieh и др.], порядка 90 mRNA содержат TOP-последовательность. Кроме того, тестовая выборка действительно обогащена лидерным TOP. На примере 5'UTR c 10 нуклеотидов upstream подсчитаем частоты (лидер 20 нукл.): Частота TOP-содержащих последовательностей в тестовой выборке: 94/144=0.65 Частота TOP-содержащих последовательностей в геноме: 27632/59911=0.46 Проверка наличия PRTE При проверке наличия PRTE мы отрезали лидерную часть mRNA длиной в 20 букв, в которой на предыдущем этапе мы искали TOP. Число PRTEсодерж. последов-й Слишком короткие UTR Полное число последовательностей Тестовая выборка 90 1 144 Все геномные mRNA 33244 10800 59911 Регулярное выражение /[CT]+[AG]?[CT]+[AG]?[CT]+/ для PRTE задает CTпоследовательность с двумя возможными заменами CT на A или G; дополнительно мы контролировали длину (не менее 12 букв). Частоты PRTE-содержащих последовательностей: 90/(144-1) = 0.63 33244/(59911-10800) = 0.680 Таким образом мы не видим отличия между всеми геномными mRNA и тестовой выборкой. 2.5. Поиск мотива с помощью MEME - просмотр расстояний В качестве контрольного теста мы решили построить PRTE-мотивы на UTR последовательностях с upstream-областями в 10 нуклеотидов. Для этого мы использовали программу MEME (http://meme.sdsc.edu/meme/intro.html), которая исходно применялась авторами [Hsieh и др.] для установления последовательности PRTE. Выборка 5'UTR на основе сборки генома hg18: Мотив найден в 97 последовательностях; в ~20 случаях мотив найден в начале последовательности (подозрение на TOP). Выборка 5'UTR на основе сборки генома hg19: Мотив найден в 110 последовательностях; в ~20 случаях мотив найден в начале последовательности (подозрение на TOP). 2.6. Аннотация TSS и обнаружение TORTE Чтобы аккуратно установить локализацию PRTE относительно старта транскрипции нам недостаточно баз данных, указывающих единственную координату старта транскрипции. Как показывают данные, полученные с помощью технологии hCAGE в ходе проекта FANTOM (http://fantom.gsc.riken.jp/zenbu/gLyphs/#config=yiEiVQVLIlvlWVcT0KsiWB;loc=hg18::chr1:429 19983..42921680, см. дорожку all hCAGE data) старты транскрипции многих генов являются достаточно размытыми. Таким образом множество mRNA, транскрибируемых с конкретного гена, будет иметь существенно разные лидерные последовательности в своих 5' UTR. Более того, старты транскрипции, аннотированные в существующих базах данных (например, UCSC known gene, которой мы пользовались) часто далеко промахиваются мимо реальных стартов. Внимательное исследование ряда генов mTOR-зависимых mRNA (см. секцию "Результаты") показывает, что типичная ширина старта транскрипции составляет не менее 3-4 нуклеотидов. Это значит, что большинство mRNA будут иметь разную лидерную последовательность. Чтобы удостовериться, что все mRNA с этого гена будут mTOR-зависимыми, нужно их всех обеспечить CT-лидером. Это, в свою очередь, возможно, если над стартом транскрипции расположить широкую CT-богатую область. Именно широкую CT-богатую область мы наблюдаем над множеством стартов транскрипции, и именно эта область была ошибочно названа в статье [Hsieh и др.] как новый регуляторный PRTE-элемент. К сожалению, данные hCAGE (точное картирование TSS) опубликованы только для клеточных линий THP-1 и HeLa. Это не дает нам возможности однозначно утверждать какой именно TSS работает для mRNA, которые ингибировались в эксперименте с линией PC-3 в статье [Hsieh и др.]. Однако, мы внимательно фиксировали факты наличия альтернативных минорных TSS и TORTE-последовательностей в их окрестности. Результаты и обсуждение TORTE: ключевой регуляторный элемент, порождающий TOP в 5' UTR mRNA - целях mTOR сигнального каскада Наши результаты показывают, что PRTE на самом деле является TORTEпоследовательностью, которая на этапе транскрипции служит для порождения TOPпоследовательностей в большинстве mRNA. Картированный в базе данных старт является ошибочным, что и вызывает нахождение "внутренних" PRTEпоследовательностей, регуляторную роль которых трудно объяснить. TORTE-последовательность существует в DNA. TOP-последовательность - кусок TORTE. Размер куска TORTE, попадающего в 5'UTR mRNA и становящегося TOPпоследовательностью, зависит от места старта транскрипции. Статистика по обнаруженным TORTE 1. Для 75 генов найден TORTE > 10 нуклеотидов непосредственно над мажорным стартом (по данным hCAGE геномного просмотрщика Zenbu: http://fantom.gsc.riken.jp/zenbu/gLyphs/#config=yiEiVQVLIlvlWVcT0KsiWB;loc=hg18::chr1:429 19983..42921680) 2. Для 19 генов найден небольшой TORTE (6-10 нуклеотидов) над мажорным стартом транскрипции. 3. Для 18 генов найден TORTE над альтернативным стартом. 4. Для 32 генов не найден выраженный TORTE; в некоторых случаях имеется слабо выраженное обогащение СТ вокруг стартов транскрипции. В группы 1-3 попадают рибосомные белки, факторы инициации и элонгации трансляции. Группа 4 состоит из различных белков. Пример TSS группы 1: RPL28 (ген на основной цепи) Пример TSS группы 2: EEF2 (ген на обратной цепи) Пример TSS группы 3: RPS25 (ген на обратной цепи) Пример TSS группы 4: NCLN (ген на основной цепи) В заключение хочется особенно выделить группу генов, которые не содержат TORTE мотивов в районе TSS. Мы предполагаем, что соответствующие mRNA регулируются по принципиально другому механизму, возможно через 3' UTR. 5' UTR этих генов, будучи проанализированными отдельно, не содержат выраженного общего мотива, предварительный анализ 3' UTR этих генов показывает одновременное наличие C-богатого и G-богатого мотива (возможно они соответствуют каким-то характерным вторичным структурам). Дополнительные наблюдения Мы выяснили насколько хорошо картированы мажорные старты транскрипции для геновмишеней mTOR-каскада: 63 гена аннотированы в базе данных относительно правильно (реальный старт не дальше 10 нуклеотидов от картированного); 70 генов - от 10 до 100 нуклеотидов; 11 генов - крайне плохо аннотированы (реальный мажорный старт удален более чем на 100 нуклеотидов от картированного).