БОЕВА Валентина Анатольевна Идентификация и анализ

advertisement
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ИМ. М.В. ЛОМОНОВОСА
На правах рукописи
БОЕВА Валентина Анатольевна
Идентификация и анализ тандемных повторов и близких
структурированных сигналов в ДНК
ДИССЕРТАЦИЯ НА СОИСКАНИЕ УЧЁНОЙ СТЕПЕНИ
КАНДИДАТА ФИЗИКО-МАТЕМАТИЧЕСКИХ НАУК
ПО СПЕЦИАЛЬНОСТИ 03.00.02 «БИОФИЗИКА»
Научные руководители:
Кандидат физико-математических наук,
В.Ю. Макеев
Доктор биологических наук,
А.А. Миронов
Москва - 2006
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Стр.4
ОБЗОР ЛИТЕРАТУРЫ
Микро-, минисателлиты и другие виды тандемных
Стр.12
повторов. Механизмы возникновения и размножения в
геноме. Их роль и особенности распределения.
Поиск
тандемных
повторов
в
последовательностях
Стр.28
биополимеров. Обзор алгоритмов и приложений.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Глава I. Построение статистической модели для оценки
Стр.33
статистической значимости наблюдаемых периодических
структур.
Формулировка
статистических
критериев,
позволяющих идентифицировать характерные сложные
структуры в генетических текстах.
Глава II. Разработка алгоритма поиска периодических
Стр.51
структур в последовательностях ДНК с использованием
статистических инструментов. Реализация алгоритма и
создание web-приложения. Разработка Интернет-сайта,
посвященного программе.
Глава III. Создание базы данных тандемных повторов в
различных
эукариотических
распределений
повторов
и
организмах.
выделение
Стр.60
Анализ
характерных
особенностей повторов для хромосом.
Глава IV. Анализ распределений повторов с короткой
Стр.74
длиной периода и выделение характерных особенностей
повторов в различных функциональных участках ДНК на
примере
D.
melanogaster.
Гипотеза
частичного
2
происхождения минисателлитных последовательностей
от микросателлитных.
ЗАКЛЮЧЕНИЕ
стр.81
ТАБЛИЦЫ И ИЛЛЮСТРАЦИИ
стр.82
ПРИЛОЖЕНИЯ
стр.111
БЛАГОДАРНОСТИ
стр.112
СПИСОК ЛИТЕРАТУРЫ
стр.113
3
ВВЕДЕНИЕ
Актуальность темы исследования. Основным механизмом геномной
эволюции долгое время считались точечные мутации нуклеотидов в
последовательностях ДНК. Однако в последнее время было показано, что
одним из важных дополнительных механизмов изменчивости являются
геномные
перестройки,
в
частности
тандемные
дупликации
и
мультипликации.
Механизмы дупликаций коротких слов, приводящие к возникновению и
размножению микросателлитов, отличны от механизмов дупликации более
длинных участков генома, приводящих к возникновению минисателлитов.
Тем не менее, в обоих случаях могут возникнуть новые промоторные
области, сайты альтернативного сплайсинга и т.д.
После возникновения сателлитной последовательности в результате
действия одного из вышеописанных механизмов возможно изменение
последовательности в результате точечных мутаций, что может привести к
почти полному «исчезновению» сателлита. По-видимому, именно такие,
деградировавшие сателлиты рекрутируются для различных биологических
функций, включая регуляцию транскрипции и репликации, структурные
модификации белков и т.д. Таким образом, требуется метод поиска сильно
вырожденных, тандемно повторяющихся мотивов в последовательностях
ДНК. Ввиду значительной вырожденности подобных повторов возможна
неверная идентификация случайного участка генома как вырожденной
сателлитной последовательности. Поэтому необходима оценка значимости
найденных структур как неслучайных.
Вопрос разработки алгоритма для поиска тандемных повторов в ДНК
стоит последние пятнадцать лет. В настоящий момент существует более
десяти различных программ для поиска периодических структур в
последовательностях ДНК. Но пока нельзя сказать, что существует
единственно
возможный
исчерпывающий
алгоритм
поиска.
Каждый
4
алгоритм нацелен на определенную задачу и класс определяемых повторов;
степень их вырожденности, длина периода и другие параметры различны от
программы к программе.
Объект, предмет и метод исследования. Объектом исследования
являются периодические структуры в ДНК: микросателлиты (вырожденные и
точные повторы с длиной повторяющейся единицы до 6 п.н.), минисателлиты
(точные и средне вырожденные повторы с длиной повторяющейся единицы
от 6 п.н. до 100 п.н.), сателлитные последовательности (точные и средне
вырожденные тандемные повторы с длиной повторяющейся единицы от 100
п.н. до 200 п.н.) и сильно вырожденные, «исчезающие» тандемные повторы
с длиной периода до 200 п.н. Предметом исследования является разработка
метода идентификации тандемных повторов в ДНК и анализа свойства
распределения тандемных повторов в различных функциональных участках
ДНК, а также в хромосомах различных эукариотических геномов. Основные
применяемые
в
диссертационном
исследовании
методы
–
автокорреляционный анализ для поиска кандидатных тандемных повторов,
метод производящих функций и элементарных языков, а также средств
комбинаторного анализа для получения формул для оценки статистической
значимости
найденных
повторов.
Исходной
теоретической
основой
исследования являются труды отечественных и зарубежных ученых как в
области теории алгоритмов, так и в области построения статистических
моделей.
Цель и задачи исследования. Основной целью данного исследования
является построение алгоритма идентификации тандемных повторов в ДНК с
последующим анализом свойств распределения тандемных повторов в ДНК
различных эукариотических геномов. Основным результатом работы должно
стать получение алгоритма поиска повторов, удовлетворяющих заданным
условиям по степени вырожденности и длине периода, как на уровне
5
полногеномного анализа, так и в коротких ДНК-последовательностях, его
использование для картирования геномов на предмет наличия периодических
структур, выводы о свойствах распределений повторов в геномах.
Достижение поставленных целей предполагает решение следующих
задач.
• Построение
моделей
для
представления
периодических
последовательностей в ДНК.
• Получение формул для оценки статистической значимости повторов
для построенных моделей через подсчет вероятностей наблюдения
данных структур в случайной последовательности.
• Разработка алгоритма идентификации участков ДНК, обладающих
периодической структурой на основе методов автокорреляционного
анализа.
• Интеграция
процедурой
процедуры
поиска
оценки
статистической
периодичностей
для
значимости
построения
с
нового
современного алгоритма определения сильно и слабо вырожденных
тандемных повторов.
• Имплементация алгоритма в виде отдельного приложения, а также
создание
Интернет-сайта
для
возможности
сканирования
последовательностей ДНК на наличие периодических участков через
Интернет.
• Создание
базы
данных
тандемных
повторов
в
различных
функциональных участках ДНК различных организмов.
• Анализ
распределений
повторов
и
выделение
характерных
особенностей повторов в каждой группе.
6
Научная новизна диссертационного исследования.
• Благодаря
построению
нового
алгоритма
идентификации
периодических структур в ДНК стало возможно изучение нового
объекта – сильно вырожденных тандемных повторов.
• Стало возможно получение более полных карт повторов для геномов
эукариот. С помощью нового метода были определены обладающие
периодической структурой участки, покрывающие до 30% генома,
значительная часть которых не была определена как таковая до
настоящего момента в существующих аннотациях геномов.
• С помощью нового алгоритма поиска повторов стало возможно
провести сравнительный анализ распределения повторов с большой
длиной периода (до 200п.н.) в маштабе полных геномов эукариот.
Практическая
значимость.
Получение
формул
для
оценки
статистической значимости повторов дает возможность оценить значимость
повторов, найденных в ДНК при помощи других алгоритмов, тем самым,
давая инструмент для сравнения качества работы различных алгоритмов.
Были созданы базы данных для различных эукариотических геномов,
включая геном человека, содержащие информацию о расположении, длине и
количестве копий повторов с указанием их статистической значимости. Эти
данные могут быть использованы в научных исследованиях как для
маскирования повторов для их дальнейшей элиминации, так и для поиска в
них различных сигналов: сайтов связывания белков, горячих точек
рекомбинации и др.
Также, анализ распределения повторов в геномах близких и далеких
организмов
позволит
лучше
понять
процессы
эволюции
геномов,
предположить новые возможные механизмы. Более того, сравнение
тандемных
повторов в различных
гаплотипах даст информацию о
полиморфизмах и мутационных явлениях. Это может помочь понять
причины возникновения некоторых наследственных заболеваний, а также
7
заболеваний, вызванных соматической изменчивостью, в том числе
некоторых разновидностей канцерогенеза.
Знание о характерных семействах или свойствах повторов может
позволить
определить
принадлежность
последовательностей
ДНК
к
определенным участкам геномов или хромосомам.
Апробация диссертационного исследования. Основные результаты
были представлены на Московской Конференции по Вычислительной и
Молекулярной Биологии MCCMB в 2003 и 2005 годах, на конференции
BGRS по Биоинформатике Геномной Регуляции и Структуре в Новосибирске
в 2004 и 2006 годах, на конференции JOBIM в Монреале в 2004 году, на
конференции молодых ученых «Ломоносов» в 2004 и 2005 годах, на
Международной школе «Биоинформатика, геномика, протеомика» в Алматы
в 2006 году, на Международной Конференции по Исследованиям в области
Вычислительной Молекулярной Биологии RECOMB в Венеции в 2006 году,
на
симпозиуме
по
Биоинформатике,
Геномике
и
Функциональному
Назначению Микросателлитов и Полиморфных Тандемных Повторов
(VNTRs) MICROSAT в Будапеште в 2006 году, а также на Международной
Летней Школе и Симпозиуме по Эволюционной Геномике в Берлине в 2006
году.
Структура
и
объем
диссертационного
исследования.
Диссертационное исследование состоит из Введения, Обзора Литературы,
четырех глав, Заключения, Приложений и библиографического списка. Глава
1 основной части (Результаты и Обсужедение) посвящена подробному
описанию построения статистической модели для оценки статистической
значимости наблюдаемых периодических структур, используя вероятностные
формулы (полученные с помощью производящих функций в рамках теории
элементарных языков развитой в INRIA), либо с помощью средств
комбинаторной
алгебры
и
формулировке
статистических
критериев,
8
позволяющих
идентифицировать
характерные
сложные
структуры
в
генетических текстах. Подробное описание алгоритма поиска периодических
структур в последовательностях ДНК с использованием статистических
инструментов приводится в главе 2 основной части. Также глава 2 содержит
описание реализации алгоритма, списка параметров и выдачи программы.
Главы 3 и 4 посвящены применению алгоритма для поиска периодичных
сигналов в последовательностях ДНК различных эукариотических геномов, а
также
в
последовательностях
с
различными
структурными
и
функциональными свойствами.
Выводы
1. Разработан алгоритм поиска сильно вырожденных тандемных
повторов без делеций и вставок.
2. Получены формулы для оценки статистической значимости сильно
вырожденных тандемных повторов без делеций и вставок с учетом их
самоперекрывающейся структуры.
3. Разработанный алгоритм использован для выявления новых объектов,
обладающих выраженной регулярной структурой.
4. Выявлены характерные паттерны распределения тандемных повторов
в зависимости от длин периодов для хромосом различных геномов эукариот,
включая геном человека.
5.
Выделены
семейства
локальных
и
дисперсных
микро-
и
минисателлитов, характерных для той или иной хромосомы, и проведен их
анализ с учетом существующих аннотаций.
6. Выявлены различия в распределении тандемных повторов в
различных функциональных областях геномов: регуляторных, кодирующих,
спейсерных,
межгенных
областях,
гетерохроматине,
5’-
и
3’-
нетранслируемых областях.
9
Публикации. Основные результаты диссертационного исследования
опубликованы в следующих печатных и электронных изданиях и тезисах
конференций:
Научные журналы:
1.
Boeva, V., M. Regnier, D. Papatsenko, and V. Makeev. Short fuzzy
tandem repeats in genomic sequences, identification, and possible role in
regulation of gene expression. Bioinformatics, 2006. 22(6): стр. 676-684.
2.
Боева, В.А., М.В. Фридман, и В.Ю. Макеев, Эволюция микро- и
минисателлитов в геноме человека. Биофизика, 2006. 51(4): стр. 650-655.
3.
Boeva, V., J. Clement, M. Regnier, and M. Vandenbogaert. Assessing
the Significance of Sets of Words. В тезисах Combinatorial Pattern Matching
(CPM) 2005. 2005. Jeju Island, Korea: Опубликовано в электронном виде в
Lecture Notes in Computer Science, Springer Verlag, 3537: стр. 358-370.
Тезисы конференций:
1.
Boeva, V., V.J. Makeev, and M. Regnier. Probability of tandem
repeats in nucleotide sequences. В тезисах International conference MCCMB’03.
2003. Moscow, Russia. Стр. 46-47.
2.
Boeva, V.A., M. Regnier, and V.J. Makeev. Algorithm for searching
for highly divergent tandem repeats in DNA sequences, statistical tests, and
biological application in Drosophila melanogaster genome. В тезисах The Fourth
International Conference on Bioinformatics of Genome Regulation and Structure.
2004. Novosibirsk, Russia. Том 1, стр. 34-37.
3.
Boeva, V.A., M. Regnier, and V.J. Makeev. SWAN: searching for
highly divergent tandem repeats in DNA sequences with the evaluation of their
statistical significance. В тезисах JOBIM 2004. 2004. Montreal, Canada. Стр. 40.
4.
Boeva, V., V.J. Makeev, and M. Regnier. Search for degenerate
tandem repeats in nucleotide sequences. Their possible role in regulation of gene
expression. В тезисах International conference MCCMB’05. 2005. Moscow,
Russia. Стр. 54-56.
10
5.
Боева, В.А. Поиск тандемных повторов (минисателлитов) в
последовательностях ДНК, сравнение распределений минисателлитов в
различных эукариотических геномах. В Материалах Международной школы
«Биоинформатика, геномика, протеомика». 2006. Алматы, Казахстан. Стр. 7.
6.
Boeva, V. and V.J. Makeev. Minisatellites in Eukaryotic Genomes,
Analysis with TandemSWAN Program. В Материалах The 2nd International
Tandem Repeat Consortium workshop on the Bioinformatics, Genomics and
Functionality of Microsatellites and VNTRs, MICROSAT 2006. 2006. Budapest,
Hungary. Стр.14.
7.
Boeva, V. and V.J. Makeev. Minisatellites Evolution in Eukaryiotic
Genomes. В тезисах Otto Warburg International Summer School and Workshop
on Evolutionary Genomics. 2006. Berlin, Germany. Стр. 33.
8.
Boeva, V.A. and V.J. Makeev, Micro- and Minisatellites in Human
genome, TandemSWAN software in use. В тезисах of The Fifth International
Conference on Bioinformatics of Genome Regulation and Structure, 2006. Том 3:
стр. 118-121.
11
ОБЗОР ЛИТЕРАТУРЫ
МИКРО-, МИНИСАТЕЛЛИТЫ И ДРУГИЕ ВИДЫ ТАНДЕМНЫХ
ПОВТОРОВ. МЕХАНИЗМЫ ВОЗНИКНОВЕНИЯ И РАЗМНОЖЕНИЯ
В ГЕНОМЕ. ИХ РОЛЬ И ОСОБЕННОСТИ РАСПРЕДЕЛЕНИЯ.
В эукариотических геномах представлено большое разнообразие
различных регулярных структур. Значимую их часть составляют тандемные
повторы. Тандемным повтором называют последовательность нуклеотидов,
которую можно представить, как некое слово, повторяющееся одно за
другим без делеций и вставок, но с возможными ошибками. Примером может
служить последовательность TCCT|TCAT|TCAT|TCAC|TCAC (хромосома 22
генома
человека,
позиции
19313716-19313735),
которую
можно
рассматривать как пятикратный повтор слова TCAT. В дальнейшем для
обозначения длины повторяющейся единицы будет использоваться слово
период.
В
зависимости
классифицируют
от
на
длины
периода
тандемные
полинуклеотидные
повторы
последовательности,
микросателлиты, минисателлиты и, в случае длины периода более 100п.н.,
используют термин сателлитная ДНК без уточнения типа.
Примером
мононуклеотидного
последовательность
тракта
может
служить
aaaacttaaagtataataaaaaaaaaaaattaaaaaaaaaaaaaagaaaa
(хромосома 22 генома человека, позиции 15336249-15336298). Зачастую их
относят
к
большинстве
микросателлитным
классификаций
последовательностям,
длина
периода
не
для
которых
превышает
в
шести
нуклеотидов. Современная классификация также допускает определение
микросателлитной последовательности как повтора с периодом меньше 15
пар оснований, а минисателлитной – с периодом от 15 до 50 пар оснований.
В
дальнейшем
в
нашей
работе
мы
будет
придерживаться
более
распространенной классификации: для микросателлитной ДНК длина
периода от двух до шести пар оснований, для минисателлитной ДНК от
шести до 100 пар оснований.
12
Принятые разными авторами ограничения на минимальные число таких
повторов в блоке и длину самого блока варьируют, особенно в случае
наличия неполной гомологии среди части повторов. Например, в работе [1]
авторы анализировали распределение по геному точных триплетных
повторов, повторённых не менее четырех раз. В работе [2] для
динуклеотидных повторов учитывали блоки не менее, чем из 8 повторов, с
гомогенностью не менее 0,9.
Принятые
определения
отражают
особенности
возникновения
и
экспансии сателлитных последовательностей. Например, поли-А и поли-Т
тракты часто рассматриваются отдельно, поскольку чаще всего являются
результатом обратной транскрипции м-РНК с последующей инсерцией в
геном. Повторы с единицей из двух оснований могут быть результатом
внедрения транспозона. Поэтому нередко считается, что микросателлиты –
это не менее, чем двух-нуклеотидные повторы [3].
Здесь и далее многие результаты будут процитированы по весьма
детальным обзорам [4] и [5]. Основные механизмы, которые порождают
вариабельность микросателлитов, – это replication slippage, то есть
диссоциация репликативного комплекса от реплицирующейся нити ДНК с
последующим смещением при реассоциации, а также неравный кроссинговер
и успешная или неуспешная репарация ошибок предыдущих процессов. Надо
заметить, что именно с частотой залипания полимеразы (replication slippage)
связывают,
например,
зависимость
длины
блоков
растительных
микросателлитов от их удалённости от центромеры.
При количестве копий повтора более пяти он может начать случайным
образом размножаться или, напротив, сокращаться, что может привести к его
экспансии или вымыванию из ДНК. По ещё не вполне понятным причинам
наиболее подвержены экспансии тринуклеотидные повторы, возможно,
ввиду наибольшей стабильности образуемых ими шпилечных структур и их
способности избегать репарации. Увеличение длины их блока может вести к
резкому увеличению вероятности дальнейшей экспансии [3].
13
Соответствующие механизмы эволюции микросателлитных блоков,
видимо, работают лишь для блока повторов, который не прерван какимилибо ещё последовательностями. Поэтому мутации, прерывающие блок,
останавливают его экспансию.
«Размножение»
повтора
может
быть
индуцировано
внешними
воздействиями. Например, показано, что ингибирование метилаз ведёт к
дестабилизации блока повторов CTG/CAG [6].
Интересно, что в различных геномах распространены различные
семейства повторов. В работе [7] на широком круге систематически
разнообразных видов было показано, что доля повторов на геном для моно- и
ди-
нуклеотидных
повторов
возрастает
по
квадратичному
закону
пропорционально отклонению в любую сторону от 50% GC.
Для растений и грибов характерно преобладание мононуклеотидных
повторов, в то время как у животных преобладающим классом были
динуклеотидные.
Однако,
в
геноме
приматов
преобладают
мононуклеотидные повторы. Позвоночных отличает относительное обилие
тетрануклеотидных повторов, в то время как для беспозвоночных характерно
относительное обилие пяти- и шестинуклеотидных [8]. Авторы [9] отмечают,
что средняя протяжённость блоков динуклеотидных повторов наиболее
велика, кроме того для человека характерны относительно длинные
тетрануклеотидные, а для дрозофилы – тринуклеотидные повторы. Эти же
авторы указывают, что относительная частота разных ди- и тринуклеотидных
повторов невыводима ни из нуклеотидного состава, характерного для генома,
ни из относительной способности повторов формировать альтернативные
структуры ДНК.
Для разных видов Drosophila в работе [10] было найдено как изменение
относительных частот различных индивидуальных повторов (даже для
близких видов), так и изменение соотношений разных повторяющихся
единиц (моно-, ди-, три-, тетра-, пента- и секстануклеотидных). При этом
характерные
длины
блоков
были
довольно
стабильны
как
для
14
индивидуальных повторов, так и для классов повторов с определённой
длиной повторяющейся единицы. В работе [11] при сравнении несмещённой
выборки микросателлитов из 2467 микросателлитных локусов человека,
шимпанзе и бабуина было показано, что для шимпанзе характерна
относительно большая длина мононуклеотидных повторов, а для человека –
динуклеотидных.
В работе [7] было показано, что традиционные модели залипание
полимеразы (replication slippage) не объясняют сниженное по сравнению с
ожидаемым количество коротких повторов и повышенное – длинных.
Вообще, для крупных блоков микросателлитов становятся вероятными
внутриаллельные перестройки и дупликации. Но, несмотря на то, что
предполагается участие рекомбинации и конверсии в их порождении (как и у
минисателлитов), межаллельных перестроек обычно не наблюдают. К тому
же это и технически сложнее ввиду малости повторяющейся единицы. В
работе [11] было показано, что скорость дивергенции ортологичных локусов
и мутабильность на единицу повтора тем больше, чем длиннее локус. В
работе [12] были исследованы как склонные, так и не склонные к экспансии
тринуклеотидные повторы у человекообразных обезьян и человека. Блоки
повторов были консервативны. Часто сохранялись и характерные для них
полиморфизмы, хотя соотношение разных типов локусов было специфичным
для вида. Вариабельность для человека была наибольшей, хотя это касалось
только локусов, склонных к экспансии.
В
[9]
авторы
отмечают,
что
для
многих
видов
характерны
тетрануклеотидные повторы типа (AAAN)n. Из работы [8] следует
достаточно
широкая
распространённость
в
разных
группах
живых
организмов повторов типа (AAAAN)n и (AAAAAN)n. Для млекопитающих
отмечалась как характерная особенность распространённость длинных
(несколько десятков повторяющихся единиц) повторов GAA[13].
Однако для разных групп организмов типично преобладание различных
индивидуальных повторов, хотя практически всеми авторами отмечается
15
обеднённость геномов повторами, содержащими CG (по причине их
подверженности мутациям). Интересным исключением является повтор
ССG, вопрос о котором будет затронут далее. Он сравнительно нередок в
геномах позвоночных. Характерно почти полное отсутствие ACG-повторов у
позвоночных, семенных растений и грибов. Из двадцати семи практически
отсутствующих в геномах пента- и секстануклеотидных повторов в двадцати
трех содержится один или несколько CG, а три из оставшихся содержат стопкодон по крайней мере в одной из рамок считывания. Однако в экзонах
позвоночных нередки пента- и секстануклеотиды, содержащие GGG, хотя
многие из них содержат CG. В интронах как таковых они редки, однако их
частота резко повышена на границах с экзоном, особенно рядом с 5’-cайтом
сплайсинга [14]. В работе [15] отмечается важность мотива GGGG,
примыкающего к 5’-сайту сплайсинга, (+6-+8 нуклеотиды) для скипинга
кассетных экзонов. Содержащие GGG пентануклеотиды нередки и в
межгенных участках позвоночных, что может быть связано с формированием
Sp1-узнающих мотивов.
Менее объяснима крайне малая частота ACT во всех участках
различных геномах, а не только в экзонах, где она может объясняться
порождением стоп-кодона [8].
Что касается распределения микросателлитов по геному, для Drosophila
melanogaster
было
последовательностей
показано,
распределены
что
по
39%
геному
микросателлитных
неслучайно,
т.е.
их
распределение не является просто следствием случайного возникновения при
данных частотах нуклеотидов [16]. В работе [17] указывается, что 15-18%
регуляторных последовательностей D. melanogaster и D. pseudoobscura
заняты
малокопийными
тандемными
повторами
со
средней
длиной
повторяющейся единицы 5-10 пар, что значительно больше их общей доли в
геноме. Именно с этими участками связаны инверсии-делеции, отличающие
эти два генома. Отметим, однако, что у дрозофилид одни из самых
компактных эукариотических геномов, в других же группах неслучайность
16
распределения функционально значимых микросателлитов может быть
замаскирована большим количеством «мусорной» (junk-) ДНК.
Как уже говорилось, наиболее крупные блоки микросателлитов связаны
с прицентромерными участками хромосом. Для центромер человека
характерен
повтор
(AATGG)n.
Значительная
часть
микросателлитов
находится в межгенных участках [3].
В 5’- и 3’-некодирующих участках генов микросателлиты нередки. В
гене человека hsp 70 присутствует, например, повтор (GA)6CAG(TC)24.
Нередки они и в интронах. У Mus musculus в интроне гена Adh-1
присутствует последовательности (TA)14, (TG)8 и (TA)19, а в интроне гена
IL-5 - последовательность (AT)17. В работе [18] среди тринуклеотидных
блоков у человека «вверх по течению» от гена большинство составляли
повторы CCG, следующим по распространённости был повтор AGG. В то же
время в интронах повторы CCG практически не встречались. Для интронов
самых разных эукариот характерно преобладание среди мононуклеотидных
повторов (А)n и (Т)n. Интронные и межгенные последовательности, человека,
согласно [1], обогащены триплетами AAT и AAC.
Для растительных геномов показана приуроченность микросателлитов к
транскрибируемой, но не транслируемой части геномов, особенно к 5’концам генов, где у Arabidopsis thaliana преобладали ди- и тринуклеотидные
повторы (в 3’-концах преобладали три- и тетрануклеотидные повторы) [19].
В кодирующей части генов самых разных организмов повторы
встречаются гораздо реже. Однако следует заметить, что у эукариот доля
белков, содержащих повторы, в три раза выше, чем у прокариот (14%).
Интересно, что обилие и длина микросателлитных блоков у позвоночных
выше, причём микросателлиты наиболее обильны у грызунов, а длиннее
всего – у холоднокровных [16].
В кодирующей части генов отбор сохраняет в первую очередь блоки
микросателлитов с единицей, кратной шести. Однако интересно, что
согласно работе [2] у человека блоки ди-, тетра- и пентануклеотидных
17
повторов встречаются в кодирующей области лишь в 3-4 раза реже, чем
блоки три- и гексануклеотидов. Более того, хотя среди вариабельных по
длине
внутригенных
микросателлитных
блоков
преобладали
тринуклеотидные последовательности, вариабельных динуклеотидных было
всего в шесть раз меньше (и больше, чем гексануклеотидных), и даже
вариабельные тетрануклеотидные блоки составляли вполне заметную
фракцию. Это наблюдение кажется тем более удивительным, что такая
вариабельность может приводить к сдвигу рамки считывания. Авторы [9]
отмечают, что в кодирующей области отбор наиболее всего благоприятствует
кодонам для маленьких гидрофильных аминокислот и элиминирует кодоны
для гидрофобных и основных аминокислот.
Тринуклеотидные повторы остаются, таким образом, объектом наиболее
пристального изучения. В работе [1] у человека было обнаружено 2135 генов
с тринуклеотидными повторами в экзонах, причём среди них в 171 гене
длина блока составляла не менее 30 пар нуклеотидов. Интересно, что среди
этих тринуклеотидов 67% составляли повторы AGC и CCG.
Таким образом, повторы CCG могут вносить значительный вклад в
формирование CpG-островов. Они, как известно, обычно захватывают как 5’конец, так и кодирующую часть гена, что хорошо согласуется с их наличием
в межгенных участках и экзонах, но не в интронах.
Обратимся теперь к возможным функциям микро- и минисателлитов.
Значительное
влияние
микросателлиты
могут
оказывать
на
транскрипцию.
Так, например, увеличение количества CT-блоков в расположенном
вверх по течению минисателлите повышало активность альтернативного
промотора куриного гена малик энзима по отношению к репортёрному гену
[20]. Авторы считают, что соответствующее влияние связано с образованием
не В-форм ДНК, возможно триплексов. Аналогичные блоки связаны и с
функционированием регуляторной области гена hsp26 у Drosophila [21], но в
данном случае значимой, видимо, является не только структура, но и
18
способность связывать GAGA-фактор. Связыванию с транскрипционными
факторами приписывают и влияние повтора ТССС на активность c-KI-ras
[22]. Взаимодействие проксимального промотора TGF-b3 с факторами
транскрипции Sp1 and Egr-1 считается следствием образования не В-формы в
области такого же повтора [23].
Примечательно, что динуклеотиды типа (GT)n влияют на активность
промотора на расстоянии и независимо от ориентации, хотя при сближении с
ними транскрипция и усиливается [24].
Также было показано, что тандемные повторы Sp-1-узнающего мотива
GGCGGG в
промоторе гена 5-липоксигеназы человека влияют на его
транскрипцию. В норме ген содержит пять повторов, а у мутантов
наблюдалась делеция одного, делеция двух или добавление одного сайта
связывания
цинкового
пальца.
Эти
варианты
менее
активны
транскрипционно [25].
Повтор GA у Drosophila, может в разных местах генома варьировать по
длине от GAG до GAGAGAG и далее, сохраняя способность связывать
транскрипционные факторы [26]. Для генов hsp70 и hsp26 показано, что до
индукции
теплового
шока
GAGA-транскрипционный
фактор
GAF
связывается только с длинными повторами в промоторе, а после – начинается
связываться с короткими повторами 3-5 п.н., разбросанными в теле гена в
среднем через 75 п.н. (то есть с точки зрения принятого нами определения
данные структуры не относятся к тандемным повторам) [26]. Фактор GAF
является Trithorax-подобным белком, но участвует также в репрессии генов
белками группы Polycomb и действует, видимо, совместно с белком
Pipsqueak, тоже способным взаимодействовать с этими повторам [27].
Показано, что белковые комплексы, связывающиеся с GAGA, могут
вызывать
перемещёние
нуклеосом,
что
облегчает
различные
типы
взаимодействий [28].
Также, известно, что на транскрипцию могут влиять повторы и в
интронах. Например, на транскрипцию гена тирозингидроксилазы оказывает
19
влияние полиморфный тетрануклеотидный повтор ТСАТ в первом интроне
[29]. Независимо от ориентации он усиливает транскрипцию в девять раз,
проявляя, таким образом, энхансерные свойства. Белки семейства Fos-Jun
могут образовывать комплекс с этим повтором [30].
На транскрипцию гена EGFR влияет полиморфный тракт (CA)n, тоже
локализованный в первом интроне. Непосредственно вниз по течению от
этого блока располагается сайт, на котором может быть терминирована
транскрипция, а также два других мажорных старта транскрипции.
Эффективность транскрипции гена для «длинных» вариантов с 21 повтором
снижена примерно на 80% [31].
В репортёрной системе CAT, содержащей андроген-чувствительный
элемент, экспансия повтора CAG от 25 до 77 единиц пропорциональным
образом снижала интенсивность транскрипции [32]. С другой стороны, в
иных системах увеличение числа повторов повышало интенсивность
транскрипции.
Так,
для
гена
PAX-6
наибольшей
транскрипционной
активностью обладали варианты, содержащие 29 и более повторов единицы
(AC)m(AG)n, а содержащие 26 повторов – наименьшей [33]. 5’-район
инсулинового гена содержит полиморфный повтор 14 нуклеотидной
единицы, причём в тимусе плода аллели с 140-210 повторами дают более
интенсивную транскрипцию этого гена, чем аллели с 26-63 повторами [34].
Полиморфизмы по повторам могут быть связаны и с качественными
различиями в регуляции. Так, авторы [35] обнаружили значимость
полиморфизма по GT- повтору в 5’-нетранслируемом конце гена пролактина
тиляпии. Индивиды, гомозиготные по «длинному» аллелю, экспрессировали
меньше пролактина в пресной воде, но больше в солоноватой.
Для транскрипции человеческого гена COL1A2 важно присутствие как
(CA)n в 5’-UTR, так и (GT)n в первом интроне [36].
Согласно [4], повторы на 3’-нетранслируемом конце гена могут
вызывать «проскальзывание» полимеразы и образование протяжённого
транскрипта, который может накапливаться в ядре или нарушать ход
20
сплайсинга. Подобную роль могут играть повторы CAG/CTG за счёт
формирования вторичной структуры м-РНК. С этим связывается, в
частности, миотоническая дистрофия типа 1 [37]. К накоплению транскрипта
в ядре может приводить и «размножение» повтора (CCUG)n в первом
интроне гена ZNF9, приводящее к миотонической дистрофии второго типа
[38].
Влияние повторов на транскрипцию может быть и не прямым, а
связанным с гетерохроматинизацией, которая отмечалась в случае экспансии
даже сравнительно короткого блока тринуклеотидных повторов для
миотонической
дистрофии
и
атаксии
Фридриха.
Механизм
гетерохроматинизации, видимо, был тривиальным, поскольку эффект
увеличивался
под
действием
классического
модификатора
гетерохроматинизации Hp1 [39].
Как
уже
говорилось,
возможные
функции
микросателлитов
в
значительной степени связаны со структурными особенностями подобных
блоков ДНК. Характерные для синдрома ломкой Х-хромосомы повторы
(CCG)n образуют шпильки [40].
Для (GAA)n/(TTC)n типично образование триплексов, которое может
играть роль в регуляции активности генов [41]. Уже упоминавшийся
центромерный повтор человека (AATGG)n может формировать шпилечные
структуры с двумя петлями. Для повтора 3’-концов теломер (TTAGGG)n
харктерно образование G-квартета шпилек [42].
Повторы
(CAG)n
и
(CTG)n
могут
формировать
специфические
структуры, легко узнаваемые белками (например, белком MSH2, [43]) после
денатурации и последующей ренатурации ДНК. Вообще белки, способные
узнавать те или иные повторы, присутствуют в различных системах. В
человеческих фибробластах, например, были идентифицированы белки,
узнающие повторы GA и GT [44]. В отвечающих за иммунный ответ генах в
течение длительного эволюционного времени сохранялись повторы (GT)n
или (GT)n(GA)m, узнаваемые внутриядерными белками [45].
21
Существуют и белки, узнающие повторы в РНК. Специфический белок
узнаёт повторы CUG на 5’-конце РНК C/EBPbeta и регулирует таким образом
трансляцию соответствующей изоформы [46, 47]. Таким образом, возможно
и влияние микросателлитов на трансляцию. Считается, что в регуляции
трансляции существенную роль играет блок повторов САА в 5’нетранслируемой части, образующий бесструктурный участок РНК [48].
Экспансия повторов (CTG)n в 5’-UTR репортёрного гена затрудняла
трансляцию соответствующей РНК из-за образования шпилек, ведущего к
нарушению сканирования [4].
Другой пример влияния повторов на трансляцию: М-РНК гена C/EBPb
может транслироваться с двух разных AUG-кодонов, причём белок CUGBP1,
принимающий
участие
в
определении
старта
транскрипции,
может
связываться как с повтором CUG в 5’-UTR м-РНК, так и с повтором CCG
внутри ORF [46].
Как уже отмечалось, тринуклеотидные повторы CTG/CAG, для которых
характерна внутрилокусная экспансия, связаны с различными локусами
человека и различными заболеваниями (например, с миотонической
дистрофией, болезнью Гентингтона (Huntington's) и спиноцеребральными
атаксиями). Найдено уже 14 неврологических заболеваний, связанных с
экспансией тринуклеотидных повторов как в кодирующей, так и в
некодирующей части генов [6, 41]. Примером влияния таких повторов на
белок может быть увеличение числа тринуклеотидных единиц CAG,
кодирующих полиглутаминовую последовательность, до 39 и более при
Machado Joseph Disease. Сообщалось, что протяжённые участки (Gln)n
обеспечивают вовлечение белка в лизосомный путь деградации [49], а также
делают его токсичным для клетки [50].
Для гена hTCF-4 использование альтернативных рамок считывания в его
семнадцатом экзоне (которое может быть результатом изменения длины (А)9последовательности) приводит к образованию продуктов, противоположным
образом взаимодействующих с β-катенином, что влияет на колоректальный
22
канцерогенез [51].
Другим механизмом влияния подобной экспансии может быть то, что
эти повторы образуют, особенно на флангах, сайты узнавания CTCF,
значимые для инсуляции [52]. Таким образом, инсуляция тоже является одной
из функций микросателлитов. Метилирование соответствующих сайтов
(которое провоцируется увеличением числа повторов) предотвращает
связывание CTCF и инсуляцию, что влияет на активность прилегающих к
локусу генов [52]. Этот механизм описан, в частности, при миотонической
дистрофии Дюшена [52]. Выше говорилось о связи экспансии таких повторов
с гетерохроматинизацией ДНК. По всей видимости, метилирование,
инсуляция и гетерохроматинизация представляют собой взаимосвязанные
процессы.
Интересно, что метилирование также увеличивает стабильность таких
локусов, поскольку ингибирование метилаз ведёт к дестабилизации блока
повторов [6].
Для динуклеотидных повторов в м-РНК, особенно в 3’-UTR, характерна
совместная встречаемость, например (GC)n и (GU)n, причём с определённой
полярностью.
Авторы
[53]
на
основании
анализа
альтернативных
транскриптов выдвигают гипотезу о роли этих последовательностей в
процессинге.
(GATA)n-последовательности
группируются
у
ряда
многоклеточных вокруг стоп-кодона на расстоянии 500 п.н. Они характерны
для различных мембранных белков. Для этих повторов нередко встречается
вариабельность по ориентации и числу копий. При наличии альтернативного
сплайсинга варианты, содержащие (GATA)n, представлены в клетке в
большем количестве [54].
GGG-повторы, как сами по себе, так и содержащиеся внутри более
крупных минисателлитных единиц могут формировать G-квадруплекс,
который способны стабилизировать различные внутриклеточные лиганды
[55]. При образовании на теломерах такой стабилизированный квадруплекс
ингибирует
теломеразу,
что
пытаются
связать
с
антиопухолевой
23
активностью. Альтернативный сплайсинг теломеразы с образованием
неактивного фермента также связан с наличием GGG-повторов. Они
расположены в минисателлитах, в том числе вариабельных, находящихся в
интроне 6, то есть как раз в месте альтернативного сплайсинга.
Отметим, что триплет GGG вообще является регулятором сплайсинга
(чаще всего
в
составе
пентануклеотидных
повторов). Авторы [14]
обнаружили повышение их содержания на границах интронов различных
генов, особенно на 3’-концах. В позициях 3-10 примыкающего ниже по
течению интрона он, в сочетании с другими мотивами, вызывает пропуск
кассетных экзонов [15].
Повтор ТG расположен в акцепторе сплайсинга девятого экзона гена
CFTR. Это 9-13 повторов, лежащих сразу же после поли-T тракта. Поли-Т и
поли(TG) влияют на сплайсинг, причём при большой копийности повтора
(12-13) возможно почти полное исчезновение полноразмерной м-РНК, что
ведёт к бесплодию мужчин или неклассическому цистозному фиброзу [56]. В
то же время замещение последовательности (TG)n на случайную исключает
сплайсинг. Результаты замены её на другие последовательности, обладающие
способность образовывать шпилечные структуры (например, на повтор ТА),
показывают, что для эффективного сплайсинга необходимо образование
определённой вторичной структуры РНК, причём лучше обеспечивают
сплайсинг структуры с умеренной термодинамической стабильностью. В то
же время и такие влияющие на сплайсинг факторы, как изменение
расстояния между сайтом сплайсинга и сплайсосомой или связывание
специфических белков тоже зависят от длины повтора.
Сплайсинг человеческого гена eNOS зависит от блока повторов СА (от
14 до 44 повторов) в 13 интроне. Он расположен в 80 п.н. от 5’-сайта
сплайсинга экзона 13. Его действие как энхансера сплайсинга зависит от
связывания с белком hnRNP L. В отсутствие же этого белка присутствие
блока повторов необходимо и достаточно для разрезания примыкающей с 5’конца РНК [57]. Хотя последний процесс и не зависит прямо от длины
24
повтора, тем не менее «длинные» аллели связаны с высоким риском болезни
коронарных артерий.
Сохранение 10-16 единиц GT-повтора во втором интроне гена NCX1
необходимо для его сплайсинга [58]. Тем не менее, влияние повторов на
сплайсинг часто не вполне специфично, и возможны значительные вариации
повторяющейся последовательности. В 3’-сайте сплайсинга второго интрона
человеческого гена apo-AII находится последовательность (GT)16GGGCAG,
замещение которой полипиримидиновым трактом нарушает сплайсинг. Тем
не менее, последовательности (GT)2GG уже достаточно для его адекватного
протекания [59].
Потеря повторов может коррелировать с потерей импринтинга. Так,
например, известно, что мышиный ген Impact в отличие от человеческого
является импринтированным. Его CpG-остров лежит внутри первого
интрона, дифференциально метилирован и содержит тандемные повторы
TCGGC. Человеческий Impact захватывает лишь первый экзон, тандемных
повторов не содержит и не метилирован для обоих аллелей [60].
Центромерным повторам приписываются такие функции как когезия
сестринских хроматид и участие в образовании и функционировании
кинетохора.
Сообщалось,
что
динуклеотидные
повторы
обладают
высоким
сродством к белкам, участвующим в рекомбинации. Предполагается, что в
рекомбинации могут участвовать белки, узнающие повторы GT, CA, CT, GA,
GC и AT в связи с их способностью образовывать Z-форму ДНК или другие
неканонические
структуры.
Однако
для
22
хромосомы
человека
существенная связь между частотой рекомбинации и наличием повторов
была найдена только для повторов GT, причём более значительным было
влияние на рекомбинацию у мужчин.
Предполагается участие повторов в контроле репликации и клеточного
цикла. Такие контролирующие клеточный цикл гены, как hMSH3, hMSH6,
BAX, IGFIIR, TGFbetaIIR, E2F4 и BRCA2 содержат микросателлитные
25
повторы, значимые для их экспрессии. Их мутационная нестабильность
может привести к опухолеобразованию. С нестабильность повторов могут
быть связаны и нарушения в работе белков системы MMR репарации,
которые, ограничивая микросателлитную нестабильность, в то же время
содержат блоки микросателлитов в собственных генах.
В гене HRAS1 примерно в 1000 п.н. вниз по течению от кодирующей
последовательности находится 28 п.н. минисателлит, содержащий от 30 до
100 единиц. Редкие варианты этого локуса ассоциированы с несколькими
типами рака [61]. Отметим, что часть этой последовательности высоко
гомологична
последовательности,
узнаваемой
белком
rel/NF-χB
(GGGGAC(G/T)(C/T)(C/T)CC).
Есть и примеры влияния повторов собственно на фенотип [62]. У гена
Drosophila melanogaster period есть аллель, содержащий (Thr-Gly)17 и аллель,
содержащий (Thr-Gly)20. Они в разной степени способны поддерживать
циркадный
цикл
при
колебаниях
температуры
и
характеризуются
выраженной широтной клиной [63, 64].
Высокий уровень экспрессии гена вазопрессинового рецептора avpr1a в
мозге
способен
вызвать
у
немоногамных
полёвок
предпочтение
определённого партнёра [65]. Моногамные и социальные виды этого рода
имеют в 5’-регуляторной области соответствующего гена сложные повторы,
большинство из которых отсутствует у немоногамных и асоциальных видов.
Аналогичная изменчивость есть и у приматов. Человек и бонобо (для
которых характерна привязанность к половому партнёру) имеют перед этим
геном гомологичный тракт повторов, в то время как у шимпанзе
значительная его часть делетирована [66]. В трансгенных экспериментах
avpr1a, сопровождаемый повторами, характеризовался более высоким
уровнем
экспрессии,
причём
индивидуальные
варианты
с
более
протяжённым трактом GA давали повышенный уровень экспрессии [67].
У собак ген Runx-2 содержит два смежных блока повторов, кодирующих
18-20 глутаминовых остатков и 12-17 аланиновых [68]. Число повторов
26
коррелировало с формой лицевой части черепа у потомства от разных
скрещиваний. У человека гомологичный ген OSF2 влияет на форму лицевой
части черепа, причём в семье, где число аланиновых повторов было
увеличено с 17 до 27 наблюдалась клейдокраниальная дисплазия. Для
породы
собак,
характеризующейся
полидактилией,
было
показано
сокращение на 51 нуклеотид гексануклеотидного повтора в гене Alx-4,
который у мыши связан с полидактилией [69].
По понятным причинам в большинстве работ изучались главным
образом совершенные (невырожденные) повторы. Механизм их экспансии
более понятен. Однако в тех случаях, когда роль повтора определяется,
например, взаимодействием с тем или иным белком, предполагается
возможность
связывания
последовательностями,
Регуляторами
белка
лишь
сплайсинга
бы
могут
с
достаточно
они
быть
разнообразными
соответствовали
различные
консенсусу.
пентануклеотидные
повторы, содержащие GGG.
Крайний случай сильно вырожденного повтора – наличие периодически
повторяющихся мотивов в ДНК. Подобная периодика была показана,
например, в статье [70] для мотивов связывающих транскрипционные
факторы дрозофилы. Авторы дают обзор тех работ, в которых периодичность
мотивов, взаимодействующих с транскрипционными факторами, оказывалась
значимой для адекватной работы гена. Особо выделяется ими период 10-11
п.н., при наличии которого соответствующие белки на трёхмерной структуре
ДНК оказываются сближенными. Для эффективного взаимодействия с
нуклеосомой структура ДНК тоже должна содержать определённые типы
последовательностей с аналогичной периодичностью. На наличие 3-, 10.5-,
200- and 400-периодичностей в ДНК указывают и другие авторы [71]. Этой
же группой авторов также отмечалась периодичность расположения сайтов
связывания транскрипционных факторов [72].
Нас интересовали как точные повторы в ДНК, как и вырожденные, то
есть те, в которых прослеживается периодичность в последовательности
27
нуклеотидов, но так же допускается высокий процент замен. Второй тип
повторов (с длиной повторяющейся единицы от 4 до 9 пар оснований) был
отмечен в регуляторных областях, где он может выступать в роли сайта
связывания факторов транскрипции [70].
ПОИСК ТАНДЕМНЫХ ПОВТОРОВ В
ПОСЛЕДОВАТЕЛЬНОСТЯХ БИОПОЛИМЕРОВ. ОБЗОР
АЛГОРИТМОВ И ПРИЛОЖЕНИЙ.
Вопрос разработки алгоритма для поиска тандемных повторов в ДНК
стоит последние пятнадцать лет. В настоящий момент существует более
десяти различных программ для поиска периодических структур в
последовательностях ДНК. Но пока нельзя сказать, что существует
единственно возможный правильный алгоритм поиска. Каждый алгоритм
нацелен на определенную задачу и класс определяемых повторов; степень их
вырожденности, длина периода и другие параметры различны от программы
к программе. Ниже мы дадим краткий обзор наиболее часто используемых
приложений.
Для полногеномного сканирования с целью поиска микросателлитных
последовательностей зачастую используется инструмент EQUICKTANDEM,
входящий в пакет проекта EMBOSS [73]. EQUICKTANDEM это простая,
основанная на подсчете статистик замен программа, которая позволяет
определять тандемные структуры в ДНК для каждого заранее заданного
значения длины повторяющейся единицы. Возможный консенсус для
повторяющейся единицы и правильная длина периода могут быть посчитаны
с использования другой программы, ETANDEM, из пакета EMBOSS.
Программа
REPEATMASKER
[74]
(http://ftp.genome.washington.edu/RM/RepeatMasker.html)
используется
для
‘маскирования’
последовательностей
широко
ДНК
низкой
сложности или обладающих периодической структурой с целью понизить
28
‘шум’, к которому они приводят при поиске гомологичных участков.
Программа нацелена на определение повторов ограниченных типов, в том
числе не только тандемных, но и дисперсных. Среди тандемных повторов в
основном это микросателлитные повторы и некоторые минисателлитные
повторы ограниченной длины.
Были предложены различные алгоритмы [75] для поиска вырожденных
тандемных повторов, как с разрешенными заменами между словами
(расстояние Хамминга [76]), так и с разрешенными делециями и вставками
букв (расстояние Левенштейна [77]). Максимальная временная сложность
предлагаемых алгоритмов составляет O ( nk log( k ) log( n) + S )
расстояния Левенштейна и
O ( nk log( n / k ) + S )
в случае
в случае расстояния
Хамминга (k это максимальное расстояние между двумя тандемно
повторяющимися копиями, S количество найденных повторов).
Для перечисленных ниже методов поиска тандемных повторов пока, как
нам известно, не существует исполняемых программ в свободном доступе.
Так, один из методов [78] находит тандемно повторяющиеся заранее
заданные мотивы с целью компрессировать последовательность ДНК для
оценки
ее
«количества
информации».
Алгоритм
[79]
предлагает
эвристический подход к поиску тандемных повторов a priori заданной
длиной повторяющейся единицы. Другой предлагаемый алгоритм [80]
использует общий комбинаторный подход для определения «консенсуса
повтора», а также эвристические методы фильтрации данных с целью
избежать экспоненциального роста временной сложности.
В 1999 году был представлен алгоритм, включающий эвристическую и
статистическую составляющую, воплощенный в программе Tandem Repeats
Finder (TRF) [81]. Подход, используемый для определения повторов, можно
сравнить с известным алгоритмом BLAST (Basic Local Alignment Search Tool)
[82]: он основан на первоначальном получении информации о коротких (в
действительности 5-7п.н.) точных повторяющихся фрагментах (seeds), и
дальнейшего
удлинения
этих
фрагментов
в
соответствии
с
неким
29
статистическим критерием уже до вырожденных тандемных повторов.
Также, проблема поиска периодических сигналов в последовательностях
биополимеров решалась с помощью автокорреляционного анализа [83-85].
Однако такие методы, как и описанный выше Tandem Repeat Finder [81] не
могут решить проблему выбора лучшей длины периода повтора среди
перекрывающихся найденных тандемных структур.
Чтобы завершить обзор известных инструментов поиска повторов в
ДНК, приведем еще несколько недавно опубликованных программ. Одна из
них [86] основана на технике поиска точных коротких повторяющихся
фрагментов, и в этом смысле она похожа на TRF [81], и определяет
тандемные повторы обладающих дополнительной структурой (VLTRs и
MPTRs). Вторая часто используемая программа TROLL [87] ищет точные
тандемные повторы с заранее заданными мотивами, используя модификацию
алгоритма Ахо-Корасика [88]. Другой недавно опубликованный алгоритм,
MREPS, [89] использует комбинированный комбинаторно-эвристический
подход. Но в силу того, что он, как и большинство других приведенных
алгоритмов, не оценивает значимость найденных структур, он не способен
определить
наиболее
подходящую
длину
периода
среди
самоперекрывающихся повторов с различной длиной периода. К тому же,
mreps использует своеобразный фильтр на количество замен между словами,
что не позволяет получить на выходе одновременно короткие и длинные
повторы с определенным процентом замен между копиями. Например, в
случае малых значений соответствующего параметра (‘fuzziness’ = 5) на
выходе получаются повторы с короткой длиной периода, но с большим
количеством
замен
между
повторяющимися
единицами,
и
высоко
консервативные повторы с большой длиной периода.
Одна из наиболее часто используемых программ для поиска точных
повторов в последовательности биополимеров это tandyman [90]. Опять же
нужно заметить, что с помощью этой программы возможно искать только
невырожденные тандемные повторы.
30
Короткие вырожденные повторы с длиной периода от 2 до 5 пар
оснований можно искать, используя программу Sputnik [91]. Программа
сканирует последовательно каждую позицию, предполагая наличие повтора,
сравнивает нуклеотиды на данной и последующей позициях и пересчитвает
скор. Если скор превышает пороговое значение, позиция включается в
повтор, в противном случае сканирование начинается со следующей
позиции. Трем возможным типам ошибок: заменам, вставкам и делециям,
соответствуют свои значения штрафа. Рекурсивная динамическая процедура
позволяет выбрать наилучший с точки зрения суммарного скора тип ошибки.
Как и многие другие программы Sputnik ищет периодический структуры для
заранее заданного значения периода.
Но надо заметить, что согласно существующей теории [92] при
возникновении микро- и минисателлиты (replication slippage, неравный
кроссинговер) не содержат ошибок (замен, делеций и вставок), но в силу
происходящих в процессе биологической эволюции точечных мутаций
сателлитные последовательности их накапливают. Из этого следуют, что
даже
при
постановке
такой
узкой
задачи,
как
картирование
микросателлитных последовательней необходимо учитывать возможность
нуклеотидных замен.
Кроме того, стоит задача выбора правильного периода в периодических
последовательностях.
Примером
ACT|ACT|ATT|ACT|ATT|ACT,
может
которую
служить
можно
последовательность
рассматривать
как
шестикратный повтор слова ACT, либо как трехкратный повтор слова
ATTACT. Большинство алгоритмов, включая наиболее популярный Tandem
Repeat Finder [81], не могут дать ответ на вопрос, какой период будет в
данной ситуации правильным, и выводят одну и ту же последовательность по
нескольку раз с различными значениями периода. И хотя есть задачи, когда
это и требуется, зачастую для составления карт, например в таких
приложениях, как The Human Genome Browser [93], нужно иметь инструмент
для выбора «правильного» периода. Для решения этой задачи можно
31
использовать оценку статистической значимости найденного повтора с
соответствующим разбиением на повторяющиеся единицы. Статистическая
значимость отражает вероятность найти структуру подобную данной в
случайном тексте, сгенерированном в соответствии с определенной моделью.
Отсюда следует еще одно важное приложение значения статистической
значимости – для сильно вырожденных повторов возможность оценить
вероятность их случайного появления в тексте. Другими словами подсчет
статистической значимости для периодической или псевдопериодической
последовательности может дать ответ на вопрос, действительно ли следует ее
рассматривать как повтор, или же ее появление в тесте генома можно отнести
на счет случайных точечных мутаций.
32
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Глава I. Построение статистической модели для
оценки статистической значимости наблюдаемых
периодических структур. Формулировка
статистических критериев, позволяющих
идентифицировать характерные сложные структуры в
генетических текстах.
В этой главе мы строим две статистические модели для наблюдаемых
периодических структур, выводим формулы для оценки их статистической
значимости. Одна из формул, будет получена с помощью производящих
функций в рамках теории элементарных языков развитой в INRIA,
Rocquencourt, другая с помощью средств комбинаторной алгебры. Будут
описаны области использования того или иного подхода.
В главе «Обзор Литературы» было подробно описано, когда возникает
проблема оценки статистической значимости найденной структуры.
Представим, что в последовательности нуклеотидов, мы нашли некую
регулярную структуру. Пусть она представляет собой слово длины три,
повторенное три раза. Можно ли считать, что это слово встретилось не
случайно в тексте? Видимо, все зависит от длины текста, в котором была
найдена данная структура и от распределения букв в тексте. Например,
если
длина
текста
представляется,
что
составляет
вероятность
несколько
найти
тысяч
некое
нуклеотидов,
слово,
длины
то
три,
повторенное три раза должна быть близка к единице, и факт нахождения
этой структуры нужно считать незначимым. Можно также учитывать
33
состав букв в слове – чем реже встречаются в тексте буквы (или сочетания
букв), составляющие данное слово, тем более значимым представляется
событие найти это слово в случайном тексте.
Таким образом, оценка значимости найденной структуры необходима,
чтобы отбросить структуры, найденные в тесте «случайно». То есть
отфильтровать структуры, для которых вероятность найти их в случайном
тексте данной длины, распределенном в соответствии с данной моделью,
близка к единице.
Есть также и другая проблема, возникающая, при поиске тандемных
повторов в тексте, для решения которой можно использовать оценку
значимости найденных структур. Представим, что в нашем тексте
встретилась подпоследовательность ACT|ACT|ATT|ACT|ATT|ACT, которую
можно рассматривать как шестикратный повтор слова ACT, либо как
трехкратный повтор слова ATTACT. Какой период следует считать
правильным? Для решения этого вопроса можно оценить вероятность
встретить в случайном тексте каждую из структур – шестикратный повтор
слова длины три, либо трехкратный повтор слова длины шесть. Чем меньше
вероятность встретить подобную структуру в случайно-сгенерированном
тексте, тем больше значимость повтора. Для примера, в тексте с частотами
нуклеотидов pA=0.28, pC=0.18, pG=0.18, pT=0.36, вероятность встретить
первую структуру (в смысле модели Mask описанной ниже) будет равняться
1.623214e-006, а вероятность встретить вторую структуру – 2.207286e-006.
Таким образом, в данном случае первая структура будет предпочтительнее,
и мы будем считать, что правильный период в случае повтора
ACT|ACT|ATT|ACT|ATT|ACT в тексте с данными частотами будет равен
трем.
Здесь мы вводим понятие случайного текста, отвечающего модели
34
(схеме) Бернулли [94]. В дальнейшем под «случайным текстом» будет
пониматься именно такой текст.
Определение (1.1). Пусть дан алфавит Ā = {α1,…, αn}. Случайная
последовательность S = S1S2…SN распределена согласно схеме Бернулли c
вероятностями Pα1, Pα2, …, Pαn, если P(Si = αk) = Pαk для любой позиции i, где
∑ Pαk =1, и Si и Sj независимы для i ≠ j.
Заметим, что вероятности PA, PC, PG, PT оцениваются из текста, в
котором был найден повтор.
Как уже было сказано, мы разработали два подхода к построению
модели для оценки статистической значимости повтора. Опишем сначала
первую, называемую в дальнейшем моделью «motif». Ее отличие от второй
модели, «mask» во многом состоит в том, что конкретные буквы, из
которых состоит повтор, играют роль в подсчете вероятности.
Модель ‘Motif’.
Итак, пусть у нас есть подпоследовательность S = S1S2…SkL, которую
мы рассматриваем, как k-кратный повтор мотива длины L. То есть можно
выписать k слов, похожих друг на друга, найденных одно за другим в
последовательности: w1 = S1S2…SL, w2 = SL+1SL+2…S2L,…, wk = SLk-L+1SLkL+2…SkL.
Выписав эти слова одно под другим, мы можем увидеть, что одни
позиции более консервативные, чем другие; например, на одних возможен
выбор из двух букв, на других может стоять любая буква. Чтобы учесть эту
информацию, мы составляем IUPAC консенсус (Приложение 1) для
выровненных слов – единиц повтора.
Пример
(2.1).
Пусть
наша
подпоследовательность
это
ccctaaccctaacccgaaccctaacccgaaccctaaccctaa (human genome, 17th UCSC release,
35
хромосома 18, позиции 88752-88793). Разбив ее на слова длины 6 п.н., мы
увидим, что возможны всего два варианта: ccctaa или cccgaa. Таким
образом, наш консенсус для повторяющегося слова будет CCCKAA, где
буква K на четвертой позиции означает «либо g, либо t».
Пример
(2.2).
Аналогично
GGTCC|TGCCC|TGCCC|TGTGC
(human
для
genome,
подпоследовательности
17th
UCSC
release,
хромосома 1, позиции 4456131-4456150), IUPAC консенсус будет KGYSC,
где K означает «либо G, либо T», Y «либо C, либо T», S «либо C, либо G».
Заметим, что во втором примере под консенсус подходят не только те
слова, которые образуют данный тандемный повтор (GGTCC, TGCCC,
TGTGC), но и GGCCC, GGTGC, TGCGC и т.д. В рамках этой модели мы
считаем, что с точки зрения структуры повтора ошибки в каждой позиции
независимы. То есть, например, если среди слов образующих повтор есть
слово с заменой, скажем, С на G в первой позиции, и есть слово с заменой,
скажем, С на Т во второй позиции, то мы будем считать, что слово с
буквами G и T на первой и второй позициях тоже удовлетворяет
наблюденной структуре. Таким образом, мы можем рассматривать повтор
из второго примера как слово из множества H4 = H.H.H.H, где H это
множество слов, подходящих под построенный консенсус.
Теперь мы можем считать, что построена модель для тандемного
повтора: конкретный тандемный повтор рассматривается как реализация
множества Hk, где H это множество слов, подходящих под IUPAC
консенсус, а k число копий. Таким образом, оценить статистическую
значимость повтора можно через подсчёт вероятности встретить слово из
Hk в случайном тексте с заданными распределением и длиной. В нашем
подходе мы считаем вероятность встретить слово из Hk при условии, что мы
36
нашли уже хотя бы раз слово из H.
В литературе вероятность встретить в случайном тесте длины N слово
из произвольного множества M, состоящего из q слов длины m, называется
«вероятностью первой встречи» слова из множества или p-value. Самый
простой способ ее посчитать это применить приближенную формулу
Пуассона:
P-valuePoisson ( M ) = 1 − (1 − Pr( M ) )
N − m +1
,
(2.3)
где Pr(M) это вероятность встретить слово из множества M на
произвольной позиции, N длина текста, m длина слов из множества M.
Формулу можно понимать так: 1 − Pr( M ) это вероятность НЕ встретить
слово из множества M на произвольной позиции; (1-Pr(M))N-m+1 это
приближенная вероятность не встретить слово из множества M нигде в
тесте, т.е. ни на одной из (N-m+1) позиций; 1-(1-Pr(M))N-m+1 будет
соответственно приближенной вероятностью встретить хотя бы одно
вхождение слова из множества M в тексте длины N.
Вероятность Pr(M) есть сумма вероятностей встретить каждое
отдельное
Pr( M ) =
слово
∑ P(ω ) .
ω∈M
произведение
Pr(ω ) = Pr(ω1ω2
из
множества
M
на
произвольной
позиции.
В рамках модели Бернулли вероятность Pr(ω) есть
вероятностей
букв
ω i,
составляющих
слово
ω.
ωL ) = ∑ Pr(ωi ) .
i
Основной минус использования формулы Пуассона для множества Hk
следующий: события встречи слова из данного множества на соседних или
близких позициях считаются независимыми. Такое приближение, в
принципе, может иметь место, но оно является слишком грубым в случае
тандемных повторов. Рассмотрим пример:
37
Пример (2.4). Пусть наш тандемный повтор это повторяющееся пять
раз слово ACT, длина текста 18, вероятности встречи букв A,C,G,T на
любой позиции i равны ¼ и независимы (модель Бернулли). Тогда
вероятность найти слово на первой позиции равна (¼)15. Тому же равна
вероятность найти это слово на четвертой позиции. Но вероятность найти
это слово на четвертой позиции, зная, что мы его нашли на первой, будет
уже равна (¼)3, что почти в 17 миллионов раз больше. Все же, даже в этом
примере вероятность найти слово на четвертой позиции, зная, что мы его не
нашли на первой, будет не много отличаться от (¼)15: она будет равна (1(¼)3)/(415-1), т.е. реальная вероятность меньше в (1-(¼)3)≈0.984 раза. Так как
длина текста может быть большой, то ошибка при использовании формулы
Пуассона будет накапливаться, грубо говоря, возводиться в степень (N-Lk).
Но мы можем использовать приближение Пуассона для множества H,
т.к. в нем нет такой явной периодической структуры по построению:
множества, для которых используется формула, проходят предварительную
проверку на отсутствие периодичностей в составляющих их словах.
В случае же тандемных повторов (множества Hk) оказалось, что
ошибки, связанной с самопериодичностью слов, можно избежать, введя
поправочный множитель аналогичный (1-(¼)3) из примера (2.4).
PF -value( H k ) ≈ 1 − (1 − PrFk ( H ) (1 − PrF ( H ) ) )
N − Lk +1
(2.5)
Здесь PrF(H) означает то же самое, что и Pr(H) в формуле Пуассона,
вероятность мотива как множества слов. Буква ‘F’ добавлена, чтобы в
дальнейшем не путать вероятность мотива в рамках этой модели, ‘motif’, с
вероятностью мотива рамках второй модели, ‘mask’ (см. ниже). Уточненная
формула была выведена с использованием аппарата производящих функций
в рамках теории элементарных языков развитой в INRIA, Rocquencourt.
38
Подробный
вывод
представлен
в
разделе
«Вывод
формулы
для
PF -value( H k ) » ниже.
Сама формула, по которой будет считаться условная вероятность, на
основе которой будет оцениваться статистическая значимость повтора в
модели «motif», есть:
Prconditional
(
PF -value(H k )
H H =
P-value Poisson ( H )
k
)
(2.6)
k
Вывод формулы для PF -value( H ) .
В этой части мы приводим подробный вывод формулы (2.5) для
вероятности встречи тандемного повтора в случайной последовательности.
Здесь тандемный повтор представляет слово из множества Hk=H·H···H, где
H это множество слов, подходящих под консенсус. Так как важную роль в
подсчете вероятности первой встречи играют пересечения слов из
множества Hk, охарактеризуем все возможные пересечения/перекрытия.
Утверждение (3.1). Пусть H есть множество, состоящее из q слов
длины L. Тогда множество Hk состоит из qk слов H i : H k = {H i }1≤ i ≤q ,
k
всевозможных конкатенаций k слов из H. Пусть слово Hi из Hk пересекается
со словом Hj из Hk. Пусть w это их общее подслово, так что w является
суффиксом Hi и префиксом Hj. Тогда существуют три возможных случая
перекрытия, характеризующиеся длиной перекрытия |w|:
i.
|w| = rL, где 1≤ r ≤ k.
ii.
1≤ |w|< L.
iii.
|w| = (m-1)L+p, где 1≤ p< L и 2≤ m ≤ k.
Тогда для каждого случая верно:
i.
Слово w принадлежит к Hr , а его левое дополнение для Hi (т.е.
39
префикс p для Hi, такой, что Hi = p·w) принадлежит к Hk-r, так
же как и его правое дополнение для Hj (т.е. суффикс s для Hj,
такой, что Hj = w·s).
ii.
L-суффикс Hi и L-суффикс Hj это два (возможно одинаковых)
пересекающихся слова из H.
iii.
Существуют два слова wi1 ⋅ wi2
wim и wj1 ⋅ wj2
такие,
на
что
они
пересекаются
слово
wjm из Hm
длины
x,
где
(m − 1) L < x < mL .
Пример (3.2). Пусть множество H = {ATAT, ACAT} и при k = 2 Hk =
{ATATATAT
,
ATATACAT,
ACATATAT
,
ACATACAT}.
Пусть
ATATATAT пересекается с ATATACAT с общим подсловом ATAT:
ATAT(ATAT)ACAT. Тогда это будет перекрытие типа (i), w = ATAT будет
принадлежать к H1, так же как и левое и правое дополнения ATAT и ACAT
соответственно. Перекрытие ATATAT(AT) ATACAT относится к типу (ii) c
общим подсловом w = AT. Такое перекрытие возможно, потому что
существует потенциальное перекрытие между L-суффиксом ATAT слова
ATATATAT и L-префиксом ATAT слова ATATACAT. Мы видим, что в
данном случае ATAT это одно самопересекающееся слово из H.
Перекрытие AC(ATATAT)AT относится к третьему типу (iii), общее слово
w = ATATAT. Можно заметить, что данное перекрытие возможно из-за
периодической структуры слова ATAT.
Далее мы вводим понятие тривиальных перекрытий слов из множества
Hk. Учет только таких возможных перекрытий для слов из множества Hk
позволит получить упрощение более общей формулы (3.8) для вероятности
первой встречи слова из Hk.
40
Определение (3.3). Пусть даны множества H и Hk. Перекрытие между
двумя словами Hi и Hj из Hk называется тривиальным, если оно относится к
типу (i) или (ii) из Утверждения (3.1), т.е. длина общего слова либо кратна
длине L слов из H, либо меньше L. Если все пары слов из Hk имеют только
тривиальные перекрытия, то мы говорим, что множество Hk имеет только
тривиальные перекрытия.
Замечание (3.4). Если множество Hk имеет только тривиальные
перекрытия для некоторого k ≥ 2, то это верно для любого другого целого
k ≥ 2.
Здесь мы дадим общий результат для формулы для подсчета
вероятности первой встречи для слова из произвольного множества H.
Формула основывается на самопересечениях слов из множества H. Далее
будет дано определение автокорреляционной матрицы для множества слов
H. Более подробно теория излагается в работах [95, 96], посвященных
элементарным языкам и корреляционным функциям.
Определение (3.5). Пусть даны два слова Hi и Hj из множества H.
Тогда корреляционным множеством для слов Hi и Hj называется множество
CHi , H j , которое включает в себя все возможные правые дополнения w к Hi
до Hj, т.е. такие слова w, что длина w не больше длины слова Hj и Hj
является суффиксом слова Hi· w.
Корреляционным полиномом Сi,j(z) слов Hi и Hj называет многочлен:
Ci , j ( z ) =
∑
P( w) z |w| .
w∈CHi ,H j
Корреляционной матрицей для множества слов H называют матрицу
A(z) размера
q×q ,
такую
что
A( z ) = (Ci , j ( z ) + δ i , j )1≤i , j ≤ q .
Матрицей
вероятностей назовем q × q -матрицу H ( z ) с q одинаковыми строками
41
H ( z ) : H ( z ) = ( P ( H1 ) z L ,… , P ( H q ) z L ) .
Минимальным корреляционным множеством для слов Hi и Hj из H
называется множество CH , H , которое включает в себя все возможные
i
j
минимальные правые дополнения w к Hi до Hj, т.е. такие слова w , что
длина w не больше длины слова Hj и Hj является суффиксом слова Hi· w и к
тому же никакой собственный префикс w не является правым дополнение к
Hi до некоторого произвольного слова из H.
Определение (3.6). Пусть дано множество H. Тогда коэффициентом
перекрывания С(H) называется C ( H ) =
∑
∑
H i , H j ∈H w∈CHi ,H j
Pr( H i ⋅ w) .
Одним из результатов, изложенных в работе [96] явилась хорошая
приближенная формула для подсчета вероятности первой встречи для слов
из множества H.
Лемма (3.7). Пусть N длина текста, распределенного по закону
Бернулли, H множество слов. Тогда вероятность FN ( H ) первой встречи
слова из множества H равна:
FN ( H ) = 1 − (1 + Pr( H ) − C ( H ) )
−N
⎛
⎛ 1 ⎞⎞
⎜1 + O ⎜ N ⎟ ⎟ .
⎝ ⎠⎠
⎝
(3.8)
Доказательство этой леммы приводится в [96].
Таким образом, видно, что для подсчета вероятности первой встречи
тандемного повтора, т.е. слова из множества Hk, необходимо посчитать все
возможные перекрытия слов из Hk. Это может занять O(q2k) операций, где q
это количество слов в H. Если длина периода повтора равняется нескольким
десяткам нуклеотидов, повтор достаточно вырожденный и повторяет много
раз, то это число q2k может легко превысить несколько миллионов. К тому
же в задаче нахождения повторов в таком длинном тексте, как
42
эукариотический геном, мы будем вынуждены делать подсчет С(H) для
очень большого множества кандидатных повторов и, соответственно,
множеств H. Но можно учесть структуру перекрытий слов из множества Hk,
что и будет сделано ниже.
Выше было дано определение тривиальных перекрытий слов из Hk.
Заметим, что если период повтора определен правильно, то есть, нет
меньших подпериодов, то множество Hk будет иметь только тривиальные
перекрытия.
В дальнейшем мы считаем, что множество Hk, построенное для
тандемного повтора по модели motif (с использованием IUPAC консенсуса),
не содержит нетривиальных перекрытий. Этого можно добиться, находя
для каждого кандидатного повтора минимальный подпериод. Таким
образом, в этих условиях верна следующая теорема:
Теорема (3.9). Пусть даны множества H и Hk: Hk имеет только
тривиальные перекрытия. Пусть NPrk(H)<1, где N длина текста, Pr(H)
вероятность мотива (сумма вероятностей слов из множества H). q –
количество слов в H, L – длина слов из H.
Тогда в рамках модели Бернулли для вероятности FN ( H k ) первой
встречи слова из множества Hk верно:
FN ( H k ) = 1 − (1 + Pr k ( H ) (1 − Pr( H ) ) )
−N
⎛
⎛ L ⎞⎞
⎜1 + O ⎜ N ⎟ ⎟
⎝ ⎠⎠
⎝
(3.10)
Формула (3.10) может быть переписана в виде:
FN ( H k ) ≈ 1 − e
Для
− N Pr k ( H )(1− Pr( H ) )
доказательства
.
теоремы
нам
понадобится
дополнительное
утверждение (3.11).
Утверждение (3.11). Пусть H множество из q слов длины L. Hk имеет
только тривиальные перекрытия. Тогда для модели Бернулли
43
C ( H k ) = Pr( H k ) Pr( H ) + O ( L Pr 2 k −1 ( H ) ) .
(3.12)
Доказательство. Так как Hk имеет только тривиальные перекрытия,
возможны только два вида перекрытий слов из Hk: типов (i) и (ii). Заметим
сначала, что для любого слова из Hk любое слово из H будет является
правым дополнением до какого-то соответствующего слова из Hk. И
никакое слово длины менее чем L, не может быть правым дополнением к
некоторому слову из Hk, так как случай (iii) нетривиальных перекрытий
исключен. Поэтому вклад случая (i) в сумму для C(Hk) из определения (3.6)
k +1
k
будет Pr( H ) Pr( H ) , что в случае модели Бернулли равно Pr ( H ) .
Заметим, что пересечения слов Hi и Hj из H с длиной пересекающегося
слова кратной (но не равной) L не войдут в C(Hk), т.к. они не будут
минимальны в смысле определения (3.5), а именно они будут содержать
одно из слов из множества H в качестве префикса.
Рассмотрим, какой вклад в сумму для С(Hk) дает случай (ii). Для
произвольного слова Hi из Hk возможное правое дополнение запишется в
виде w·w1w2···wk-1 , где wi принадлежит множеству H, длина w меньше L.
Таким образом, |w| принимает не больше L возможных значений.
Вероятность
C(H k ) =
∑
Pr(w)
k
∑
ограничена
Pr( H i ⋅ w)
единицей.
Следовательно,
вклад
в
случая (ii) для модели Бернулли будет
H i , H j ∈H w∈CH i ,H j
2 k −1
ограничен значением Pr( H k )m Pr( H k −1 ) , что равно Pr( H ) L .
Суммируя вклады в С(Hk) случаев (i) и (ii) получаем требуемое
утверждение.
Замечание (3.13). Обычно требуется считать вероятность для редких
событий, т.е. когда Pr(Hk)N<1. Очевидно, что тогда само значение Pr(Hk)
44
2 k −1
) L может быть оценено как
очень мало. Тогда, значение Pr( H
Pr( H
2 k −1
N ⋅ Pr( H k ) N ⋅ Pr( H k −1 ) L
⎛1⎞ ⎛L⎞
⎛ L ⎞
)L =
⋅
= O⎜ ⎟⋅O⎜ ⎟ = O⎜ 2 ⎟ .
N
N
⎝N⎠ ⎝N⎠
⎝N ⎠
Теперь можно легко доказать теорему (3.9).
Теорема
(3.9). Пусть даны множества H и Hk: Hk имеет только
тривиальные перекрытия. Пусть NPrk(H)<1, где N длина текста, Pr(H)
вероятность мотива (сумма вероятностей слов из множества H). q –
количество слов в H, L – длина слов из H.
Тогда для модели Бернулли верно:
FN ( H k ) = 1 − (1 + Pr k ( H ) (1 − Pr( H ) ) )
Доказательство.
Учитывая
−N
⎛
⎛ L ⎞⎞
+
1
O
⎜ ⎟⎟
⎜
⎝ N ⎠⎠
⎝
утверждение
(3.14)
(3.11)
лемма
(3.7)
переписывается в виде:
(
FN ( H k ) = 1 − 1 + Pr( H k ) − Pr( H k ) Pr( H ) + O ( L Pr 2 k −1 ( H ) )
)
−N
⎛
⎛ 1 ⎞⎞
⎜1 + O ⎜ N ⎟ ⎟
⎝ ⎠⎠
⎝
(3.15)
Обозначим через λ выражение 1 + Pr( H k ) (1 − Pr( H ) ) = λ . Тогда, используя
замечание (3.13), выражение (3.15) переписывается в виде:
⎛
⎛ L ⎞⎞
FN ( H ) = 1 − ⎜ λ + O ⎜ 2 ⎟ ⎟
⎝ N ⎠⎠
⎝
k
−N
⎛
⎛ 1 ⎞⎞
⎜1 + O ⎜ N ⎟ ⎟ .
⎝ ⎠⎠
⎝
⎛
⎛ L ⎞⎞
Здесь множитель ⎜ λ + O ⎜ 2 ⎟ ⎟
⎝ N ⎠⎠
⎝
⎛
⎛ L ⎞⎞
⎜λ + O⎜ N 2 ⎟⎟
⎝
⎠⎠
⎝
−N
=e
⎛ ⎛
⎛ L ⎞⎞⎞
− N log ⎜ λ ⎜ 1+ O ⎜
⎟⎟⎟
⎝ λN 2 ⎠⎠⎠
⎝ ⎝
−N
может быть представлен как
⎛
⎛
⎛ L ⎞⎞
⎛ L ⎞⎞
= λ − N ⎜1 + N ⋅ O ⎜
= λ − N ⎜1 + O ⎜ ⎟ ⎟
2 ⎟⎟
⎝ λN ⎠⎠
⎝ N ⎠⎠
⎝
⎝
.
45
⎛
⎛ L ⎞⎞ ⎛
⎛ 1 ⎞⎞
⎛L⎞
И т.к. ⎜1 + O ⎜ ⎟ ⎟ ⋅ ⎜1 + O ⎜ ⎟ ⎟ = 1 + O ⎜ ⎟ , то вытекает (3.14).
⎝ N ⎠⎠ ⎝
⎝ N ⎠⎠
⎝N⎠
⎝
Замечание (3.16). Если длина текста N сравнима с длиной мотива kL,
то приближение (3.14) лучше уточнить:
FN ( H k ) ≈ 1 − (1 + Pr k ( H ) (1 − Pr( H ) ) )
Замечание
(3.18).
От
− N + kL −1
выражения
.
(3.17)
(3.17)
легко
перейти
к
эквивалентному выражению (2.5) взяв первый член от разложения (1 + x) − N ,
где x = Pr( H k ) (1 − Pr( H ) ) :
N
(1 + x)
−N
N
N
N
⎛ 1 ⎞
2
3
2
2
=⎜
⎟ = (1 − x + x − x + …) = (1 − x + O ( x ) ) = (1 − x ) + O ( Nx )
⎝ 1+ x ⎠
В случае NPrk(H)<1, получаем аналогично замечанию (3.13):
O( Nx 2 ) = O( NP k ( H )) = O( N1 ) .
Таким образом, мы видим, что точность аппроксимации при переходе
от формулы (3.14) к формуле (2.5) не страдает.
Модель ‘Mask’.
Вторая модель для подсчета вероятности повтора основана на учете
структуры повтора, консервативности позиций. Для нее не важны
конкретные буквы, из которых состоит повтор, а скорее насколько часто
одна и та же буква встречается в конкретной позиции.
Рассмотрим k-кратный повтор, слово S, S = w1w2…wk. Слова w1,w2,…wk
похожи между собой, но не обязательно идентичны. Обозначим через L их
общую длину: L = wi . Выровняв их относительно друг друга, т.е. выписав
слова w1,w2,…wk одно под другим, для каждой позиции i :1 ≤ i ≤ L , мы
46
можем сказать чему равно максимальное количество идентичных букв для
этой позиции. Обозначим эти числа через ki.
Пример (3.19). Рассмотрим повтор TTC|TCC|TGG. Для него k = 3;
k1=3, т.к. буква T встречается на первой позиции три раза из трех; k2=1, т.к.
все буквы на второй позиции разные; k3=2, т.к. на третьей позиции буква C
встречается два раза из трех.
Далее, для набора (L; k; k1,…,kL) мы можем посчитать вероятность
PrS ( L; k ; k1 , k2 , …, k L ) встретить такую структуру случайно на произвольной
позиции в тексте. Мы находимся в рамках модели Бернулли для текста, с
вероятностями букв pA, pC, pG, pT. Поэтому мы можем считать позиции
независимыми и просто перемножить вероятности встречи как минимум ki
идентичных букв на позиции i для каждой позиции i :1 ≤ i ≤ L . Для каждой
же позиции i вероятность найти не менее чем ki, идентичных букв,
получается как сумма вероятностей полиномиальных распределений.
L
PrS ( L; k ; k1 , k2 , …, k L ) = ∏
∑
i =1 n A , nC , nG , nT ∈Z0 :
n A + nC + nG + nT = k ,
∃α ∈{ A ,C ,G ,T }:nα ≥ ki
k!
p AnA pCnC pGnG pTnT
nA !nC !nG !nT !
(3.20)
Для оценки значимости найденного повтора в тексте длины N в модели
“mask”
мы
используем
оценку
вероятности
встретить
структуру,
описываемую набором (L; k; k1,…,kL) в случайном тексте длины N. Под эту
структуру, «маску», подходят все слова длины Lk, для которых при
выравнивании их k подслов w1,w2,…wk длины L на каждой позиции i
количество идентичных букв не меньше, чем ki. Эту вероятность мы
оцениваем, применяя приближенную формулу Пуассона и (3.20).
PS -value = 1- (1- PrS ( L; k ; k1 , k2 ,… , k L )) N - Lk +1
(3.21)
Безусловно, минусом этого подхода является то, что мы не учитываем
47
самоперекрывания слов, подходящих под «маску». Но учет этого слишком
усложнил бы задачу, к тому же, в случае модели «mask» нет такой строгой
структуры самопересечений, как в модели «motif», и вероятность, которой
мы пренебрегаем, обычно сильно меньше, чем та, которой мы бы
пренебрегли, если бы использовали обычную формулу Пуассона в модели
«motif» (2.3).
В заключение, можно сказать, что мы сформулировали две модели для
сопоставления повтору множества слов с похожей структурой, включающее
данный повтор. В модели «motif» это слова, подходящие под консенсус, в
модели «mask» это слова, подходящие под «маску», т.е. обладающее не
меньшей, чем у данного повтора, консервативностью позиций.
Выбор между этими моделями для оценки статистической значимости
повторов стоит за исследователем. Наш опыт показывает, что алгоритм
поиска не сильно чувствителен к смене модели, но в наших экспериментах
мы все же предпочитали модель «mask», потому что в тех случаях, где
наблюдалось расхождение, модель «mask» работала более адекватно. С
другой стороны, эта модель не учитывает буквенный состав повтора,
поэтому в текстах с сильно смещенным от равномерного распределением
букв, мы бы посоветовали пользоваться моделью «motif».
Замечание (3.22). Формулы (2.5) и (3.21) можно обобщить на случай
дробного количества копий x = k + x0 : k ∈ Z, 0 ≤ x0 < 1 . Пусть L длина мотива,
а l = x0 L – длина последнего неполного периода. Например, для повтора
2
2
CTT|CAT|CT k=2, x0= 3 , x =2 3 , L=3, l=2.
Для модели «motif»: строим, как и раньше, консенсус. Например, для
повтора CTT|CAT|CT консенсус будет CWT. Далее, вероятность мотива
будет вероятность Hk, умноженная на вероятность l-‘хвоста’, т.е. Px-motif =
Pr(Hk)·Pr([H]l). Для повтора CTT|CAT|CT вероятность Hk будет Pr(Hk) =
48
Prk(H) = ( P(C)·P(W)·P(T) ) , а вероятность l-хвоста Pr([H]l) = Pr(C)·Pr(W) .
2
Таким образом, для нашего примера вероятность всего x-мотива будет
Pr 3 (C)·Pr 3 (W)·Pr 2 (T) . Далее, в формуле (2.5) мы заменяем PrF(Hk) на Px-motif
= Pr(Hk)·Pr([H]l), но поправочный множитель (1 − PrF ( H ) ) остается тем же,
в силу тандемной структуры Hk. В результате, для дробного количества
копий мотива, x = k + l L , формула (2.5) переписывается в виде:
PF -value ≈ 1 − (1 − Pr k ( H )·Pr([ H ]l ) (1 − PrF ( H ) ) )
N − Lk +1
(3.23)
В модели «mask»: первые k слов полной длины L так же, как и раньше,
выравниваются одно под другим, последним словом записывается l-хвост.
Дальше, точно так же для каждой позиции i подсчитываются ki. Заметим,
что количество букв в первых l позициях равно (k+1), в последних (L-l)
позиции равно k. Поэтому формула (3.20) превращается:
l
PrS ( L; l; k ; k1 , k2 ,…, kL ) = ∏
∑
k!
pAnA pCnC pGnG pTnT ×
nA !nC !nG !nT !
∑
(k + 1)!
pAnA pCnC pGnG pTnT
nA !nC !nG !nT !
i =1 nA , nC , nG , nT ∈Z0 :
nA + nC + nG + nT = k ,
∃α ∈{ A,C ,G ,T }:nα ≥ ki
L
×∏
i =l +1 nA , nC , nG , nT ∈Z0 :
nA + nC + nG + nT = k +1,
∃α ∈{ A,C ,G ,T }:nα ≥ ki
(3.24)
А формула (3.21) соответственно в
PS -value = 1- (1- PrS ( L; l ; k ; k1 , k2 ,… , k L )) N - Lk −l +1
(3.25)
Для повтора CTT|CAT|CT с k = 2, L = 3, l = 2, значения ki будут
следующие: k1=3, k2=2, k3=2.
Приведем конкретный пример подсчета вероятностей для обеих
моделей.
Длина
теста
100000п.н.,
частоты
нуклеотидов
49
PA ≈ 0.288, PC ≈ 0.212, PG ≈ 0.212, PT ≈ 0.288 . Повторы искались в 18ой
версии человеческого генома [93].
Пример (3.26). Рассмотрим повтор на Chr1, позиции с 4456131 по
4456152: GGTCC|TGCCC|TGCCC|TGTGC|TG; период повтора L = 5,
количество копий k = 4.4. Под консенсус подходят 8 слов, вероятность
мотива (в смысле модели «motif») Pr(Hk) = 3.66e-10, pF-value = 3.63e-05. Для
модели «mask» вероятность «маски» равна PrS(5; 4.4; 4, 5, 2, 3, 4) = 3.63e-05,
pS-value = 6.94e-02.
Для другого повтора на хромосоме 18, позиции с 88752 по 88793:
ccctaa|ccctaa|cccgaa|ccctaa|cccgaa|ccctaa|ccctaa; период равен 6, количество
копий 7, консенсус CCCKAA. Вероятность мотива (в смысле модели
«motif») Pr( H k ) = 3.80e - 23 , pF-value = 3.80e-18. Для модели «mask»
вероятность «маски» равна PrS(6; 7; 7, 7, 7, 5, 7, 7) = 2.27E-19, pS-value =
2.27e-14.
Видно, что вероятность мотива всегда меньше, чем вероятность
«маски». Так происходит, потому что обычно под маску подходит больше
слов, чем под консенсус, т.к. «маска» не учитывает буквенный состав
повтора.
50
Глава II. Разработка алгоритма поиска периодических
структур в последовательностях ДНК с
использованием статистических инструментов.
Реализация алгоритма и создание web-приложения.
Разработка Интернет-сайта, посвященного программе.
В этой главе описывается алгоритм поиска вырожденных тандемных
повторов с использованием оценок статистической значимости найденных
повторов, полученных в предыдущей главе. Также приводится краткое
описание других популярных программ поиска тандемных повторов в
последовательностях ДНК и объясняется, почему они не полностью
отвечают специфике нашей задачи.
Тандемные повторы отличаются между собой самой длиной повтора,
длиной периода, количеством копий (экспонентой) и количеством замен
между повторяющимися единицами повтора (вырожденностью). Например,
в повторе ATcgc|ATggc|ATtcc|ATcgg (IUPAC консенсус – ATBSS) только
две первые позиции в повторяющейся единице консервативны. Можно
привести
множество
примеров
тандемных
повторов с еще более
вырожденным консенсусом. Нужно сказать, что современные программы
поиска заточены в основном на поиск слабо вырожденных повторов, где
хотя бы 70-80 процентов позиций консервативны [81, 89].
Обычно, поиск периодических сигналов в последовательностях
биополимеров осуществляется при помощи автокорреляционного анализа
[83-85] и/или выравнивания повторяющихся единиц (например, [81]).
Однако, такие алгебраические методы, сами по себе, не могут выбрать
51
наилучший
повтор
среди
нескольких
пересекающихся
повторов
с
различной длиной периода. К тому же, в случае сильно вырожденных
тандемных
повторов
нельзя
пренебрегать
возможностью
наблюсти
вырожденный повтор случайно, просто потому что вероятность встретить
данный повтор на произвольной позиции велика, а текст, в котором
осуществляется поиск, имеет достаточно большую длину. В нашей работе
мы добавили к алгоритму поиска повторов статистический критерий,
позволяющий различить значимые повторы от менее значимых.
Первый шаг алгоритма состоит в определении кандидатных повторов с
помощью автокорреляционного анализа. На втором шаге происходит
фильтрация кандидатных повторов в зависимости от их статистической
значимости.
Этот
этап
позволяет
получить
покрытие
данной
последовательности множеством непересекающихся тандемных повторов.
Данная
разметка
в
дальнейшем
может
быть
сопоставлена
с
соответствующей разметкой геномной аннотации и картами различных
функциональных участков.
До настоящего времени не существовало алгоритмов, отвечающих
всем вопросам, связанным с поставленной задачей. Некоторые алгоритмы,
такие как Tandyman [90], определяют только точные повторы, другие
находят повторы только с четко фиксированными параметрами, такими как
фиксированная длина периода, [80, 87], или же не могут решить проблему
пересекающихся повторов и выводят либо все, либо k лучших [81, 89]. Мы
встроили в наш программный пакет опцию, позволяющую оценить
статистическую значимость повторов, найденных другими поисковыми
программами, в частности TRF [81] и MREPS [89].
Далее алгоритм поиска тандемных повторов описывается более
подробно.
52
Распознавание кандидатных повторов.
На первом шаге алгоритма мы ищем кандидатные повторы для
каждого значения длины периода T из интересующего нас интервала.
Рис. 1. Распознавание кандидатных повторов. Позиция i массива w (output array)
содержит количество замен между тремя позициями последовательности (sequence) : i,
i+T, i–T. Позиция i массива A (local sum) содержит сумму Т последовательных элементов
массива w, начиная с позиции i. Позиции, содержащие малые значения массива А,
соответствуют тандемным повторам с длиной периода Т (более подробно этот шаг
алгоритма описан в тексте).
Для
каждой
позиции
i
данной
последовательности
алгоритм
производит сравнение слова длины T на позиции i со словами той же длины
на позициях i-T и i+T. Для каждой буквы изначального слова количество
замен, найденных при сравнении на каждой позиции, записывается в
соответствующей позиции массива w (output array). Т.е., если все три
символа,
разделенные
периодом
Т,
совпадают,
то
в
позиции,
соответствующей средней букве, массива w записывается 0; если только два
символа из трех совпадают, то в w записывается значение 1; и если все три
символа различны, то значение соответствующей позиции w будет равно 2.
Пример заполнения массива w с помощью описанной автокорреляционной
процедуры представлен на рисунке 1. Алгоритм определяет возможные
тандемные повторы, находя минимальные значения массива А, массива
локальных сумм элементов массива w, при вторичном проходе всех
позиций последовательности:
53
AT ⎡⎣i ⎤⎦ =
i +T −1
wT ⎡⎣k ⎤⎦ .
∑
k =i
(4.1)
Все позиции с локальной суммой, превышающей определенный порог
K, включаются в кандидатный повтор длины периода T. Бóльшие значения
K соответствуют тандемным повторам с большей степенью вырожденности.
Данная процедура повторяется для каждого значения Т длины повтора
из заданного интервала. Для каждого Т алгоритм находит повторы с длиной
периода Т, пробегая все значения K от нуля до (T-C), где С это
определяемый пользователем параметр, ‘уровень значимости’ (significance
level), буквально означающий максимально допустимое количество замен.
На втором шаге алгоритма происходит процесс фильтрации найденных
тандемных повторов.
Фильтрация кандидатных повторов. На предыдущем шаге алгоритма
мы получаем набор кандидатных повторов, характеризующихся своей
начальной и конечной позициями, длиной периода, экспонентой и уровнем
вырожденности. В общем случае найденные на этом шаге повторы могут
пересекаться. Но для составления геномных карт желательно, чтобы
пересечение
повторов,
покрывающих
последовательность,
было
минимально. Поэтому мы производим фильтрацию пересекающихся
повторов (например, с кратными периодами, такими как 3 и 6) с целью
выбрать из них наиболее значимый повтор. В предыдущей главе
представлены два методы оценки статистической значимости повтора –
motif и mask. Первый метод, motif,
основан на описании тандемного
повтора при помощи его IUPAC консенсуса (Приложение 1), формула для
подсчета соответствующего значения PF-value получена, используя теорию
производящих функций в рамках теории элементарных языков развитой в
INRIA, Rocquencourt. Второй метод, mask, основан на представлении
54
тандемного повтора как структуры, учитывающей консервативность
позиций; формула для соответствующего значения PS-value получена с
помощью средств комбинаторной алгебры.
На шаге фильтрации повторов, все найденные тандемные повторы
сравниваются попарно между собой. Сначала повторы с одинаковой длиной
периода, а потом все оставшиеся. При сравнении пары повторов, в случае
их пересечения в базе остается более значимый, т.е. тот, у которого P-value
меньше.
Мы
считаем,
что
повторы
пересекаются,
если
длина
пересекающегося слова больше, чем максимальная длина периода двух
слов.
Какую конкретно
модель,
mask
или
motif, использовать
для
фильтрации повторов, определяет пользователь. Обычно, когда текст имеет
достаточно
сдвинутое распределение
нуклеотидов (например, CpG-
острова), лучше использовать модель motif, т.к. в ней учитываются
вероятности букв, из которых состоит повтор. В случае же более-менее
равномерных частот нуклеотидов, скажем, средних по геному, является
более обоснованным использовать модель mask.
После стадии фильтрации, оставшиеся, наиболее значимые повторы,
выводятся в виде таблицы с указанием последовательности, в которой они
были найдены, начальной и конечной позиций, длины повтора, длины
периода, количества копий, консенсуса, PS-value и PF-value, количества
слов, подходящих под консенсус и самого повтора.
Надо заметить, что алгоритм не определяет повторы с длиной периода
равной 1 или 2, что соответствует полинуклеотидным трактам и
последовательностям типа TATA. Данные виды повторяющихся структур и
способы их обнаружения в последовательностях ДНК
были описаны в
других работах [1, 9, 97]
55
Реализация алгоритма и создания web-приложения. Разработка
Интернет-сайта, посвященного программе.
Алгоритм поиска тандемных повторов без делеций и вставок в
последовательностях ДНК, подробно описанный в предыдущем разделе,
был реализован на языке С++ и получил название TandemSWAN. Также
был создан сайт, с которого можно загрузить запускаемую с командной
строки версию программы или же использовать web-версию TandemSWAN.
Сайт
может
быть
найден
по
адресу
http://bioinform.genetika.ru/projects/swan/www.
Алгоритм основан на оценке статистической значимости найденных
тандемных
повторов
и
включает
в
себя
способность
правильно
распознавать период повторяющейся единицы и количество копий. На
данный момент на сайте доступны две версии программы. Более старая
версия позволяющая искать тандемные повторы только с целым числом
копий, была опубликована в [98]. Последняя версия, откомпилированная
под системы Linux и Windows, позволяет осуществлять более адекватный
выбор между пересекающимися повторами и позволяет искать повторы с
дробным количеством копий.
Новая
версия
программы
TandemSWAN
ищет
периодические
структуры с количеством копий повторяющейся единицы больше двух.
Возможны два варианта запуска программы – в одном случае происходит
нахождение повторов с целым количеством копий, т.е. все единицы повтора
имеют одинаковую длину, и с дробным количеством копий, т.е. последнее
слово может быть короче длины основой повторяющейся единицы.
Длина повторяющейся единицы искомых повторов всегда больше
двух. Таким образом, программа не определяет последовательности типа
поли-A или TATA-боксы.
56
Входные и выходные данные, опции программы TandemSWAN:
На вход подаются файл с последовательностями ДНК и следующие
параметры:
i.
Уровень значимости;
ii.
минимальная и максимальная длина повторяющейся единицы;
iii.
тип экспоненты (целое или дробное количество копий);
iv.
модель оценки статистической значимости повтора (т.е. модель
«motif» или «mask»);
v.
формат данных в файле с последовательностями (простой, fasta,
EMBL или GenBank).
Программа выдает один файл с результатами поиска, содержащий
таблицу со следующей информацией о найденных повторах:
i.
название последовательности;
ii.
начальная, конечная позиции и длина повтора;
iii.
длина повторяющейся единицы;
iv.
количество копий;
v.
IUPAC консенсус;
vi.
количество слов, удовлетворяющих консенсусу;
vii.
вероятность мотива ("motif" probability);
viii.
вероятность «маски» ("mask" probability);
ix.
"motif" P-value;
x.
"mask" P-value;
xi.
статистическая значимость мотива ("motif" statistical significance);
xii.
статистическая
значимость
«маски»
("mask"
statistical
significance);
xiii.
сама последовательность повтора.
57
Подробное описание параметров:
Уровень значимости. Уровень значимости, D, оценивает количество
допустимых замен между соседними единицами повтора. Только повторы,
имеющие не более чем (P-D) замен между соседними единицами, где P это
длина периода, будут найдены алгоритмом.
Минимальная и максимальная длина повторяющейся единицы.
Минимальная и максимальная длина повторяющейся единицы это
определяемые пользователем параметры, которые могут варьироваться от
3п.н. до половины длины последовательности. Значения по умолчанию: 3
для минимальной длины повторяющейся единицы, 100 для максимальной
длины.
Тип экспоненты. Экспонента это другое название для количества
копий мотива. Она может быть задана либо как целое число, тогда
программа будет находить повторы с целым числом копий, т.е. все
повторяющиеся единицы будут иметь одинаковую длину, либо как дробное
число, тогда длина последней единицы повтора может быть короче длины
основной повторяющейся единицы. Например, экспонента целая у повтора
ATC|ACG|AGC и дробная у ATC|ACG|AGC|ACC|A.
Модель оценки статистической значимости повтора (т.е. модель
«motif» или «mask»). Для оценки статистической значимости повтора
пользователь может выбрать либо модель «mask», либо «motif». Мотив
(motif) означает множество слов, подходящих под IUPAC консенсус,
построенный для повтора. Статистическая значимость повтора в модели
«motif» основана на подсчете вероятности найти в случайном тексте длины
N мотив, повторенный не менее k раз (где k экспонента повтора), при
условии, что мотив уже был найден хотя бы раз. Это условие буквально
отражает наш алгоритм поиска: «для каждого слова в последовательности
58
мы смотрим, не повторилось ли оно где-то в тексте k раз с возможными
ошибками. Во второй модели, «mask», оценка значимости основана на
учете структуры повтора, консервативности позиций. Для нее важны не
конкретные буквы, из которых состоит повтор, а скорее насколько часто
одна и та же буква встречается в конкретной позиции.
Формат
данных
в
файле
с
последовательностями.
Последовательность может быть записана в файле просто как набор
нуклеотидов, без дополнительной информации – простой формат, либо
каждая последовательность начинается со знака ‘>’, за которым следует ее
имя, либо последовательность задается в формате баз данных EMBL или
GenBank.
Также нужно сказать, что на сайте, посвященном программе
TandemSWAN
можно
посчитать
значимость
тандемных
повторов,
найденных другими поисковыми программами, такими как MREPS [89] and
TRF [81]. Но, т.к. при подсчете статистической значимости не учитываются
делеции и вставки, то для повторов, найденных TRF, содержащих делеции
или вставки, результату нельзя однозначно доверять.
59
Глава III. Создание базы данных тандемных повторов
в различных эукариотических организмах. Анализ
распределений повторов и выделение характерных
особенностей повторов для хромосом.
Целью
нашего
дальнейшего
исследовании
было
получить
распределения микро- и минисателлитов с различными характеристиками в
человеческом и других эукариотических геномах и выявить характерные
особенности их распределения.
Для работы с человеческим геномом мы использовали 17ю версию
генома человека, предоставляемую базой The Human Genome Browser at
UCSC [93]. В качестве инструмента для нахождения тандемных повторов в
нуклеотидной
последовательности
мы
использовали
программу
TandemSWAN, подробно описанную в главах I и II, основной особенностью
которой является оценка статистической значимости найденных структур.
Тем самым была решена проблема выделения правильного периода и была
возможность отфильтровать незначимые/случайные повторы. В программе
TandemSWAN использовались следующие значения параметров: длина
повторяющего слова от 3 п.н. до 200 п.н., модель mask, уровень значимости
повторов равный трем.
Была создана база данных тандемных повторов, найденных с такими
параметрами в геноме человека. В ней, помимо самих периодических
последовательностей, лежит информация о хромосоме, в которой был
найден повтор, о начальной и конечной позициях, длине повтора, длине
периода, количестве копий, количестве слов, подходящих под консенсус, а
также сам консенсус, Ps-value и Pf-value. Полная база повторов доступна по
60
адресу /www.bionform.genetika.ru/.
Множество тандемных повторов, лежащих в базе данных, покрывает
около 30% процентов человеческого генома. Мы не рассматривали так
называемые одно- и динуклеотидные повторы, считая, что это объекты
другой природы, к тому же хорошо исследованные в последнее время.
Полученная цифра в 30% хорошо согласуется с пятидесятью процентами,
человеческого генома покрываемыми сателлитами и участками низкой
сложности согласно [74].
При поиске регулярных структур, в нашем случае тандемных
повторов, в тексте большой длины важно иметь в виду возможность
случайной встречи этих структур. Так, например, если трехкратный повтор
слова длины три будет значимым в тексте длины пятнадцать, то в геномном
тексте длины 100000 п.н. его уже можно считать случайным. Таким
образом, нам было необходимо провести дополнительную фильтрацию по
значимости повторов. На рисунке 2 показано распределение суммарных
длин повторов для каждого периода в зависимости от порога значимости,
используемого при фильтрации. Порог при фильтрации выбирался на
вероятность PrS, определение которой дано в главе I.
Из рисунка 2 видно, что плотность распределения найденных повторов
сдвинуто в сторону коротких периодов (до 25 п.н.). Но по мере фильтрации
повторов по значимости, короткие или сильно вырожденные повторы
отсеиваются, и остаются длинные повторы, в основном с большой длиной
повторяющейся единицы, либо повторы коротких мотивов, но с большим
количеством копий.
Для дальнейшего исследования мы выбрали порог 10-15 на вероятность
PrS. Порог фильтрации был выбран так, чтобы вероятность наблюдения
данной периодической структуры на произвольной позиции была бы не
61
больше 10-15. В дальнейшем, в нашей работе будут фигурировать только
такие статистически значимые тандемные повторы.
Используя полученную базу данных повторов в человеческом геноме
мы сравнили разметку для минисателлитов в аннотации генома [74], с
разметкой, полученной при помощи программы TandemSWAN. Оказалось,
что значительная часть минисателлитов с периодами от 25 до 70 п.н. не
была ранее определена как повторы. Таким образом, одним из результатов
нашей работы явилось создание более полной карты минисателлитов в
человеческом геноме. На рисунке 3 для каждого значения длины периода
показано
суммарное
хромосомы
человека:
покрытие соответствующими
серым
–
повторы,
повторами
найденными
22-ой
программой
TandemSWAN, черным – те из них, что были замаскированы программами
TRF или RepeatMasker в 17-ой версии генома человека [93]. Точная доля
повторов с длиной периода от 25 до 70 п.н., найденных на 22-ой хромосоме
и замаскированных ранее TRF или RepeatMasker, равняется 57 процентам.
Оставшиеся 43 процента повторов можно считать найденными впервые.
Примеры найденных, но не замаскированных TRF или RepeatMasker
повторов приведены в таблице 1.
Глядя на рисунки 2 и 3 можно заметить, что на 22-ой хромосоме
человеческого генома сильно перепредставлены повторы с длиной
повторяющегося мотива 48 и 67-68 п.н. Что касается других хромосом
(рисунок 4), то во всех них есть пики, соответствующие обилию повторов с
периодом 67-68 п.н., в некоторых (например, в хромосомах 22 и Х)
наблюдается пик на длине периода 48 п.н. Например, на хромосоме 19 мы
видим сильно перепредставленные повторы с длиной периода 84 п.н., а на
хромосоме Y обилие повторов с длиной периода 125. Выделив эти
повторяющиеся
структуры,
мы
посмотрели
насколько
они
62
диспергированны (т.е. разбросаны по длине хромосомы) и какие функции
приписаны этим повторам в современных аннотациях генома. Оказалось,
что повторы с периодом 67 маскируются программой RepeatMasker как Alu
повторы [99, 100].
Повторы же с длиной периода 84 п.н., перепредставленные в 19-ой
хромосоме человека, распределены по всей ее длине (рисунок 5) и образуют
7 явных скоплений вдоль хромосомы 19. В процессе выделения консенсуса
множество повторов разбилось на три кластера по степени схожести
мотива. На рисунке они представлены синим, красным и зеленым цветами.
Видно, что повторы, принадлежащие к третьему кластеру, имеют
тенденцию располагаться на 3’-конце хромосомы 19.
Из всего множества повторов с длиной периода 84 п.н. 82% не были
замаскированы как повторы программами TRF/RepeatMasker. Оказалось,
это в основном повторы с количеством повторений мотива больше 3.5.
Остальные же, короткие повторы, были классифицированы программой
RepeatMasker как входящие в состав длинных диспергированных повторов
(LINE) [100], сателлитных последовательностей и др. Применив программу
BLAST [82], мы обнаружили, что данные высококопийные элементы,
немаскируемые
RepeatMasker
выравниваются
с
белок-кодирующими
последовательностями для белков, имеющего структуру цинкового пальца
[101, 102]. К примеру, позиции 11859670-11886130 соответствуют белку
zinc finger protein 69 (Cos5), 12497536-12552789 белку zinc finger protein 564
и т.д. Сам по себе этот факт интересен, т.к известны случаи, когда гены
расположены тандемно. Но в данном случае, в силу слишком высокой
копийности повторов, было трудно предполагать, что это именно такой
случай.
Что касается повторов с длиной периода 48 на хромосоме 22, то здесь,
63
наоборот, повторы явно сосредоточены на участке 14886890-14999883 на
3’-конце центромеры (рис.6) и представляют собой повторы из семейства
сателлитов CER, согласно аннотации [93]. Большинство (72%) повторов с
длиной периода 48п.н. на хромосоме 22 были замаскированы как
сателлитные последовательности программами TRF/RepeatMasker в 17й
версии UCSD генома человека.
С целью выявления семейств минисателлитов в геномах эукариот, был
разработан метод, берущий за основу предположение, что повторы из
интересующих нас семейств минисателлитов не распределены случайно
вдоль хромосом, а образуют своего рода кластеры. Нами было написано
простое приложение, которое для каждого значения длины периода P из
рассматриваемого диапазона (3-200 п.н.) считает значение статистики
Колмогорова-Смирнова [103].
Dn ,m = sup Fˆn ( x) − Gˆ m ( x) ,
x
1 n
1 m
ˆ
ˆ
где Fn ( x) = ∑ I{ X i ≤ x} , Gm ( x) = ∑ I{Yi ≤ x} , а выборка X = { X i }1≤i ≤ n
n i =1
m i =1
состоит из начальных позиций повторов с длиной периода P, выборка
Y = {Yi }1≤i ≤ m состоит из начальных позиций повторов с всевозможными
длинами периода из рассматриваемого диапазона (3-200 п.н.).
Н. В. Смирнов в 1939 году доказал, что если выполнены следующие
условия:
i.
Функция F(x) неизвестна, но принадлежит множеству всех
непрерывных функций распределения,
ii.
Все компоненты вектора (X1, …, Xn, Y1,…,Ym) независимы и
имеют общую функцию распределения F(x),
то при неограниченном увеличении размеров выборок n и m
64
P
(
)
nm /(n + m) Dn ,m ≤ x → K ( x),
где K(x) – функция распределения Колмогорова. Доказательство при
условии, что размеры m, n → ∞ так, что n /(n + m) → γ ∈ (0,1) , можно найти
в [104].
Слишком большое значение
nm /( n + m) Dn , m противоречит гипотезе
об однородности X и Y. Т.е. нам как раз и нужны такие длины периодов, для
которых значение этой статистики значимо превышает α-квантиль (α можно
положить равным 10%).
С точки зрения точной науки применение данного критерия к данной
задаче спорно, т.к. не выполнены условия (i) и (ii). Первое в силу того, что
функция F(x) не непрерывна, ибо значение начальной позиции может быть
только целым числом. Но в силу того, что длина хромосомы человека
составляет обычно несколько миллионов, если фактом можно почти что
пренебречь. Второе условие тоже очевидно не выполняется: во-первых, в
выборку Y выборка X входит как подвыборка. Но это тоже не должно
сильно влиять на результат, ибо размер выборки Y более чем, в сотню раз
превышает размер выборки X. Во-вторых, мы используем предположение,
что повторы не могут сильно пересекаться (в случае пересекающихся
повторов мы выбираем лучший период и рамку на основе статистической
значимости). Это еще одна причина, по которой начальные позиции
найденных повторов нельзя считать независимыми. Но опять таки, в силу
большой длины хромосомы эти соображения не могут сильно испортить
статистику.
Тем не менее, в виду выше сказанного нельзя полностью полагаться
только
на
значение
статистики.
Поэтому
нами
был
проведен
дополнительный анализ повторов с выделенными длинами периодов, для
65
которых тест показал максимальное отклонение от общего распределения.
В результате для каждой из хромосом человеческого генома были
обнаружены семейства минисателлитов с неслучайным распределением
вдоль хромосом. В Таблице 2 проведены значения соответствующих длин
периодов для каждой из хромосом. Из таблицы видно, что почти для всех
хромосом характерно наличие неоднородно распределенных семейств
повторов для длин периодов 170-172 п.н. и 67-68 п.н. Про последние, как
уже было сказано, известно, что они являются Alu-элементами. Повторы с
периодом 170-172 п.н. маскируются программой RepeatMasker как
сателлитные последовательности и относятся к классу α-сателлитов [105,
106]. Они характерны для центромерных областей всех нормальных
хромосом генома человека. В таблице 2 исключение составляет хромосома
22 в силу того, что ДНК ее прицентромерной области не вошла в
последнюю версию генома человека [93]. Также, α-сателлиты можно найти
в других геномах человекоподобных обезьян [107], при этом сходство
последовательностей внутри генома будет всегда выше, чем между
геномами разных видов. Известно, что существует два типа α-сателлитных
семейств в человеческом геноме, длина мономера у обоих семейств
примерно 171 нуклеотид, но для одного семейства характерны длинные
гомогенные повторы, тогда как для второго последовательность мономера
сильнее вырождена и отсутствует четкая периодическая структура [108,
109]. С помощью программы TandemSWAN нам удается картировать
повторы, принадлежащие первому семейству.
Помимо выше перечисленных семейств почти для каждой хромосомы
характерны семейства повторов со своим особенным периодом. На рисунке
7
представлен
пример
распределения
неоднородных
семейств
минисателлитов для хромосомы Y человеческого генома. Как видно из
66
рисунка 7 и таблицы 2 множество выделенных периодов для хромосомы Y
включает в себя период 125, для которого наблюдался пик в доле покрытия
хромосомы на рисунке 4. Повторы в этом участке классифицируются
программой RepeatMasker [74] как длинные концевые повторы (LTR) [110,
111] класса ERV-1. В этой же области лежат и повторы, с длиной
повторяющейся единицы равной 124п.н. (Рис. 7f, 7g). Также, как видно из
таблицы 2 и рисунка 7a, для хромосомы Y на 5’-конце характерно наличие
повторов с длиной периода 26п.н. В аннотации генома [93] большинство из
них фигурируют как простые повторы (simple repeats). Однако, нами были
обнаружены и новые члены этого семейства, не классифицированные в
последней аннотации генома как повторы. Примером может служить
повтор,
найденный
на
позициях
2342928-2343044
хромосомы
Y,
выравнивание для которого дано ниже.
AATGACCAATCCCACTAGACCTCATC
ATGACCTAACCAAACTGGACTTCATC
ATAACCTAACCCAACTAGACCTCATC
ATGACATGAGACAACTAGATCTCATC
ACGACCTACCCAA.
Для повторов с периодом 38п.н. и кратным 76п.н. явно видны пять
кластеров. Первый примерно с 7803156 по 8398559 слева от центромеры,
далее справа от центромеры 21559000-21717990, 23066054-24202682,
25000002-25200923,
25552739-25764174.
Большинство
повторов
определены в аннотации человеческого генома как бета-сателлиты (BSR)
[112]. Эти же участки содержат повторы с длиной периода 71п.н. (рис. 7d).
Примечательно, что длина периода в этом случае не кратна 38.
Интересно также заметить, что для других выделенных периодов в
хромосоме Y (165 п.н., 177 п.н., 183 п.н., 200 п.н.) мы наблюдаем скопления
67
повторов с данными длинами периодов в субтеломерной зоне 5’-конца
хромосомы. Что касается скопления повторов с длиной периода 200п.н. на
участке 12309207-12383373 (рис.7l), то в действительности эти повторы
являются производными от мотива (GAATG)n, характерного для хромосом
генома человека [113].
В данной работе в силу ограниченного объема мы не будем детально
рассматривать
все
найденные
семейства
минисателлитов
во
всех
хромосомах генома человека. Кроме хромосомы Y коснемся еще
минисателлитных семейств на хромосоме 19. На рисунке 8 представлено
распределение
минисателлитных
последовательностей
некоторых
выделенных периодов для хромосомы 19.
Выше уже было описано распределение семейства повторов с длиной
периода 84 п.н. (рис.5), консенсус для которых выравнивался с кодирующей
последовательностью для белков, имеющих структуру цинкового пальца.
Помимо этого семейства, в прицентромерных областях мы наблюдаем
скопления повторов с длинами периода 35 п.н., 70 п.н., 170 п.н., 171 п.н.,
172 п.н. Последние три относятся к α-сателлитным последовательностям
[106] и находятся и справа, и слева от центромеры. Повторы с длиной
периода, кратной 35п.н. относятся к семейству HSAT4 прицентромерных
сателлитов и их кластер наблюдается на участке 32817371- 33049368, в 3’прицентромерной области.
Что интересно кластер повторов с длиной периода 38 п.н. и 76 п.н. на
участке 20841323-20889356 хромосомы 19 не вошел в аннотацию [93] как
участок,
содержащий
повторы.
Более
того,
это
область
богатая
однонуклеотидными полиморфизмами (SNPs) [100] и относительно высоко
консервативная
(рис.9).
В
5’-прицентромерной
области
(20889356–
24164329) тоже присутствует скопление повторов с длиной периода 38 п.н.
68
и 76 п.н., а также 71 п.н. Большинство из них классифицированы как бэтасателлитные последовательности (BSR) [112]. Скопление повторов с
длиной периода 76 п.н. в районе позиций 46658404-46723278 соответствуют
семейству SATR1. Показано, что гиперметилирование таких сателлитных
последовательностей, например, в хромосоме 5 генома человека, может
приводить к возникновению рака груди [114].
Использовать
информацию
о
различных
превалирующих
периодичностях в различных хромосомах можно для определения
принадлежности произвольного, достаточно длинного участка ДНК к
соответствующей хромосоме по наличию или отсутствию характерных
сателлитов. На рисунках 10а и 10b представлены распределения количества
копий 84 п.н.-повторов для хромосом 19 и 22 соответственно. Ясно видны
различия между последовательностями.
Следующим шагом был поиск и анализ распределения минисателлитов
в геномах других видов эукариот. Мы взяли геномы представленные в базе
данных Ensembl [115]: Caenorhabditis elegans, Drosophila melanogaster,
Tetraodon nigroviridis, Danio rerio, Gallus gallus, Rattus norvegicus и Mus
musculus. В этих геномах были определены повторы со следующими
параметрами: минимальная длина периода – 3 п.н., максимальная – 200 п.н.,
минимальное количество копий – три, модель – mask, уровень значимости
повторов равный трем. Далее были выделены повторы с высокой
статистической значимостью, а именно с PrS<10-15.
В результате подсчета суммарной доли покрытия периодическими
структурами рассматриваемых геномов выяснилось, что не наблюдается
никакой видимой корреляции между длиной генома и долей его покрытия
повторами (рис. 11).
Однако, относительное отличие между долей покрытия различных
69
хромосом одного генома повторами тем больше, чем короче геном. Для
примера можно сравнить распределения доли покрытия для повторов с
разными длинами периодов в геномах человека (рис. 4) и C. elegans (рис.
13). Если кривые распределений в геноме человека практически совпадают
(исключение составляют хромосомы 19 и Y), то для C. elegans отличие
распределений для различных хромосом хорошо заметно. Надо сказать, что
это наблюдение полностью согласуется с интуицией, т.к. чем короче геном,
тем выше ожидается отклонение для средней доли покрытия повторами с
данной длиной периода для конкретной хромосомы.
Несмотря
на
вышеприведенное
замечание,
в
дальнейшем,
на
сравнительном графике распределений периодичностей в различных
организмах (рисунок 12) мы будем приводить данные только для одной
хромосомы для каждого из рассматриваемых организмов. Отдельно
приведены данные для хромосом отдельных организмов (рисунки 13-16).
Поскольку мы смотрели покрытие тандемными повторами целых
хромосом без дифференцировки на кодирующие и некодирующие области,
то, возможно, наличие пиков на кратных трем периодах в организмах с
высокой
плотностью
периодичностями
в
экзонов
кодирующих
(например,
областях,
C.elegans)
связано
с
вызванных
триплетной
структурой и периодичностями в последовательностях аминокислот. Но,
т.к. в большинстве рассматриваемых геномов процент экзонов не превышал
10%, то было решено анализировать распределение повторов в хромосомах
без предварительной фильтрации кодирующих участков.
В геноме C. elegans процент генов составляет около 30% всей
геномной ДНК [93]. Сравнение распределений покрытия тандемными
повторами различной длины периода всей хромосомы I генома C. elegans и
покрытия только участков хромосомы I, не содержащих гены, показано на
70
рисунке 17. Как видно из рисунка, кривые распределений повторов для
длины периода свыше 45 п.н. и не кратной трем, практически совпадают.
Это означает, что повторы с такими параметрами были найдены в основном
в некодирующих участках. Тогда как для периодов 48 п.н., 51 п.н., 54 п.н.,
57 п.н., 60 п.н., 63 п.н. наблюдаются пики в распределении повторов во всей
хромосоме, отсутствующие в распределении в некодирующих участках.
Что означает, что повторы с такими периодами часто расположены внутри
генов. Также на участки, содержащие гены, приходится некоторая часть
повторов с периодами от 30 п.н. до 46 п.н., опять же большинство повторов
в генах имеют длину периода, кратную трем.
При
сравнении
распределения
периодичностей
в
различных
организмах (рисунок 12) оказалось, что кривые распределения повторов
могут значительно различаться даже у достаточно близких видов. Так,
покрытие тандемными повторами различной длины периода геномов
Tetraodon nigroviridis и Danio rerio разительно отличается. Или, что более
удивительно, тандемные повторы с длиной периода до 50 п.н. в геноме
Rattus norvegicus встречаются, чуть ли не в два раза реже, чем в геноме Mus
musculus.
Что касается особенностей распределения повторов в хромосомах
отдельных видов, то, например, замечено, что в распределение в половых
хромосомах
эукариот
значительно
отличается
от
распределения
в
аутосомах (рис. 4, 12, 15, 16). Так, например, в хромосомах Y обычно
перепредствлены по сравнению с другими хромосомами сателлитные
последовательности с определенными длинами периода. В X хромосомах
частота покрытия повторами обычно в среднем чуть выше почти для всех
длин периодов. Исключение составляет, например, геном C. elegans, для
которого наоборот плотность покрытия повторами Х-хромосомы значимо
71
ниже плотности покрытия аутосом (рис. 13).
Однако, как видно из
рисунков 4 и 13-16, распределения для различных аутосом одного генома, в
достаточной мере совпадают.
Рассмотрим более подробно минисателлитные повторы в геномах
видов C. elegans и M. musculus.
Проанализировав распределение повторов в геноме C. elegans сходным
образом с распределением повторов в геноме человека, мы заметили, что
повторы с определенными длинами периодов локализованы в первой и
третьей третях хромосом (рис. 18). Отметим, что это касается не всех
рассматриваемых длин периодов, а лишь некоторой их значительной части.
В геноме C. elegans мы наблюдаем факт скопления повторов с длинами
периодов, кратными 6 и 7, в кластеры вдоль хромосом.
В аутосомах генома M. musculus и Y-хромосоме тандемные повторы
для большинства длин периодов распределены довольно равномерно вдоль
хромосом. Но что интересно, в хромосоме 13 мы наблюдаем выраженные
кластеры повторов с длиной периода, кратной 84 п.н. на участках 2137619821376784, 61639704-62784553, 65263763-68325377 и 74837656-75073732
(рисунок 19). Эти повторы гомологичны ДНК-последовательностям,
кодирующим протеины, имеющие структуру цинкового пальца. Здесь
наблюдается та же ситуация, что и в хромосоме 19 генома человека. Что
касается X-хромосомы M. musculus, то в ней можно отметить два крупных
участка ДНК богатых периодическими структурами, первый (позиции
23267741-32139929) – повторами с длиной периода 37 п.н., 74 п.н., 111, п.н.,
118 п.н., 198 п.н., второй (позиции 119146137-121570057) – повторами с
длиной периода 90 п.н., 120 п.н., 150 п.н., 180 п.н., 191 п.н., а также кластер
повторов с длинами периода 54 п.н. и 161 п.н. (позиции 8499607- 8805844),
и отдельные кластеры повторов с длинами периода 59 п.н., 31 п.н., 24 п.н.
72
Существующая аннотация [74] [REF] предполагает в этих местах наличие
длинных
диспергированных
повторов
(LINE),
повторов
семейства
RMER1C, сателлитных последовательностей, но так же, как и для генома
человека, некоторые последовательности не аннотированны как имеющие
периодическую структуру.
Как мы видим из анализа минисателлитных семейств в геномах C.
elegans, M. musculus и H. sapiens, в каждом геноме имеются семейства
периодических структур, локализованные на одном участке одной
хромосомы, образующие скопления в нескольких участках одной или
нескольких хромосом, диспергированные относительно равномерно по всей
длине генома. Информацию о таких семействах можно использовать,
например, для выявления принадлежности участка ДНК к некому участку
определенного генома.
73
Глава
IV.
Анализ
распределений
повторов
с
короткой длиной периода и выделение характерных
особенностей повторов в различных функциональных
участках ДНК на примере D. melanogaster. Гипотеза
частичного
происхождения
минисателлитных
последовательностей от микросателлитных.
Если до настоящего момента речь шла только о периодических
последовательностях с большой длиной повторяющейся единицы (длина
периода от 10 п.н.), то в этом разделе проводится анализ распределения
микросателлитов и коротких минисателлитов (с длиной периода до 23 п.н.)
в эукариотических геномах, в частности, в хромосомах человека. Как видно
из рисунка 20, в хромосомах генома человека большая часть найденных
повторов с длиной повторяющейся единицы меньше 23 п.н. имеет период,
кратный 4. Мы предполагаем, что причина такого распределения длин
периодов объясняется происхождением этих минисателлитных повторов от
микросателлитных
возникновения
микросателлит
повторов.
данных
Предполагается
минисателлитных
удлиняется
путем,
следующий
процесс
последовательностей:
например,
проскальзывания
репликативного комплекса (replication slippage). В результате формируется
микросателлитный
повтор
с
большим
количеством
копий.
В
последовательности этого повтора происходят точечные замены, инсерции
или делеции нуклеотидов, в результате которых микросателлит теряет
способность к самоудлиннению путем проскальзывания репликативного
комплекса. В дальнейшем происходит размножение (удлинение) повтора
74
или его части уже как минисателлита по минисателлитному механизму. В
итоге возникает минисателлит, для которого можно выявить меньший
подпериод с более вырожденным повторяющимся мотивом, и сам повтор,
таким образом, имеет фрактальную структуру.
Для проверки этого предположения мы произвели дополнительный
поиск меньших подпериодов в уже найденных программой тандемных
повторах. Оказалось, что в большинстве своем найденные минисателлиты с
длиной периода до 23 п.н. можно рассматривать как производные от
микросателлитов. Примеры, таких повторов представлены в таблице 3. В
значительной части найденных повторов с длиной периода, кратной
четырем, можно выделить повторяющийся мотив длиной четыре. Это видно
из рисунка 21. На графике показан процент покрытия тандемными
повторами 1-й и 22-й хромосом человека, где длиной периода повтора
считалась длина наименьшего подпериода.
Интересно также, что в человеческом геноме слова, наиболее часто
образующие тандемные повторы, составляют довольно ограниченное
множество (таблица 4). Как видно из таблицы, для разных хромосом
повторяющиеся мотивы могут различаться. Резкие пики для частот
повторов с периодами, кратными четырем, в человеческом геноме связаны
с наличием слов-лидеров длины 4 (AAAT, AAAG, TAGA, AAGG, CCAT).
От микросателлитов с такими мотивами возможно произошли семейства
минисателлитов. Этот результат согласуется с наблюдениями авторов [8] о
частоте слов, составляющих микросателлиты с длиной периода 1-6 п.н.
Интересно добавить, что в нашем предыдущем исследовании генома (в
частности, межгенных областей) D. melanogaster [98] были получены пики
на периодах, кратных шести. Словами-лидерами у D. melanogaster являются
GCA, AGATAC, ATT, CCA и другие.
75
В заключении можно добавить, что, по-видимому, разница в типах
минисателлитов, присутствующих в геномах различных видов, может
объясняться
эволюционно,
благодаря
предшествующей
экспансии
различных типов микросателлитов, в частности с различной длиной
порождающего ДНК-слова.
Распределение микро- и минисателлитов в различных функциональных
последовательностях.
Для
изучения
повторов
в
последовательностях
с
различными
функциональными характеристиками была выбрана экспериментально
проаннотированная
система
локусов
генов
раннего
развития
D.
melanogaster, система локусов D. pseudoobsura, проаннотированная по
гомологии, а также была использована аннотация проекта FlyBase [116].
Мы исследовали, действительно ли повторы с определенными длинами
периодов могут превалировать в определенных функциональных участках.
Для этого мы собрали базы данных последовательностей в том числе
содержащие все экзоны D. melanogaster, 3’- и 5’-нетранслируемые области
(UTRs),
межгенные
последовательности
участки,
(из
межгенные
проекта
Drosophila
гетерохроматиновые
Heterochromatin
Project
http://www.dhgp.org/) и базу данных регуляторных последовательностей,
состоящую
из
124
энхансеров,
регулируемых
факторами
(http://webdisk.berkeley.edu/~dap5/).
транскрипционными
Соответствующие
базы
данных последовательностей были созданы и для D. pseudoobsura. Для
изучения
распределения
определенной
функцией,
повторов
мы
в
группе
выделили
генов,
обладающих
соответствующие
наборы
последовательностей для выборки из 16и локусов генов раннего каскада
развития D. melanogaster и D. pseudoobscura. Распределение тандемных
76
повторов
с
длинами
периода
до
25
п.н.
в
данных
наборах
последовательностей представлено на рисунке 22.
Как мы и ожидали, наиболее сильное отличие от случайного
распределения было замечено для последовательностей экзонов (рисунок
22а). Видно, что в кодирующих участках превалируют повторы с длиной
периода, кратной трем. Тогда так периодичности с длиной периода, не
кратной трем, наоборот недопредставлены (по сравнению частотой встреч в
случайной последовательности). Также было обнаружено, что доля
покрытия 3k-периодичностями кодирующих участков Х-хромосомы выше,
чем доля покрытия кодирующих участков аутосом. Учитывая, что частота
повторов во всей Х-хромосоме в среднем выше, чем в аутосомах, мы
делаем вывод, что частота тандемных повторов даже в участках одинаковой
функциональности также связана с физической картой, а именно с
определенным местом в геноме.
Что было особенно интересно, это факт перепредстваленности
повторов с длиной
периода, кратной
шести
(в
отличие
от
3k-
периодичностей), в некодирующих участках. Похоже, что в геномах D.
melanogaster и D. pseudoobscura присутствуют 6/12-периодичности,
несвязанные с триплетной структурой кодирующих областей. Такие
повторы превалируют во всей рассматриваемых множествах, включая
регуляторные участки, спейсеры (не промоторные, не регуляторные и не
кодирующие
участки
внутри
локусов),
межгенные
участки,
нетранслируемые области и даже межгенный гетерохроматин (рисунки 22b,
22c и 22d). В то же время, в некодирующих участках перепредставлены
повторы с некратной трем длиной периода. Во всех последовательностях,
кроме кодирующих, частота таких повторов в 2-3 раза больше, чем в
случайной последовательности, что поддерживает тезис о неслучайном
77
происхождении тандемных повторов в ДНК и о неслучайности кода ДНК в
целом.
Сравнение суммарной доли покрытия повторами различных множеств
последовательностей показало, что межгенный гетерохроматин в среднем
содержит меньше тандемных повторов с длиной периода до 25 п.н., что
эухроматин (рисунок 22b).
В общем, сравнение частоты повторов в различных функциональных
последовательностях показало, что тандемные повторы перепредствлены в
геноме, и повторы с длиной периода, кратной 6, по некой причине
превалируют в некодирующей ДНК.
Периодические структуры в регуляционных последовательностях
(энхансерах)
представляют
особый
интерес.
Нам
было
интересно
проверить, насколько распределение в энхансерах отличается от фонового
распределения повторов в межгенных областях и спейсерах. Для этого мы
отнормировали частоты покрытия энхансеров и спейсеров на частоты
покрытия повторами межгенных областей, что в некотором смысле
«удалило» фоновые 6k-повторы. Мы сосредоточили свое внимание на
наборе
из
124
экспериментально
подтвержденных
энхансерах
D.
melanogaster
(http://webdisk.berkeley.edu/~dap5/data_06/124_Dmel_Enc.fa).
Большинство
этих
последовательностей
вовлечено
в
регуляцию
транскрипции генов развития. Однако, эта группа не однородна ни
функционально, ни по своей структуре. Энхансеры имеют различную длину
(от 30 до 300 п.н.) и регулируют гены, транскрибируемые на разных
стадиях развития D. melanogaster. Для достижение больше функциональной
однородности
мы
последовательности
разбили
суммарной
и
дополнили
181690
п.н.)
это
множество
энхансеров
на
(124
два
подмножества: энхансеров генов раннего (72 последовательности общей
78
длины 117377 п.н.) и более позднего развития «dorsal и twist» (136
последовательностей общей длины 114354 п.н.).
Множества регуляторных последовательностей для D. pseudoobscura
были получены по гомологии с последовательностями D. melanogaster.
Анализ нормализованного распределения тандемных повторов во всех
трех множествах энхансеров и спейсерах (рисунок 22e) показал, что
множества, соответствующие генам раннего развития, богаты повторами с
длиной периода 7 и 8 п.н. Значимой разницы в распределении повторов в
регуляторных и спейсерных последовательностях замечено не было.
Однако надо сказать, что распределение повторов внутри локусов значимо
отличается от распределения в не несущих никакой функции межгенных
участках генома.
Сравнение последовательностей повторов в регуляторных областях с
мотивами сайтов связывания соответствующих регулирующих факторов
показало их несхожесть в общем случае. Хотя были найдены отдельные
примеры [117], когда некоторые вырожденные тандемные повторы могут
играть роль кассет, содержащих тандемы сайтов связывания. Однако также
возможно,
что
присутствие
специфических
периодических
последовательностей задает некую пространственную геометрию для ДНК
энхансера, необходимую для корректной сборки комплекса регуляторных
белков. Роль тандемных повторов в регуляторных областях также недавно
обсуждалась в работе [17]. Авторы, используя данные по тандемным
повторам, найденным в энхансерах D. melanogaster и D. pseudoobscura в
результате использования программ TRF и MREPS, показали низкую
консервативность повторов в гомологичных участках геномов двух мух.
Авторы заключают, что по всей видимости тандемные повторы несут
ограниченную функцию, что подтверждается нашим наблюдением, что
79
повторы в энхансерах имеют те же превалирующие длины периодов, что и
в межгенных областях.
80
ЗАКЛЮЧЕНИЕ
В результате диссертационного исследования были достигнуты
следующие результаты:
1)
Разработка алгоритма поиска сильно вырожденных тандемных
повторов без делеций и вставок.
2)
Получение формул для оценки статистической значимости сильно
вырожденных тандемных повторов без делеций и вставок с учетом их
самоперекрывающейся структуры.
3)
Использование разработанного алгоритма для выявления новых
объектов, обладающих выраженной регулярной структурой.
4)
Выявление
характерных
паттернов
распределения
тандемных
повторов в зависимости от длин периодов для хромосом различных
геномов эукариот, включая геном человека.
5)
Выделение
семейств
локальных
и
дисперсных
микро-
и
минисателлитов, характерных для той или иной хромосомы, и их
анализ с учетом существующих аннотаций.
6)
Выявление различий в распределении тандемных повторов в
различных
функциональных
областях
геномов:
регуляторных,
кодирующих, спейсерных, межгенных областях, гетерохроматине, 5’и 3’- нетранслируемых областях.
81
ТАБЛИЦЫ И ИЛЛЮСТРАЦИИ
700000
без фильтрации
SSV >3
суммарное покрытие (п.н.)
600000
SSV >5
SSV >7
500000
SSV >9
SSV >11
SSV >13
400000
SSV >15
SSV >17
300000
SSV >20
SSV >25
SSV >30
200000
SSV >40
100000
0
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
длина периода
Рисунок 2. Суммарное покрытие тандемными повторами с различной длиной периода хромосомы 22
(49554710 п.н.) генома человека (17ая UCSC версия, [93]). Фильтрация на основе различной статистической
значимости PrS (SSV = -log10 PrS).
82
400000
Суммарное покрытие (п.н.)
350000
300000
Все повторы, найденные TandemSWAN (SSV >15, C = 3)
Из них, замаскированные TRF/RepeatMasker
250000
200000
150000
100000
50000
0
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70
Длина периода
Рисунок 3. Покрытие 22-ой хромосомы генома человека тандемными повторами, найденными
программами TandemSWAN и TRF/RepeatMasker.
83
Таблица 1. Примеры выравниваний повторов, найденных программой TandemSWAN на 22 хромосоме в
17-ой версии человеческого генома, незамаскированных TRF или RepeatMasker.
chr 22, 14564582-14564906, длина периода 66
chr 22, 43460819-43461054, длина периода 36
TTTCAAGCTCCATGTTGTTACGAGCATCTGCTCTGAGCTCCATCTTACACCGAGCAACATCTGCTC
CATATGGGGATGCTCCCACAGCACAGAGAGGTGCCC
CAAGTTCCATCTTGCTTGGAGCTCCTTTTTGTTCAGAGCTCTATCTGCTCCAAGCTCAATCTTCTC
ATCATATGGAGATGCTCCCACTGCACAGATACTCCC
TGAGCTCCATCTTGCTTGGAGCTCTAATCATTCTGAGCTCCATCATGCTCTGAGCACCATCTGCTC
ATTGCACAGATACTCCCACAGCACAGAGAGGTGCCC
TGAGCAACATCTGCACCAAGCTCCATCTTGCTTAGATCTCCTTATTGCTCAGAGTTTCATCTGCTC
ATCATATGGGGATGCTCCCACTGCACAGATACTCCC
TGAGCACCATCTTGTTCAGAGCTCCATCTTGCTCAGAGTTCCAACTGCTCAGAGAACTGTT
ATTGCACAGATACTCCCACCGCACAGAGAGGCACCC
chr 22, 19678751-19678939, длина периода 63
ATGATATGGGGATGCTCCCACTGCACAGATGCTCCC
GCAAAGTCCTGCACATGCTCCTTCAGAGTCTGGCGGGCATCTGCCTGTGCCCGCTTCTCCCGT
ACGGCACAGAAAGGCACCCA
GCCCGCTCCTGCTGCAGCTTGGTCAGTCTCAACCGCAGCCGCTGCTCCCGCCGCTTGCAGGCC
chr 22, 17112843-17113046, длина периода 27
TGCAGCTGGCGCTGGGCCTTGTCAAGGGCATCAAGGGCTGCCTCGGCTCGCCGCTTCCAGAGT
CACGCTAACAAGGATGCTGTACACAAC
chr 22, 23414686-23414980, длина периода 55
GTCGCTAATGAGGACAGTGTACAAGCC
TTTCGGTTGTTGAGGGACTGGTGTGTACCCCTGGGGGCTCGGTATCCACTTGGAG
ATCGCTAATGAGGACACTGTATATGAC
GTTGGGTGTCCGTGTGGAACCTGATGTACCTGTGGACCTGGTTGCCCACATGGGT
ATTGCTAACGAGGACACTGTACAAGGC
CCTGGTGTCCACCTGGAGCCTGATGTTTCCCAGGGGCCTGGGTATCCACTGGGGT
ATTGCTAACGAGGACGCTGTACACAAC
CCCGATGTTCATCTAGGAGCTGGTGTTCACCTAGGCCCTGATAGTCACCTGGGGG
ATCGCTAATGAGGACACCATATAAGAC
CTGGGTATGTACCTGAGGCCTCATGTCCACCTGTGCTGTAGGTATCTATGCATGG
ATCACCAATGAGGATGCTGTATATGAC
GCTGTGTGCCAACCTGGTGC
ATCGCTAATGACACC
84
Процент Суммарного Покрытия (%)
1.4
chr1
chr4
chr6
chr8
chr10
chr12
chr14
chr16
chr19
chr21
chrY
1.2
1
0.8
chr3
chr5
chr7
chr9
chr11
chr13
chr15
chr18
chr20
chr22
chrX
0.6
0.4
0.2
0
3
8
13
18
23
28
33
38
43
48
53
58
63
68
73
78
83
88
93
98
103
108
113
118
123
128
133
138
143
148
153
158
163
168
173
178
183
188
193
Длина периода
Рисунок 4. Распределение тандемных повторов с высоким уровнем значимости (SSV > 15) в хромосомах
85
198
человеческого генома.
Рисунок 5. Распределение повторов с длиной периода 84 п.н. вдоль хромосомы 19 генома человека. По
оси Х начальная позиция повтора, по оси Y количество копий. В процессе выделения консенсуса множество
повторов разбилось на три кластера по степени схожести мотива. На рисунке они представлены синим,
красным и зеленым цветами. 82% не были замаскированы как повторы программами TRF/RepeatMasker.
86
Рисунок 6. Распределение повторов с длиной периода 48 п.н. вдоль хромосомы 22 генома человека. По
оси Х начальная позиция повтора, по оси Y количество копий. Большинство повторов (72%) были
замаскированы как повторы программами TRF/RepeatMasker в 17й версии UCSD генома человека.
87
Таблица 2. Длины периодов, для которых повторы распределены неоднородно вдоль хромосом
человеческого генома.
Chr
1
Chr
2
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
Chr
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
X
Y
4
16
67
25
32
18
170
171
67
19
171
68
103
171
171
32
24
52
24
19
67
67
28
17
12
35
67
171
172
54
35
24
30
48
20
26
34
30
54
54
20
170
85
48
27
16
67
68
67
37
67
32
67
25
38
67
32
67
64
28
171
169
171
31
20
68
170
68
38
68
33
96
26
67
68
52
68
67
30
172
170
172
67
21
91
171
170
42
171
36
191
27
71
172
171
192
166
67
85
108
32
195
171
68
23
44
67
32
76
170
68
86
168
46
200
172
102
24
67
68
35
124
171
75
169
169
67
32
68
170
45
125
172
149
170
170
68
34
70
171
48
165
171
171
171
170
48
71
172
52
171
172
172
172
171
173
67
76
54
177
68
84
67
183
75
135
68
200
96
170
75
171
171
84
191
172
170
171
172
173
174
88
Рисунок 7. Распределения неоднородных семейств минисателлитов для хромосомы Y человеческого
генома. Длина периода минисателлитов (а) 26п.н., (b) 38п.н., (с) 67п.н., (d) 71п.н., (e) 76п.н., (f) 124п.н., (g)
125 п.н., (h) 165п.н., (i) 171п.н., (j) 177п.н., (k) 183п.н., (l) 200п.н.
89
90
91
Рисунок 8. Распределения некоторых неоднородных семейств минисателлитов для хромосомы 19
человеческого генома. Длина периода минисателлитов (а) 35п.н., (b) 38п.н., (с) 70п.н., (d) 76п.н., (e) 71п.н., (f)
170п.н., (g) 171 п.н., (h) 172п.н.
92
93
Рисунок 9. Участок 20841323-20889356 хромосомы 19 генома человека в Genome Browser UCSC [93].
Этот участок богат минисателлитными последовательностями с длиной периода 38п.н. и 76п.н., найденными
при помощи программы TandemSWAN.
94
Рисунок 10. Различие в распределении 84п.н.-повторов в хромосомах 19 (рис.10а) и 22 (рис.10b)
человеческого генома.
95
доля суммарного покрытия
тандемными повторами
0.3
C. elegans
D. melanogaster
T. nigroviridis
G. gallus
D. rerio
C. familiaris
M. musculus
R. norvegicus
H. sapiens
0.25
0.2
0.15
0.1
0.05
0
0
5E+08
1E+09
1.5E+09
2E+09
2.5E+09
3E+09
3.5E+09
длина генома (п.н.)
Рисунок 11. Отсутствие видимой корреляции между длиной генома и долей его покрытия
периодическими структурами.
96
0.8
chr13, H.sapiens
chrX, H.sapiens
chr5, R.norvegicus
chrX, R.norvegicus
chrY, M.musculus
chrX, M.musculus
chr1, G.gallus
chrZ, G.gallus
chr1, T.nigroviridis
chr1, D.rerio
Доля покрытия (%)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
3
10
17
24
31
38
45
52
59
66
73
80
87
94 101 108 115 122 129 136 143 150 157 164 171 178 185 192 199
Длина периода
Рисунок 12. Сравнение покрытия тандемными повторами с различной длиной периода хромосом
организмов Tetraodon nigroviridis, Danio rerio, Gallus gallus, Rattus norvegicus, Mus musculus и Homo sapiens.
97
1
Процент суммарного покрытия
0.9
0.8
Chr I
Chr II
Chr III
Chr IV
Chr V
Chr X
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
60
70
80
90 100 110 120 130 140 150 160 170 180 190 200
Длина периода
Рисунок 13. Покрытие тандемными повторами с различной длиной периода хромосом C. elegans.
98
0.8
Процент покрытия (%)
0.7
Chr 2L
Chr 2R
Chr 3L
Chr 3R
Chr 4
Chr X
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
60
70
80
90 100 110 120 130 140 150 160 170 180 190 200
Длина периода
Рисунок 14. Покрытие тандемными повторами с различной длиной периода хромосом D. melanogaster.
99
Процент суммарного покрытия
0.4
chr 2
chr5
chr 8
chr11
chr 14
chr 17
chr20
0.35
0.3
0.25
0.2
chr 3
chr 6
chr 9
chr 12
chr 15
chr 18
chrX
chr 4
chr 7
chr 10
chr13
chr16
chr 19
0.15
0.1
0.05
0
0 10 20 30 40 50 60 70 80 90 10 11 12 13 14 15 16 17 18 19 20
0 0 0 0 0 0 0 0 0 0 0
Длина периода
Рисунок 15. Покрытие тандемными повторами с различной длиной периода хромосом R. norvegicus.
100
Процент суммарного покрытия (%)
0.8
0.7
chr 1
chr 4
chr 8
chr 11
chr 15
chr 18
0.6
0.5
chr 2
chr 5
chr 9
chr 13
chr 16
chr Y
chr 3
chr 6
chr 10
chr 14
chr 17
chr X
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
60
70
80
90
100 110 120 130 140 150 160 170 180 190 200
Длина периода
Рисунок 16. Покрытие тандемными повторами с различной длиной периода хромосом M. musculus.
101
160000
140000
120000
C. elegans, chr I, без генов
C. elegans, chr I
100000
80000
60000
40000
20000
0
0
10
20
30
40
50
60
70
80
90 100 110 120 130 140 150 160 170 180 190 200
Рисунок 17. Покрытие тандемными повторами с различной длиной периода всей хромосомы I C. elegans
и хромосомы I с замаскированными генами в аннотации генома. Длина всей хромосомы I 15080556 п.н., ее
участков, не содержащих гены 10598834 п.н.
102
Рисунок 18. Локализация повторов с определенными длинами периодов в первой и третьей третях
хромосом I (a) и II (b) генома C. elegans.
103
Рисунок 19. Кластеры повторов с длиной периода 84 п.н. и 168 п.н. в хромосоме 13 генома M. musculus.
104
0.07
процент покрытия (%)
0.06
chr1, 245522847 bp
chr8, 146274826 bp
chr19, 63811651 bp
chr22, 49554710 bp
chrX, 154824264 bp
0.05
0.04
0.03
0.02
0.01
0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Длина периода
Рисунок 20. Процент покрытия тандемными повторами с различной длиной периода хромосом 1, 8, 19,
22 и X человеческого генома.
105
Таблица 3. Примеры минисателлитных повторов, найденных программой TandemSWAN, которые
можно рассматривать как производные от микросателлитов.
(ccag)n on chr22
(tcatc)n on chr22
cat-ccaagccagccaag
gccagccaagcc-agcca
cc-agcc-atccagccaaccag
tcatttcatctca
tcagcc-agccagccaag
gccagcc-agccaagcca
ccaagcc-agccagccagcgag
tcagttcatctca
ccagccaagccagcc-ag
cccagcc-agccaagcca
cc-agccaagccagccagcgag
tcatttcatctca
ctagccaagccaccc-ag
gcca
(15419186-15419247)
tcatctcatctca
cca
(15416689-15416743)
(15422147-5422217)
tcatttcatctca
(gccac)n on chr22
tcact
(20965525-
gccatgccac
(ggat)n on chr1
20965594)
gccatgccac
tggatggatgtt
ggatgaatggagggaa
gccacgccac
tgaatggatagg
ggatggatggagggaa
accatgccaa
tggatagatagg
ggatggatgggtgagt
gccacgccac
tggatggatgga
agatagatgggtgggt
accatagcac
ttggtggaggg
gggtg
accatgccac
(47404286-47404344)
(25783856-25783924)
(42815130-4281519)
106
0.35
процент покрытия (%)
0.3
0.25
chr22, 49554710 bp
0.2
chr1, 245522847 bp
0.15
0.1
0.05
0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Длина наименьшего возмож ного подпериода
Рисунок 21. Процент покрытия тандемными повторами с различной длиной наименьшего возможного
подпериода 1-ой и 22-ой хромосомы H. sapiens.
107
Таблица 4. Наиболее часто встречающиеся слова в тандемных повторах с длиной периода до 23 п.н.
Видно, что большинство самых распространенных повторяющихся слов идентично для всех хромосом.
chr 1
слово
кол-во повт.
chr 8
слово
кол-во повт.
chr 19
слово
кол-во повт.
chr 22
слово
кол-во повт.
chr X
слово
кол-во повт.
AAAT
ATTT
17525
17500
AAAT
ATTT
9917
8534
GGA
AAAT
7912
7507
GGAT
AAAT
3643
3640
ATTT
AAAT
12043
10558
CCT
11540
TAGA
7897
ATTT
7075
CCA
3471
CTAT
8861
GGA
10293
TCTT
6835
CCT
6016
CCT
3220
TAGA
7495
TTC
10069
CTAT
6488
CCAT
4868
ATTT
3200
TCTT
7456
AAG
9724
GGA
6474
ATT
4674
CCAT
2537
TTC
6789
AAAG
9536
CCT
6469
CCA
4116
TGA
2096
AAAG
6523
TAGA
9238
AAG
5980
TTC
3867
ATT
1780
AAG
6476
AAT
8810
CCTT
5928
AAG
3729
AAAG
1729
GGA
6220
GGAA
8771
GGAA
5541
CCTT
3613
GGA
1678
ATT
6034
CTAT
8478
TTC
5411
AAT
3485
ATC
1582
AAT
5858
ATT
8237
ATT
5062
GGT
3449
AAT
1422
CCT
5442
TCTT
8235
AAAG
4869
GGAT
3429
TTC
1274
CCTT
4463
CCTT
7574
AAT
4242
AAAG
3369
TCTT
1224
GGAA
4277
CCAT
6807
CCAT
3306
CTAT
3261
TAGA
1219
AAAAT
3288
GGAT
5462
GGAT
3170
GGAA
2994
CTAT
1165
TTTTA
3195
TGA
5017
ATC
3130
TCTT
2622
AAG
1018
GGAT
2705
AAAAT
4809
TGA
2866
TGA
2376
TTTTA
952
TGA
2668
TTTTA
4353
TTTTA
2657
TAGA
2057
GGT
847
ATC
2466
GGT
3779
AAAAT
2567
AAAAT
1857
AAAAT
831
CCAT
1976
108
Рисунок 22. Доля покрытия тандемными повторами с различной длиной
периода
различных
функциональных
участков
ДНК
геномов
D.
melanogaster и D. pseudoobscura. Для сравнения на всех графиках ‘–×–‘
109
показывает долю покрытия 1Мб случайной последовательности Бернулли с
частотами букв, средними по геному.
(a) Экзоны D. melanogaster: ‘–*–‘, аутосомы; ‘–∆–‘, X-хромосома;
(b) межгенные участки и гетерохроматин D. melanogaster: ‘–*–‘, межгенные
участки в аутосомах; ‘–∆–‘, межгенные участки в Х-хромосоме; ‘–□–‘,
гетерохроматин.
(c) Нетранслируемые участки D. melanogaster: ‘–•–‘, 5’-UTRs в аутосомах;
‘–○–‘, 5’-UTRs в X-хромосоме; ‘–◊–‘, 3’-UTRs в аутосомах; ‘–*–‘, 3’-UTRs в
Х-хромосоме;
(d)
Сравнение
регуляторных
и
межгенных
участков
в
аутосомах
D. melanogaster: ‘–*–‘, энхансеры системы dorsal и twist ; ‘–○–‘, 124
энхансера раннего развития D. melanogaster; ‘–∆–‘, межгенные участки в
аутосомах;
(e)
Доля
покрытия
в
регуляторных
участках
D.
melanogaster,
нормализованная на долю покрытия межгенных областей аутосом
D. melanogaster: ‘–□–‘, энхансеры системы dorsal и twist, ‘–*–‘, 124
энхансера из базы Д. Папаценко; ‘–∆–‘, энхансеры начального каскада
развития D. melanogaster; ‘–•–‘, спейсеры начального каскада развития D.
melanogaster;
(f) Межгенные и кодирующие участки в геноме D. pseudoobscura: ‘–□–‘,
межгенные участки в аутосомах; ‘–●–‘, межгенные участки в X-хромосоме ;
‘–*–‘, экзоны в аутосомах; ‘–∆–‘, экзоны в X-хромосоме;
(g) Кодирующие участки D. pseudoobscura и D. melanogaster: ‘–□–‘,
аутосомы D. pseudoobscura; ‘–*–‘, аутосомы D. melanogaster;
(h) Межгенные участки D. pseudoobscura и D. melanogaster: ‘–□–‘, аутосомы
D. pseudoobscura; ‘–*–‘, аутосомы D. melanogaster;
110
(i) регуляторные участки D. pseudoobscura и D. melanogaster: ‘–□–‘,
D. pseudoobscura; ‘–*–‘, D. melanogaster.
111
ПРИЛОЖЕНИЯ
Приложение 1. IUPAC (International Union of Pure and Applied Chemistry)
консенсус для выравнивания последовательностей ДНК.
Символ
Значение
Происхождение Обозначения
A
A
Adenine
C
C
Cytosine
G
G
Guanine
T
T
Thymine
R
A или G
puRines
Y
C или T
pYrimidines
W
A или T
Weak hydrogen bonding
S
G или C
Strong hydrogen bonding
M
A или C
aMino group at common position
K
G или T
Keto group at common position
H
A, C или T
not G
B
G, C или T
not A
V
G, A, или C
not T
D
G, A или T
not C
N
G, A, C или T
aNy
112
БЛАГОДАРНОСТИ
Я благодарю Всеволода Юрьевича Макеева и Андрея Александровича
Миронова за руководство, помощь в работе и терпение, своих соавторов и
коллег – Марину Фридман за поиск литературы по теме микро- и
минисателлитов, Дмитрия Папаценко за новые идеи, Мирей Ренье за
поддержку, сотрудничество и организацию работы в INRIA, а также всех
коллег, способствующих созданию творческой атмосферы в научной среде,
Дмитрия Малько, Елизавету Пермину, Ивана Кулаковского, Юлию
Медведеву, Сергея Рахманова, Марко Каррераса, Александра Фаворова,
Людмилу Данилову, Елену Ставровскую, Анну Герасимову, Ольгу
Калинину, Екатерину Ермакову, Рамиля Нуртдинова, Дмитрия Равчеева,
Алексея Неверова, Романа Сутормина, Галину Ковалеву, Алексея Казакова,
Нику Опарину, Петра Власова, Александра Лифанова, Владимира Гаевича
Туманяна и Михаила Сергеевича Гельфанда.
Отдельное спасибо Василию Раменскому и Наталье Георгиевне
Есиповой за дружеское участие и поддержку в работе над диссертацией.
113
СПИСОК ЛИТЕРАТУРЫ
1.
Subramanian, S., V.M. Madgula, G. Ranjan, R.K. Mishra, M.W. Pandit,
C.S. Kumar, and L. Singh, Triplet repeats in human genome: distribution
and their association with genes and other genomic regions.
Bioinformatics, 2003. 19(5): p. 549-552.
2.
O'Dushlaine, C.T., R.J. Edwards, S.D. Park, and D.C. Shields, Tandem
repeat copy- variation in protein-coding regions of human genes. Genome
Biology, 2005. 6(8): p. R69.
3.
Ellegren, H., Microsatellites: simple sequences with complex evolution.
Nature Genetics, 2004. 5: p. 5435-445.
4.
Li, Y.C., A.B. Korol, T. Fahima, and E. Nevo, Microsatellites within
genes: structure, function, and evolution. Mol Biol Evol., 2004. 21(6): p.
991-1007.
5.
Li, Y.C., A.B. Korol, T. Fahima, A. Beiles, and E. Nevo, Microsatellites:
genomic distribution, putative functions and mutational mechanisms: a
review. Mol Ecol., 2002. 11(12): p. 2453-2465.
6.
Gorbunova, V., Seluanov, A., Mittelman, D., Wilson, J.H., Genome-wide
demethylation destabilizes CTG·CAG trinucleotide repeats in mammalian
cells. Human Molecular Genetics, 2004. 13(23): p. 2979-2989.
7.
Dieringer, D. and C. Schlotterer, Two distinct modes of microsatellite
mutation processes: evidence from the complete genomic sequences of nine
species. Genome Res, 2003. 13(10): p. 2242-51.
8.
Toth, G., Z. Gaspari, and J. Jurka, Microsatellites in different eukaryotic
genomes: survey and analysis. Genome Res, 2000. 10(7): p. 967-81.
9.
Katti, M.V., P.K. Ranjekar, and V.S. Gupta, Differential Distribution of
Simple Sequence Repeats in Eukaryotic Genome Sequences. Mol. Biol.
Evol., 2001. 18(7): p. pp.1161–1167.
114
10.
Ross, C.L., K.A. Dyer, T. Erez, S.J. Miller, J. Jaenike, and T.A. Markow,
Rapid divergence of microsatellite abundance among species of
Drosophila. Mol Biol Evol, 2003. 20(7): p. 1143-57.
11.
Webster, M.T., N.G. Smith, and H. Ellegren, Microsatellite evolution
inferred from human-chimpanzee genomic sequence alignments. Proc Natl
Acad Sci U S A, 2002. 99(13): p. 8748-53.
12.
Andres, A.M., M. Soldevila, O. Lao, V. Volpini, N. Saitou, H.T. Jacobs, I.
Hayasaka, F. Calafell, and J. Bertranpetit, Comparative genetics of
functional trinucleotide tandem repeats in humans and apes. J Mol Evol,
2004. 59(3): p. 329-39.
13.
Clark R.M., B.S.S., Miyahara M., Dalgliesh G.L., Bidichandani S.I.,
Expansion of GAA trinucleotide repeats in mammals. Genomics, 2006. 87:
p. 57-67.
14.
Majewski, J. and J. Ott, Distribution and characterization of regulatory
elements in the human genome. Genome Res, 2002. 12(12): p. 1827-36.
15.
Han, K., G. Yeo, P. An, C.B. Burge, and P.J. Grabowski, Combinatorial
Code for Splicing Silencing: UAGG and GGGG Motifs. PLOS Biology,
2005. 3(5): p. 0843-0860.
16.
Li Y.-C., A.B.K., T. Fahima, E. Nevo, Microsatellites Within Genes:
Structure, Function, and Evolution. Molecular Biology and Evolution,
2004. 21(6): p. pp.991–1007.
17.
Sinha, S. and E.D. Siggia, Sequence turnover and tandem repeats in cisregulatory modules in drosophila. Mol Biol Evol, 2005. 22(4): p. 874-85.
18.
Spinelli, G., Heterochromatin and complexity: a theoretical approach.
Nonlinear Dynamics Psychol Life Sci, 2003. 7(4): p. 329-61.
19.
Morgante M., H.M., Powell W., Microsatellites are preferentially
associated with nonrepetitive DNA in plant genomes. Nature genetics,
115
2002. 30: p. 194-200.
20.
Xu, G., Goodrige, A.G., A CT repeat in the promoter of the chicken malic
enzyme gene is essential for function at an alternative transcription start
site. Arch. Biochem Biophys., 1998. 358(1): p. 83-91.
21.
Lu Q, T.J., Granok H, Swede MJ, Xu J, Elgin SC., The capacity to form HDNA cannot substitute for GAGA factor binding to a (CT)n*(GA)n
regulatory site. NAR, 2003. 31(10): p. 2483-94.
22.
Raghu G., T.S., Anant S., Subramanian K.N., George D.L., Mirkin S.M.,
Transcriptional activity of the homopurine-homopyrimidine repeat of the
c-Ki-ras promoter is independent of its H-forming potential. NAR, 1994.
22(16): p. 3271–3279.
23.
Sun, D., K. Guo, J.J. Rusche, and L.H. Hurley, Facilitation of a structural
transition in the polypurine/polypyrimidine tract within the proximal
promoter region of the human VEGF gene by the presence of potassium
and G-quadruplex-interactive agents. NAR, 2005. 33(18): p. 6070-6080.
24.
Stallings R.L., F.A.F., Nelson D., Torney D.C., Hildebrand C.E., Moyzis
R.K., Evolution and distribution of (GT)n repetitive sequences in
mammalian genomes. Genomics, 1991. 10(3): p. 807-15.
25.
In, K.H., K. Asano, D. Beier, J. Grobholz, P.W. Finn, E.K. Silverman, E.S.
Silverman, T. Collins, A.R. Fischer, T.P. Keith, K. Serino, S.W. Kim, G.T.
De Sanctis, C. Yandava, A. Pillari, P. Rubin, J. Kemp, E. Israel, W. Busse,
D. Ledford, J.J. Murray, A. Segal, D. Tinkleman, and J.M. Drazen,
Naturally occurring mutations in the human 5-lipoxygenase gene promoter
that modify transcription factor binding and reporter gene transcription. J
Clin Invest, 1997. 99(5): p. 1130-7.
26.
Wilkins, R.C. and J.T. Lis, GAGA factor binding to DNA via a single
trinucleotide sequence element. Nucleic Acids Res, 1998. 26(11): p. 2672-
116
8.
27.
Schwendemann, A. and M. Lehmann, Pipsqueak and GAGA factor act in
concert as partners at homeotic and many other loci. Proc Natl Acad Sci U
S A, 2002. 99(20): p. 12883-8.
28.
Lehmann, M., Anything else but GAGA: a nonhistone protein complex
reshapes chromatin structure. Trends Genet, 2004. 20(1): p. 15-22.
29.
Meloni, R., V. Albanese, P. Ravassard, F. Treilhou, and J. Mallet, A
tetranucleotide polymorphic microsatellite, located in the first intron of the
tyrosine hydroxylase gene, acts as a transcription regulatory element in
vitro. Hum Mol Genet, 1998. 7(3): p. 423-8.
30.
Nakamura, Y., Koyama, K., Matsushima, M., VNTR (variable number of
tandem repeat) sequences as transcriptional, translational, or functional
regulators. J. Hum. Genet., 1998. 43: p. 149-152.
31.
Gebhardt, F., K.S. Zanker, and B. Brandt, Modulation of epidermal growth
factor receptor gene transcription by a polymorphic dinucleotide repeat in
intron 1. J Biol Chem, 1999. 274(19): p. 13176-80.
32.
Chamberlain N.L., D.E.D., Miesfeld R.L., The length and location of CAG
trinucleotide repeats in the androgen receptor N-terminal domain affect
transactivation function. NAR, 1994. 22(15): p. 3181-3186.
33.
Okladnova, O., Y.V. Syagailo, M. Tranitz, G. Stober, P. Riederer, R.
Mossner, and K.-P. Lesch, A Promoter-Associated Polymorphic Repeat
Modulates PAX-6 Expression in Human Brain. Biochem. and Biophys.
Res. Communications, 1998. 248: p. 402–405.
34.
Vafiadis P., B.S.T., Tedd J.A., Nadeau J., Grabs R., Goodyer C.G.,
Wickramasinghe S., Colle E., Polychronakos C., Insulin expression in
human thymus is modulated by INS VNTR alleles at the IDDM2 locus.
Nat.Genet., 1997. 15(3).
117
35.
Streelman, J.T. and T.D. Kocher, Microsatellite variation associated with
prolactin expression and growth of salt-challenged tilapia. Physiol
Genomics, 2002. 9(1): p. 1-4.
36.
Akai, J., A. Kimura, R. I. Hata., Transcriptional regulation of the human
type I collagen alpha2 (COL1A2) gene by the combination of two
dinucleotide repeats. Gene, 1999. 239: p. pp.65–73.
37.
Ranum L.P., D.J.W., Dominantly inherited, non-coding microsatellite
expansion disorders. Car Opin Genet Dev., 2002. 12(3).
38.
Liquori C.L., R.K., Moseley M.L., Jacobsen J.F., Kress W., Naylor S.L.,
Day J.W., Ranum L.P.W., Myotonic Dystrophy Type 2 Caused by a CCTG
Expansion in Intron 1 of ZNF9. Science, 2001. 293(5531): p. 864 - 867.
39.
Saveliev, A., C. Everett, T. Sharpe, Z. Webster, and R. Festenstein, DNA
triplet repeats mediate heterochromatin-protein-1-sensitive variegated
gene silencing. Nature, 2003. 422(6934): p. 909-13.
40.
Pearson, C.E. and R.R. Sinden, Alternative structures in duplex DNA
formed within the trinucleotide repeats of the myotonic dystrophy and
fragile X loci. Biochemistry, 1996. 35(15): p. 5041-53.
41.
Sinden, R.R., V.N. Potaman, E.A. Oussatcheva, C.E. Pearson, Y.L.
Lyubchenko, and L.S. Shlyakhtenko, Triplet repeats DNA structures and
human genetic diseass: dinamic mutations from dynamic DNA. J.Biosci
(Suppl.1), 2002. 27: p. 53-65.
42.
Catasti P., C.X., Mariappan S.V., Bradbury E.M., Gupta G., DNA repeats
in the human genome. Genetica, 1999. 106(1-2): p. 15-36.
43.
Pearson, C.E., A. Ewel, S. Acharya, R.A. Fishel, and R.R. Sinden, Human
MSH2 binds to trinucleotide repeat DNA structures associated with
neurodegenerative diseases. Human Molecular Genetics, 1997. 6(7): p.
1117-1123.
118
44.
Aharoni, A., N. Baran, and H. Manor, Characterization of a multisubunit
human protein which selectively binds single stranded d(GA)nand
d(GT)nsequence repeats in DNA. NAR, 1993. 21(22).
45.
Sharma, V.K., S.K. Brahmachari, and S. Ramachandran, 3(TG/CA)n
repeats in human gene families: abundance and selective patterns of
distribution according to function and gene length. BMC Genomics, 2005.
6(83).
46.
Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CUG repeat
binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta
mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids
Res., 1999. 27(22): p. 4517-4525.
47.
Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CUG repeat
binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta
mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids
Research, 2005. 27(22): p. 4517-4525.
48.
Jackson, R.J., Alternative mechanisms of initiatiating translation of
mammalian mRNAs. Biochemical Society transaction, 2005. 3(6): p. 12311241.
49.
Yamada, M., S. Tsuji, and H. Takahashi, Involvement of lysosomes in the
pathogenesis of CAG repeat diseases. Ann Neurol, 2002. 52(4): p. 498503.
50.
Galvao, R., L. Mendes-Soares, J. Camara, I. Jaco, and M. Carmo-Fonseca,
Triplet repeats, RNA secondary structure and toxic gain-of-function
models for pathogenesis. Brain Res Bull, 2001. 56(3-4): p. 191-201.
51.
Duval, A., S. Rolland, E. Tubacher, H. Bui, G. Thomas, and R. Hamelin,
The Human T-Cell Transcription Factor-4 Gene: Structure, Extensive
Characterization of Alternative Splicings, and Mutational Analysis in
119
Colorectal Cancer Cell Lines. Cancer Research, 2000. 60: p. 3872-3879.
52.
Filippova, G.N., Thienes, C.P., Penn, B.H., Cho, D.H., Hu, Y.J., Moore,
J.M., Klesert, T.R., Lobanenkov, V.V., Tapscott, S.J., CTCF-binding sites
flank CTG/CAG repeats and form a methylation-sensitive insulator at the
DM1 locus. Nat Genet, 2001. 28(4): p. 335-43.
53.
Riley, D.E. and J.N. Krieger, Transcribed short tandem repeats occur in
couples with strongly preferred registers. Biochem Biophys Res Commun,
2003. 305(2): p. 257-65.
54.
Riley, D.E. and J.N. Krieger, Diverse eukaryotic transcripts suggest short
tandem repeats have cellular functions. Biochem Biophys Res Commun,
2002. 298(4): p. 581-6.
55.
Gomez, D., T. Lemarteleur, L. Lacroix, P. Mailliet, J.-L. Mergny, and J.F.A. Riou, Telomerase downregulation induced by the G-quadruplex
ligand 12459 in A549 cells is mediated by hTERT RNA alternative
splicing. Nucleic Acids Research, 2004. 32(1): p. 371-379.
56.
Hefferon, T.W., J.D. Groman, C.E. Yurk, and G.R. Cutting, A variable
dinucleotide repeat in the CFTR gene contributes to phenotype diversity by
forming RNA secondary structures that alter splicing. Proc Natl Acad Sci
U S A, 2004. 101(10): p. 3504-9.
57.
Hui, J., G. Reither, and A. Bindereif, Novel functional role of CA repeats
and hnRNP L in RNA stability. Rna, 2003. 9(8): p. 931-6.
58.
Gabellini, N., A polymorphic GT repeat from the human cardiac
Na+Ca2+ exchanger intron 2 activates splicing. Eur J Biochem, 2001.
268(4): p. 1076-83.
59.
Shelley, C.S. and F.E. Baralle, Deletion analysis of a unique 3' splice site
indicates that alternating guanine and thymine residues represent an
efficient splicing signal. Nucleic Acids Res, 1987. 15(9): p. 3787-99.
120
60.
Okamura, K., Y. Hagiwara-Takeuchi, T. Li, T.H. Vu, M. Hirai, M. Hattori,
Y. Sakaki, A.R. Hoffman, and T. Ito, Comparative Genome Analysis of the
Mouse Imprinted Gene Impact and Its Nonimprinted Human Homolog
IMPACT: Toward the Structural Basis for Species-Specific Imprinting.
Genome Res, 2000. 10(12): p. 1878-1889.
61.
Krontiris, T.G., B. Devlin, D.D. Karp, N.J. Robert, and N. Risch, An
association between the risk of cancer and mutations in the HRAS1
minisatellite locus. N Engl J Med, 1993. 329(8): p. 517-23.
62.
Kashi, Y. and D.G. King, Simple sequence repeats as advantageous
mutators in evolution. Trends in Genetics, 2006. 22(5): p. 253-259.
63.
Sawyer, L.A., J.M. Hennessy, A.A. Peixoto, E. Rosato, H. Parkinson, R.
Costa, and C.P. Kyriacou, Natural Variation in a Drosophila Clock Gene
and Temperature Compensation. Science, 1997. 278(5346): p. 2117 2120.
64.
Sawyer, L.A., F. Sandrelli, C. Pasetto, A.A. Peixoto, E. Rosato, R. Costa,
and C.P. Kyriacou, The period Gene Thr-Gly Polymorphism in Australian
and African Drosophila melanogaster Populations: Implications for
Selection. Genetics, 2006. 174(1): p. 465–480.
65.
Lim, M.M., Z. Wang, D.E. Olazabal, X. Ren, E.P. Terwillinger, and L.J.
Young, Enchanced partner prefrence in a promiscous species by
manipulating the expression of a single gene. Nature, 2004. 429(17): p.
754-757.
66.
Hammock, E.A.D. and L.J. Young, Microsatellite Instability Generates
Diversity in Brain and Sociobehavioral Traits. Science, 2005. 308(5728):
p. 1630 - 1634.
67.
Hammock, E.A.D. and L.J. Young, Functional Microsatellite
Polymorphism Associated with Divergent Social Structure in Vole Species.
121
Mol. Biol. Evol., 2004. 21(6): p. 1057-1063.
68.
Fondon, J.W. and H.R. Garner, Molecular origins of rapid and continuous
morphological evolution. PNAS USA, 2004. 101(52): p. 18058-18063.
69.
Kashi, Y. and D.G. King, Simple sequence repeats as advantageous
mutators in evolution. Trends Genet, 2006. 22(5): p. 253-9.
70.
Makeev, V.J., A.P. Lifanov, A.G. Nazina, and D.A. Papatsenko, Distance
preferences in the arrangement of binding motifs and hierarchical levels in
organization of transcription regulatory information. Nucleic Acids Res,
2003. 31(20): p. 6016-26.
71.
Trifonov, E.N., 3-, 10.5-, 200- and 400-base periodicitiesin genome
sequences. Physica A, 1998. 249: p. 511-516.
72.
Ioshikhes, I., E.N. Trifonov, and M.Q. Zhang, Periodical distribution of
transcription factor sites in promoter regions and connection with
chromatin structure. PNAS USA, 1999. 96: p. 2891–2895.
73.
Rice, P., I. Longden, and A. Bleasby, EMBOSS: the European Molecular
Biology Open Software Suite. Trends Genet, 2000. 16(6): p. 276-7.
74.
Smit, A.F.A., R. Hubley, and P. Green, RepeatMasker Open-3.0, 19962004.
75.
Landau, G.M., J.P. Schmidt, and D. Sokol, An algorithm for approximate
tandem repeats. J Comput Biol, 2001. 8(1): p. 1-18.
76.
Hamming, R.W., Error detecting and error correcting codes. Bell System
Tech. J., 1950. 29: p. 147-160.
77.
Levenshtein, V.I., Binary codes capable of correcting spurious insertions
and deletions of ones. Russian Problemy Peredachi Irzfbrmatsii, 1965. 1:
p. 12-25.
78.
Rivals, E., O. Delgrange, J.P. Delahaye, M. Dauchet, M.O. Delorme, A.
Henaut, and E. Ollivier, Detection of significant patterns by compression
122
algorithms: the case of approximate tandem repeats in DNA sequences.
Comput Appl Biosci, 1997. 13(2): p. 131-6.
79.
Benson, G. and M.S. Waterman, A method for fast database search for all
k-nucleotide repeats. Nucleic Acids Res, 1994. 22(22): p. 4828-36.
80.
Sagot, M.-F. and E.W. Myers. Identifying satellites in nucleic acid
sequences. in The 2nd Annual International Conference on Computational
Molecular Biology (RECOMB 98). 1998: ACM Press.
81.
Benson, G., Tandem repeats finder: a program to analyze DNA sequences.
Nucleic Acids Res., 1999. 27: p. 573-578.
82.
Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman, Basic
local alignment search tool. J Mol Biol, 1990. 215(3): p. 403-10.
83.
Makeev, V.J. and V.G. Tumanyan, Search of periodicities in primary
structure of biopolymers: a general Fourier approach. Comput Appl
Biosci, 1996. 12(1): p. 49-54.
84.
Chaley, M.B., E.V. Korotkov, and K.G. Skryabin, Method revealing latent
periodicity of the nucleotide sequences modified for a case of small
samples. DNA Res, 1999. 6(3): p. 153-63.
85.
Chechetkin, V.R. and V.V. Lobzin, Nucleosome units and hidden
periodicities in DNA sequences. J Biomol Struct Dyn, 1998. 15(5): p. 93747.
86.
Hauth, A.M. and D.A. Joseph, Beyond tandem repeats: complex pattern
structures and distant regions of similarity. Bioinformatics, 2002. 18
Suppl 1: p. S31-7.
87.
Castelo, A.T., W. Martins, and G.R. Gao, TROLL--tandem repeat
occurrence locator. Bioinformatics, 2002. 18(4): p. 634-6.
88.
Aho, A.V. and M.J. Corasick, Efficient string matching: an aid to
bibliographic search. Communications of the ACM, 1975. 18(6): p. 333 -
123
340.
89.
Kolpakov, R., G. Bana, and G. Kucherov, mreps: efficient and flexible
detection of tandem repeats in DNA. Nucleic Acids Res., 2003. 31: p.
3672-3678.
90.
Laboratory, L.A.N., Tandyman, unpublished.
91.
Abajian, C., Sputnik. 1994.
92.
Schlotterer, C., Evolutionary dynamics of microsatellite DNA.
Chromosoma, 2000. 109(6): p. 365-71.
93.
Kent, W.J., C.W. Sugnet, T.S. Furey, K.M. Roskin, T.H. Pringle, A.M.
Zahler, and D. Haussler, The Human Genome Browser at UCSC. Genome
Res., 2002. 12(6): p. 996-100.
94.
di Liberto, F., G. Gallavotti, and L. Russo, Markov Processes, Bernoulli
Schemes, and Ising Model. Commun. math. Phys., 1973. 33: p. 259-282.
95.
Régnier, M., A unified approach to word occurrences probabilities.
Discrete Applied Mathematics, 2000. 104(1): p. 259–280.
96.
Boeva, V., J. Clement, M. Regnier, and M. Vandenbogaert. Assessing the
Significance of Sets of Words. in Combinatorial Pattern Matching (CPM)
2005. 2005. Jeju Island, Korea: Published online in Lecture Notes in
Computer Science, Springer Verlag.
97.
Schug, M.D., C.M. Hutter, K.A. Wetterstrand, M.S. Gaudette, T.F.
Mackay, and C.F. Aquadro, The mutation rates of di-, tri- and
tetranucleotide repeats in Drosophila melanogaster. Mol Biol Evol, 1998.
15(12): p. 1751-60.
98.
Boeva, V., M. Regnier, D. Papatsenko, and V. Makeev, Short fuzzy tandem
repeats in genomic sequences, identification, and possible role in
regulation of gene expression. Bioinformatics, 2006. 22(6): p. 676-684.
99.
Batzer, M.A. and P.L. Deininger, Alu repeats and human genomic
124
diversity. Nat Rev Genet, 2002. 3(5): p. 370-9.
100. Lander, E.S., et al., Initial sequencing and analysis of the human genome.
Nature, 2001. 409(6822): p. 860-921.
101. Nagai, K., Y. Nakaseko, K. Nasmyth, and D. Rhodes, Zinc-finger motifs
expressed in E. coli and folded in vitro direct specific binding to DNA.
Nature, 1988. 332(6161): p. 284-6.
102. Chavrier, P., P. Lemaire, O. Revelant, R. Bravo, and P. Charnay,
Characterization of a mouse multigene family that encodes zinc finger
structures. Mol Cell Biol, 1988. 8(3): p. 1319-26.
103. Лагутин, М.Б., Наглядная математическая статистика. Vol. Книга
2. 2003, Москва: ООО "Фирма "П-центр".
104. Боровков, А.А., Математическая статитика. Наука, 1984.
105. Manuelidis, L. and J.C. Wu, Homology between human and simian
repeated DNA. Nature, 1978. 276: p. 92–94.
106. Rudd, M.K., G.A. Wray, and H.F. Willard, The evolutionary dynamics of
alpha-satellite. Genome Res, 2006. 16(1): p. 88-96.
107. Kazakov, A.E., V.A. Shepelev, I.G. Tumeneva, A.A. Alexandrov, Y.B.
Yurov, and I.A. Alexandrov, Interspersed repeats are found predominantly
in the “old” alpha-satellite families. Genomics, 2003. 82: p. 619–627.
108. Alexandrov, I., A. Kazakov, I. Tumeneva, V. Shepelev, and Y. Yurov,
Alpha-Satellite DNA of primates: Old and new families. Chromosoma,
2001. 110: p. 253–266.
109. Rudd, M.K. and H.F. Willard, Analysis of the centromeric regions of the
human genome assembly. Trends Genet., 2004. 20: p. 529–533.
110. Yu, X., X. Zhu, W. Pi, J. Ling, L. Ko, Y. Takeda, and D. Tuan, The long
terminal repeat (LTR) of ERV-9 human endogenous retrovirus binds to
NF-Y in the assembly of an active LTR enhancer complex NF-
125
Y/MZF1/GATA-2. J Biol Chem, 2005. 280(42): p. 35184-94.
111. Lapuk, A.V., P.P. Khil, I.V. Lavrentieva, Y.B. Lebedev, and E.D.
Sverdlov, A human endogenous retrovirus-like (HERV) LTR formed more
than 10 million years ago due to an insertion of HERV-H LTR into the 5'
LTR of HERV-K is situated on human chromosomes 10, 19 and Y. J Gen
Virol, 1999. 80 (Pt 4): p. 835-9.
112. Cardone, M.F., L. Ballarati, M. Ventura, M. Rocchi, A. Marozzi, E.
Ginelli, and R. Meneveri, Evolution of beta satellite DNA sequences:
evidence for duplication-mediated repeat amplification and spreading.
Mol Biol Evol, 2004. 21(9): p. 1792-9.
113. Gao, Y.G., H. Robinson, R. Sanishvili, A. Joachimiak, and A.H. Wang,
Structure and recognition of sheared tandem G x A base pairs associated
with human centromere DNA sequence at atomic resolution. Biochemistry,
1999. 38(50): p. 16452-60.
114. Costa, F.F., V.A. Paixao, F.P. Cavalher, K.B. Ribeiro, I.W. Cunha, J.A.
Rinck, Jr., M. O'Hare, A. Mackay, F.A. Soares, R.R. Brentani, and A.A.
Camargo, SATR-1 hypomethylation is a common and early event in breast
cancer. Cancer Genet Cytogenet, 2006. 165(2): p. 135-43.
115. Birney, E., et al., Ensembl 2006. Nucleic Acids Res, 2006. 34(Database
issue): p. D556-61.
116. Grumbling, G., V. Strelets, and T.F. Consortium, FlyBase: anatomical
data, images and queries. NAR, 2006. 34: p. D484-D488.
117. Papatsenko, D.A., V.J. Makeev, A.P. Lifanov, M. Regnier, A.G. Nazina,
and C. Desplan, Extraction of functional binding sites from unique
regulatory regions: the Drosophila early developmental enhancers.
Genome Res, 2002. 12(3): p. 470-81.
126
Download