Поиск протяженных повторов в геномах на основе спектрально

advertisement
Поиск протяженных повторов в
геномах на основе
спектрально-аналитического
метода
Доклад Земледельцева Д.И.
Введение
• Анализ последовательности ДНК, в том
числе содержащихся в ней повторов,
является одной из основных задач,
решаемых биоинформатикой.
• Актуальность изучения повторов
подкрепляется тем, что у человека до
50% ДНК приходится на повторы.
Типы повторов
• Разнесённые повторы обязаны
появлением действию транспозонов.
Они в данной работе подробно не
рассматриваются.
• Тандемные повторы являются
результатом дублирования фрагментов
ДНК, когда копия фрагмента следует
сразу за образцом.
Тандемные повторы
Внутри себя она делятся на четыре
класса по протяжённости:
1) Микросателлиты – до 6 н.п.
2) Минисателлиты – 7-100 н.п.
3) Саттелитная ДНК – 100-1000 н.п.
4) Мегасателлиты – свыше 1000 н.п.
Роль
• Совсем недавно повторы представлялись как
«мусорная» («эгоистичная») ДНК безо всякой
функции.
• В 2004 году впервые были получены
подтверждения гипотезы о связи тандемных
повторов и морфологической
вариабельностью видов. У млекопитающих,
как предполагается, они связаны с т.н. «цисрегуляторными районами», влияющими на
экспрессию генов.
Предполагаемый механизм
работы
• Количество повторов паттерна в
участках мегасателлитов оказалось
индивидуально. Их роль состоит в том,
чтобы обеспечить такую укладку
эухроматина, чтобы транскрибируемая
ДНК сформировала специфический
паттерн экспрессии.
Применение к таксономии
• Секвенирование полных геномов, которое
становится в последнее время всё более
массовым, открывает широкие возможности
для сравнительного анализа.
• Повторы с их регуляторной функцией могут
сыграть роль ключевого молекулярного
признака, особенно на уровне отдельных
особей или близких видов, когда генетические
последовательности почти идентичны.
Классические вычислительные
методы
• На данный момент разработано множество
алгоритмов и программ для вычислительной
оценки подобия фрагментов ДНК и её
производных (белков, РНК).
• Большинство алгоритмов основаны на
базовых принципах обработки текстовой
информации, таких как расстояние Хэмминга
или редакционное расстояние Левенштейна.
Недостатки классических
методов
• Временная сложность алгоритмов
существенно нелинейна, главным
замедляющим фактором являются
точечные мутации, “исправление”
которых увеличивает время анализа.
• Как следствие, эффективность
алгоритмов на больших (от 10000 н.п.)
участках резко снижается.
Описание спектрального метода
поиска повторов
• Преимущество непрерывных методов
проявляется тогда, когда мы
сравниваем не одиночные нуклеотиды,
а целые блоки нуклеотидов, где каждый
блок можно представить в виде
некоторой дискретной функции.
Основные этапы
1) Представление нуклеотидной
последовательности в виде набора
функций-аналогов.
2) Преобразование функций-аналогов в
спектральное представление.
3) Сравнение спектров разложения.
4) Отображение и анализ матрицы
спектральной гомологии.
Расчет функции-аналога
последовательности ДНК
Разбиение алфавита A = {A,T,G,C} на два
подмножества A1 и A2, так что A1 ∪A2 =
A:
1, если si ∈ A1
gA1(si) =
0, если si не∈ A1
В качестве A1 мы можем взять его
подмножество {G,C}.
Расчет функции-аналога
последовательности ДНК
• Функция аналог представляет собой
сумму gA1(si) при продвижении окна
длиной W1 c шагом d1.
• Она получается считающей, то есть при
каждой встрече в последовательности
G или C она увеличивается на единицу.
Расчет функции-аналога
последовательности ДНК
• Для обеспечения однозначного
декодирования нуклеотидной
последовательности из функции-аналога
необходимо, чтобы d1 = 1, а количество
линейно-независимых функций-аналогов
должно быть две.
• При d1 не равным 1 теряется некоторая
точность, но достигается ускорение времени
счета при больших размерах
обрабатываемых последовательностей за
счёт прореживания.
Расчет функции-аналога
последовательности ДНК
• Зная функцию-аналог fi, полученной при
d1 = 1 и начальный фрагмент
последовательности длиной W1 − 1
последовательность можно
декодировать.
• Соотношение:
f CT =W1− f GA
можно использовать для оценивания
комплементарных повторов.
Получение спектров разложения
• На данном этапе функцию f GC нужно
разделить на фрагменты для преобразования
в коэффициенты разложения по
ортогональному базису. Для этого
фиксируется окно W2, двигается по функции f
GC с шагом d2, и на каждом шаге фрагмент,
попавший в окно, преобразуется в
коэффициенты разложения. Вектора
коэффициентов разложения сохраняются для
дальнейшей оценки близости между ними.
Выбор системы ортогональных
полиномов
• Полином Лежандра непрерывного
аргумента
• Полином Фурье непрерывного
аргумента
• Полином Чебышёва дискретного
аргумента
Выбор системы ортогональных
полиномов
После тестирования все базисы
оказались пригодными для оценивания
среднеквадратичного отклонения
фрагментов функций-аналогов.
При этом каждый из этих базисов имеет
свои достоинства и недостатки в рамках
алгоритма решения данной задачи.
Базис тригонометрических
полиномов Фурье
В конечном итоге наиболее рациональное
решение - использовать для представления
функции в спектральном виде разложение по
базису тригонометрических функций:
•
B = {1\√2, sinkx, cos kx, ...}, k=1, 2, где k –
номер гармоники. Система функций (фи)i(x) ∈
B, i= 0,1, . . . , удовлетворяет условию
ортогональности в рамках скалярного
произведения
Сравнение спектров разложения
• Для оценки близости двух фрагментов f и g
используется метрика, согласованная с
нормой и скалярным произведением:
ро( f ,g) = [[f −g]] = sqrt( f −g, f −g).
( f −g, f −g) = сумма от 0 до L−1 по
(Ck−Dk)^2(фиk,фиk), где Ck и Dk коэффициенты разложения f и g
соответственно.
Сравнение спектров разложения
• решающее правило основано на
проверке следующего неравенства:
тета( f ,g) ≤ эпсилон,
где эпсилон ∈ [0,1] пороговое значение
решающего правила, L - количество
коэффициентов разложения и тета( f ,g)
=1\2W1^2 суммы от 0 до L−1 по
(Ck−Dk)2
Сравнение спектров разложения
• Среднеквадратичное отклонение
является монотонно возрастающим по
числу коэффициентов разложения, что
позволяет прервать вычисление суммы
квадратов, если пороговое значение e
превышено.
Матрица спектральной гомологии
• Точка на пересечении строки и столбца
ставится в случае близости спектров
коэффициентов полученных для функцийаналогов фрагментов. Протяженные участки
сходства, как и в случае с точечной матрицей,
отображаются параллельными (в случае
прямых повторов) или перпендикулярными (в
случае инвертированных повторов)
отрезками линий, параллельными главной
диагонали.
Матрица спектральной гомологии
• Автоматический анализ матрицы
спектральной гомологии позволяет
выделить наиболее существенные
участки сравнения. Для более точного
определения координат повторов
требуется этап верификации. Для того
чтобы повысить качество
распознавания, одновременно
используются две кривые f GC и f GA,
при этом ширина окнаW2 не меняется.
ПРИЛОЖЕНИЯ
СПЕКТРАЛЬНОГО АЛГОРИТМА
ПОИСКА ПОВТОРОВ
Поиск протяженных тандемных
повторов
• В результате анализа Mus musculus и Rattus
norvegicus, было выявлено некоторое
количество протяженных повторов, тем не
менее под искомый шаблон также попадали
ранее известные многократно
повторяющиеся сателлиты длиной порядка
300 п.н. Анализ 17-й хромосомы кролика
выявил регион, в котором находятся
протяженные тандемные повторы. Длина
мотива приблизительно равняется 2623 н.п.
Данный повтор был опубликован в RepBase
под именем MSU1
Поиск протяженных тандемных
повторов
• Копии повтора отличаются друг от друга
минимально на 4.2%, максимально на
22.7%, в консенсусную
последовательность входит 47%строго
консервативных позиций.
• Для поиска повтора MSU1 были
использованы следующие параметры:
W1 = 2500,W2 = 10000,d2 = 2500,L = 15,
эпсилон = 0.0011.
Поиск протяженных тандемных
повторов
• При анализе 7 хромосомы Mus
musculus найден кластер, состоящий из
тандемных повторов длиной порядка
1873 н.п. и количеством копий более
130. Каждая копия содержит в себе ген
SNORD115 протяженностью 89 н.п.
Полногеномное сравнение
• Логичным продолжением поиска
мегасателлитных тандемных повторов стало
полнохромосомное сравнение организмов
Mus musculus и Rattus norvegicus. Построена
генерализованная таблица подобия,
полученная после полногеномного сравнения
ДНК крысы и мыши. Отображены повторы
длиной не менее 200 тысяч нуклеотидов.
Такие повторы хорошо согласуются с
известными районами синтении.
Сравнение с ДНК-гибридизацией
• Параметры метода могут изменятся в
широком диапазоне, что позволяет
исследовать последовательности на
разных масштабах. Масштабирование
позволяет построить предварительную
карту повторов, а затем рассматривать
наиболее интересные фрагменты.
Сравнение с ДНК-гибридизацией
• Одним из интересных мест человеческой Y
хромосомы является протяженный
инвертированный повтор длиной порядка 300
тыс. н.п., повтор сильно разбит, между
схожими участками имеются области, где
сходство минимально или отсутствует.
• Повтор ограничивает область размером в 3.5
млн.н.п. и, вероятно, является причиной
инверсии этой области.
Литература
• «Поиск протяженных повторов в геномах на основе
спектрально-аналитического метода» Панкратов
А.Н., Пятков М.И., Тетуев Р.К., Назипова Н.Н., Дедус
Ф.Ф.;
• «Гены» под ред. Б. Льюина;
• «Основы высшей математики и её приложения к
биологии» Ю.Н. Сударев, Т.В. Радославова, Т.В.
Першикова;
• «Элементы теории функций и функционального
анализа»,1976 А.Н. Колмогоров, С.В. Фомин;
• «Классические ортогональные полиномы дискретной
переменной» Никифоров, Суслов, Уваров.
Благодарности
• Докладчик выражает огромную
благодарность доц. каф. мат. анализа
мехмата МГУ Александру Николаевичу
Боброву и сотруднику Института
молекулярной генетики РАН Алине
Павловне Корбут за консультации.
Благодарю за внимание
Download