АЛГОРИТМ ИССЛЕДОВАНИЯ И СРАВНЕНИЯ СТРУКТУРЫ

advertisement
АЛГОРИТМ ПОСТРОЕНИЯ СЛОВАРНО-СИММЕТРИЙНЫХ МОДЕЛЕЙ
ФУНКЦИОНАЛЬНЫХ ОБЛАСТЕЙ.
Введение
По мере накопления данных о последовательности нуклеотидов ДНК в геномах
различных организмов, все большую актуальность приобретает задача определения на
основании этих данных функции, выполняемой тем или иным участком генома.
Несмотря на существование большого количества алгоритмов анализа, сравнения
и распознавания генетических текстов, таких как различные варианты выравнивания[14], консенсусные и матричные методы[5,6], и грамматические модели[7], до сих пор не
существует единого подхода, учитывающего структурно-текстуальное единство
генетических текстов.
Таким обобщающим подходом может стать сочетание симметрийного анализа[8,]
и словарного метода. Результаты, полученные в предыдущих исследованиях
показывают необходимость создания алгоритма, базирующегося на методах
симметрийного анализа, чему и посвящена данная работа.
Общая схема работы алгоритма.
Система исследования функциональных областей состоит из ряда блоков,
обладающих высоким уровнем самостоятельности. В зависимости от типа решаемой
задачи конкретная реализация различных блоков может существенно отличается, не
нарушая при этом работы всего алгоритма в целом. Предлагаемая организация системы
изображена на рис. 1.
Блок поиска общих слов поставляет системе материал для дальнейшей работы. По
нескольким причинам проще найти сначала все слова определенной длины и лишь
потом восстановить более длинные. В случае поиска слов без замен обнаружение общих
слов всех длин требует значительного времени, постоянных проверок словаря на
избыточность и не позволит обнаружить слова которые встречаются без изменений в
большинстве последовательностей, но модифицированы в одной. В случае поиска с
заменами необходимость поиска слов определенной длины становится более насущной
т.к. слова необходимо не брать из последовательностей а генерировать(см. блок поиска
общих слов фиксированной длины).
Восстановление более длинных слов использует для работы сведения о
расположении слов фиксированной длины в последовательностях.
Блок получения общего словаря и структуры может быть выделен в отдельный
модуль или встроен в блок установления связей в зависимости от типа решаемой задачи.
Приведенная схема включает все возможные блоки, однако для решения реальных
задач часто необходимы лишь некоторые из них. Далее приведены описания
конкретных реализаций различных вариантов блоков и их соединений. В то же время
возможные сочетания блоков и их устройства не ограничивается приведенными
примерами и должно подбираться в зависимости от специфики решаемой задачи.
Описание возможных реализаций блоков.
1.Блок поиска общих слов фиксированной длины.
Для поиска точных слов без замен реализация данного блока не представляет
трудностей. Слова из одной последовательности последовательно сравниваются со
словами других и в случае обнаружения во всех последовательностях заносятся в
список общих слов с указанием позиций в этих последовательностях.
Относительно более сложной является задача реализации блока поиска слов с
заменами. Дело в том, что слово, требующие минимального количества замен(например
одной) и присутствующие в таком виде во всех последовательностях, может не
содержатся в них в явном виде, например слова agctct и agatg, найденные в
последовательностях отличаются друг от друга на две замены а от слова agatct,
отсутствующего в исходных последовательностях только на одну замену. Такие слова
необходимо сгенерировать искусственно. На рис.2. приведена схема одной из наиболее
простых реализаций блока поиска общих слов с заменами.
В схеме на Рис.2. под проверкой присутствия слова в последовательности понимается
проверка присутствия с одной заменой. Приведенная схема может быть легко
расширена для поиска слов другой длины или с иным количеством замен.
2.Восстановление более длинных слов из слов фиксированной длины.
Восстановление более длинных слов может производится различными способами.
Описанный здесь общий метод пригоден как для работы с заменами так и без, однако
для работы без замен можно предложить более производительный и простой алгоритм,
являющейся упрощенной модификацией общего. Его построение не представляет
особой сложности.
Восстановление более длинных слов производится отдельно по каждой
последовательности. Слова в располагаются в прямоугольной таблице в соответствии с
их позициями после чего находится наиболее длинное и наиболее точное исходное
слово, путем сравнения с реальной последовательностью. При работе без замен все
буквы в каждом столбце таблицы будут одинаковыми, а в случае допущения замен
могут различаться как например 4-ом столбце таблицы 1. Для построения слова
используются те буквы, которые совпадают с буквами в реальной последовательности,
если же таких не оказывается, то берется та буква, которая наиболее часто повторяется в
данном столбце.
Таблица 1.
Восстановление исходного более длинного слова из слов меньшей
длины(здесь длина равна 6)
Фрагмент одной G A T A A C A A T T C A A C A G G A A T
из
последовательнос
тей
Слово из общего
словаря
То же.
Измененное
длинное слово (3
замены по отн. К
исх)
G A T A A C
A T A A
A T A A
A T A A
T T A
A A
A C
C
C
C
C
C
C
A
A
C
A
A
C
G
A
A
A
A
A
A
A
A
A
T
C
T
T
A
T
T
T
T
T
T
T
T
T
T
T
T
C
T
C
T
C
C
C
C
T
T
A
G
T
A
A
C
C
C
C
C
A
A
A
G
C
C
C
C
C
C
G A T A A C A A T T C A A C C
A
A
A
A
A
G
G
G
G
G
G A
G A T
G A T
3. Установление связей между последовательностями и количественный
подсчет сходства.
Это один из наиболее сложных блоков. Его конкретные реализации будут
различаться в зависимости от типа решаемой задачи, здесь же приводятся общие
принципы построения. Задачами этого блока являются определение соответствия слов
одной последовательности слова другой с количественной оценкой этого соответствия.
Этот блок тесно связан с блоком минимизации словаря и построения общей структуры
поэтому они описываются здесь в едином исполнении.
В основе работы описываемого блока лежит установление сходства между двумя
словами. Функция оценки сходства сходство(Wrd1,Wrd2), вычисляемая согласно рис 6,
формулам 1 и 2.
M
Ds
*100% (1)
Nb
Здесь M- процент сходства слов. Ds - число совпадений с учетом симметричных
преобразований, Nb - общее число букв в наиболее длинном слове. Число совпадений
Ds вычисляется по формуле(2) с весовыми коэффициентами, соответствующими
различным типам симметричных преобразований.
Ds  Dk * Ks (2)
где Кs - коэффициент соответствующий типу симметричного преобразования, а Dk число совпадений.
Блок создания образа должен установить соотношения местоположении слов,
входящих в общий словарь. Можно выделить два случая: последовательности имеющие
фиксированную точку отсчета(например промоторы) и
последовательности не
имеющие такой точки.
В первом случае можно воспользоваться общей точкой отсчета для создания
образа. При этом построение образа значительно упрощается. Находится средняя
позиция слова во всех последовательностях и вычисляется максимальное отклонение от
среднего. Затем вычисляется доля которую максимальное отклонение от среднего
составляет от расстояния:
СК 
max( R  R )
R
*100%
Здесь R среднее расстояние слова от точки отсчета, R _это расстояние слова от точки
отсчета или другого слова в конкретной последовательности. Слова Ск которых не
превышает некоторого заданного значения заносятся в образ. Образ в этом случае
содержит записи вида:.
Слово WRDI совпадает со словом в последовательности не менее чем на MI %
находится от точки отсчета на расстоянии Ri  RDEVi где RDEV= max( R  R ) .
Более сложным является случай когда определенная точка отсчета отсутствует.
Здесь для создания образа необходимо использовать относительные расстояния между
словами или порядок их следования. Подсчитав расстояния между парами слов в
каждой из последовательностей можно найти такие пары, расстояние между которыми
постоянно и занести эти сведения в образ. В этом случае образ строится в виде:
Слово WRDI совпадает со словом в последовательности не менее чем на MI % и
находится на расстоянии Ri  RDEVi от слова WRDJ
Количество операций, которые необходимо выполнит для построения образа в
этом виде значительно больше, чем в первом случае так как необходимо сравнивать
слова по принципу каждое с каждым.
Работа
блока
распознавания
основана
на
формируемом
образе
последовательностей. Образ функциональной области построенный на основании
общего словаря и структуры последовательно налагается на каждую из исследуемых
последовательностей, при этом выполняется операция сравнения его элементов с
последовательностью, например так: Если все слова WRDI совпадают со словом в
последовательности не менее чем на MI % и находится от точки отсчета на расстоянии
Ri  RDEV то эта последовательность принадлежит к классу последовательностей,
описываемых данным образом. То есть производится проверка того, удовлетворяет ли
последовательность условиям образа.
Предложенный алгоритм позволяет строить сложные симметрийно-словарные модели,
а также применять их к распознаванию и анализу функциональных областей генома.
Алгоритм учитывает существование перестановок вложенных слов и допустимость
замен в синонимичных фрагментах.
Литература.
1. Needleman S.B., Wunsch C.D. A General method applicable to search for similarities in
amino acid sequences of two proteins// J. Mol. Biol. 1970. Vol.48 P.444-453
2. Waterman M.S. 1983. Sequence alignments in the neighborhood of the optimum with
general application to dynamic programming. Proc. Nat. Acad. Sxi. USA 80, 3123-3124.
3. Waterman M.S., Bayers T.H. 1985. A dynamic programming algorithm to find all
solutions in a neighborhood of the optimum. Math. Biosci. 77, 179-188.
4. . Naor D., Brutlag D.L. 1994 On Near-Optimal Alignments of Biological Sequences. J.
Comp. Biol. Vol 1. P349-366.
5. Staden R. 1984. Computer methods to locate signals in nucleic acid sequences. Nucleic
Acids Res., Vol. 12, P505-519
6. . Schneider T.D., Stephens R.M. 1990. Sequence logos: A new way to display consensus
sequences. Nucl. Acids Res., 18:6097-6100
7. Brendel V., Beckmann J.S., Trifonov E.N. 1986 Linguistics of Nucleotide Sequences:
Morphology and Comparison of Vocabularies. Journal of Biomolecular Structure&Dinamics
Vol. 4 P11-21.
8. Леонтьев А.Ю. 1992. Симметрия одноцепочечных молекул ДНК. Биофизика Том 37,
874-878
Download