Алгоритм естественной классификации. Обнаружение закономерностей Костин В.С., Витяев Е.Е. (ИМ СО РАН)

advertisement
Костин В.С., Витяев Е.Е. (ИМ СО РАН)
Алгоритм естественной классификации. Обнаружение
закономерностей
Была начата работа по созданию методов классификации транскрипционных факторов
на основе контекстных закономерностей.
Разработана
программа
естественной
классификации
нуклеотидных
последовательностей на основе поиска контекстных закономерностей. Данный метод может
быть применен для оптимальной классификации транскрипционных факторов по
нуклеотидным последовательностям их сайтов связывания, проаннотированных в базе данных
TRRD.
Задача состоит в оптимальном разбиении обучающей выборки на подклассы на основе
контекстных закономерностей, описывающих эти подклассы (естественная классификация).
На первом этапе ставилась задача поиска таких закономерностей.
Под закономерностью в нуклеотидных последовательностях мы понимаем такое
сочетание нескольких нуклеотидов в различных позициях, при котором наблюдаются
значительные увеличения распределения частот встречаемости целевого нуклеотида.
Необходимо сразу же отметить, что метод обнаружения закономерностей в качестве
обучающей выборки требует матрицу объект-признак. Нуклеотидные последовательности
превращаются в матрицу объект-признак следующим образом. Расположим исходные
последовательности друг над другом каждую в отдельной строке матрицы. При этом первый
столбец будет образован стартовыми нуклеотидами всех последовательностей, второй столбец
- вторыми нуклеотидами, и так далее. Значение внутри клетки этой матрицы соответствует
коду нуклеотида: 1 - A, 2 - T, 3 - G, 4 - C. В этом случае набор последовательностей:
преобразуется в матрицу, содержащую столько строк, сколько последовательностей в
обучающей выборке.
Для поиска закономерностей в качестве целевого признака мы перебираем все столбцы
матрицы по порядку. Закономерность, кроме целевого признака, содержит один или более
признаков, образующих посылку закономерности. Посылка играет роль фильтрующего
запроса, который выбирает из исходной таблицы только те строки, в которых все признаки
посылки совпадают с таковыми в таблице. Правда, необходимо заметить, что слово
"совпадают" надо понимать в несколько расширенном смысле, так как наряду с
положительными значениями, признаки посылки могут принимать и отрицательные. В этом
случае совпадение фиксируется, если признак в таблице принимает любое другое значение, за
исключением нуля.
Чтобы измерить силу закономерности, мы сравниваем распределение значений
целевого признака в таблице, просеянной сквозь сито посылочных признаков, с
распределением значений того же целевого признака в исходной таблице. Чем сильнее
закономерность, тем больше отклонение условного распределения от исходного. Одним из
простейших способов измерения такого отклонения является статистика Хи-квадрат. Мы ее и
используем, но только в варианте нормированного, так называемого Z-отклонения.
Что касается процедуры поиска и отбора закономерностей, то она устроена по
принципу естественного отбора - выживания наиболее приспособленных, в данном случае
наиболее сильных закономерностей. Для этого в программе выделяются три коллектора
ограниченных размеров для хранения двух промежуточных и одного конечного массива
закономерностей. Причем эти коллекторы сортируют вставляемые в них закономерности, так
что наиболее сильные всегда оказывались наверху, выталкивая из коллектора наиболее слабые.
Z-отклонение самой слабой в коллекторе закономерности является автоматически
настраиваемым значением критерия, который определяет порог сохранения наиболее
приспособленных.
Следующий этап анализа нуклеотидных последовательностей – построение идеальных
образов реальных последовательностей. При этом идеальные образы появляются, как результат
вероятностного логического вывода из реальных последовательностей. Правила логического
14
вывода, которым следует метод естественной классификации, - это не что иное, как тот самый
набор наиболее сильных закономерностей, что возникли на предыдущем шаге алгоритма.
Процесс превращения реальной последовательности в ее идеальный образ протекает по
шагам, заканчиваясь в том момент, когда никакое точечное изменение последовательности уже
не приводит к увеличению критерия самосогласования закономерностей. Критерий
самосогласования закономерностей фиксирует, насколько хорошо предсказываются отдельные
нуклеотиды в текущей последовательности по остальным нуклеотидам той же самой
последовательности. В процессе идеализации создается матрица, содержащая столько строк,
сколько нуклеотидов в последовательности, и 4 столбца, по одному для A, T, G и C. Каждая
применимая к текущей последовательности закономерность прибавляет свои 4 предсказания в
виде Z-отклонений (для A, T, G и C) в 4 ячейки той строки, которая соответствует целевому
признаку. Если одно или больше из этих 4-х значений входят в текущую последовательность,
то суммарный критерий самосогласования получает вклад, равный сумме предсказаний для
всех этих значений. Если же значение входит в последовательность с отрицательным знаком, то
и соответствующий вклад тоже берется с минусом. Вхождение с отрицательным знаком
означает, что в данной последовательности соответствующего нуклеотида быть не должно.
Ноль означает, что данный нуклеотид просто не входит в последовательность, но при этом не
требуется его отсутствие.
Результаты. Данная программа применялась для автоматической классификации связывания
донорных сайтов сплайсинга. Были обнаружены закономерности и найдены классы,
представленные в третьем окне интерфейса программы как набор закономерно
взаимосвязанных нуклеотидов.
15
16
Разработка методов для построения статистических,
марковских или комбинаторных моделей и грамматик
порождения нуклеотидных последовательностей
В 2001 году продолжалась разработка методов для построения статистических,
марковских или комбинаторных моделей и грамматик порождения (1) последовательностей
геномной ДНК в основных типах функциональных районов (экзонов, интронов, 5’регуляторных районов генов, сайтов связывания с ядерным матриксом, нуклеосомных сайтов и
т.д.); (2) различных классов и функциональных семейств молекул РНК; (3) аминокислотных
последовательностей белков с различными особенностями вторичной и третичной структуры, а
также специфической функцией. На этой основе создан пакет для статистического анализа
генетических текстов.
Гусев В.Д., Немытикова Л.А., Титкова Т.Н. (лаб. анализа данных ИМ СО
РАН), Филиппов В. (ИЦиГ)
Комбинаторные модели порождения генетических текстов.
Сложностное разложение
Идея сложностного разложения текста, где каждый компонент имеет свой прототип
(в виде повтора определенного типа) в предшествующей ему части текста, обобщена на случай
двух и более текстов. При наличии двух текстов каждый из них может быть "разложен" по
другому тексту, т.е. составлен из максимально длинных, по возможности, фрагментов другого
текста. Среднее число компонентов в такого рода парных разложениях отражает близость
текстов (чем меньше значение характеристики, тем тексты ближе).
Если имеем группу из n  2 текстов, можно:
а) каждый текст "разложить" по всем оставшимся, рассматриваемым как единое целое и
оценить степень однородности объектов, составляющих группу (при одинаковых длинах текст
с наибольшим числом компонентов разложения наименее похож на остальные);
б) сравнить любые подгруппы текстов друг с другом;
в) получить интегральную оценку степени близости всех текстов группы.
В последнем случае все тексты группы представляются в виде одного текста с
разделителями и осуществляется сложностное разложение этого текста с запретами на
использование в качестве прототипов фрагментов, лежащих на стыке разных текстов, т.е.
содержащих разделитель. Чем выше средняя длина компонентов в полученном разложении,
тем выше степень близости текстов внутри группы.
Взаимосвязи между разными текстами и между фрагментами одного и того же текста
фиксируются с помощью анализа указателей копирования, "исходящих" из данного текста и
"входящих" в него. Значимыми считаются взаимосвязи, фиксирующие повторы разного типа с
длиной, превышающей пороговое значение. Поскольку сложностное разложение реализуется
путем однократного просмотра всех текстов, для выявления взаимосвязей между ними не
требуется сопоставления каждого текста с каждым. Быстрый алгоритм выявления взаимосвязей
реализован на языках ПАСКАЛЬ и С++.
Отметим, что взаимосвязи всегда имеют место при работе с подборками, получаемыми
из баз данных в автоматическом режиме. Благодаря использованию в нашем методе операций
копирования разного типа мы выявляем более широкий спектр закономерностей, чем в
традиционных методах попарного и множественного выравнивания. Допустимость
копирования на конкурентной основе фрагментов не только из других текстов, но и своих
собственных, объединяет в одном методе возможности как процедур множественного
выравнивания, так и поиска локальных гомологий в фиксированном тексте. Метод в состоянии
выявить значимые блочные перестановки в двух текстах, что недоступно процедурам
выравнивания. Сочетание указанных свойств с практически линейной трудоемкостью создает
хорошие перспективы для использования метода в ситуациях, когда объем подборки слишком
велик или сравнению подлежат очень длинные последовательности.
17
Метод апробирован на подборке 5’-фланкирующих областей генов гормона роста и
объемной (свыше 1000 последовательностей) подборке мРНК из разных организмов. По итогам
исследования опубликована статья (В. Д. Гусев, Л. А. Немытикова, Н. А. Чужанова. Быстрый
метод выявления взаимосвязей в подборках функционально и/или эволюционно близких
биологических текстов. Молекулярная биология, 2001, том 35, № 6 , с. 867–873 ). Пример
выявленных взаимосвязей в последовательностях приведен на схеме.
Схема. Характер взаимосвязей между текстами S1, S3, S12: высокий уровень гомологии концевых
частей и различия в начальной фазе из-за блочных перестроек.
Исследованы возможности использования сканирующих статистик для выявления
аномалий в позиционном распределении заданного символа или цепочки символов в тексте.
предполагается, что цепочки, распределенные по тексту неслучайным образом, являются
наиболее информативными. Известно, например, что высокочастотные и достаточно
равномерно распределенные по тексту на естественном языке служебные слова являются
малоинформативными с точки зрения определения содержания текста. В то же время
кластеризация какого-либо слова в конкретном участке текста (или какого-либо события в
конкретном временном интервале), как правило, свидетельствует об их информативности.
Пусть x ― заданная цепочка (символ) текста, F(x) ― частота ее вхождения в текст, p ―
фиксированное число последовательных вхождений x в текст ( 2  p  F ( x) ), n1( p ) ― длина
минимального интервала, содержащего p вхождений цепочки x в текст (первый минимум),
n 2( p ) ― второй минимум ( n2( p )  n1( p) ), N1(p) ― длина максимального интервала,
начинающегося и заканчивающегося цепочкой x и содержащего ровно p вхождений этой
цепочки (первый максимум), N2(p) ― второй максимум ( N 2( p)  N1( p) ). Меняя p и x, можно
получить широкий спектр позиционных характеристик текста. Распределения статистик n1(p),
n2(p), N1(p) и N2(p) для случайных текстов, описываемых моделью независимых испытаний,
известны, но достаточно сложны для табулирования. Применительно к реальным текстам
интерес представляют значимые отклонения этих статистик от величин, постулируемых
моделью независимых испытаний. Получены следующие результаты:
(1) с целью обхода трудностей, связанных с табулированием и получением удобных в
вычислительном отношении аппроксимаций интересующих нас статистик, исследованы
различные схемы имитационного моделирования для оценки значимости отклонений
наблюдаемых на реальном тексте значений от ожидаемых в соответствии с моделью;
(2) в терминах исследуемых и взаимосвязанных с ними статистик сформулированы
правила выявления наиболее существенных позиционных аномалий. Укажем некоторые из них:
18
a) если n1(2)  2  l ( x) , где l(x) ― длина цепочки x, то в тексте отсутствуют тандемные
вхождения x; если n1(2) аномально велико, это может означать, что цепочка x обладает
"свойством разделителя";
b) если n1(p) аномально мало при некотором не слишком малом значении p (например,
p  3 ), имеет место кластеризация цепочек x; если p  F (x) и n1(p) аномально мало, это
свидетельствует о наличии свободных (от x) концов в тексте (левого, правого или того и
другого);
c) если N1(2) аномально велико, имеет место "гэп" ― фрагмент текста свободный от x (длина
его равна N1( 2)  2l ( x) );
d) если n1(p) ― аномально велико, а N1(p) ― аномально мало, имеет место "сверх
равномерное" распределение цепочки x по тексту;
e) аномальности в значениях вторых максимумов или минимумов при разных p часто
свидетельствуют о наличии "изолированной точки" в распределении цепочки x по тексту;
f) аномально большое число одинаковых интервалов, обладающих свойством аномальности
при фиксированном p, может свидетельствовать о наличии периодичностей в тексте и т.д.;
(3) сканирующие статистики апробированы на нуклеотидных ( l ( x )  1, 2, 3 ) и
аминокислотных ( l ( x)  1 ) последовательностях для всех x (в указанном диапазоне длин) и p
( 1  p  F ( x) ). Показано, что аномалии в позиционном распределении демонстрируют многие
цепочки. У близких последовательностей характер аномалий обычно сохраняется. Наиболее
интересны аномалии типа "гэпов", кластеров, свободных концов. Применительно к
аминокислотным последовательностям эти аномалии, по-видимому, непосредственно связаны с
особенностями пространственной структуры белковых молекул.
Исследования предполагается продолжить в направлении: а) расширения числа
используемых критериев и статистик; б) ускорения процедуры отбора информативных
цепочек; в) изучения классификационных возможностей позиционных характеристик.
Исследована взаимосвязь в проявлениях повторности на двух уровнях: нуклеотидном и
аминокислотном. С этой целью анализировались параллельные НК- и АМ-тексты. Повторы на
НК-уровне делились на повторы "в фазе" (с одинаковым относительно начала цепочек
расположением триплетной рамки считывания) и повторы "не в фазе" двух типов (с
отностельным сдвигом рамок на 1 и 2 символа соответственно). Очевидно, что повторам в фазе
на НК-уровне соответствуют повторы и на АМ-уровне. Повторы "не в фазе" таким свойством
не обладают. Очевидно также, что в случайных НК-текстах число повторов всех трех типов
должно быть примерно одинаковым. Эксперименты проводились на подборках кодирующих
участков различных генов (дрожжи, растения, млекопитающие) с высоким и низким уровнем
экспрессии. Получены следующие результаты:
i.
вне зависимости от уровня экспрессии число повторов "в фазе" в кодирующих
последовательностях значимо выше числа повторов "не в фазе" (как со сдвигом 1, так и
2). Эффект проявляется, уже начиная с повторов длины 3, и становится доминирующим
для повторов длины 6 и выше;
ii.
для генов с высоким уровнем экспрессии эффект доминирования повторов "в фазе"
проявляется гораздо ярче, чем для генов с низким уровнем экспрессии. Этот факт, повидимому, связан с различиями в стратегии использования кодонов в обоих классах
генов и требует дополнительного исследования;
iii.
анализ повторов "в фазе", которым соответствуют повторяющиеся цепочки
аминокислот, показал, что представленность различных аминокислот в повторах
примерно соответствует их представленности (частоте встречаемости) в исходных АМпоследовательностях, хотя имеются некоторые исключения специфические для разных
организмов;
iv.
выявлен интересный эффект позиционного доминирования в отдельных генах
некоторых повторов длины 3: они встречаются только "в фазе" и ни разу ― "не в фазе".
Например, триплет AAG в одном из хит-шоковых генов (>AF291716, Leishmania
braziliensis (protozoa), длина 1992 нк) встречается 49 раз и все его вхождения "в фазе" с
рамкой считывания, т.е. данный триплет ни разу не встречается на стыке двух кодонов.
19
В то же время триплет CCG в том же гене (с близкой частотой F  43 ) всего 15 раз
встречается в кодирующей рамке, остальные вхождения приходятся на стыки соседних
кодонов.
Полученные результаты могут представить интерес для идентификации кодирующих
участков в геноме и оценки уровня экспрессии генов.
Орлов Ю.Л., Филиппов В.П.( (ИЦиГ СО РАН), Потапов В.Н. (ИМ СО РАН)
Статистические древовидно-контекстные модели
генетических текстов
Известно, что частота появления буквы в генетической последовательности зависит от
контекста, т. е. одной или нескольких предшествующих букв. Одним из наиболее адекватных
способов описания генетического текста является статистическая модель порождения
последовательности с помощью дерева-источника, определяемая предшествующим
контекстом. Методика построения таких моделей была разработана на первом этапе работ в
рамках Интеграционного проекта.
Рис. 1.9. Пример порождающего дерева-источника. Дерево
построено для последовательности ДНК кластера бета глобинов
человека, хромосома 11, 73308 п.о. (EMBL ID: HSHBB). Оба
рисунка, сверху и справа, представляют один и тот же граф,
соответственно, в стандартной форме и в форме окружности.
Рисунки автоматически генерируются программой оценки
сложности и построения контекстных деревьев, доступной по
адресу (http://wwwmgs.bionet.nsc.ru/mgs/programs/complexity/).
Каждый путь от листа к вершине (корню дерева) соответствует
контексту и определяет свой набор вероятностей порождения
следующего символа в нуклеотидной последовательности.
В 2001 году программа была доработана и установлена в Интернете
(http://wwwmgs.bionet.nsc.ru/mgs/programs/complexity/).
С
помощью
этой
программы
проанализированы
последовательности
ДНК
из
базы
данных
"Samples"
(http://wwwmgs.bionet.nsc.ru/mgs/dbase/nsamples) и
аминокислотные последовательности
белков, описанные в банке данных PDB. Выявлены зависимости между структурой
контекстного дерева генетической последовательности и её функциональными свойствами.
Чтобы получить двухбуквенный алфавит 20 аминокислотных остатков были разбиты на
две группы - поверхностные, гидрофильные внешние (Outer) O={ R N D C Q E G H K S T Y }и
гидрофобные, внутренние (Inner) I={ A I L M F P W V }. Разбиение на три группы по степени
представленности на поверхности белка - внешние, O (outer) {R N D Q E H K}, амбивалентные ,
A(ambiv.) { A C G P S T W Y } и внутренние, I(inner) { I L M F V }. Полученные контекстные
деревья для различных типов доменов проинтерпретированы в терминах вторичной структуры
глобулярных белков.
20
Рис. 1.10. Результаты анализа выборок аминокислотных последовательностей альфа-спиральных и
бета-структурных белков из базы данных SCOP в двухбуквенном алфавите и трехбуквенном алфавитах.
Выполнено теоретическое исследование по устойчивости деревьев-источников, автоматически
оцениваемых по выборкам генетических последовательностей в зависимости от полноты
данных.
Марковская модель текста определяется алфавитом D, множеством состояний модели S
и функцией (S,D) S, которая определяет текущее состояние по предыдущему состоянию и
текущей букве текста. Набором параметров марковской модели служат вероятности P(a|s)
порождения букв aD в состояниях sS.
Вероятность того, что последовательность x имеет начало a1…an, ai D определяется
равенством
Pr{x1…xn=a1…an}=P(a1|s1)P(a2|s2)…P(an|sn),
где s1 - исходное состояние и si+1=(si,ai+1), 1in-1.
Модель последовательности независимых испытаний соответствует марковской модели
с единственным состоянием, а состояния марковской модели k-го порядка (вероятность буквы
зависит от k предыдущих) можно отождествить с наборами из k букв, т. е. S=Dk.
Марковская модель называется древовидно-контекстной, если множество состояний
модели можно отождествить с набором контекстов (слов в алфавите D).
Множество состояний древовидно-контекстной модели удобно представлять в виде
множества листьев некоторого k-ичного контекстного дерева T, где k - мощность алфавита.
Заметим, что контекст в позиции n последовательности x1…xn-1xn… однозначно определяется
началом текста x1…xn-1и деревом T, за исключением нескольких начальных позиций.
Таким образом, контекстное дерево однозначно определяет соответствующую ему
марковскую модель.
Ранее, в рамках Интеграционного проекта СО РАН авторами был предложен метод
построения статистической модели текста, основанный на предложенном Й.Риссаненом
алгоритме сжатия данных. (Rissanen J. A universal data compression system. IEEE Trans. Inform.
Theory. 1983. V.IT-29, N5. P.656--664.)
А именно, мы считаем, что модель наилучшим образом соответствует тексту, если в ней
стохастическая сложность текста минимальна. На основании известной теоремы о больших
уклонениях нами показано, что предложенный метод позволяет определить "истинную" модель
текста.
21
Точнее, пусть на множестве последовательностей в алфавите D задано распределение
вероятностей, порождённое древовидно-контекстной моделью с деревом T, максимальная
глубина которого не превосходит d.
Пусть x - бесконечная последовательность букв, x1…xn-1xnDk - начало x длины n и Tn
- контекстное дерево, построенное по слову x1…xn-1xn разработанным методом.
Справедливо следующее утверждение.
Теорема.
Pr{TTn}0 при n.
Точнее:
Pr{T не поддерево Tn}= о(e), где = -n1/4 и Pr{ Tn не поддерево T}= о(n-3/8) при n.
Заметим, что для справедливости последнего равенства не требуется заранее знать
глубину дерева T.
Филиппов В.П. (ИЦиГ СО РАН), Немытикова Л.А., Титкова Т.Н., Гусев В.Д.
(ИМ СО РАН)
Программная реализация методов построения комбинаторных
моделей последовательностей ДНК
Адаптированы применительно к биологическим текстам, переведены на язык С++ и
прошли пробное тестирование программы сложностного анализа, реализующие:
1. вычисление сложности текста по Лемпелю и Зиву (мера C1 ) с использованием
любой одной (из заданного множества) операций копирования. Для биологических текстов это
множество целесообразно ограничить операциями прямого, симметричного,
прямого
комплементарного и симметричного комплементарного копирования. Тогда сложность по мере
C1 будет отражать насыщенность текста повторами разной длины, но одного вида
(соответственно,
прямыми,
симметричными,
прямыми
комплементарными
либо
симметричными комплементарными). В качестве выходной информации фигурируют:
a) сложностное разложение (разбиение текста на непересекающиеся фрагменты, для
каждого из которых (за исключением нескольких начальных) в предшествующей части
текста находится свой прототип (возможно, не единственный), образующий с
анализируемым фрагментом повтор заданного типа);
b) значения "указателей копирования" для каждого компонента сложностного
разложения, фиксирующие местоположение прототипа;
c) собственно значение сложности (число компонент в разбиении текста). Разбиение
проводится по специальной схеме, минимизирующей число компонент.
2. вычисление сложности текста с оптимизацией выбора операции копирования
на каждом шаге (мера C2 , обобщение схемы Лемпеля и Зива). Здесь при формировании
очередного компонента сложностного разложения используется не априори фиксированная
операция копирования, а та (из заданного множества), которая максимизирует длину
формируемого компонента. Иными словами, фиксируется та закономерность, которая в данном
участке последовательности проявлена сильнее. Мера C2 дает комплексную оценку
насыщенности текста повторами всех 4 типов. С ее помощью удобно выявлять
комбинированные структуры, состоящие из повторов разного типа (например, шпилечные
структуры с симметричным повтором в петле или комплементарные палиндромы,
фланкированные повторяющимися фрагментами и т.п.).
Характер выходной информации тот же, что и для меры C1 , только для каждого
компонента сложностного разложения наряду с указателем копирования фиксируется и тип
операции копирования (тип повтора), который может меняться от компонента к компоненту.
3. вычисление сложностного профиля текста по мере C1 (или C2 ) (т.е. вычисление
сложности в скользящем окне размера D) с выявлением аномальных по сложности зон, которые
22
наиболее интересны в структурном отношении. Данная программа позволяет выявлять
локальные структурные закономерности в тексте, линейные размеры выявляемых структур
регулируются параметром D. Некоторые из вычисляемых попутно параметров (например,
среднее по всем положениям окна внутри текста значение сложности) могут быть
использованы для сравнения текстов разной длины. В качестве выходной информации
фигурируют:

кривая сложностного профиля (она составлена из значений сложности фрагментов
текста, выделяемых окном размера D при его движении вдоль текста с шагом в один
символ);


параметры C (D ) , Cmin ( D) , C max ( D) ,  (D ) ― соответственно, среднее, минимальное
и максимальное значение сложности в окне, а также среднеквадратичное отклонение
(усреднение производится по всем ( N  D  1) возможным положениям окна, где N ―
длина текста);
сложностные разложения фрагментов с аномально низкой сложностью (например, со
значением C  C ( D)  3 ( D) ).
Евдокимов А.А., Левин А.А. (ИМ СО РАН)
Комбинаторика и визуализация математических и генетических
символьных последовательностей
Для многих задач комбинаторики символьных последовательностей оказывается
полезным изучение взаимосвязей свойств последовательностей со свойствами различного типа
структур определяемых на множествах фрагментов (подслов) последовательностей. Выявление
таких структур и исследование динамики их изменения с ростом длины фрагментов и
увеличением длины самой последовательности может дать ценную информацию о
комбинаторных и статистических свойствах последовательностей, а сравнение структур с
известными и между собой помогает находить подходы к описанию как отдельных
последовательностей, так и их классов.
К таким структурам относятся, в частности, графы перекрытия слов, введенные де
Брёйном в 1946 году и теперь называемые его именем (De Bruijn N.G. A combinatorial problem.
Proc. Kon. Ned. Akad. v. Wet., 49 N7,1946, pp.758-764., перевод см. Кибернетический сборник,
новая серия, вып.6 М., Мир, 1969, С.33-40.). Вершинами графа де Брёйна Bnm размерности n
являются всевозможные слова длины n в алфавите из m букв. Две вершины =(1,...,n) и
=(1,...,n) соединены дугой, ориентированной от  к , тогда и только тогда, когда 2=1,
3=2, ... , n= n1, т.е. когда слова  и  перекрываются по n1 буквам. Граф Bnm имеет m
петель в вершинах, соответствующих словам - константам, состоящим из одной буквы
алфавита. Он связен, однороден, полустепень входа и выхода каждой вершины равна m. При
изображении на плоскости (и на экране дисплея) последовательности графов Bnm для n=1,2,3,...
можно использовать процедуру индуктивного по n построения, основанную на том, что граф
Bn+1m является рёберным графом для Bnm.
Произвольной (бесконечной или конечной длины  n ) последовательности X=x1,x2,x3,...
букв m-алфавита сопоставляется путь в графе Bnm, который начинается в вершине (x1,...,xn) и
последовательно проходит вершины (xi,...,xi+n1) при i=2,3,... . Заметаемый этим путем подграф
называется графом n-подслов последовательности X или факторным графом размерности n и
обозначается Gn(X). Таким образом, множеством вершин Vn(X) графа Gn(X) является
множество всех подслов длины n в x, а множеством дуг En(X) - множество всех подслов длины
n+1 в X.
Изображение графа-дополнения Bmn\Gn(X) (в программном обеспечении предусмотрена
функция "переход к дополнению") позволяет наблюдать структуру отсутствующих n-подслов в
последовательности X. Функция f(n,X)=Vn(X) называется комбинаторной сложностью
последовательности X и характеризует разнообразие ее подслов. Это неубывающая функция,
23
которая для всякой бесконечной непериодической
последовательности строго возрастает и заключена в
пределах n+1  f(n)  mn, принимая оба крайних
значения на последовательностях, для которых
известны порождающие их конструкции.
Возможности
"экспериментального"
изучения взаимосвязи свойств последовательностей
и структур их подслов зависят и от способов
изображения графов Bmn и Gn(X) на плоскости и
экране дисплея. Это приводит к рассмотрению задач
поиска
вложений
графов,
сохраняющих
определенные структурные свойства вкладываемых
объектов:
метрические,
алгебраические
или
комбинаторные. В частности, построения таких
вложений графов Bmn и Gn(X) в плоскость, которые
сохраняют отношение близости между вершинами, а расстояния между далекими вершинами
оставляют большими некоторого заданного порога. Существенно учесть и симметрию графов
Bmn, цикличность их структуры, различные способы задания, эффективность вложения с ростом
размерности n. При m=4 для графов Gn(X) ДНК-последовательностей с большой
комбинаторной сложностью приходится переходить к различным "крупноблочным"
представлениям графов Bn4. Найдено несколько вложений графов Bmn в плоскость для 2-х, 3-х и
4-х буквенного алфавита, удобных для наблюдения различных свойств последовательностей
(см. приложение).
Другое направление исследований - анализ взаимосвязи между способами порождения
последовательностей из различных классов и проявлением их структурных и сложностных
свойств на последовательности "портретов" Gn(X), n=1,2,3,....
Разработанная программа визуализации VIZ позволяет проводить эксперименты с
различными классами последовательностей:
 математическими, определяемыми конструктивными процедурами порождения различной
степени сложности (рекуррентные; DOL-последовательности, порождаемые итерациями
подстановки подслов вместо букв и принадлежащие классу так называемых L-систем
,введенных Линденмайером при рассмотрении моделей развития организмов в биологии, и
др.);
 псевдослучайными, порождаемыми схемами регистров сдвига или датчиками случайных
чисел;
 детерминированно порождаемыми, но допускающими искажения в некоторых позициях;
 генетическими ДНК-последовательностями (в экспериментах используется база данных,
содержащая экзоны, интроны, промоторы, сайты связывания матричных РНК и другие
последовательности с известными функциональными свойствами).
Анализ символьных последовательностей из различных классов выявил ряд их
интересных и теоретически труднопредсказуемых свойств, связанных с особенностями
структуры множества подслов. Последовательность выводимых портретов, позволяя
анализировать динамику изменения графов подслов Gn(X), n=1,2,3,..., является по существу
более развернутой характеристикой особенностей строения символьных последовательностей,
которая учитывает и её комбинаторную сложность, и частоты вхождения подслов, и
цикличность структуры повторов. Она содержит информацию как о локальном строении
последовательности, так и о её свойствах "в целом".
Прикладная направленность исследований по комбинаторике и визуализации
последовательностей состоит в расширении методов и инструментария для анализа
структурированности текстов как естественного происхождения (например генетических), так
и искусственно порожденных.
Предусмотрено варьирование способа представления на экране структурных портретов
последовательностей. Изменение параметров процесса можно производить непосредственно в
ходе наблюдения:
- изменение скорости считывания последовательности,
24
- изменение длины выделенного конечного отрезка последовательности (называемого
далее змеёй),
- включение и выключение обозначений слов в вершинах графа и значений счетчиков
частот вхождения подслов,
- изображение графа-дополнения Bmn\Gn(X), показывающего слова, отсутствующие в
последовательности.
Рис. 1.11. Интерфейс
последовательностей.
программы
VIZ.
Граф
Де
Брейна
для
кодирующих
геномных
Описание программы VIZ
Реализованная программа VIZ предназначена для визуализации символьных
последовательностей на графах де Брёйна. Она написана на языке JAVA , что позволяет
использовать её на любой ЭВМ с виртуальной машиной JAVA. Специализация программы
отличает её от более общих систем визуализации графов. Разработанная программа доступна в
Интернете по адресу http://www.math.nsc.ru/LBRT/k3/Graph/Bruijn.html
Программа строит граф Bmn перекрытия слов (граф де Брёйна) для заданных
параметров: значности алфавита последовательности m и длины слов n (размерности графа).
Если при запуске программы не задано имя файла с начальным графом, то
производится построение полного графа Bmn со случайным размещением вершин на экране, в
противном случае начальный граф считывается из заданного файла и изображается на экране.
На левой и нижней сторонах экрана располагаются кнопки управления. В нижней строке
экрана расположены также кнопки меню установки режима работы программы. В верхней
части экрана выводится отрезок обрабатываемой последовательности, на котором выделено
текущее слово и несколько строк текущей информации. Пользователь может в любой момент
изменить расположение вершин графа на экране. После изображения начального графа
открывается файл с последовательностью символов для анализа. Далее работой программы
управляет пользователь. Команды задаются нажатием кнопок управления, расположенных у
левой и нижней границ экрана. Описание программы доступно по адресу
http://www.math.nsc.ru/LBRT/k3/Graph/Instruc.html
25
Download