10 ПОИСК ПРЕДСТАВЛЕНИЙ 3D СТРУКТУР ГИБКИХ МОЛЕКУЛ

advertisement
ПОИСК ПРЕДСТАВЛЕНИЙ 3D СТРУКТУР ГИБКИХ МОЛЕКУЛ
В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ БИОЛОГИЧЕСКОЙ
АКТИВНОСТИ
С.С.Григорьева, Д.А.Деветьяров, И.В.Свитанько, Е.А.Пермяков,
Г.Н.Апрышко, М.И.Кумсков
Предложен новый метод и алгоритм дескрипторного описания различных форм одного
объекта – гибкой молекулы – в задаче «структура-свойство» на основе анализа рассчитанного
множества ее пространственных конформаций. Описан новый метод и алгоритм вычисления
«четких» и «нечетких» дескрипторов.
Проведены вычислительные эксперименты на выборке душистых молекул, состоящей
из 49 различных алкенолов С5-С10 с различными конформациями (от 10 до 2446), а также на
выборке молекул амбровых одорантов, состоящей из 129 соединений с жесткой структурой
(из которых 71 являются биологически активными, 58 – неактивными).
По завершении вычисления элементов описания молекулярных структур,
формирования алфавита дескрипторов и построения матрицы «молекула-дескриптор» были
применены различные методы для поиска функциональной зависимости биологической
активности от 3D-структуры молекулы. Получены результаты вычисления прогнозирования
запаха зелени у душистых веществ на «четких» и «нечетких» дескрипторах с хорошим
качеством прогноза.
Проект реализован в системе Matlab 7.0. При этом использовались как основной пакет
программ, так и дополнительный пакет (Toolbox) FuzzyLogic.
Одним из наиболее интенсивно развивающихся в настоящее время направлений
теоретической химии является поиск взаимозависимостей между структурами химических
соединений и их свойствами посредством построения математических моделей. Данная
методология получила название QSAR, что означает Quantitative Structure Activity Relationships
или в переводе на русский язык - Количественные Корреляции Структурой – Активностью
(ККСА)[35].
Процесс решения QSAR - задачи разбивается на несколько этапов:
1. Выбор описания – векторного представления пространственной структуры
молекулы.
2. Анализ матрицы «молекула-дескриптор» (МД-матрица) для выявления
зависимости между столбцами матрицы и столбцом свойства. Анализ
проводится стандартными статистическими методами и методами
распознавания образов. Поэтому качество прогноза зависит от способа
описания молекулы, и основное внимание в работе уделено выбору метода
описания.
3. Верификация, проверка качества прогноза и выявление выбросов.
4. Уточнение описания и переход к пункту 2.
Стандартные методы поиска количественной зависимости между свойством и
структурными особенностями молекулярных графов обладают рядом недостатков. Эти
10
методы при описании молекулярного графа вектором признаков учитывают только «жесткие»
пространственные конформации молекул. В то же время, в ряде задач (например, при
прогнозировании биологической активности) именно наличие пространственной конформации
определенного вида может сильно влиять на свойства молекулы. К тому же, при
представлении пространственной структуры молекул в виде МД-матрицы она может
получиться неоднородной и очень «широкой», количество столбцов на порядок превышает
число строк, что затрудняет поиск функциональной зависимости.
Целью работы являлась разработка методов описания молекулярных графов,
позволяющих учитывать пространственные конформации молекул, и методов поиска
классифицирующей функции, учитывающей особенности МД-матрицы.
Были поставлены и решены следующие задачи:
Предложен новый метод и алгоритм дескрипторного описания различных форм одного
объекта – гибкой молекулы – в задаче «структура-свойство» на основе анализа рассчитанного
множества ее пространственных конформаций; описан алгоритм вычисления «четких» и
«нечетких» дескрипторов.
По завершении этапов вычисления множества элементов описания молекулярных
структур, формирования алфавита дескрипторов и построения матрицы «молекуладескриптор» были применены различные методы для поиска функциональной зависимости
биологической активности от значений дескрипторов.
Приведены результаты вычисления прогнозирования запаха зелени у душистых
веществ и амбры на «четких» и «нечетких» дескрипторах.
Преимуществами предложенного в работе метода описания структур гибких молекул
являются:
• целостное описание множества конформаций гибкой молекулы (способной
изменять свою «укладку» в трехмерном пространстве) за счет введения нечетких
классов расстояний;
• предложенный метод является обобщением дескрипторов жестких молекул,
хорошо зарекомендовавшим себя в модели «структура-свойство»
1. Постановка задачи «структура-свойство» для
молекулярных графов
В главе дано общее определение задачи «структура-свойство» для молекул, имеющих
укладку в трехмерном пространстве (включая «гибкие» молекулы). Рассмотрены этапы, на
которые разбивается процесс решения задачи «структура-свойство». Дан обзор ряда
существующих методов решения задачи «структура-свойство».
Назовем молекулярным графом G = {V , E} – односвязный помеченный граф,
вершины которого интерпретируются как атомы молекулы, а ребра – как валентные связи
между парами атомов [1]. Вершины и ребра могут иметь дополнительные атрибуты, такие как
координаты для вершин или информация о том, является ли связь кольцевой для ребер.
Задача «структура-свойство»: Пусть задано обучающее множество (база данных) из
N химических соединений, где:
i -ое соединение, i = 1,.., N , представлено молекулярным графом Gi , имеющим
укладку в трехмерном пространстве (т.е., для каждой вершины в качестве дополнительных
атрибутов заданы ее 3D-координаты); в случае, если молекула является гибкой, для каждой
11
вершины задается случайная величина ξ (дискретная или непрерывная), характеризующая
вероятность ее нахождения в той или иной области пространства.
i -ое соединение либо отнесено к Ci - одному из K классов активности (например,
«активных», «слабоактивных», «неактивных» веществ) согласно исследуемому свойству, либо
для него задано численное значение исследуемого свойства Ai .
Необходимо построить классифицирующую функцию F , получающую в качестве
аргумента произвольный молекулярный граф, и «наилучшим образом» относящую этот граф к
одному из классов активности, либо «наилучшим образом» предсказывающую численное
значение исследуемого свойства.
Функционал качества φ(F) позволяет определить критерий выбора классифицирующей
функции F. Например, в качестве функционала качества можно использовать процент верно
классифицированных функцией F молекул из обучающей выборки:
N
∑εi
ϕ (F ) = 1 −
⎧0, F (Gi ) = Ci
⎩1, в противном случае
εi = ⎨
i =1
N , где
,
(1)
или, в случае, когда функция должна предсказывать численное значение свойства,
N
∑ ( F (Gi ) − Ai ) 2
ϕ ( F ) = 1 − i =1
N
∑ Ai2
i =1
.
(2)
Поставленную таким образом задачу поиска классифицирующей функции будем
называть задачей «структура-свойство» или QSAR-задачей.
Этапы решения задачи «структура-свойство»
Дескриптором будем называть какое-либо свойство, численное значение которого
может быть вычислено для произвольного молекулярного графа G .
Алфавитом дескрипторов будем называть множество всех дескрипторов,
используемых для анализа обучающей выборки, обозначенных различными символьными
метками.
Пусть алфавит дескрипторов состоит из М элементов. Вектором признаков
молекулярного графа G будем называть вектор x = ( x1 ,.., x M ) ∈ R M , где x j - значение j ого дескриптора, вычисленное для G .
Матрицей «молекула-признак» для рассматриваемой обучающей выборки будем
называть матрицу размера N × M , в i -ой строке которой стоит вектор признаков
xi = ( xi1 ,.., xiM ) молекулярного графа Gi .
В этих терминах задача «структура-свойство» разбивается на две части:
на первом этапе, выбирается алфавит дескрипторов A . На основе этого алфавита
строится отображение из множества молекулярных графов в признаковое пространство R M
и формируется матрица «молекула-признак» для обучающей выборки.
на втором этапе, на признаковом пространстве строится классифицирующая функция
с наилучшей предсказательной силой в смысле функционала качества.
12
Заметим, что в задаче «структура-свойство» число дескрипторов M , как правило,
значительно превышает число молекул в обучающей выборке ( M >> N ), что затрудняет
анализ матрицы «молекула-признак». Для того, чтобы сократить число дескрипторов,
необходимо рассматривать лишь наиболее информативные из них, т.е. те, которые
потенциально будут значимы при построении классифицирующей функции на признаковом
пространстве. В рамках данной работы предлагается отбирать информативные дескрипторы
при эволюционном формировании алфавита дескрипторов.
Исходной информацией являются описания объектов, ситуаций, предметов, явлений
или процессов S в виде векторов значений признаков S = (x1(S) ,x2(S) ,..., xn(S)), где признаки
xi, i = 1, ..., n, характеризуют различные стороны-свойства S. У объектов S существует
"основное свойство" y(S), которое для части объектов S1, S2, ..., Sm предполагается
известным, а для части объектов нет. Задача распознавания (прогноза, идентификации,
"классификации с учителем") состоит в определении значения свойства y(S) по информации
S1, S2, ..., Sm, y(S1), y(S2), ..., y(Sm) (обучающей или эталонной выборке).
Признаки могут быть числовыми (задающими степень выраженности какого-либо
свойства), бинарными ("есть" или "нет" свойство), номинальными (обозначающими наличие
различных свойств без числовой оценки - пол, цвет, и т.д.).
Построение регрессий на инвариантах графов
Структурная химическая формула является неориентированным помеченным графом.
У рёбер молекулярного графа (т.е. у химических связей) отсутствует направление; термин
"помеченный" означает существование у вершин графа дополнительных характеристик,
таких, как символ химического элемента, заряд. Обычно в таком представлении
рассматривают только атомы без водорода (атомы водорода "стёрты").
Топологические характеристики графа (характер связывания (цепи, циклы,
разветвления и т.п.)) хорошо отображает описание молекул, что важно в тех задачах, где
метрические отношения (длины связей, валентные и азимутальные углы) не играют большой
роли[32].
Для задач распознавания образов для векторного представления графа применяются
инварианты графа - числовые характеристики, которые не меняются при перенумерации
вершин графа, т.е. величины, которые характеризуют граф, а не только его представителя.
Далее, на инвариантах и других дескрипторах строятся QSAR-модели. Для
оценки качества прогноза применяется метод наименьших квадратов.
Использование топологических дескрипторов
Топологическими индексами (ТИ) называют инварианты простых графов. Часто это
определение переносится и на инварианты меченых графов, которые могут отражать не
только топологию молекулы, но и элементы электронного и пространственного строения.
Топологические индексы и широко используются как дескрипторы при решении задачи
«структура-свойство». Популярность данного подхода к описанию молекулярной структуры
связана с простотой и быстротой вычисления ТИ, возможностью учитывать при их построении
элементы электронного и пространственного строения, я также наличием огромного
количества удачных корреляций вида «ТИ – свойство». Однако такой подход имеет и
очевидный недостаток: он не позволяет различать разные конфигурации молекул и не
учитывает их конформационные особенности.
13
Кроме классических ТИ широко используются также семейства информационных
топологических индексов[30] и топологических индексов спектрального типа[31].
Методология изучения связи “структура - свойство” через топологические индексы в
теоретико-графовом подходе включает в себя следующие этапы.
1. Выбор свойства для исследования (включая обучающую выборку) и анализ
состояния численных данных по свойству Р для данного круга соединений.
2. Отбор ТИ и других структурных дескрипторов с учетом их дискриминирующей
способности, корреляционной способности со свойствами и т.д.
3. Изучение графических зависимостей ”Свойство Р-ТИ графа молекулы”.
4. Установление функциональной (аналитической) зависимости Р=f(ТИ) и определение
(путем оптимизации) параметров в данном выражении.
5. Численные расчеты Р, сопоставление рассчитанных значений с
экспериментальными.
6. Предсказание свойств еще не изученных и даже не полученных соединений (вне
данной выборки).
7. Решение «обратной задачи» - по свойствам на базе созданной модели узнать
структуру новых соединений.
Несмотря на большой объём проведённых исследований, многое ещё остаётся
неясным. Очевидно, что функций вида Р=f(ТИ), (методом проб и ошибок) можно подобрать
достаточно много. Выбор индексов часто носит случайный характер, они могут не отражать
важные структурные особенности молекул или дублировать информацию, а корреляционные
зависимости между ТИ и свойствами не имеют под собой прочного теоретического
фундамента и плохо поддаются четкой физико-химической интерпретации. Чтобы учесть
пространственную структуру молекулы применяют CoMFA.
Comparative Molecular Field Analysis
Метод сравнительного анализа молекулярных полей CoMFA (Comparative Molecular
Field Analysis) был впервые предложен Р. Крамером с соавторами в 1988 [3] и за последние
годы нашел широкое применение при построении моделей «структура-свойство» для
биологической активности. При классическом CoMFA моделировании после выполнения
процедуры пространственного выравнивания каждая молекула помещается в трехмерную
регулярную решетку. В узлах решетки вычисляются значения стерического (вандерваальсова)
и электронного взаимодействия между данной молекулой и "пробным" атомом, имеющим
3
свойства атома углерода в sp состоянии с зарядом "+1". Получаются две трехмерные
матрицы, каждая из которых является дискретным представлением стерического и
электронного поля исследуемой молекулы. Значения элементов этих матриц являются
признаками молекул обучающей БД. В результате формируется очень широкая ( M >> N )
таблица "молекула-признак", которая анализируется с помощью метода частичных
наименьших квадратов (PLS - Partial Least Square). Фактически, PLS строит регрессионное
уравнение "структура-свойство" на главных компонентах (латентных переменных) таблицы
"молекула-признак" [22] , а оптимальное число латентных переменных, включаемых в
уравнение, определяется на основе процедуры скользящего контроля (cross-validation) [23].
Именно эта процедура обеспечивает формирование прогностически устойчивых моделей.
Одним из важных достоинств метода является возможность (после возврата к
исходным признакам) определения пространственных участков вокруг молекулы, изменения
14
стерического и/или электронного поля в которых приводит к существенным изменениям в
биологической активности.
Наиболее тонким моментом в использовании CoMFA является необходимость
"пространственной нормализации" молекул обучающей БД, т.е. выбор их расположения
(после взаимного пространственного выравнивания) относительно системы координат. Так,
было обнаружено, что даже изменение положения системы координат (например, ее простой
поворот) может привести к падению прогностической способности модели в два раза [24].
Параметрическое описание молекул. Структурные дескрипторы
Метод основан на выделении в молекулах структурных фрагментов (например,
атомов, групп атомов, цепочек атомов, соединенных связями). Cтруктурным фрагментом
молекулярного графа будем называть группу вершин с заданными условиями на их метки или
метки их связей. После выделения фрагментов каждому фрагменту сопоставляется
структурный дескриптор[25], значение которого соответствует либо наличию или отсутствию
данного фрагмента в молекулярном графе, либо количеству повторений фрагмента. В первом
случае получаем дескриптор, принимающий логические значения, во втором - целые
неотрицательные. Структурные фрагменты и соответствующие им дескрипторы
подразделяют на два типа:
2D-дескрипторы
В данном случае не учитываются значения валентных углов и евклидовых расстояний
между атомами, не учитывается трехмерная структура фрагмента, важны только связи между
атомами. Структурные 2D-фрагменты обычно имеют вид цепочек связанных атомов с
определенными метками вершин и ребер, образующих данную цепочку.
3D-дескрипторы
Дескрипторы этого типа учитывают трехмерную структуру фрагмента и обычно
представляют собой множество вершин с заданными условиями на расстояния между ними и
на их метки.
В общем виде метод состоит из следующих этапов:
Проводится дополнительная классификация атомов (вершин молекулярного графа) на
основе их локальных свойств (заряда, эксцентриситета вершины, каких-либо топологических
свойств). В результате этого метка каждой вершины заменяется на другую, содержащую
информацию о локальных свойствах;
В молекулах выбираются структурные фрагменты (атомы, цепочки связанных атомов);
Каждому структурному фрагменту сопоставляются координаты (планарные или
пространственные) и символьное имя - тип фрагмента (например, если рассматриваются
цепочки атомов, то «именем» цепочки может служить объединение символьных меток
входящих в нее атомов);
Для всех структурных фрагментов строится матрица евклидовых расстояний между
ними внутри молекулы. Выбирается разбиение расстояний на интервалы;
Для каждой молекулы перечисляются пары фрагментов " (T1 , T2 , P), N " , где T1 и T2
- типы (имена) структурных фрагментов, входящих в пару; P - номер интервала расстояния
между ними, N - число повторений фрагмента " (T1 , T2 , P )" в молекуле.
Полученная матрица «молекула-признак», состоящая из «структурных спектров»
молекул, в дальнейшем анализируется различными методами статистического анализа.
15
К недостаткам метода можно отнести очень большое число дескрипторов, что
затрудняет анализ матрицы «молекула-признак». Зачастую многие дескрипторы сильно
коррелируют друг с другом.
Для сокращения числа дескрипторов можно, например, использовать метод
голографического QSAR (Hologram QSAR, HQSAR) [27], основанный на описании молекул
выборки с помощью так называемых «молекулярных голограмм». При использовании этого
метода число дескрипторов ограничивается некоторым небольшим числом («длиной
голограммы»), а затем количество повторений уникальных фрагментов в молекуле
«раскладывается» по позициям «голограммы» с помощью хэш-функции.
К достоинствам метода HQSAR можно отнести высокую прогностичную способность
построенных моделей (она сравнима с прогностичностью моделей, построенных с помощью
CoMFA [28]). Основные недостатки метода HQSAR – сложная интерпретация полученных с
его помощью моделей «структура-свойство» и использование для построения моделей только
жестких 2D-конформаций молекул.
Выбор правильного описания пространственной структуры молекулы - одна из
важнейших фундаментальных проблем современной молекулярной биологии, поскольку
пространственная структура молекул определяет в основном их биохимические свойства.
2. Задача выбора пространственной структуры
молекулы
В разделе дается подробное описание этапа построения матрицы «структурасвойство» для конкретной выборки гибких молекул. Рассматриваются известные
применяемые методы описания жестких молекул, приводится новый подход к описанию
гибкой молекулы, учитывающий ее конформации, а также даны схемы реализованных
алгоритмов.
Была исследована выборка амбровых одорантов, состоящая из 129 соединений с
жесткой структурой (из которых 71 являются биологически активными, 58 – неактивными).
Ниже даны примеры структурных формул некоторых из соединений выборки:
H3C
CH3
H3C
CH3
H3C
O
O
O
CH3
H3C
CH3
O
С19H32O2
С18H30O3
H3C
H3C
O
H3C
CH3
O
CH3
O
OH
O
CH3
С17H30O2
16
CH3
CH3
Из примеров видно, что соединения очень разнообразны по своей структуре.
Для каждого соединения выборки было дано 3D-описание соответствующего
молекулярного графа в отдельном файле с расширением .mol. В данном файле перечислены
вершины графа (атомы) с дополнительными атрибутами: символом химического элемента,
трехмерные координаты в ангстремах и электрический заряд. В файле с расширением .sdf
кроме уже описанной информации были представлены сведения о биологической активности
соединений.
Как и в любой QSAR-задаче, в данном случае было необходимо найти способ
описания молекулярных графов, а потом по построенной матрице «структура-свойство»
построить некоторую модель классификации (классифицирующую функцию) с лучшим
качеством прогноза.
В результате хотелось бы получить модель поиска зависимостей с содержательной
химической интерпретацией. Мы стремимся так описать молекулярные структуры, чтобы
простая модель прогноза давала как можно более точную прогностическую оценку.
Таким образом, происходит поиск описания, адаптированный по сложности к
свойствам, с последующим построением моделей функциональной зависимости. Далее
приведено описание этапа описания молекулярных графов. На данном этапе используются
параметры детализации, от которых зависит конечный результат (качество прогноза), поэтому
реализуется обратная связь между этапами описания и поиска функциональной зависимости:
по результатам построенной прогнозирующей модели делаются выводы об оптимальных
значениях параметров детализации и весь алгоритм запускается с новыми,
предположительно лучшими по качеству прогноза, параметрами. Этот процесс повторяется
до тех пор, пока не добьемся адекватного прогностического качества построенной модели.
Рисунок 1. Общая схема построения адекватного описания.
17
Построение описания 3D структуры молекулы
Дескрипторы жестких молекул
Известной моделью биологической активности является пространственный
треугольник, у которого вершины имеют заданные локальные физико-химические свойства, а
стороны треугольника задаются интервалами расстояний. Если существует 3D-конформация
молекулы, «содержащая» такой треугольник, то считается, что она будет обладать заданным
биологическим свойством[36]. Более сложным вариантом такой модели является
пространственная пирамида с заданными свойствами «вершин» и «ребер». Исходя из этого,
будем пытаться построить алфавит дескрипторов таким образом, чтобы представить
взаимное расположение пар, троек, четверок особых точек молекулярной поверхности.
Для построения матрицы «молекула-признак» предлагается использовать
структурные 3D-дескрипторы (п. 1.2.3). Для вычисления их численных значений введем
понятие соответствия структурного дескриптора D и химической функциональной группы G.
Значением структурного дескриптора будет количество фрагментов (химических
функциональных групп) молекулярного графа, соответствующих данному дескриптору.
Химической функциональной группой (фрагментом) в молекулярном графе будем
называть некоторое непустое подмножество множества особых точек этого молекулярного
графа.
Пусть {A1, A2, …, Al}- множество всех символьных меток особых точек, причем они
упорядочены в алфавитном порядке так, что A1 < A2 < …< Al. Обозначим AD = {A1, A2, …, Al} алфавит дескрипторов первого уровня и положим, что дескриптору Ai соответствуют те и
только химические функциональные группы G, которые состоят ровно из одной особой точки и
G = {Ai} .
Далее, пусть dmax - максимум по всей выборке всех возможных евклидовых расстояний
между особыми точками одной молекулы. Введем на отрезке [0, dmax] P интервалов
расстояний. Количество интервалов P и их границы являются параметрами дискретизации
данного алгоритма и могут варьироваться для нахождения лучшего описания молекулярных
графов. В реализации данной работы P = 3, интервал [0, dmax] делится на 3 равных отрезка.
Сформируем алфавит дескрипторов второго уровня (т.е., дескрипторов для пар
особых точек) AD2 как множество символьных строк (Ai, Aj, c), где
2
Ai , A j ∈ AD, Ai ≤ A j , c = 1,.., P
. Положим, что дескриптор D2 ∈ AD
соответствует
фрагменту G, если и только если G состоит из двух особых точек с метками T1 и T2, T1 ≤ T2
таких, что T1 = Ai, T2 = Aj, и расстояние между особыми точками d(T1, T2) принадлежит
интервалу под номером с.
Опишем теперь алгоритм построения алфавитов дескрипторов остальных уровней
AD3, AD4, …(для троек, четверок особых точек и т.д.). Пусть уже построены алфавиты AD3,
AD4, …, ADn и необходимо построить алфавит дескрипторов (n + 1)-ого уровня ADn+1 и задать
соответствие между сформированными дескрипторами и химическими функциональными
группами. В данном случае существует два варианта: либо строить алфавит дескрипторов на
основе всех дескрипторов предыдущего уровня, либо только на основе тех из них, что
наиболее информативны для данного свойства. Информативная значимость признаков
определяется после проведения этапа анализа матрицы и построения прогнозирующей
модели следующим образом. Строим матрицу «молекула-признак» на существующих
дескрипторах предыдущего уровня ADn. Для каждой молекулы и каждого структурного
дескриптора (что отвечает заданной строке и заданному столбцу матрицы признаков)
перечислим все химические функциональные группы молекулярного графа, состоящие из n
18
особых точек, соответствующих данному дескриптору, и, найдя количество фрагментов,
определим значение дескриптора для данной молекулы.
В результате, будет построена матрица «молекула-признак» на основе всех
дескрипторов алфавита ADn. Применим к ней описанный в 3-ей главе алгоритм выявления
~
n
функциональной зависимости. Множество дескрипторов D ⊂ AD , задействованных в
построенной линейной прогнозирующей модели, назовем инфомативно значимыми. И далее,
~
n +1
n
будем строить алфавит дескрипторов AD
уже на основе множества D ⊂ AD .
~
«Добавим» к каждому из дескрипторов в D новую особую точку A, A ∈ AD и положим
~
~
AD n +1 = {( D, A, c) | D ∈ D, A ∈ AD, c = 1,.., P) .
Теперь, для того, чтобы определить соответствие между химической функциональной
группы G и произвольным дескриптором D = ( Dˆ , A, c) ∈ AD n +1 , необходимо проверить,
можно ли разбить G на 2 такие группы G1 и G2 (состоящие из n и 1 особых точек
соответственно), что фрагменту G1 соответствует дескриптор D̂ и G2 = {A}. Если такое
разбиение возможно, вычислим расстояние d(A, G1) между G1 и G2 = {A} (под расстоянием
здесь понимается наименьшее, наибольшее или среднее из всех расстояний между A и
каждой из особых точек G ). Тогда химическая функциональная группа соответствует G
соответствует дескриптору D тогда и только тогда, когда расстояние d(A, G1) принадлежит
интервалу разбиения c.
Кроме вышеописанных структурных 3D-дескрипторов, при формировании матрицы
также использовался ряд скалярных дескрипторов – общих химико-физических характеристик
молекул. Среди них - молярный вес, объем, рефракция, поверхностное натяжение,
плотность, диэлектрическая постоянная, поляризуемость и пр. Данные свойства рассчитаны в
редакторе ChemSketch - пакете программ создания, визуализации, расчета параметров
химических структур, а также их каталогизации.
«Гибкий» случай
Описанный выше метод при описании молекулярного графа вектором признаков
учитывает только «жесткие» пространственные конформации молекул. В ряде задач
(например, при прогнозировании биологической активности) именно наличие
пространственной конформации определенного вида может сильно влиять на свойства
молекулы.
При рассмотрении конфигурационной изомерии мы представляем молекулу в виде
жесткой, застывшей в пространстве структуры. Реальные молекулы находятся в непрерывном
движении. Они движутся как единое целое (поступательное и вращательное движение), а
отдельные части совершают вращательные и колебательные движения относительно друг
друга (внутримолекулярные движения). Если движение молекулы как единого целого не
изменяет форму молекулы, то внутримолекулярные движения непрерывно воспроизводят
новые формы.
Различные пространственные структуры, возникающие за счет вращения вокруг
простых связей без нарушения целостности молекулы (без разрыва химических связей),
называют конформациями. Очевидно, что конформаций может быть бесконечное множество,
но лишь некоторые из них соответствуют минимуму энергии (энергетической "яме"). Такие
относительно стабильные конформации, разделенные энергетическими барьерами, мы будем
19
называть конформерами. Конформеры легко превращаются друг в друга, и в
противоположность конфигурационным изомерам их нельзя выделить в индивидуальном
состоянии существующими методами. Важно отметить, что при конформационных
превращениях конфигурация молекулы не меняется.
Дескрипторы молекулы должны учитывать ее структурные особенности и локальные
физико-химические свойства активных центров, участвующих в описании. Вычисление таких
дескрипторов проводится нами в несколько последовательных этапов.
Элементы описания
На графе молекулы, входящей в обучающую выборку, проводится построение
элементов описания (ЭО), для которых затем вводится отношение эквивалентности. Можно
использовать такие ЭО как атомы, группы атомов (функциональные группы), «особые точки»,
расположенные на поверхности молекулы.
Определение. Функциональная группа (группа атомов) — структурный фрагмент
молекулы, характерный для данного класса органических соединений и определяющий его
химические свойства. Известно около 100 функциональных групп.
Ниже перечислены основные функциональные группы, встречающиеся в наших
обучающих выборках:
1) Функциональные группы, содержащие кислород: гидроксильная (гидроксо) –ОН,
карбонильная =С=0, карбоксильная –COOH, алкоксильная –OR (типа — —ОСН3) и др.;
2) Функциональные группы, содержащие азот: аминогруппа —NH2, нитро —NO2,
нитрозо —N0, нитрильная —CN, гидразинная —NHNH2, амидная —CONH2 и др.;
3) Функциональные группы, содержащие серу: сульфгидрильная —SH, сульфидная
=S, дисульфидная —S—S—, сульфоксидная =S=O, сульфонная =SO2 и др.;
4) Функциональные группы, содержащие ненасыщенные углерод-углеродные связи: С=С-, —С≡С— .
Функциональные группы во многом определяют химические свойства органических
соединений. Особые точки (ОТ) на поверхности молекулы – это геометрические
локальные экстремумы в терминах ближайших и наиболее отдаленных от определенных
групп атомов точек на триангулизированной поверхности (рисунок 1 и 2). Алгоритм их поиска
приведен ниже.
Алгоритм классификации ЭО
Определение. Имя ЭО = <тип ЭО + маркер1 + маркер2 +…+маркер k>, где тип ЭО
определяется геометрическими особенностями, маркер – класс по локальному физикохимическому свойству. Маркер включается в имя ЭО для проверки гипотезы о значимости
того или иного физико-химического свойства.
С помощью имен ЭО кодируются, при этом считается, что два ЭО равны
(эквивалентны), если совпадают их имена.
Построенные ЭО определяют новый помеченный граф (ЭО-граф), в вершинах
которого располагаются элементы описания (ЭО)[] с дополнительными атрибутами –
символьными метками, и который однозначно строится по исходному молекулярному графу.
При этом считаем, что символьная разметка не зависит от конформации молекулы.
20
Рисунок 1 и 2. Особые точки (ОТ) на молекулярной поверхности.
21
Построение 2- и 3-фрагментов и настройка интервалов расстояний
с применением четкой и нечеткой логики
Для каждой молекулы проводится полное перечисление пар ОЭ и их
пространственных отношений. Обозначим за dmax – максимум по всей выборке из всех
возможных расстояний между парами ЭО в одной молекуле (с учетом конформаций).
Рассмотрим четыре случая:
Рисунок 3. Схема четкого/нечеткого описаний жесткой/гибкой молекулы.
I случай. Жесткие молекулы, четкие дескрипторы. [37] Отрезок U=[0, dmax]
разобьем на K интервалов (классов) расстояний: [0, d1), [d1, d2), … , [dK-1, dmax) и присвоим
каждому из них символьную метку Q={q1, q2, …, qK}. Определим имя 2-фрагмента
D2(A,B) = {A+B+qAB},
где A,B – маркеры особой точки, qAB ∈ Q - символ интервала расстояния (символ «+»
обозначает операцию конкатенации строк). При этом считается, что два фрагмента равны
(эквивалентны), если совпадают их коды. Далее, перечисляем все имена фрагментов пар
по всей выборке (упорядоченных лексикографически) и считаем число повторений данной
пары в молекуле.
Аналогичным образом определяется имя 3-фрагмента ЭО: D3(A,B,С) = D2(A,B) + C +
q(AB)C, (q(AB)C – класс расстояния между парой A,B и ЭО C).
Для каждой молекулы по маркированному графу формируется список в виде: {(<имя
дескриптора>, <число его повторений>)}, который называется структурный символьный 2спектр графа [8].
II случай. Жесткие молекулы, нечеткие дескрипторы [7]. Зафиксируем целое число
K>1 и зададим на отрезке U=[0, dmax] K нечетких множеств с функциями принадлежности
g j ( x), 0 ≤ g j ( x) ≤ 1, j = 1,.., K . Функции принадлежности позволяют, для каждой пары AB
сформировать вектор, характеризующий степень принадлежности расстояния dAB интервалу
qi: qAB = (µ1, …, µK). В этом случае имя 2-фрагмента будет определять семейство имен вида:
D2(A,B) = {A+B+ µ1,…, A+B+ µK}
22
III случай. Гибкие молекулы, четкие дескрипторы. Для каждой гибкой молекулы
выбираем первую пару ЭО A1B1 и вычисляем расстояние d1. Для всех конформаций данной
молекулы находим точки, соответствующие ЭО A1 и B1, и вычисляем расстояния между ними.
Для данной пары A1B1 получился вектор чисел D=(d1, d2, …, dn) (n – число конформаций),
который необходимо описать. Будем описывать вектор D тремя числами: Dmax, Dmin, Dmid..
Dmid можно рассчитывать различными способами. Например, Dmid можно рассчитывать
как среднее арифметическое Dmid=(∑di)/n (i=1,…,n). Другой способ – метод медиан:
необходимо упорядочить вектор D=(d1, d2, …, dn), так что d'1≤ d'2≤…≤ d'n. Тогда Dmid= d'k, где
k=n/2.
Отрезок U=[0, dmax], делим на K интервалов (классов) расстояний: [0, d1), [d1, d2), … ,
[dK-1, dmax) и присвоим каждому из них символьную метку Q={q1, q2, …, qK}. Тогда определим
код пары особых точек
D2(A,B) = {A+B+ код описания вектора D + класс расстояния},
где код описания вектора D={min; max; mid}, класс расстояния
dAB = {q1, если dAB принадлежит [0, d1);
q2, если dAB принадлежит [d1, d2);
…;
qK, если dAB принадлежит [dK-1, dmax) }
Перечисляем всевозможные коды фрагментов для гибких молекул {A,B,min, q1;
A,B,min, q2; …, A,B,min, qN; A,B,mid, q1; A,B,mid, q2; …, A,B,mid, qN; A,B,max, q1; A,B,max, q2; …,
A,B,max, qN} и считаем число повторений данного фрагмента в молекуле.
IV случай. Гибкие молекулы, нечеткие дескрипторы. Аналогично предыдущему
случаю, пара AB будет кодироваться в виде D2(A,B) = {A+B+ код описания вектора D + класс
расстояния}, где код описания вектора D={min; max; mid} определятся также как и в случае
четких дескрипторов. Зададим на отрезке U=[0, dmax] K нечетких множеств с функциями
принадлежности g j ( x), 0 ≤ g j ( x) ≤ 1, j = 1,.., K . Функции принадлежности позволяют для
каждой пары AB сформировать вектор, характеризующий степень принадлежности
расстояния d интервалу di: dAB = (µ1, …, µK).
Разобранные выше 4 случая отражены в Таблице 2
.
23
Жесткие молекулы
Гибкие молекулы
Жесткие молекулы
Гибкие молекулы
Четкие дескрипторы
Четкие дескрипторы
Fuzzy- дескрипторы
Fuzzy- дескрипторы
U=[0, dmax] =[0, d1)Ụ [d1, d2)Ụ …Ụ [dK-1, dmax), [di, dj) - нечеткие
U=[0, dmax] =[0, d1)Ụ [d1, d2)Ụ …Ụ [dK-1, dmax), [di, dj) - четкие
множества
множества
присвоим каждому из интервалов символьную метку Q={q1, q2, …, qK}
D2(A,B) = {A+B+dAB},
D2(A,B) = {A+B+
описания вектора D + dAB },
код
D2(A,B) = {A+B+dAB},
D2(A,B) = {A+B+
описания вектора D + dAB },
код
код
пары
где класс расстояния dAB = {q1, если dAB принадлежит [0, d1);
q2,
если
dAB
принадлежит
[d1,
d2);
dAB = (µ1, …, µK)-вектор, характеризующий
…;
принадлежности расстояния d интервалу qi
qK, если dAB принадлежит [dK-1, dmax) }
код описания
D={min; max; mid}
МДматрица: на
(i,j) месте
стоит:
Таблица 2.
вектора
код описания
D={min; max; mid}
степень
вектора
∑ µij по всем j (индекс i обозначает номер компоненты вектора
dAB , а j – номер рассматриваемой пары в данной молекуле)
число повторений j фрагмента в i молекуле
24
Построение дескрипторов более высоких порядков
Примененный способ формирования структурных 3D-дескрипторов позволяет строить
не только дескрипторы, соответствующие двойкам и тройкам особых точек, но и дескрипторы
более высоких порядков. Но возникает проблема при их использовании на этапе построения
классификаторов. Уже при минимальном числе интервалов дискретизации расстояний между
особыми точками на дескрипторах четвертого порядка получаются очень широкие матрицы.
Это делает практически невозможным проведение расчетов Методом Группового Учета
Аргументов вследствие невероятных по масштабу требуемых затрат времени. Кроме того, в
целом нецелесообразно перебирать всевозможные четверки, пятерки и т. д. особых точек.
Поэтому предлагается строить дескрипторы более высокого порядка на основе уже отобранных
наиболее информативных дескрипторов меньшего порядка.
Алгоритм состоит в следующем:
1) формируем структурные 3D-дескрипторы 2-ого порядка (двойки особых точек), из них
строим векторы признаков и матрицу признаков;
полученную матрицу признаков подаем на алгоритм построения классификаторов в
виде дерева решений;
2) если в результате получили прогностически устойчивую модель зависимости,
останавливаемся на данном шаге, так как целью работы является получение одновременно и
достаточно простой, и достаточно точной модели;
в противном случае формируем алфавит структурных 3D-дескрипторов 3-его порядка,
но не полным перебором всевозможных вариантов, а только тех, что получены добавлением к
отобранным дескрипторам 2-ого порядка еще одной особой точки;
аналогично, полученную матрицу признаков подаем на алгоритм построения
классификаторов в виде дерева решений;
3) повторяем шаг 2, строя дескрипторы n-ого порядка на основе лучших дескрипторов (n
- 1)-ого порядка, до тех пор пока не получим хорошей прогностической способности модели.
Биологические свойства
в значительной степени определяются детальной
пространственной организацией этих молекул. Одним из стереохимических факторов,
определяющих детальное пространственное строение органической молекулы, является
конфигурация этой молекулы. Однако знания конфигурации недостаточно для понимания
пространственного строения органической или биологической молекулы. Необходимо знать
также ее конформацию.
Предложен новый метод и алгоритм дескрипторного описания различных форм одного
объекта – гибкой молекулы – в задаче «структура-свойство» на основе анализа рассчитанного
множества ее пространственных конформаций. Описан алгоритм вычисления как «четких»
дескрипторов, так и с применением «нечеткой» логики.
25
Рисунок 4. Схема «обратной связи» между этапами формирования дескрипторов и
построения прогнозирующей модели.
3. Этап анализа матрицы «структура-свойство»
При представлении пространственной структуры молекул в виде МД матрицы она
может получиться очень «широкой», количество столбцов на порядок превышает число строк.
Для преодоления этой проблемы в методе CoMFA линейная регрессия строится на главных
компонентах МД матрицы (метод PLS)[34]. В силу неоднородности обрабатываемой выборки в
работе используется аналогичный подход при построении функциональной зависимости
значения активности от значений дескрипторов в виде деревьев решений.
Деревья решений – это способ представления правил в иерархической,
последовательной структуре, где каждому объекту соответствует единственный узел, дающий
решение.
В нашем случае мы хотим построить дерево решений для классификации
обрабатываемых векторов значений дескрипторов и последующего поиска функциональной
зависимости отдельно на каждом из классов. Иными словами, перед нами стоит цель разбить
выборку на классы, внутри которых искомая функциональная зависимость, предположительно,
общая, а уже затем для каждого из классов найти свой классификатор.
26
Под правилом понимается логическая конструкция, представленная в виде «если … то
…».
Рисунок 5. Блок-схема дерева решений
Меры сходства
Для проведения классификации необходимо ввести понятие сходства объектов по
наблюдаемым переменным. В каждый кластер должны попасть объекты, имеющие сходные
характеристики.
В кластерном анализе для количественной оценки сходства вводится понятие метрики.
Сходство или различие между классифицируемыми объектами устанавливается в зависимости
от метрического расстояния между ними. Если каждый объект описывается k признаками, то он
может быть представлен как точка в k-мерном пространстве, и сходство с другими объектами
будет определяться как соответствующее расстояние. Чем больше расстояние, тем меньше
сходство, и наоборот.
Метрика также может быть вычислена на матрице главных компонент. На главных
компонентах задаем евклидову метрику и формируем матрицу расстояний между молекулами.
Выбор меры расстояний и весов для классифицирующих переменных –важный этап
кластерного анализа, так как от этих процедур зависят состав и количество формируемых
кластеров. В зависимости от типов исходных переменных выбирается один из видов
показателей, характеризующих близость между ними. Использование различных алгоритмов
объединения в иерархических методах приводит к различным кластерным структурам и сильно
влияет на качество проведения кластеризации. Алгоритм выбирается с учетом имеющихся
сведений о существующей структуре совокупности наблюдаемых объектов или с учетом
требований оптимизации математических критериев. Выбор алгоритма классификации во
многом зависит от принимаемого критерия качества разбиения на классы.
27
Критерии качества классификации.
При использовании различных методов кластерного анализа для одной и той же
совокупности могут быть получены различные варианты разбиения. Существенное влияние на
характеристики кластерной структуры оказывают: во-первых, набор признаков, по которым
осуществляется классификация, во-вторых, тип выбранного алгоритма. Например,
иерархические и итеративные методы приводят к образованию различного числа кластеров.
При этом сами кластеры различаются и по составу, и по степени близости объектов. Выбор
меры сходства также влияет на результат разбиения. Если используются методы с эталонными
алгоритмами, например, метод k-средних, то задаваемые начальные разбиения в значительной
степени определяют конечный результат разбиения.
После завершения процедур классификации необходимо оценить
полученные
результаты. Для этой цели используется некоторая мера качества классификации, которую
принято называть функционалом или критерием качества. Наилучшим по выбранному
функционалу следует считать такое разбиение, при котором достигается экстремальное
(минимальное или максимальное) значение целевой функции – функционала качества.
Факторный анализ
Главными целями факторного анализа являются: (1) сокращение числа переменных
(редукция данных) и (2) определение структуры взаимосвязей между переменными, т.е.
классификация переменных. Поэтому факторный анализ используется или как метод
сокращения данных или как метод классификации.
Факторный анализ не требует априорного разделения признаков на зависимые и
независимые, так как все признаки в нем рассматриваются как равноправные. Здесь нет
допущения о неизменности всех прочих условий, свойственного регрессионнокорреляционному анализу. Цель факторного анализа - сконцентрировать исходную
информацию, выражая большое число рассматриваемых признаков через меньшее число
более емких внутренних характеристик явления, которые, однако, не поддаются
непосредственному измерению (например, уровень аграрного развития). При этом
предполагается, что наиболее емкие характеристики окажутся одновременно и наиболее
существенными, определяющими. В дальнейшем будем их называть обобщенными факторами
(или просто факторами). Описание методов факторного анализа приводится во многих работах
Линейная регрессия
Множественная линейная регрессия - модель линейной связи между переменной
зависимой y и переменными независимыми x1,x2,...,xk, представленная уравнением y = b1x1 +
b2x2 + ... + bkxk + a = ∑ bixi + a. Коэффициенты b1,b2,...,bk называются нестандартизированными
коэффициентами, а - свободным членом уравнения регрессии.
Нестандартизированные коэффициенты регрессии вычисляются по формуле bi = βi · sy /
si, где sy - стандартное отклонение переменной y; si - стандартное отклонение переменной хi.
Свободный член уравнения регрессии находится по формуле a = y - ∑ bixi, где y - среднее
арифметическое переменной y, xi - средние арифметические для переменных xi.
Используются два подхода к интерпретации нестандартизированных коэффициентов
линейной регрессии bi. Согласно первому из них, bi представляет собой величину, на которую
изменится предсказанное по модели значение ŷ = ∑ bixi при увеличении значения независимой
28
переменной xi на единицу измерения; согласно второму - величину, на которую в среднем
изменяется значение переменной y при увеличении независимой переменной xi на единицу.
Значения коэффициентов bi существенно зависят от масштаба шкал, по которым измеряются
переменные y и xi, поэтому по ним нельзя судить о степени влияния независимых переменных
на зависимую. Свободный член уравнения регрессии a равен предсказанному значению
зависимой переменной ŷ в случае, когда все независимые переменные xi = 0.
С целью определения прогностической устойчивости модели используют метод
скользящего контроля (cross-validation). Значение среднеквадратической ошибки
отображает качество прогнозирования на данной выборке, но ничего не говорит о
прогностической
способности
модели
при
добавлении
новой
переменной.
Среднеквадратическая ошибка, вычисленная с применением метода скользящего контроля,
R2CV (нижний индекс «CV» – от «cross validation») позволяет это сделать.
Рисунок 7. Используемая схема построения дерева решений (k - число кластеров)
На основе стандартных статистических методов путем их модификации был предложен
алгоритм построения дерева решений – линейных классификаторов. Внесенные изменения
позволяют преодолеть трудности проведения расчетов и улучшить качество прогнозирующих
моделей, в том числе и за счет адаптации к конкретной задаче.
Кроме того, предложенный алгоритм позволяет использовать обратную связь между
этапами описания, формирования дескрипторов и построения классификаторов: результаты
29
предложенного алгоритма можно использовать для формирования нового алфавита
дескрипторов с возможно лучшей прогностической оценкой.
Важной особенностью предложенного метода построения функциональной зависимости
является возможность отказа от классификации входной молекулы - поиск «выбросов» элементов выборки, сильно отличающихся по своему описанию от основных кластеров и, как
следствие, не поддающихся общему анализу; уменьшение влияния наличия «выбросов» в
выборке на общий результат классификации молекул.
4. Результаты вычислительных экспериментов.
С целью выявления зависимости значений биологической активности от молекулярной
структуры проведены вычислительные эксперименты на выборке молекул амбровых
одорантов, состоящей из 129 молекул. Из них 71 являются биологически активными, 58 неактивными. Результаты построения МД-матрицы и ее анализа отражены соответственно в
таблице 3 и таблице 4.
Таблица 3. Формирование МД-матрицы
Формирование МД-матрицы с различными параметрами
количество интервалов
разбиения
диапазона
значений
расстояний
между парой ОТ
matrix1
matrix2
matrix3
matrix4
matrix5
matrix6
matrix7
matrix8
3
3
3
3
2
2
2
2
количество интервалов
разбиения
диапазона
значений
расстояний
между ОТ и парой ОТ
3
3
2
2
3
3
2
2
четкие
/
нечеткие
(треугольные) функции
принадлежности
четкие
нечеткие
четкие
нечеткие
четкие
нечеткие
четкие
нечеткие
размер
сформированной
матрицы*
129 x 607
129 x 899
129 x 470
129 x 803
129 x 518
129 x 634
129 x 336
129 x 538
* Матрица N x M (N – количество объектов обучающей выборки, M – количество
выявленных признаков объектов)
30
Таблица 4. Результаты построения функциональной зависимости
количество
результаты
факторов
для
количество
метрика для кластер-анализа
номер
построения
элементов в R2
кластера
линейной
кластере
регрессии
1
24
0.7
3
2
105
0.67
1
24
0.75
Евклидово расстояние на всей матрице 4
2
105
0.67
1
24
0.66
5
2
105
0.64
matrix1
1
66
0.62
3
2
63
0.61
1
66
0.66
Евклидово расстояние на 2 факторах
4
2
63
0.62
1
66
0.73
5
2
63
0.65
1
11
0.73
Евклидово расстояние на 3 факторах
3
31
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
2
4
5
3
matrix1
Евклидово расстояние на 5 факторах
4
5
3
Евклидово расстояние на всей матрице 4
matrix2
5
Евклидово расстояние на 2 факторах
3
32
118
11
118
11
118
17
112
17
112
17
112
72
57
72
57
72
57
34
75
0.67
0.73
0.67
0.82
0.66
0.65
0.66
0.65
0.66
0.75
0.67
0.61
0.61
0.61
0.63
0.62
0.61
0.65
0.69
4
5
3
Евклидово расстояние на 3 факторах
4
5
3
Евклидово расстояние на 5 факторах
4
5
33
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
20
109
20
109
68
61
68
61
68
61
63
66
63
66
63
0.65
0.7
0.65
0.7
0.6
0.56
0.6
0.64
0.62
0.64
0.6
0.6
0.6
0.65
0.6
2
66
0.64
Заключение
В работе предложен и программно реализован новый метод и алгоритм
корректного учета пространственных конформаций гибких молекул путем введения
нечетких «классов расстояний» в задаче «структура-свойство». Метод позволяет
учитывать при анализе выборки не только «жесткие» конформации, но и любые
«промежуточные» между ними, что особенно важно при прогнозировании биологической
активности. Успешно программно реализованы алгоритмы построения матрицы
«молекула-дескриптор» для жестких и гибких молекул и поиска функциональной
зависимости биологической активности от значений дескрипторов.
Предложен подход при построении функциональной зависимости значения
активности от значений дескрипторов в виде деревьев решений с использованием
иерархического кластерного анализа, что позволяет выявить «сгустки однородности», а
затем
удалить из выборки так называемые «выбросов», мешающие выявить
функциональную зависимость на основных кластерах.
Предложен метод выбора метрики для проведения иерархического кластерного
анализа для более верного выделения кластеров и сокращения вычислений. Метод
состоит в использовании факторного анализа на полной выборке молекул и отборе
наиболее информативных столбцов для всей выборки.
Было предложено использовать обратную связь между этапом описания объектов
(молекул) и формирования дескрипторов и этапом поиска функциональной зависимости.
Его суть состоит в том, что после запуска алгоритма, исходя из качества полученного
прогноза, формируются
рекомендации по изменению параметров детализации,
использованных на этапе описания молекул и формирования дескрипторов. Далее весь
алгоритм запускается заново уже с новыми параметрами детализации. В частности,
найденные наиболее информативные структурные 3D - дескрипторы предыдущего
уровня используются при построении 3D - дескрипторов следующего уровня.
Различные модификации вышеописанного алгоритма успешно реализованы в
системе Matlab 7.3. При этом использовались как основной пакет программ, так и
дополнительный пакет (Toolbox) Statistics, предлагающий широкий выбор инструментов
для статистического исследования. Проект состоит из 2 последовательных модулей.
Полученная реализация дает возможность после построения дерева решений в
виде классификаторов вернуться от дескрипторов к 3D-формам на молекулярном
графе, т. е. возможность визуализации фрагментов молекулярного графа, чьи
дескрипторы вошли в классифицирующую функцию.
С целью выявления зависимости значений биологической активности от
молекулярной структуры проведены вычислительные эксперименты на выборке
душистых молекул, состоящей из 49 различных алкенолов С5-С10 с различными
конформациями (от 10 до 999), а также на выборке молекул амбровых одорантов,
состоящей из 129 молекул (из которых 71 являются биологически активными, 58 –
неактивными).
Получены следующие результаты:
Разработан новый метод описания гибких молекул на основе аппарата нечеткой
логики;
Успешно программно реализованы алгоритмы построения матрицы «молекуладескриптор» для жестких и гибких молекул и поиска функциональной зависимости
биологической активности от значений дескрипторов;
34
Можно определить следующие основные направления развития работы:
• Оптимальный выбор параметров построения матрицы «молекула-признак»:
• Поиск критерия для выбора оптимального числа классов расстояний;
• Поиск способов уменьшения меры нечеткости [38] классов расстояний для
упрощения содержательной интерпретации итоговой модели;
• Анализ различных способов итерационного построения алфавитов
дескрипторов. Определение оптимальной «глубины» построения алфавита;
• Оптимизация построения модели нечеткого логического вывода:
• Выбор оптимального количества главных факторов для определения метрики
при построении кластеров;
• Выбор оптимального алгоритма объединения кластеров
• Выбор оптимального количества главных факторов в кластере для
построения регрессионной модели;
• Выработка критерия отказа от классификации входной молекулы;
Наиболее важной является задача перекрестной оптимизации этапов построения
описания молекул и построения модели логического вывода, т.е. одновременный выбор
таких параметров в которые позволили бы построить модель с максимальной
прогностичной способностью.
Список литературы
1. Rouvray D.H. (Ed.) Computational Chemical Graph Theory. New York, Nova Publ., 1989.
2. Marshall G.R. // In 3D-QSAR in Drug Design: Theory, Methods and Applications. Kubinyi
H. (Ed.) - 1993, ESCOM, New York, p.80-116.
3. Cramer, R.D., III, D.E. Patterson, and J.D. Bunce, Comparative molecular field analysis
(CoMFA). 1. Effect of shape on binding of steroids to carrier proteins. J. Am. Chem. Soc.,
1988. 110(18): pp. 5959-67.
4. Журавлев Ю. И. Избранные научные труды. - М.: Магистр, 1998.
5. Журавлев Ю. И. Об алгебраическом подходе к решению задач распознавания и
классификации. - М.: Наука, 1978, вып. 33.
6. Ryazanov V.V. Recognition Algorithms Based on Local Optimality Criteria. – Pattern
Recognition and Image Analysis, 1994, vol. 4, no. 2.
7. Сенько О.В. Использование процедуры взвешенного голосования по системе
базовых множеств в задачах прогнозирования. – Журнал вычислительной
математики и математической физики, 1995, 35(10).
8. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.:Мир, 1976.
9. Kuncheva L.I. Combining pattern classifiers - Methods and Algorithms. – Wiley, 2004.
10. Vetrov D.P. On the Stability of the Pattern Recognition Algorithms. – Pattern Recognition
and Image Analysis, 2003, vol. 13, no. 3.
11. Рязанов В.В. О построении оптимальных алгоритмов распознавания и таксономии
(классификации) при решении прикладных задач. – В кн.: Распознавание,
35
12.
13.
14.
15.
16.
17.
18.
19.
классификация, прогноз: Математические методы и их применение. – М.: Наука,
1998, вып. 1.
Шараф М.А., Иламен Д.А., Ковальский Б.Р. Хемометрика: Пер. с англ. Ленинград:
Химия, 1989, 269 с.
Cho S.J., Tropsha A. Cross-Validated R2-Guided Region Selection for Comparative
Molecular Field Analysis: A Simple Method to Achieve Consistent Results. J.Med.Chem.,
1995, v.38, p.1060-1066.
Кохов В.А. Метод количественного определения сходства графов на основе
структурных спектров. Изв. РАН, «Техн. Киб.», №5, 1994, с.143-159.
Кумсков М.И., Смоленский Е.А., Пономарева Л.А., Митюшев Д.Ф., Зефиров Н.С.
Системы структурных дескрипторов для решения задач «структура-свойство».
Доклады Академии Наук, 1994, 336, п.1., с.64-66.
Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шефер М. Многомерный статистический
анализ в экономике.
M. Clark, R. D. Cramer III, D. M. Jones, D. E. Patterson, P. E. Simeroth, Comparative
Molecular Field Analysis(CoMFA). 2. Toward Its Use with 3D-Structural Databases,
Tetrahedron Comput. Methodol. 1990, 3, 47-59.
Makeev G.M., Kumskov M.I., Svitan’ko I.V., Zyryanov I.L. Recognition of Spatial Molecular
Shapes of Biologically Active Substances for Classification of Their Properties. Pattern
Recognition and Image Analysis, 1996, v.6, n.4.
Григорьева С.С., Чичуа В.Т., Деветьяров Д.А., Кумсков М.И. Выбор оптимального
описания структуры молекулы в задаче структура-свойство для заданной
биологической активности. «Вестник Московского университета. Серия Химия».
36
Download