Григорьева С., Кумсков М., Захаров А., Деветьяров Д

advertisement
245
ПОИСК ПРЕДСТАВЛЕНИЙ 3D СТРУКТУРЫ ГИБКИХ МОЛЕКУЛ,
АДЕКВАТНЫХ ДАННОЙ БИОЛОГИЧЕСКОЙ АКТИВНОСТИ 1
2Григорьева
2Деветьяров
С.С., 2Кумсков М.И., 2Захаров А.М.,
Д.А., 2Пономарева Л.А., 2Свитанько И.В.
2Кафедра
вычислительной математики, Механико-математический факультет,
Московский Государственный Университет им. М.В. Ломоносова, 119992 Москва
E-mail: qsar_msu@mail.ru, kumskov@mail.ru
Предложен метод представления множества форм объекта – гибкой молекулы – в
задаче «структура-свойство» на основе анализа всего множества ее
пространственных конформаций и вычисления «нечетких» дескрипторов.
Приведены результаты вычисления для прогнозирования амбрового запаха на
«нечетких» дескрипторах формы молекулярной поверхности.
Введение
Решение
QSAR-задачи
(Quantitative
Structure-Activity Relationship) состоит из
двух этапов: этапа описания и этапа
построения модели классификации [1].
Особенностью
этой
задачи
является
незаданность векторного представления
молекул.
Для
прогнозирования
биологической активности необходимо
различать пространственные конфигурации
молекул и учитывать их конформационные
особенности в дескрипторах молекул.
Одним из известных методов, описывающих
такие особенности является метод CoMFA
(Comparative Molecular Field Analysis)[2,3].
Однако он применим только для «жестких»
молекул. В работе предложен метод
формирования описания «гибких» молекул,
которые могут устойчиво существовать в
различных 3D конформациях.
Постановка задачи
Пусть задано обучающее множество
молекул, т.е. для каждого химического
соединения задан молекулярный граф Gi и
известно, обладает ли оно целевым
свойством (1) или не обладает (-1).
В работе используется кусочно-линейная
модель прогноза, т.е. строятся линейные
регрессии на кластерах [4]. Требуется
построить такое описание 3D структуры
«гибкого»
молекулярного
соединения,
чтобы при заданной модели ее коэффициент
_________________________________________
1
Работа поддержана грантом РФФИ 07-07-00282
множественной корреляции скользящего
контроля (Q2) был максимальным.
Особенность предлагаемого подхода
состоит в использовании «нечетких»
дескрипторов как для построения элементов
описания (ЭО) молекул, так и для описания
нечетких отношений между ЭО молекул.
Метод решения
Дескрипторы молекулы должны учитывать
ее структурные особенности и локальные
физико-химические свойства активных
центров,
участвующих
в
описании.
Вычисление
таких
дескрипторов
проводится
нами
в
несколько
последовательных этапов:
1. На графе молекулы, входящей в
обучающую выборку, проводится поиск
элементов описания (ЭО), для которых
затем
вводится
отношение
эквивалентности. Мы используем такие ЭО
как
атомы,
группы
атомов
(функциональные
группы),
«особые
точки», расположенные на поверхности
молекулы. С помощью маркеров ЭО
кодируются, при этом считается, что два
ЭО равны (эквивалентны), если совпадают
их коды.
2. Далее формируется алфавит элементов
описания выборки как множество всех
различных ЭО, найденных в молекулах
обучающей выборки. Построенные ЭО
определяют новый помеченный граф (ЭОграф), который однозначно строится по
исходному молекулярному графу.
246
3. Проводится полное перечисление пар ОЭ
и их пространственных отношений. Каждая
пара ОЭ определяет дескриптор, который
кодируется в виде «имя дескриптора» =
<имяЭО1> + <имяЭО2> + <код отношения
ЭО1 и ЭО2>, (где символ «+» обозначает
операцию конкатенации строк). Для каждой
молекулы формируется список в виде:
{(<имя
дескриптора>,
<число
его
повторений>)},
который
называется
структурный символьный 2-спектр графа
[4].
4. Строится описание всевозможных троек
ЭО через дескриптор пар ЭО, к которым
добавляется третий ЭО. Код дескриптора
троек ЭО имеет вид: «имя дескриптора» =
<код пары (ЭО1, ЭО2)> + <имяЭО3> + <тип
отношения пары (ЭО1, ЭО2) и ЭО3>.
Аналогично можно определить дескрипторы
четверок ЭО – через дескрипторы троек ЭО,
к которым добавляется четвертый ЭО.
Отношения
между
ЭО
(например,
расстояние между ЭО) формируются по
конформации молекулы, т.е. по 3D укладке
атомов молекулярного графа.
В качестве ЭО можно использовать атомы.
Так, например, кодировались дескрипторы
цепочек в QSAR-системе BIBIGON [6],
которая
строила
количественные
корреляции "структура-свойство", проводя
два следующих этапа вычислений:
(1) автоматическое перечисление всех
"цепочек маркированных атомов" как
структурных
дескрипторов
молекул
обучающего множества;
(2) использование
самоорганизации
линейных моделей на основе метода
группового учета аргументов (МГУА) [7].
Для описания особенностей молекулярной
поверхности, т.е. для определения ее ЭО, на
этой поверхности строятся «особые точки»
(ОТ) [8]. Для различения (классификации)
ОТ используются как геометрические
экстремумы молекулярной поверхности, так
и
ее
локальные
физико-химические
свойства, например, потенциал. Каждой
особой точке присваивается символьная
метка (маркер). В результате структурным
объектом,
подлежащим
анализу
и
классификации, становится маркированный
граф, вершины которого располагаются в
ОТ на молекулярной поверхности [8].
Формируются дескрипторы, описывающие
пары и тройки ОТ, где отношение между ОТ
определяется как евклидово расстояние
между ними. По обучающей выборке
строится матрица “Молекула - Дескриптор”
(МД-матрица),
строки
которой
соответствуют молекулам, а столбцы дескрипторам, при этом на (i,j) месте стоит
число повторений j дескриптора в i
молекуле [5].
Этапы вычислений при
формирования МД-матрицы представлены
на рис.1.
Рис. 1. Блок схема вычисления МД-матрицы,
иллюстрирующая влияние различных параметров на
ее формирование
Для «четких» описаний рассматривалось
следующее разбиение интервалов: по всем
молекулам
выборки
вычислялось
минимальное dmin и максимальное dmax
расстояния и отрезок U=[dmin, dmax]
разбивался на n (n = 2, 3, 4) четких
множеств. Каждая пара элементов описания
AB, (где А -<имя ЭО1>, В - <имя ЭО2>)
кодировалась в зависимости от того, в какой
интервал i попало значение d – расстояние
между A и B: <A + B + di>.
МД-матрица,
сформированная
для
обучающей выборки - амбровых одорантов
[8],
была
проанализирована
c
использованием МГУА. При разбиении
интервалов расстояний на 2 четких
интервала для пар и 2 четких интервала для
троек было найдено два кластера из 15 и 46
молекул с прогностической оценкой на
скользящем контроле 100% и 82,6%
247
соответственно. При разбиении интервалов
расстояний на 3 интервала для пар и 3
интервала для троек было найдено два
крупных кластера из 24 и 79 молекул с
прогностической оценкой на скользящем
контроле 79% и 73,4% соответственно. Для
каждого кластера была определена его
окрестность как область допустимых
значений
(ОДЗ)
для
последующего
прогнозирования: если вектор описания
новой молекулы не попадал в окрестность
ни одного кластера, то выдавался «отказ от
прогноза».
Описанный подход можно естественно
обобщить
на
«нечеткий»
вариант
дескрипторов: «нечеткость» вводится для
отношения эквивалентности ЭО (фрагменты
считаются сходными, если совпадают их
коды), и для разбиения расстояний на
интервалы. Вводятся «классы расстояний» –
нечеткие
множества,
степень
принадлежности к которым характеризует
взаимное
расположение
химических
функциональных групп в молекуле [5].
~
Нечетким множеством A на множестве U
называется совокупность пар (u,  A (u)) , где
называется
степенью
 A (u)
принадлежности
элемента
к
u U
~
нечеткому множеству A ,  A (u)  [0,1] .
Отображение
определяет
u   A (u)
функцию
принадлежности
нечеткому
множеству.
На
основе
интервалов
расстояний
формируется
алфавит
дескрипторов,
позволяющих
описать
«нечеткое»
положение структурных фрагментов в
молекуле. Для каждой молекулы значения
дескрипторов для пары АВ рассчитываются
как степень принадлежности пары АВ
элементов описания молекулярного графа к
нечетким
множествам
–
интервалам
расстояний между А и В. Результатом
вычислений
является
МД
матрица,
построенная
на
основе
переменных
нечеткой логики.
Для нечеткого описания зафиксируем целое
число n>1 и зададим на отрезке U=[dmin,
dmax] n нечетких множеств с функциями
принадлежности
g j ( x), 0  g j ( x)  1, j  1,.., n .
Рис. 2. Пример задания функций принадлежности трем
нечетких множествам, построенным на интервалах
расстояний между элементами описания молекул
Функции принадлежности позволяют, для
каждой пары AB сформировать вектор,
характеризующий степень принадлежности
расстояния d интервалу di: V = (µ1, …, µn).
Для гибкой молекулы по всем ее
конформациям для каждой пары AB
рассчитываем расстояния d и строим
вектора Vi (где i соответствует номеру
конформации). Далее, для каждого вектора
µk = (µk1,… µkt) (t – число конформаций
молекулы) определяем µkmin,
µkmax, и
строим m нечетких множеств, со степенями
принадлежности λs (s=1, …, m). Тогда пара
AB будет кодироваться в виде < A + B +
µk(λs) >
Для поиска
«адекватного» описания
целевого свойства фиксируем алгоритм
распознавания
образов
(или
классификации), в рамках которого будем
проводить поиск зависимостей «структурасвойство». По МД-матрицам, полученным
при различных параметрах ее построения
(рис.1.), строится зависимость «структурасвойство»
и
проверяется
ее
прогностическая устойчивость на основе
процедуры скользящего контроля. Описание
(МД-матрица), для которого нашлась
лучшая (по прогностической устойчивости)
модель, считаем «оптимальным» для
данного целевого свойства в заданном
алгоритме
распознавания
образов
(классификации).
Результаты
С использованием нечеткого метода
разбиения интервала расстояний между ЭО
была
построена
МД-матрица
для
обучающей выборки из 129 молекул, амбровых одорантов. Строилась линейная
248
функция прогнозирования на основе МГУА.
При разбиении интервалов расстояний на
два нечетких интервала для пар и два
нечетких интервала для троек было найдено
два
кластера из 9 и 102 молекул с
прогностической оценкой на скользящем
контроле 66,7% и 71,5% соответственно.
При разбиении интервалов расстояний на
три нечетких интервала для пар ЭО и три
нечетких интервала для троек ЭО было
найдено два кластера из 21 и 76 молекул с
прогностической оценкой на скользящем
контроле 95,2% и 67,1% соответственно. Во
всех описанных экспериментах разбиение
диапазона значений электростатического
заряда на 3 интервала осуществлялось с
помощью кластерного анализа.
Заключение
Предложенный метод описания гибких
молекул с учетом всех ее пространственных
конформаций позволил построить алгоритм
вычисления
«нечетких»
дескрипторов.
Приведенные результаты вычисления для
прогнозирования
амбрового
запаха
представляются весьма перспективными,
если учесть сложность целевого свойства.
Список литературы
1. Стьюпер Э., Брюгер У., Джурс П. Машинный
анализ связи химической структуры и биологической
активности. М.: Мир, 1982.
2. Cramer III R.D., Patterson D.E., Bunce J.D.
Comparative molecular field’s analysis (CoMFA) 1.
Effect of shape on binding of steroids to carrier proteins
// J. Am. Chem. Soc,. v.110, 1988, p.5959-5967.
3. Marshall G.R., Cramer, III, R.D. (). Three-dimensional
structure–activity
relationships
//
Trends
in
Pharmacological Science, n.9, 1988, p.285–289.
4. Svitanko I.V., Devetyarov D.A., Tcheboukov D.E.,
Dolmat M.S.,. Zakharov A.M., Grigoryeva S.S.,
Chichua V.T., Ponomareva L.A., Kumskov M.I. QSAR
modeling on the basis of 3D descriptors representing the
electrostatic molecular surface (ambergris fragrances) //
Mendeleev Communications, 2007, n.17, p.90-91.
5. Кумсков М.И., Смоленский Е.А., Пономарева
Л.А., Митюшев Д.Ф., Зефиров Н.С. Системы
структурных дескрипторов для решения задач
“структура-свойство”// Доклады АН., 1994, т. 336,
н.1, c.64-66.
6. Kumskov M.I., Mityushev D.F., Petrauskas A.A.
Generation of Structure-Property Chemical Substance
Knowledge Bases from Analysis of Structural Spectra
of Molecular Graphs // Pattern Recognition and Image
Analysis, 1996, v.6, n.2, p.280-281.
7. Kumskov M.I., Mityushev D.F., Petrauskas A.A. A
Comprehensive Software System to Predict Properties
of Chemical Compounds on a Personal Computer //
Pattern Recognition and Image Analysis, 1996, v.6, n.2,
p.412-413.
8. Svitanko I.V., Kumskov M.I., Zyryanov I.L., Suslov
I.A. A Method for Describing the Molecular
Electrostatic Potential for Determining the StructureActivity Relationship // Mendeleev Communications,
V.4, 1994, n.5, p.161-162.
9. Ярушкина Н.Г Основы теории нечетких и
гибридных
систем.
Учебное
пособие
М.:Финансы и Статистика, 2004
Download