В.А. Кохов[1]

advertisement
1
ГРАФ-МОДЕЛИ ДЛЯ АНАЛИЗА СХОДСТВА СТРУКТУР СИСТЕМ
НА ОСНОВЕ ИХ СЛОЖНОСТИ
В.А. Кохов1
Предложены граф-модели структур систем, позволяющие определять сходство систем с учётом их сложности и вкладов
фрагментов в сложность. Рассмотрена система стратификации граф-моделей, которая позволяет формировать
(порождать) и исследовать широкий спектр новых отношений структурного сходства. Предложенные модели
позволили развить подструктурный подход к анализу сходства графов и выделить новые виды отношений сходства графовых
моделей систем.
Введение
Концепция сходства систем неразрывно связана с концепцией сложности систем и является
значимой в общей теории систем и особенно систем искусственного интеллекта. Сходство
структур систем является ключевым понятием в интеллектуальном анализе данных, реализации
правдоподобных рассуждений, распознавании образов, обработке высказываний на естественных
языках и других областях искусственного интеллекта. Это определяет актуальность и значимость
разработки методов и программных средств для определения сходства структурированных
нечисловых объектов (графов, мультиграфов, семантических сетей и пр.) [Финн, 1991].
Порождающие и базовые граф-модели для анализа сложности и сходства систем
Ниже предлагается наиболее общий подход для построения структурных и числовых
инвариантов, характеризующих расположение фрагментов в графе. Стратификация построения
все более и более точных инвариантов достигается на основе использования расширяемых базисов
структурных дескрипторов (СД) и приводит к построению системы стратификации отношений
эквивалентности и толерантности графовых моделей систем.
Пусть Fl(G)={Fl1,Fl2,…,Flt,…,FlT}  множество помеченных фрагментов графа G=(V,E), где
Flt={f1lt,f2lt,…,fjlt,…,frtlt}  множество фрагментов типа t, j  номер фрагмента, rt
фрагментов типа t.
 число
Определим пространство характеризации расположения фрагментов
fjlFl(G) как тройку вида SK=(G,Fl,sr), где sr  отношение на множестве FlFl, т.е. бинарное
отношение film(sr)fjln на парах элементов <film,fjln> и film,fjlnFl. Пусть sr  отношение «иметь
изоморфное пересечение с учетом пометок вершин  ». Под порождающей граф-моделью
(ПГМ) графа G=(V,E) будем понимать взвешенный на вершинах и ребрах двудольный граф вида:
GM_(G)= wleFlwlLFlwlR(G)=(VLVR, sr, E, WVL, wL, WVR, wR, WE, we),
где: VL – множество вершин левой доли и VL = Fl = k; VR – множество вершин правой доли и
 VR = Fl = k; sr= – отношение, определенное на WVLWVR; E(VLVR) – множество ребер;
вершины vVL и uVR соединены ребром тогда и только тогда, когда справедливо отношение
wL(v)(sr)wR(u), где wL(v)WVL, wR(u)WVR; WVL – множество весов вершин из VL
(рассматриваются структурные веса: графы, являющиеся фрагментами из Fl); wL – весовая
1
111250, Москва, ул. Красноказарменная, 14, МЭИ; KokhovVA@mpei.ru
2
функция для вершин левой доли, wL: VLWVL; WVR – множество весов вершин из VR
(рассматриваются структурные веса: помеченные графы, являющиеся фрагментами из Fl); wR –
весовая функция для вершин левой доли, wR: VRWVR; WE – множество весов ребер из Е
(рассматриваются структурные веса: максимальные изоморфные пересечения помеченных
фрагментов); we – весовая функция для ребер из Е, we: ЕWE, где каждому ребру {v,u}Е
сопоставляется множество всех МИП вида wL(v)wR(u). Пусть max(filmfjln) обозначает
максимальное по числу ребер (вершин) изоморфное пересечение фрагментов film и
матрицей
смежности
вершин
M_GM(G)=||mсfij||; i=1,2,…,k;
граф-модели
wleFlwlLFlwlR(G)
j=1,2,…,k; для которой mсf
l
ij
будем
понимать
fjln. Под
матрицу
 максимальное по числу ребер
изоморфное пересечение filmfjln, если filmfjln  и 0, если filmfjln =.
Введем унифицированную систему обозначения ПГМ:
[we[l ]]L[wL[l ]](sr)R[wR[l ]]=[w[l ]]L[w[l ]](sr)R[w[l ]],
где L обозначает множество WVL, R – множество WVR, sr – отношение, определенное на
WVLWVR; we – наличие графов-весов ребер ПГМ, wL – графов-весов вершин левой доли ПГМ; wR
– графов-весов вершин правой доли ПГМ; l – наличие пометок вершин в графах-весах. При
отсутствии некоторых параметров, выделенных скобками [ ], получаются различные классы графмоделей производных от ПГМ [Кохов, 2006].
Рассмотрим класс ПГМ, в которых вместо операции пересечения фрагментов используется
операция изоморфного вложения фрагментов. Если столбцы матрицы смежности ПГМ
FlwlLFlwlR(G), принадлежащие помеченным фрагментам одного и того же типа t, заменить одним
столбцом со значениями элементов, равными сумме значений элементов заменяемых столбцов, то
в результате получим матрицу смежности базовой граф-модели (FlwlLF(G))=(FlwlF(G)), где
F(G) обозначает множество фрагментов графа G, которые выступают в качестве базиса СД.
Элементы в базисе СД упорядочены по значениям их индексов сложности [Кохов, 2002].
Специфическая особенность базовых граф-моделей состоит в необходимости применять
расширяемые базисы структурных дескрипторов (СД) для характеризации расположения
фрагментов в графе. Данный подход имеет практическую направленность разработки
эффективных (точных и приближенных) алгоритмов решения задачи анализа сложности и
сходства графов с адаптацией к анализируемым семействам графовых моделей систем.
Пусть для графа G построен его полный структурный спектр (ПСС) в базисе В:
WF(G/B)=(w1b1, w2b2 , ... ,wi bi, ... ,wk1bk1),
где bi  фрагмент базиса; wi  число канонических изоморфных вложений фрагмента bi в граф G; k
 число фрагментов базиса B, относительно которого характеризуется сложность графа. Очевидно,
что w(K1)=p, а w(K2)=q. Примем ISC(K1)=1, а ISC(K2)=3. Так как для любого фрагмента fi можно
определить его ПСС, а для каждого фрагмента от фрагмента G, можно построить его ПСС и т.д.,
то рекурсивным образом всегда можно вычислить ИСС графа G в базисе СД B:
3
ISC(G/B)=w1ISC(b1)+ w2ISC(b2)+ ... + wiISC(bi)+ ... + wkISC(bk ).
Для графов (рис. 1) получим: ISC(G1/B)=ISC(G2/B)=281, где B=<P0,P1,P2,C3>.
Заметим что, выбирая различные базисы BF, где F  множество собственных фрагментов
графа G, можно строить разные индексы сложности, в зависимости от значимости этих базисов в
различных приложениях и вычислять вклады (значимость) фрагментов в общую сложность графа.
Пусть B=<b1,b2,...,bj,...,bk1>  базис СД. Через wij обозначим число достроек фрагмента fiF до
фрагмента, изоморфного bj в G. Под матрицей изоморфных вложений (достроек) fi l без учета
пометок вершин до bj в графе G называется матрица EM(F l_B(G))=||wij||, i=1,2,...,k; j=1,2,...,k1.
Пример матрицы достроек EM(Pl0_P0-1C(G)) базовой граф-модели вида Pl0P0-1C(G) для
графов (рис. 1) приведен в табл. 1. Значение элемента wij матрицы граф-модели Pl0-1 P(G) равно
числу достроек вершин Pl0 до подграфов графа, изоморфных элементу базиса B=<P0,P1,P2,C3>.
G2
G1
9
1
2
13
5
1
6
14
2
10
3
5
7
9
13
6
10
14
3
11
11
4
12
8
4
8
12
7
Рис. 1. Диаграммы анализируемых графов с выделением вкладов вершин в сложность графа
Таблица 1
V
5,6,7,8
9,10,11,12
14
1,2,3,4
13
P0
1
1
1
1
1
P1
1
2
5
2
5
P2
1
5
18
3
12
C3
0
0
0
1
2
V
5,6,7,8
9,10,11,12
1,2,3,4
13,14
P0
1
1
1
1
P1
1
2
2
5
P2
1
5
3
15
C3
0
0
1
1
Расширенная матрица достроек фрагментов
Ниже определяется расширенная матрица достроек фрагментов, на основе которой
предлагается метод иерархического анализа сходства графов с учетом сложности графов и
вкладов фрагментов в общую сложность графов. Пусть Aut(G)  группа автоморфизмов вершин
графа G, а Aut(f t)  группа автоморфизмов фрагмента ft, которая характеризует симметрию
расположения фрагмента f
t
в графе G. Через  Aut(f t)  обозначим порядок группы Aut(f t).
Рассматривая в качестве примера фрагмента f t цикл длины 3 (C3), получим, что для графа G2 (рис.
1) группа Aut(f t) состоит из двух автоморфизмов:
 (1,2,13),(3,4,14)  1, 2 
 (1,2,13),(3,4,14)   1, 2 
g1  
=
; g2  



.
 (1,2,13),(3,4,14)  1, 2 
 (3,4,14),(1,2,13)   2, 1
Для рассмотренного примера
Aut (f t ) = Aut (f C3 ) =2.
Добавим к матрице EM(F l_B(G)) четыре новые строки:
1. Slw(F l/B)=< Slw(F l/b1), Slw(F l/b2), …, Slw(F l/bj),…, Slw(F l/bk1) >,
4
l
где Slw( F / b j ) 
rt
  wij .
f lt F l i 1
2. Sw(F l/B)=< Sw(F l/b1), Sw(F l/b2),…,Sw(F l/bj),…,Sw(F l/bk1) >,
T
где Sw( F / b j )  
l
t 1
f t (b j )
T
=  w( f / b j ).
t
t
Aut ( f )
t 1
3. Fw(G/B)= <w1(b1),w2(b2),…,wj(bj),…,wk1(bk1)> .
4. V_ISC(G/B)=< w1(b1)ISC(b1),…,wj(bj)ISC(bj),…,wk1(bk1)ISC(bk1)> .
Учитывая справедливость леммы о том, что число w(bj) канонических изоморфных
вложений bjB в граф G является EM(F l_B(G))-восстанавливаемой характеристикой и
определяется по формуле [Кохов, 2002]
rt
w(b j ) 
Slw(F l / b j )
Sw(F l / b j )
  wij

f lt F l i 1
T
 w(f
i 1
t
,
/ bj )
если | E(bj)| | E(G)|, построим расширенную матрицу достроек фрагментов EM*(F l_B(G)).
Матрицы вкладов фрагментов в общую сложность графа
На
основе
EM*(Fl_B(G))
построим
матрицу
MIRC(Fl_B(G))=||irc(fit/bj)||
i=1,2,...,k+4;
j=1,2,...,k1+3 относительных вкладов фрагментов в сложность графа, характеризующую,
расположение фрагментов в графе относительно базиса СД B. Эта матрица позволяет проводить
иерархический анализ сложности графов и на его основе анализ сходства расположения
фрагментов в графе и сходства графов с учетом сходства расположения фрагментов.
Значения элементов матрицы вычисляются по формуле
irc ( fit / b j ) 
wij
l

ISC (b j )
Sw( F / b j ) ISC (G / B)
.
Тогда величина irc ( fit / B) , вычисляемая по формуле
irc ( f it / B) 
k1
ISC (b j )
1
,
  wij
ISC (G / B) j 1
Sw( F l / b j )
определяет относительный вклад fit в общую сложность при использовании базиса СД B.
t
Фрагменты fit типа t, имеющие одинаковые значения вкладов irc ( fi / B) , образуют класс
f t(c) эквивалентных по расположению фрагментов типа t, а при достаточной полноте базиса и
орбиту группы Aut(f t), с общим вкладом irc ( f t (с) / B) . Сумма относительных вкладов по всем
t
фрагментам одного типа t образует вклад irc ( f / B) . Таким образом, расширенная матрица
t
достроек фрагментов, дополненная тремя столбцами: (k1+1) со значениями irc ( f (с, n) / B) ; (2)
5
t
(k1+2) со значениями irc ( f t (с) / B) ; (3) (k1+3) со значениями irc ( f / B) , характеризует
расположение фрагментов, классов эквивалентного расположения фрагментов и фрагментов
каждого типа в G с учетом его сложности и обозначается MIRC(F l_B(G)).
На основе MIRC(F l_B(G)) построим матрицу абсолютных вкладов фрагментов в сложность
G, т.е. матрицу MIAC(F l_B(G)), используя значение индекса сложности ISC(G/B).
Примеры матриц MIRC(Pl0_P0C3(G)) для графов (рис. 1) приведены в табл. 2. На диаграммах
графов (рис. 1) размер вершин соответствует вкладам вершин в общую сложность графа.
Таблица 2. Матрицы относительных вкладов вершин в сложность графов
G1
P0
P1
P2
С3
5
0,004 0,005 0,011
0
6
0,004 0,005 0,011
0
7
0,004 0,005 0,011
8
irc
irc irc
(f t(c,n)/B) (f t(c)) (f t)
0,020 0,078 1
G2
P0
P1
P2
С3
irc
irc irc
(f t(c,n)/B) (f t(c)) (f t)
0,020 0,078 1
0,004 0,005 0,011 0
0,020
5
6
0,004 0,005 0,011 0
0,020
0
0,020
7
0,004 0,005 0,011 0
0,020
0,004 0,005 0,011
0
0,020
8
0,004 0,005 0,011 0
0,020
9
0,004 0,011 0,053
0
0,068
9
0,004 0,011 0,053 0
0,068
10
0,004 0,011 0,053
0
0,068
10
0,004 0,011 0,053 0
0,068
11
0,004 0,011 0,053
0
0,068
11
0,004 0,011 0,053 0
0,068
12
0,004 0,011 0,053
0
0,068
12
0,004 0,011 0,053 0
0,068
14
0,004 0,027 0,192
0
0,222
0,222
1
0,004 0,011 0,032 0,014
0,060
4
0,004 0,011 0,032 0,014
0,060
0,242
2
0,004 0,011 0,032 0,014
0,060
1
0,004 0,011 0,032 0,014
0,060
3
0,004 0,011 0,032 0,014
0,060
2
0,004 0,011 0,032 0,014
0,060
4
0,004 0,011 0,032 0,014
0,060
3
0,004 0,011 0,032 0,014
0,060
13
0,004 0,027 0,160 0,014
0,205
13
0,004 0,027 0,128 0,028
0,187
0,187
14
0,004 0,027 0,160 0,014
0,205
1
Slw
14
30
66
6
116
Sw
1
2
3
3
9
Fw
14
15
22
2
V_ISC 14
45
198
53
24 ISC=281
0,270
1
Slw
14
30
66
6
116
Sw
1
2
3
3
9
Fw
14
15
22
2
V_ISC
14
45
198
24
53
ISC=281
0,270
0,242
0,409
1
1
Анализ матриц показывает, что анализируемые графы имеют одинаковые значения, как
индексов, так и вектор-индексов сложности в заданном базисе B=<P0,P1,P2,C3>, и их различение
наступает только при сравнении вектор-индексов вкладов irc(f t(c)).
Метод анализа сходства расположения фрагментов в графе
с учетом их вкладов в общую сложность графа
Результатом вычисления сходства расположения фрагментов в G будем считать матрицу или
граф
попарных
расстояний
анализируемых
фрагментов
или
классов,
эквивалентно
расположенных фрагментов, то есть фрагментов с одинаковыми значениями строк матрицы
MIRC(F l_B(G).
Иерархический анализ сходства расположения классов фрагментов включает:
1. Определение попарных расстояний между фрагментами на основе вычисления модуля
разности индексов относительных (irc(f t(c))) или абсолютных (iac(f t(c)) вкладов;
6
2. Определение на основе метрики Евклида расстояний между расширяемыми по числу
элементов базиса векторами (относительных или абсолютных) вкладов, то есть значениями строк
матрицы MIRC(F l_B(G).
Пример матриц абсолютных вкладов классов вершин в общую сложность графов G1,G2
(рис. 1) приведен в табл. 3. На рис. 2 приведен граф сходства расположения классов вершин.
Таблица 3. Матрицы абсолютных вкладов классов вершин в сложность
Классы
для G1
Номера
вершин
P0
P1
iac
Классы
(f t(c)) для G2
Номера
вершин
P0
P1
1
5,6,7,8
4
6
12
0
22
1
5,6,7,8
4
6
12
0
22
2
13
1
7.5
36
8
52.5
2
9,10,11,12
4
12
36 16
68
3
14
1
7.5
54
0
62.5
3
1,2,3,4
4
12
60
0
76
4
1,2,3,4
4
12
36 16
68
4
13,14
2
15
90
8
115
5
9,10,11,12
4
12
60
76
С3
P2
0
P2 С3
iac
(f t(c))
1
54
1
30,5
5
2
23,5
46
2
46
47
40,5
93
13,5 15,5
8
4
5,5
12
54
10
3
4
39
3
Рис. 2. Графы попарных расстояний между классами вершин для G1 и G2
Данный метод впервые позволяет проводить исследование тенденций изменения сходства
расположения фрагментов (классов фрагментов, орбит расположения фрагментов) на основе
построения и анализа графиков изменения расстояний в расширяемых базисах СД. Это
необходимо когда анализируемые графы неизоморфны, но имеют одинаковое число классов
эквивалентного расположения фрагментов и значения вкладов классов фрагментов совпадают.
Используя подструктурный подход к анализу сходства графов, основанный на вычислении
максимального общего фрагмента для каждой пары графов, можно впервые проводить анализ
сходства графов с учетом сходства расположения фрагментов (вершин, цепей заданной длины,
циклов, деревьев и т.д.), которые интересуют исследователя.
Метод иерархического анализа сходства графов на основе матриц
относительных вкладов фрагментов
Применение матриц MIRC(F l_B(G)) позволяет проводить иерархический анализ сходства
графов с последовательным уточнением результатов по двум направлениям:
1.
Индекс (ISC), вектор-индекс (V_ISC), матрица MIRC(F l_B(G));
2.
Вектор-индекс вкладов irc(f t), irc(f t(c)), irc(fi t), матрица MIRC(F l_B(G)).
Значение попарного сходства графов по направлению 1 определяется:

для индексов на основе вычисления модуля разности их значений;
7

для вектор-индексов на основе вычисления расстояния между графами с использованием
метрики Евклида;

для граф-моделей вида FlB(G) на основе поиска их МОФ и вычисления значения
расстояния D на основе определения максимального общего фрагмента (mcf) граф-моделей, то есть
D(G1 ,G2 )= V (F l  B (G1 )) + E (F l  B (G1 ))  V (F l  B (G2 ))  E (F l  B (G2 )) 
2 V (mcf (F l  B (G1 ) ,F l  B (G2 ))) ,
или индекса сходства
2
MSI (G1 ,G2 )=( V (mcf (F l  B(G1 ) ,F l  B (G2 ))) + E (mcf (F l  B (G1) ,F l  B (G2 ))) /
/ ( V (F l  B(G1 ))  E (F l  B(G1 )) )  ( V (F l  B(G2 ))  E (F l  B(G2 )) ).
В качестве результатов вычисления сходства набора графов будем считать матрицу попарных
расстояний между графами или при исследовании тенденций изменения сходства графики
индексов относительного сходства графов в расширяемых базисах СД для анализируемых графов.
Пусть PSc обозначает все связные цепи-подграфы графа. Вычисление mcf для каждой пары
базовых граф-моделей в их стратифицированной системе, например,
PlwPw  PlSwPw  PlSwPSw  PlScwPSw  PlScwPScw  PlScwPScw,
приводит к возможности исследования тенденций изменения сходства графов ещё по трём
направлениям стратификации самой базовой модели: (1) монотонное расширение базисов СД; (2)
монотонное по значениям индексов сложности расширение типов фрагментов; (3) монотонное
расширение, как базисов, так и типов фрагментов графа.
Для изучения влияния монотонного по значениям индексов сложности наращивания базиса B
на величину относительного сходства графов используется следующая процедура:
1. Рассчитываются матрицы попарного сходства (расстояний) графов SMi (i=1,..,k) для
базисов, содержащих 1,2,...,k компонент из анализируемого базиса B, т.е. базисов полученных
отбрасыванием (k1),(k2),...,0 последних элементов.
2. В каждой SMi для каждого графа находится усредненное значение сходства avij к
остальным графам, где j  номер графа. Усреднение проводится путем сложения индексов
сходства данного графа Gj c графами из множества {G\Gj} и деления полученного значения на
|{G\Gj}|.
3. Вычисляется
нормирующий
коэффициент
nki,
равный
среднему значению
avij
(усреднение проходит по индексу j).
4. Вычисляется относительное сходство графа Gj при длине базиса i rsij=avij/nki.
5. Строятся графики зависимости значения относительного сходства от длины базиса для
каждого исследуемого графа.
Индексы относительного сходства характеризуют сходство одного графа ко всем остальным
в целом, что позволяет интегрально оценивать поведение значения индексов попарного сходства
8
от длины базиса. На рис. 4 приведены графики усредненных значений сходства, вычисленные на
основе использования граф-моделей вида PlSwPw для графов (рис. 3). Они позволяют
анализировать тенденции изменения сходства при наращивании базиса цепей-подграфов.
G1
1
5
G2
G3
G4
1
1
1
3
4
2
2
2
3
5
3
5
5
2
2
4
5
4
4
G5
1
3
3
4
Рис. 3. Диаграммы всех графов с числом вершин 5 и ребер 6
1
0,95
0,9
G1
0,85
G2
0,8
G3
0,75
G4
0,7
G5
0,65
0,6
0,55
0,5
P0
P1
P2
P3
Рис. 4. Графики изменения усредненных значений сходства графов
По виду базиса СД будем различать 2 класса задач: (1) глобальное сходство графов, если
<b1,b2,...,bk>=<(G1)(G2)...(Gn)>, где (Gi) – множество всех подмножеств фрагментов Gi;
(2) локальное сходство графов, если <b1,b2,...,bk ><(G1)(G2)...(Gn)>.
Одной из проблем, для решения которой, разрабатывается методология и ее компьютерная
поддержка, является проблема анализа точности решения задачи определения глобального
сходства на основе расширяемых базисов СД. В отличие от подструктурного подхода к анализу
сходства графов, предлагаемый подход использует эффективно вычислимый (полиномиальный по
вычислительной сложности) алгоритм определения mcf двух базовых моделей.
Заключение
В заключении отметим, что базовые граф-модели позволили с наиболее общих позиций
сформулировать
классы
задач
анализа
сходства
структур
систем
и
выделить
стратифицированную систему новых видов отношений эквивалентности на основе сходства
расположения фрагментов и отношений толерантности структур систем. Рассмотренные выше
модели и методы анализа сходства реализованы в АСНИ «GMW» и используются в учебном
процессе МЭИ (ТУ), ГУ-ВШЭ, научных исследованиях ИВМиМГ СО РАН и ВИНИТИ
(www.graphmodel.com).
Список литературы
[Кохов, 2002] Кохов В.А. Концептуальные и математические модели сложности графов. – М: Изд-во МЭИ,
2002.
[Кохов и др, 2006] Кохов В.А., Незнанов А.А., Ткаченко С.В. Программный комплекс для формирования
и исследования отношений эквивалентности и толерантности на структурах. Десятая Национальная
9
конференция по искусственному интеллекту с международным участием. КИИ-2006: Труды
конференции. В 3-х т. Том 1. М.: Физматлит, 2006. – С.199-207.
[Финн, 1991] Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. // Итоги
науки и техники, сер. «Информатика», Т.15. 1991.
Download