В Е С Т Н И К П Е...

advertisement
ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА
2011
Математика. Механика. Информатика
Вып. 3(7)
УДК 004.853
Применение модели "факт-связь"
при анализе причинно-следственных связей
П. А. Мальцев
Пермский государственный национальный исследовательский университет
Россия, 614990, Пермь, ул. Букирева, 15
pavel_maltsev@mail.ru; 8902-83-38-640
Рассматривается задача моделирования и анализа фактов и связей между ними. Дается понятие факта и причинно-следственной связи. Приводится постановка задачи поиска сети фактов. В основе данного подхода лежит идея автоматического построения модели, описывающей факты и связи между ними на языке формальной теории "исчисления фактов". Данная
работа может представлять интерес для специалистов, занимающихся решением задач интеллектуального анализа данных (Data Minig).
Ключевые слова: интеллектуальный анализ данных; системы поддержки принятия решений; Business Intelligence.
Введение
фактов". С основами исчисления фактов можно ознакомиться в работе [1].
Понимание взаимосвязей между фактами в некоторой предметной области дает понимание ее законов, знание которых оказывается неоценимым при принятии решений. Понимание этих законов позволяет решать задачи
прогнозирования и оптимизации. Другими
словами, может помочь предупредить негативные события, вовремя отреагировав на их
предпосылки, либо добиться желаемого результата в будущем, создав соответствующие
условия в настоящем.
Основная проблема заключается в том,
что подобные знания не всегда доступны в
явном выражении: в виде правил и законов.
Зачастую аналитику доступен лишь набор
данных, так или иначе описывающий некоторые свершившиеся факты. Но сами по себе
данные не позволяют судить о закономерностях, без применения специализированных
методов анализа данных.
Автор предлагает подход к анализу
причинно-следственных связей на основе модели "факт-связь". В качестве основы для построения подобных моделей предлагается использовать формальную теорию "исчисление
Понятие факта и класса фактов
Пусть нами наблюдается некоторая система S . Под способностью наблюдать систему S нами будет пониматься способность
фиксировать некоторые параметры данной
системы: f1 , f 2 ,..., f k . Будем понимать, что
система S изменяется с течением времени, а
вместе с ней меняются и ее параметры. Таким
образом, мы должны иметь возможность фиксировать отдельные состояния рассматриваемой системы. Состояние системы в момент
времени t будем обозначать как S t  . Под
возможностью фиксировать состояния системы будем понимать возможность фиксировать значения показателей ее параметров в
этих состояниях.
Таким образом, систему S будем рассматривать в динамике, т.е. будем рассматривать последовательность состояний системы S :
st1   st 2   ...  st n , n  N . (1)
Что заставляет систему S менять свое
состояние? Будем различать внутренние и
внешние по отношению к самой системе при-
© П. А. Мальцев, 2011
54
Применение модели "факт-связь" при анализе причинно-следственных связей
чины смены ее состояний. Будем считать, что
система меняет свое состояние вследствие
возникновения некоторых событий  ,  ,  ,... :


Понятие причинно-следственной
связи
Пусть рассматриваемая нами система S
находится в состоянии st  , построим множество всех возможных состояний, в которое
может перейти система из данного состояния,
обозначим данное множество S t  . Построим
множество:

st1   st 2   ....  st n , n  N .
(2)
В каждый момент времени в любой системе может происходить огромное количество событий, но не все события полезны для
анализа. Поэтому введем понятие факта. Фактом называется значимое для анализа событие. Другими словами, фактами будем называть события, которые переводят наблюдаемую систему в новое состояние и данное изменение нами может быть обнаружено. Каждый факт характеризуется набором атрибутов,
комбинация значений которых однозначно
идентифицирует факт среди остальных. Для
разных фактов наборы их атрибутов могут
отличаться, но каждый факт обязательно обладает атрибутами пространства и времени.
Таким образом, факт представляется совокупностью атрибутов с зафиксированными значениями.
Факты будем обозначать строчными
буквами греческого алфавита:  ,  ,  ,... . Для
обозначения структуры факта, т.е. набора его
атрибутов, будем использовать следующее
обозначение:

S t 0 , S t1 ,..., S t n , n  N ,
системы в момент времени t i :
st0 , ti  t0




s ti 1   s ti , 

S ti   
 . (5)
s t  s ti 1   S ti 1 ,
 i
s  t i 1 


 



Рассмотрим два состояния системы
st  и st  , причем t   t  . Положим, что
существует момент времени  , причем
t     t  . Пусть также существует состояние
s  , такое, что:
выполняются следующие условия:


(4)
где S ti  – множество возможных состояний
Будем говорить, что наборы атрибутов
x1 , x2 ,..., xm  и y1 , y 2 ,..., y p подобны, если

(3)
динамики развития системы S , для этого построим последовательность множеств:
где t , g , x1 , x2 ,..., xm атрибуты факта  . ( t –
атрибут времени, g – атрибут пространства).
1) m  p ;







G
,
s
t

st .
 

 st   S t , t   t 
Множество  s t  следует понимать как
множество фактов, которые могут иметь место, если система находится в состоянии st  .
Зафиксируем некоторое начальное состояние
системы st 0  . Рассмотрим все альтернативы
  t , g , x1 , x2 ,..., xm  m  N ,

s t 
 
2) xi t  1, m  j  1, p : Dxi   D y j .


st   s   st ,  ,   G.
Введем следующие обозначения:
1. G – Множество всех фактов.
2.  like  (будем читать, как "  подобен  ") – отношение подобия фактов. Будем говорить, что два факта подобны, если их
наборы атрибутов подобны. Следует заметить, что отношение подобия обладает свойствами транзитивности и коммутативности.
(6)
Из (6) видно, что факты  и  связаны. Введем на множестве G отношение следствия. В основе предлагаемой формальной
теории лежит аксиома о том, что все факты
объединены причинно-следственными связями. Другими словами: у любого факта  1 есть
причина – некоторый факт  0 . Кроме того,
существует один и только один факт, не име-
Множества всех взаимо-подобных фактов будем называть классами фактов.
55
П. А. Мальцев
ющий причин, будем обозначать его 0 , называть его будем "нулевым фактом". Отношение
следствия между двумя фактами будем обозначать:
   ,  ,   G,
(7)
где  – причина,  – следствие. Введем следующие аксиомы отношения следствия:

наиболее важной задачей является построение
не сети состояний, а сети фактов (см. рис. 2).
α11
α1

10   G   0 : 0  
ο
αk1
2        ,  G
30    ,         ,  ,   G
0
40
α1p
αk
αkm
t , x1 , x2 ,..., xm   t , y1 , y 2 ,..., y p  
 t   t .
Рис. 2. Сеть фактов
Зафиксируем момент времени t . Обозначим состояние системы S в данный момент времени: st  . Положим также, что система перешла в данное состояние в результате свершения факта  :
В основе предлагаемого подхода лежит
идея автоматического построения сети фактов. Поэтому следует привести постановку
данной задачи.

Задача построения сети фактов
 s t .
Следующим фактом, который может
иметь место, будет один из фактов множества
 s t  . Определим вероятность свершения
факта  при условии, что система находится
в состоянии st  .
Рассмотрим последовательность множеств (4). На рис. 1 представлена сеть состояний системы S , которая определяет возможные варианты развития системы.
p t    0,1    s t  .
α1
ο
s1(t1)
s(t0)
α11
s11(t2)
1
α1p
s1p(t2)
1
αk
αk1
sk(t1)
1
αkm
Положим также:
p t    0,   G \  s t  .
Предметом наших исследований является
не
отдельные
факты,
а
причинноследственные связи между ними. Поэтому
нам часто важно будет знать, какова вероятность свершения некоторого факта  при
условии свершения факта  . Такую условную вероятность будем обозначать следующим образом:
p  ,  ,   G.
(8)
sk1(t2)
skm(t2)
1
Рис. 1. Сеть состояний системы S
Задача построения сети фактов заключается в поиске условной вероятности (8).
Имея сеть фактов, можно легко разрешать неопределенности при принятии решений, но построение подобной сети требует
глубоких знаний законов предметной области.
В качестве примера подхода решения задачи
построения сети фактов можно привести теорию Байесовских сетей (см. [2]). Но применение данного подхода требует знаний об
Изучив, как тот или иной конкретный
факт меняет состояние системы, можно делать точный прогноз о том, в какое состояние
перейдет система, если будет иметь место
один из известных фактов. Но проблема заключается в том, что не всегда известно, какое событие произойдет в будущем. Поэтому
56
Применение модели "факт-связь" при анализе причинно-следственных связей
условной зависимости переменных, их априорных и условных вероятностей. На практике
же, как правило, исследователю доступен
лишь огромный набор данных о свершившихся фактах. И ему требуется сделать прогноз
либо выбрать наиболее удачное решение, не
имея чёткого представления всех законов
предметной области. Поэтому построить Байесовскую сеть, описывающую все факты, не
обладая достаточными знаниями о законах
предметной области, – крайне сложная задача.
Среди задач интеллектуального анализа
данных хорошо изучена задача секвенционального анализа (см. [3]). Методы решения
данной задачи можно с успехом применить
при выявлении причинно-следственных связей между фактами, но только между теми,
записи о которых имеются в базе данных. Таким образом, данный подход также не позволяет достичь желаемого результата. Автор
предлагает использовать модель "факт-связь"
при решении задачи анализа и поиска причинно-следственных связей между фактами.
сделает возможным построение сети фактов
на множестве  . Процесс построения модели
факт-связь схематично представлен на рис. 3.
Модель "факт-связь"
Аналитик
Автоматическое
построение модели
Корректировка и дополнение модели
Хранилище
данных
Рис. 3. Процесс построения модели
"факт-связь"
Как видно из рис. 3, модель "факт-связь"
строится автоматически на основе данных из
хранилища данных, но после построения модель может быть модифицирована аналитиком. Это позволяет аналитику уточнить построенную модель, устранить ошибки и неточности автоматически построенной модели,
а также решить проблемы противоречивости
исходных данных.
Если знания о связях между фактами на
множестве G можно извлечь из исходных
данных, то откуда взять знания о фактах на
множестве  \ G . Новые знания могут быть
получены при обобщении знаний для множества G . В рамках формальной теории исчисления фактов автор выделяет различные типы
группировок и обобщения фактов (см. [1]).
Предложенный подход позволяет аналитику обобщить информацию об отдельных
фактах из базы данных и связях между ними,
что делает возможным судить о наличии связей между фактами из более широкого множества чем G .
Модель "факт-связь"
Пусть мы имеем некоторый конечный
набор наблюдений, т.е. множество зафиксированных фактов G  G , например данные
из некоторого хранилища данных. Имея подобный ограниченный набор наблюдений на
практике не позволит нам решить задачу построения сети фактов в общем виде, т.е. найти
условную вероятность (8) на множестве G .
Связано это с тем, что не все факты, которые
могут иметь место, попадают в набор наблюдений G .
Решение задачи в общем виде на множестве G без сомнения представляет большой теоретический интерес, но на практике
может быть достаточно решить задачу на более узком множестве  , таком, что:
G    G.
Методы решения задачи на конечном
множестве зафиксированных фактов G лежат в области секвенциального анализа и хорошо изучены. Автор предлагает свести задачу на множестве  к задаче на множестве
G . В основе предлагаемого подхода лежит
комплекс методов построения модели "фактсвязь". Модель "факт-связь" призвана обобщить решение задачи на множестве G , что
Список литературы
1. Мальцев П. Моделирование и анализ фактов и связей между ними // Natural and Artificial Intelligence: International Book Series.
Sofia, 2010. P.194–199.
2. Рассел С., Норвиг П. Искусственный интеллект: современный подход. 2-е изд. /
пер. с англ. М.: Вильямс, 2006.
57
П. А. Мальцев
3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа
данных: Data Mining, Visual Mining, Text Min-
ing, OLAP. 2-е изд. СПб.: БХВ-Петербург,
2008.
Modeling and analysis process of facts and
relation between them
P. A. Maltsev
Perm State National Research University, Russia, 614990, Perm, Bukireva st., 15
pavel_maltsev@mail.ru; 8902-83-38-640
The paper tells about modeling and analysis process of facts and relations between them. Author
gives definitions for facts and facts relations. There are basics of the approach to facts modeling
and analysis suggested by the researcher. That approach is based on the idea of automatic building
of a model using existing data warehouse. For model building the author uses a formal theory of
calculus of facts. This paper may be interesting for specialists in data mining.
Key words: Data Mining; decision support systems; business intelligence.
58
Download