Аншаков О.М.,. Ковтун В.А. ДСМ

advertisement
УДК 004.8
ДСМ-ПОДОБНЫЕ СИСТЕМЫ, ИСПОЛЬЗУЮЩИЕ
АППАРАТ НЕЧЕТКОГО ВЫВОДА
О.М. Аншаков (oansh@yandex.ru)
В.А. Ковтун (asdfghyjkl@yandex.ru)
Российский государственный гуманитарный
университет, Москва
В статье рассматривается разновидность систем интеллектуального
анализа данных, в работе которых комбинируются подходы ДСМметода и систем нечеткого вывода.
1. Полнота и точность
ДСМ-метод автоматического порождения гипотез был предложен
В.К.Финном в работах [Финн, 1976–83]. Основные работы по ДСМметоду, вышедшие до 2009 года, можно найти в сборниках [Финн, 2009] и
[Аншаков, 2009]. В настоящее время ДСМ-метод рассматривается как
оригинальная
совокупность
логико-комбинаторных
технологий
интеллектуального анализа данных, использующая формализованные (с
помощью неклассических логик) правила правдоподобных рассуждений.
Аббревиатура «ДСМ» – это инициалы Джона Стюарта Милля,
формализованные правила индуктивной логики которого [Милль, 2011]
являются идеологическим фундаментом ДСМ-метода. Современный
взгляд на ДСМ-метод, представленный его основателем, содержится в
статьях [Финн, 2010a–c] и книге [Финн, 2011].
Как и многие другие технологии интеллектуального анализа данных,
ДСМ-метод включает две фазы: фазу обнаружения закономерностей в
данных (фазу обучения) и фазу предсказания. ДСМ-метод может
предсказывать наличие или отсутствие множества целевых свойств.
Однако в этой работе мы будем предполагать, что целевое свойство
(признак) у нас единственное, что характерно для многих случаев
практического применения ДСМ-метода.
При исследовании результатов фазы предсказаний ДСМ-метода
уместно ставить вопрос о полноте и точности предсказаний. Чтобы
иметь возможность определять полноту и точность применительно к
ДСМ-методу нам необходимо ввести некоторые термины.
Объектом в ДСМ-методе называется сущность, относительно которой
задаются вопросы об обладании или не обладании набором целевых
свойств (или одним целевым признаком). ДСМ-метод работает со
структурой объекта, которая представляется, как правило, в виде
множества атомов из некоторого универсума.
Заметим, что представление структуры объекта в виде множества
атомов – это внутреннее представление объекта в ДСМ-системе (ДСМсистемой называют компьютерную программу, реализующую технологии
ДСМ-метода). В исходных данных, полученных из внешних источников,
объекту соответствует строка таблицы. Отдельной проблемой является
перевод из внешнего (исходного) представления объекта во внутреннее.
Введем следующие обозначения:
 через OTest будем обозначать множество тестовых примеров –
множество объектов, для которых мы собираемся предсказывать наличие
или отсутствие целевого признака,

 через O Test
будем обозначать множество положительных
тестовых примеров – множество объектов, для которых было предсказано
наличие целевого признака,

 через O Test
будем обозначать множество отрицательных тестовых
примеров – множество объектов, для которых было предсказано
отсутствие целевого признака,
 ,T
 через O Test
будем обозначать множество правильно предсказанных
положительных тестовых примеров – множество объектов, для которых
было предсказано наличие целевого признака, и они действительно этим
признаком обладают,
,T
 через O Test
будем обозначать множество правильно предсказанных
отрицательных тестовых примеров – множество объектов, для которых
было предсказано отсутствие целевого признака, и они действительно
этим признаком не обладают.
Через M , как обычно, будем обозначать мощность множества M .
Тогда полноту R (recall) и точность P (precision) фазы предсказаний
ДСМ-системы можно определить с помощью следующих равенств:
R

OTest

O Test
O Test
,
P
 ,T
O Test
,T
O Test

O Test

O Test
.
ДСМ-метод, как правило, дает достаточно большую точность
предсказаний, но довольно часто – низкую полноту.
В данной работе рассматривается ДСМ-подобная система, которая для
повышения полноты фазы предсказаний ДСМ-метода использует аппарат
нечеткого вывода. Рассматриваемая в статье система работает с
исходными данными, которые представлены в виде вещественных
векторов, записанных в таблицу. В настоящее время идет работа над
переносом применяемых в этой системе методов повышения полноты на
более общий случай.
2. От вектора к множеству
Итак, мы предполагаем, что исходные данные представлены в виде
числовых векторов. Более точно, следует рассматривать исходное
представление каждого объекта как кортеж над некоторой схемой
отношения, т.е., как строку таблицы реляционной базы данных. Для
удобства дальнейших рассуждений введем следующие обозначения:
 через U Attr обозначим универсум атрибутов – множество
заголовков столбцов таблицы, представляющей совокупность объектов
(другими словами, U Attr – это схема отношения, представленного
таблицей);
 исходное представление каждого объекта будем рассматривать как
отображение f : U Attr  R, где R – множество вещественных чисел;
 в множестве U Attr выделим два особых атрибута: ID –
идентификатор объекта – и Tar – целевой признак ( ID может принимать
только целочисленные значения, фактически, это номер объекта, Tar
может иметь только два возможных значения – 0 и 1 – отсутствие и
наличие целевого признака, соответственно);
 через U MA обозначим множество подлежащих обработке
(анализируемых) атрибутов (minable attributes), т.е. атрибутов, отличных
от ID и Tar ( U MA  U Attr \ ID,Tar );
 нас, главным образом, будет интересовать проекция вещественного
вектора, представляющего объект, на множество U MA , т.е., сужение
функции f на множество U MA , это сужение будем обозначать через
f MA .
Исходную таблицу, чтобы ее можно было обрабатывать с помощью
ДСМ-системы, необходимо представить в виде семейства множеств.
Очевидный способ такого представления состоит в том, что для каждого
атрибута из U MA задается совокупность числовых промежутков.
Например для атрибута «Температура тела человека» могут быть заданы
промежутки: до 36о, от 36о до 37о, больше 37о. Числовые промежутки
задают разбиение домена атрибута на непересекающиеся подмножества.
Множество классов такого разбиения для атрибута A будем обозначать
через Patrition  A . Разумеется, лучше всего было бы всегда советоваться
с экспертами в предметной области для формирования такого разбиения,
но можно порождать его и автоматически, используя статистические
соображения.
Теперь покажем, как от векторного представления объектов перейти к
их представлению в виде множеств. Универсум атомов будем обозначать
через U Atom . Положим по определению:
U Atom 
 A, C

| A U MA , C  Patrition  A .
Каждой строке f исходного табличного представления поставим в
соответствие множество
Set  f    A, C  U Atom | f  A   C .
Отдельной задачей является представление множеств для работы
алгоритмов ДСМ-системы. Обычно множество представляется в виде
бинарного вектора (битовой строки). Каждый бит соответствует атому.
Бит равен 1, если атом принадлежит рассматриваемому множеству, и 0 – в
противном случае.
3. Возможные причины снижения полноты:
неформальное объяснение
Достаточно очевидно, что каждый числовой промежуток, на которые
разбивается
домен
атрибута,
можно
интерпретировать
как
лингвистический терм в смысле [Заде, 1976]. В приведенном выше
примере с температурой тела человека промежуткам «до 36 о», «от 36о до
37о» и «больше 37о» соответствуют лингвистические термы
«Пониженная», «Нормальная» и «Повышенная», соответственно.
Каждому атому в этом случае соответствует нечеткое множество со своей
функцией принадлежности.
В данной работе мы не будем подробно рассматривать процедуру
порождения гипотез о возможных причинах наличия или отсутствия
целевых свойств. Отметим только, что ДСМ-система в качестве такой
гипотезы выдает некоторое подмножество универсума атомов, которое
вычисляется как пересечение представлений объектов, обладающих или
не обладающих целевыми свойствами. В современных ДСМ-системах для
порождения гипотез о возможных причинах используются алгоритмы,
заимствованные из анализа формальных понятий [Ganter et al, 1999], как
правило, алгоритм Норриса [Norris, 1978].
Говоря упрощенно, ДСМ-система предсказывает наличии целевого
признака у неопределенного примера (т.е., объекта из тестовой выборки),
если в объект (представленный в виде множества) включается хотя бы
одна причина наличия целевого признака и не включается ни одной
причины отсутствия этого признака.
ДСМ-система
предсказывает
отсутствие
целевого
признака
двойственным образом, т.е., в том случае, если в объект включается хотя
бы одна причина отсутствия целевого признака и не включается ни одной
причины наличия этого признака.
Попробуем неформально объяснить, почему может снижаться полнота
таких предсказаний. Включение в объект возможной причины означает
принадлежность объекту каждого атома из этой возможной причины. Но
атом A, C  Set  f  тогда и только тогда, когда f  A  C, т.е., когда
значение атрибута A в исходном представлении объекта попадает в
числовой промежуток C. Но может случиться так, что значение атрибута
A не попадает в промежуток C , но находится рядом с ним. Например,
температура 35,9о или 37,1о не слишком отличаются от нормальной.
Однако обычный ДСМ-метод в этом случае ничего не заметит и не
сформирует предсказание.
Понятно, что такая особенность ДСМ-метода может снизить только
полноту, но не снижает точность, так как предсказания формируются
только в том случае, когда значения атрибутов в исходном представлении
объекта заведомо попадают в нужные промежутки.
Чтобы повысить полноту, логично было бы говорить не о попадании
или непопадании в промежуток, а о степени принадлежности нечеткому
интервалу.
4. Принципы работы системы
Разработанное В.А.Ковтуном приложение представляет собой
прототип системы анализа данных, которая порождает гипотезы о
возможных причинах следуя алгоритмам ДСМ-метода, а при
предсказании наличия или отсутствия целевого признака использует
отдельные процедуры систем нечеткого вывода. Работу этой системы на
фазе предсказаний можно интерпретировать следующим образом:
 каждой возможной причине s наличия целевого признака Tar
ставится в соответствие нечеткая продукция в стиле [Mamdani et al, 1975],
а именно
 A is C  Tar is Present,
A,C s
где C интерпретируется как лингвистический терм;
 в случае, если s является возможной причиной отсутствия
целевого признака, заключение продукции «Tar is Present» заменяется на
«Tar is Absent»;
 значение каждой формулы A is C вычисляется как степень
принадлежности нечеткому интервалу, соответствующему паре
A, C ,
где A рассматривается как лингвистическая переменная, C – как
лингвистический терм, f  A в этом случае рассматривается как числовое
значение переменной A;
 для каждой причины s наличия целевого свойства значение
посылки и заключения соответствующей продукции находится так же, как
в системах нечеткого вывода (обычно конъюнкция интерпретируется как
максимум, но может интерпретироваться и как произведение);
 итоговое значение формулы «Tar is Present» находится как
максимум (или алгебраическая сумма) значений этой формулы для всех
продукций, соответствующих причинам наличия свойства;
 аналогично находится итоговое значение формулы «Tar is Absent»;
 вывод о наличии или отсутствии целевого признака делается по
разности значений формул «Tar is Present» и «Tar is Absent», пороговое
значение этой разности может меняться.
5. Результаты компьютерных экспериментов
Для оценки эффективности работы системы использовались
результаты объективных исследований онкологических заболеваний,
взятые из общедоступного репозитория UCI Machine Learning Repository1,
содержащего данные для тестирования различных методов машинного
обучения. Общий объем выборки составляет 569 объектов, каждый
включает в себя 30 признаков и 1 целевой атрибут — положительный или
отрицательный результат анализа. Часть из поступивших на вход объектов
отводилась на тестовую выборку. По этим объектам оценивалась точность
и полнота предсказаний.
В экспериментах использовался прототип системы интеллектуального
анализа данных, позволяющий порождать гипотезы как с помощью
обычных процедур ДСМ-метода, так и с использованием техники
нечеткого вывода, описанной в предыдущем разделе.
Эксперименты показали, что нечеткий вариант всегда позволяет
добиться больших значений полноты, по сравнению с обычным ДСМметодом, при практически не меняющейся точности. Прирост полноты
при разных условиях экспериментов: от 5% до 30%.
1
Электронный ресурс: http://archive.ics.uci.edu/ml/, архив 177548
Был проведен ряд экспериментов, чтобы выявить необходимое
количество примеров, требуемое для обучения системы.
Табл. 1.
Процент тестовых
Полнота
Точность
примеров
Нечеткий
Д Нечеткий ДСМ
СМ
70
66,9
3
84
8
5,3
1
60
68,2
3
86
8
6,9
4
50
68,4
3
87
8
9,7
5
40
70,2
4
87
8
0,2
7
30
73,9
4
91
9
4,9
2
20
70,1
4
89
9
5,4
1
Из полученных результатов можно сделать вывод, что полнота
предложенного метода мало зависит от объема обучающей выборки.
Кроме этого, не исключена возможность так называемого «переобучения»
системы, когда при слишком большой обучающей выборке точность на
тестовых примерах падает. Оптимальный процент обучающих примеров –
70%, что примерно составляет 398 из 569 объектов используемых в
качестве входных данных.
6. Перспективы дальнейших исследований
Компьютерные эксперименты показали, что использование техники
нечеткого вывода действительно может повысить полноту предсказаний
ДСМ-метода при сохранении или незначительной потере точности.
Возможно также незначительное увеличение точности.
Продолжение компьютерных экспериментов является одним из
основных направлений дальнейшей работы. В этом направлении
необходимо выполнить следующие действия:
 провести сравнение результатов предсказаний различных ДСМсистем с результатами предсказаний системы, использующей аппарат
нечеткого вывода,
 провести эксперименты с различными наборами данных, в том
числе и новыми данными, для которых компьютерных экспериментов еще
не проводилось.
Еще одним направлением дальнейшей работы является доработка
системы. В этом направлении необходимо:
 разработать модули, позволяющие пользователю выбирать
различные способы разбиения домена атрибута на числовые промежутки,
 добавить в систему возможность работы с нечисловыми данными,
 добавить в систему возможность использования различных
алгоритмов порождения гипотез о возможных причинах,
 улучшить пользовательский интерфейс.
Список литературы
[Аншаков, 2009] ДСМ-метод автоматического порождения гипотез: Логические и
эпистемологические основания / Сост. О.М.Аншаков, Е.Ф.Фабрикантова; под.
общ. ред. О.М.Аншакова. М.: ЛИБРОКОМ, 2009.– 433 с.
[Заде, 1976] Заде Л. Понятие лингвистической переменной и его применение к
принятию приближенных решений. М.: Мир. 1976.– 165 с.
[Милль, 2011] Милль Д.С. Система логики силлогистической и индуктивной. М.:
ЛЕНАНД, 2011.– 832 с.
[Финн, 1976] Финн В.К. О возможностях формализации правдоподобных
рассуждений средствами многозначных логик // Всесоюз. симпозиум по логике
и методологии науки.– Киев: Наукова думка, 1976.– С. 82–83.
[Финн, 1981] Финн В.К. Базы данных с неполной информацией и новый метод
автоматического порождения гипотез // Диалоговые и фактографические
системы информационного обеспечения.– М., 1981.– С. 153–156.
[Финн, 1983] Финн В.К.
О
машинно-ориентированной
формализации
правдоподобных рассуждений в стиле Ф.Бэкона – Д.С.Милля // Семиотика и
информатика. – 1983. – Вып. 20. – С. 35–101.
[Финн, 2009] Автоматическое порождение гипотез в интеллектуальных системах
/ Сост. Е.С.Панкратова, В.К.Финн; Под. общ. ред. В.К.Финна. – М.:
ЛИБРОКОМ, 2009. – 528 с.
[Финн, 2010а] Финн В.К. Индуктивные методы Д.С. Милля в системах
искусственного интеллекта. Часть I // Искусственный интеллект и принятие
решений. – 2010. – № 3. – С. 3–21.
[Финн, 2010b] Финн В.К. Индуктивные методы Д.С. Милля в системах
искусственного интеллекта. Часть II // Искусственный интеллект и принятие
решений. — 2010. — № 4. — С. 14–40.
[Финн, 2010c] Финн В.К. Об определении эмпирических закономерностей
посредством ДСМ -метода автоматического порождения гипотез //
Искусственный интеллект и принятие решений. – 2010. – № 4. – С. 41–48.
[Финн, 2011] Финн В.К. Искусственный интеллект: Методология, применения,
философия. М.: КРАСАНД, 2011. – 448 с.
[Ganter et al, 1999] Ganter B., Wille R. Formal Concept Analysis: Mathematical
Foundations. Berlin: Springer-Verlag, 1999
[Mamdani et al, 1975] Mamdani, E.H., Assilian S. An experiment in linguistic
synthesis with a fuzzy logic controller, Int. J. Man-machine Studies, Vol. 7, 1–13,
1975.
[Norris, 1978] Norris E.M. An Algorithm for Computing the Maximal Rectangles in a
Binary Relation // Revue Roumaine de Mathématiques Pures et Appliquées. —
1978. — N 23(2). — pp. 243–250.
Download