Куликов А.В., Фомина М.В. Алгоритмы обобщения при наличии

advertisement
Алгоритмы обобщения при наличии шума в исходных данных*
А.В. Куликов1, М.В. Фомина2
Рассматривается проблема обобщения знаний с учетом потребности обработки неполной и
противоречивой информации, хранящейся в реальных массивах данных. Для обобщения
информации из реальных баз данных предлагается использовать средства теории приближенных
множеств и деревья решений. Представлены модели шума, а также проведено исследование
влияния шума на работу предложенных алгоритмов обобщения. Приводится описание
разработанного алгоритма восстановления неизвестных значений по методу ближайших соседей
в обучающих выборках, подвергающихся воздействию шума. Представлены результаты
программного моделирования.
Введение
Обнаружение знаний в базах данных является стремительно увеличивающейся областью,
развитие которой вызвано большим интересом к настоятельным практическим, социальным и
экономическим нуждам. Современные базы данных содержат так много данных, что
практически невозможно вручную проанализировать их для извлечения ценной информации,
помогающей принимать важные решения. Отсюда следует, что люди нуждаются в помощи
интеллектуальных систем для повышения своих аналитических возможностей.
1. Постановка задачи обобщения
Обнаружение знаний в базах данных тесно связано с решением задачи индуктивного
формирования понятий, или задачи обобщения.
Дадим формулировку задачи обобщения понятий по признакам [1]. Пусть O  {o1 , o2 ,..., on } –
множество объектов, которые могут быть представлены в интеллектуальной системе S. Каждый
объект характеризуется r признаками. Обозначим через Dom(А1), Dom(А2), … , Dom(Аr)
множества допустимых значений признаков, где Dom(Аk)={x1, x2, … x qk }, 1  k  r и qk
-
количество различных значений признака Ak. Каждый объект oi  O , 1  i  n , представляется
как множество значений признаков, т.е. oi  {xi1 , xi 2 , . . . , xir } , где xik Dom(Аk), 1  k  qk . Такое
описание объекта называется признаковым описанием. В качестве признаков объектов могут
использоваться количественные, качественные либо шкалированные признаки [1].
В основе процесса обобщения лежит сравнение описаний исходных объектов, заданных
совокупностью значений признаков, и выделение наиболее характерных фрагментов этих
* Работа выполнена при финансовой поддержке РФФИ (проект № 05-01-00818)
1
2
111250, Москва, ул. Красноказарменная, 14, МЭИ, kulikov_av@inbox.ru
111250, Москва, ул. Красноказарменная, 14, МЭИ, fominhome@mtu-net.ru
описаний. В зависимости от того, входит или не входит объект в объем некоторого понятия,
назовем его положительным или отрицательным объектом для этого понятия.
Пусть O - множество всех объектов, представленных в некоторой системе знаний, V множество положительных объектов и W - множество отрицательных объектов. Будем
рассматривать случай, когда O  V  W , V W   , W  Wi и Wi  W j  
(i  j ) . Пусть
i
K - непустое множество объектов такое, что K  K   K  , где K   V и K   W . Будем
называть K обучающей выборкой. На основании обучающей выборки надо построить правило,
разделяющее положительные и отрицательные объекты обучающей выборки.
Таким образом, понятие сформировано, если удалось построить решающее правило, которое
для любого примера из обучающей выборки указывает, принадлежит ли этот пример понятию,
или нет. Алгоритмы, которые мы исследуем, формируют решение в виде правил типа “ЕСЛИ
условие ТО искомое понятие”. Условие представляется в виде логической функции, в которой
булевы переменные, отражающие значения признаков, соединены логическими операциями
конъюнкции, дизъюнкции и отрицания. Решающее правило является корректным, если оно в
дальнейшем успешно распознаёт объекты, не вошедшие первоначально в обучающую выборку.
Наличие шума в данных изменяет вышеприведённую постановку задачи как на этапе
построения обучающих правил, так и на этапе классификации объектов. Прежде всего,
исходная обучающая выборка K заменяется на выборку K', в которой с некоторой вероятностью
встречаются искажённые значения атрибутов.
Рассмотрим методы деревьев решений [2, 3] и теории приближенных множеств [4, 5],
позволяющие решать поставленную задачу обобщения.
2. Алгоритм обобщения в условиях наличия шума в исходных данных
Приближенное множество определяется путем задания верхней и нижней границ
некоторого множества, называемых приближениями этого множества. Каждый элемент
нижнего приближения достоверно является элементом множества. Каждый элемент, который
не принадлежит верхнему приближению, достоверно не является элементом множества.
Разница между верхним и нижним приближениями образует так называемую граничную
область. Элемент граничной области вероятно (но не обязательно) является элементом
множества.
Подобно
к
нечетким
множествам,
приближенные
множества
являются
математической концепцией для работы с нечеткостью в данных.
Обобщенным итерационный алгоритм поиска существенных атрибутов, основанный на
подходе приближенных множеств (Generalized Iterative algorithm based on the Rough Set
approach, GIRS) был разработан авторами [6, 7] и состоит из следующих этапов: поиск классов
эквивалентности отношения неразличимости, поиск верхних и нижних приближений, поиск
среза решающей системы и формирование решающих правил. Кроме того, для обработки
атрибутов
с
непрерывной
областью
значений
применяется
дискретизация.
В
рассматриваемом алгоритме мы объединили дискретизацию количественных признаков с
поиском существенных признаков. Множество существенных признаков называют срезом.
Процесс поиска среза рассматривается как поиск признаков, принадлежащих приближенному
срезу. Приблизительный срез - обобщение понятия среза, где обобщение понимается как
результат
формирования
множества
существенных
признаков
на
основе
подхода
приближенных множеств [4, 5]. Использование приблизительных срезов очень полезно в
обработке неполных и "зашумленных" данных.
Проведенные
эксперименты
показывают,
что
разработанный
алгоритм
позволяет
значительно сократить время поиска существенных признаков благодаря комбинации с
процессом дискретизации. Для всех наборов данных, взятых для сравнения, разработанный
алгоритм показал точность классификации не уступающую другим алгоритмам обобщения, а в
некоторых случаях превосходящую её. Средняя точность классификации составила примерно
88.9%. Следует отметить, что точность классификации, полученная с помощью предложенного
алгоритма, при решении большинства задач оказалась значительно выше точности
классификации, достигнутой методами индукции решающих деревьев ID3, ID4, ID5R, C4.5, что
объясняется невозможностью представления описания некоторых целевых понятий в виде
дерева.
3. Модели шума
Пусть примеры в обучающей выборке содержат шум, то есть значения признаков объектов,
используемых в качестве обучающей выборки, могут отсутствовать или быть искажены. Шум
возникает из-за таких причин, как некорректное измерение входного параметра, неверное
описание значения параметра экспертом,
использование испорченных измерительных
приборов, потеря данных при пересылке и хранении информации [7].
Рассмотрим постановку задачи внесения шума в обучающую выборку. Первоначально
задана обучающая выборка K, не содержащая искаженных значений. Основные характеристики
шума – это величина C, она задаёт вероятность получения правильного значения, и величина V
– вероятность искажения значения признака. Последняя величина называется "уровень шума".
Мы исследуем две модели шума:
1. Шум связан с исчезновением значений атрибутов. Для каждого атрибута xi область
допустимых значений включает значение "неизвестно". Таким образом, примеры обучающей
выборки K' содержат некоторое количество признаков со значениями "неизвестно".
2. Шум связан с искажением некоторых значений атрибутов в обучающей выборке. При
этом истинное значение заменяется на одно из допустимых, но ошибочных значений (значения
перемешаны).
Далее мы рассмотрим работу алгоритма обобщения при наличии шума в исходных данных.
Наша цель – оценить точность классификации примеров контрольной выборки при возрастании
уровня шума в исходной выборке.
4. Предсказание неизвестных значений по методу ближайшего соседа
Пусть дана выборка с шумом, K', причём искажениям подвергаются атрибуты,
принимающие как дискретные, так и непрерывные
значения.
Рассмотрим проблему
использования объектов обучающей выборки K' при построении решающего дерева Т и при
проведении экзамена с использованием решающего дерева Т.
Пусть ХK' - очередной объект выборки; X=<x1, … , xn>. Среди всех значений его атрибутов
имеются атрибуты со значением N (Not known). Это могут быть как дискретные, так и
непрерывные атрибуты.
Построение дерева решений при наличии примеров с неизвестными значениями приведёт к
многовариантным решениям, поэтому попытаемся найти возможность восстановить эти
неизвестные значения. Одним из наиболее простых подходов может быть метод "ближайших
соседей". Этот метод был предложен для классификации неизвестного объекта Х на основе
рассмотрения нескольких ближайших к нему объектов с известной классификацией. Решение
об отнесении объекта Х к тому или иному классу принимается путём анализа информации о
принадлежности этих ближайших соседей тому или иному классу, например, с помощью
простого подсчёта голосов.
Для восстановления "потерянных" значений признаков предлагается использовать аналог
метода "ближайшего соседа" ([3?, 4?]). Основная идея алгоритма в следующем. Если пример Х
обучающей выборки K' содержит неизвестные значения, определяем на основе введенной
метрики [9] р ближайших к нему примеров, не имеющих неизвестных значений. На основе
анализа этих примеров, имеющих максимальное сходство с Х, восстанавливаем значения
признаков этого объекта. Данный метод реализован в алгоритме ВОССТАНОВЛЕНИЕ,
который был детально рассмотрен в [9].
5. Использование алгоритма ВОССТАНОВЛЕНИЕ при построении дерева решений и
решающих правил
Рассмотрим возможность использования алгоритма ВОССТАНОВЛЕНИЕ, который был
предложен выше, для решения задач индуктивного формирования понятий. Предлагается
алгоритм IDTUV (“Induction of Decision Tree with restoring Unknown Values”), который
включает процедуру восстановления неизвестных значений при наличии в обучающей выборке
примеров, содержащих шум. Когда неизвестные значения атрибутов восстановлены,
используется один из алгоритмов построения деревьев решений. Примеры, для которых не
удалось восстановить неизвестные значения, удаляются из обучающей выборки. Ниже
приводится псевдокод алгоритма IDTUV.
Алгоритм IDTUV
Дано: K= K+  KПолучить: дерево решений T
Начало
Получение K= K+  KДля всех информативных атрибутов K
Повторять
нц
Если имеется неизвестное значения атрибута,
то применить алгоритм ВОССТАНОВЛЕНИЕ
кц
Если информативные атрибуты имеют непрерывные значения,
то применить алгоритм C4.5,
иначе применить алгоритм ID3
конец если
вывести T – дерево решений
Конец IDTUV.
Алгоритм восстановления может быть использован в комбинации с алгоритмом
обобщения GIRS, а именно на предварительном этапе для устранения неизвестных значений из
исходной обучающей выборки.
6. Программная реализация алгоритмов
Программа,
реализующая
алгоритмы
IDTUV
и
GIRS,
разработана
в
среде
программирования Delphi 8 с использованием BDE для доступа к базам данных и выполняет
следующие основные функции:

на основе обучающей выборки строит классификационную модель (системы решающих
правил);

по построенным решающим правилам производит распознавание (классификацию)
объектов.
Далее изложим результаты экспериментов, проведенных на следующих четырех группах
данных
из
известной
коллекции
тестовых наборов данных кафедры информатики
и
вычислительной техники Калифорнийского университета UCI Machine Learning Repository
[10]:
1. Данные «задач монахов» (Monk's problems).
2. Медицинские данные, относящиеся к диагностике сердечных заболеваний.
3. Репозиторий данных проекта StatLog: диабет и австралийский кредит.
4. Другие наборы данных (из области биологии и судебно-следственной практики).
6.1. Результаты классификации при отсутствии шума
Сравнение точности классификации для ряда методов обобщения представлено в таблице 1.
Классификация проводилась алгоритмами ID3, C4.5, CN2, CART5, GIRS, IDTUV при
отсутствии «шума».
Таблица 1. Экспериментальные результаты исследования точности классификации на данных
без «шума»
Набор
данных
Точность классификации, %
ID3
C4.5
CN2
CART5
IDTUV
GIRS
Glass
62.79
65.89
66.01
44.86
67.62
70.10
Heart
77.78
77.04
77.95
80.00
84.37
86.37
Diabetes
66.23
70.84
71.10
74.09
76.38
81.00
Monk-2
65.00
69.91
69.00
63.20
78.94
83.10
Australian
78.26
85.36
79.60
85.51
80.59
88.30
Monk-1
81.25
75.70
100.00
83.34
79.65
100
Adult
83.53
84.46
84.00
81.59
85.69
-
Monk-3
90.28
97.20
89.00
97.22
95.29
94.44
Mushroom
100.00
100.00
100.00
100.00
100
100
Soybean
100.00
95.56
91.43
98.00
100
100
Среднее
83.28
84.19
85.00
83.31
86.95
89.97
Результаты классификации показали, что при отсутствии шума алгоритм IDTUV работает не
хуже, чем остальные перечисленные алгоритмы, но наилучший результат показал алгоритм
GIRS. Поскольку алгоритмы ID3, C4.5, CN2, CART5 не обрабатывают примеры с неизвестными
значениями, на этом этапе внесение шума не производилось.
6.2. Проверка влияния количества ближайших соседей на точность классификации при
обучении на выборке с шумом
Цель экспериментов состояла в проверке влияния параметра «количество ближайших
соседей», используемого алгоритмами IDTUV и GIRS в процессе построения дерева решений и
решающих правил для зашумленной обучающей выборки, на точность классификации
тестовых примеров.
Таблица 2. Результаты экспериментов по исследованию влияния количества ближайших соседей на точность
классификации для алгоритма IDTUV
Наборы данных
Heart
Australian
Monks-1
Monks-3
Tic-Tac-Toe
Количество
ближайших
соседей
Точность классификации, %
1
5
9
33
89
1
5
9
33
299
1
5
9
33
1
5
9
33
1
5
9
33
77
84.37
Без шума Шум 5%
80.59
79.65
95.29
90.50
83.57
84.53
84.43
84.42
84.42
80.72
81.44
81.72
82.15
82.15
82.37
84.42
83.44
81.23
93.95
94.44
94.83
95.14
90.55
90.63
90.90
90.83
91.18
Шум 10%
Шум 20%
Шум 30%
Шум 40%
Среднее
83.37
83.68
83.75
83.75
83.75
80.92
81.40
81.21
82.62
82.62
89.49
85.25
87.78
82.13
93.09
93.02
94.80
94.79
89.07
90.19
90.40
90.59
90.55
83.28
82.37
82.84
82.88
82.88
81.06
82.46
82.36
82.83
82.83
86.69
89.87
91.70
91.06
94.75
94.18
95.24
95.37
87.99
89.47
89.79
90.46
90.52
82.45
82.18
82.59
82.36
82.36
82.22
82.18
82.76
83.10
83.10
86.29
89.57
90.71
90.05
92.04
92.80
94.15
94.67
86.88
88.63
89.39
88.68
89.02
82.16
81.11
81.90
82.14
82.14
82.35
81.64
83.28
83.25
83.25
85.07
82.37
87.97
88.96
93.67
94.44
94.71
94.77
86.19
87.37
88.56
88.84
88.88
82.97
82.77
83.10
83.11
83.11
81.45
81.82
82.26
82.79
82.79
85.98
86.30
88.32
86.69
93.50
93.78
94.75
94.95
88.14
89.26
89.81
89.88
90.03
Использовалась модель шума "отсутствие значения признака". Для внесения искажений был
выбран наиболее информативный признак таблицы, который размещается в корне дерева
решений. Очевидно, изменения значений именно такого признака способны наиболее
существенно повлиять на результаты работы алгоритмов обобщения и классификации.
Были рассмотрены ситуации наличия шума в 5%, 10%, 20%, 30% и 40% по выбранному
признаку и проанализировано влияние «количества ближайших соседей» на точность
классификации для каждого из указанных уровней шума. Чтобы снизить случайность внесения
шума в выборку, проводилось по три серии экспериментов для каждого уровня шума. В каждой
такой серии шум заново вносился в исходную обучающую выборку, затем с использованием
каждого из выбранных значений параметра «количество ближайших соседей» производилось
восстановление неизвестных значений по методу ближайшего соседа и строилось дерево
решений, на основе которого затем проводилась классификация тестовых примеров. Каждая
серия экспериментов проводилась в соответствии с методами 10-кратной перекрестной
проверки или бутстрепа. Для каждого уровня шума и количества ближайших соседей в качестве
оценки точности классификации взято среднее значение по трем сериям экспериментов.
Как видно из проведенных экспериментов для алгоритма IDTUV (см. табл.2), для разных
наборов данных характерны самые различные зависимости точности классификации от
количества «ближайших соседей». Так для наборов данных «Австралийский кредит», «третья
задача монахов» и «игра в крестики-нолики» предпочтительным является большое значение
этого параметра; для наборов данных «диагностика сердечных заболеваний» и «первая задача
монахов» не выявлено практически никакой зависимости точности классификации от
исследуемого параметра.
Таблица 3. Результаты экспериментов по исследованию влияния количества ближайших соседей на точность
классификации для алгоритма GIRS
Наборы данных
Heart
Australian
Monks-1
Monks-3
Tic-Tac-Toe
Количество
ближайших
соседей
Точность классификации, %
1
5
9
33
89
1
5
9
33
299
1
5
9
33
1
5
9
33
1
5
9
33
77
86.37
Без шума Шум 5%
88.30
100.0
94.44
85.07
86.28
85.58
85.75
86.28
86.06
88.64
88.53
88.20
88.40
88.40
100.0
100.0
100.0
100.0
94.44
95.06
95.06
95.06
83.87
84.17
84.74
85.03
84.14
Шум 10%
Шум 20%
Шум 30%
Шум 40%
Среднее
86.16
85.40
86.15
86.36
86.36
88.12
87.67
87.66
87.62
87.62
98.15
99.54
99.23
100.0
93.90
95.14
94.06
94.29
83.40
84.80
84.15
84.56
84.86
86.26
85.74
85.93
86.23
85.60
88.18
88.44
88.33
88.29
88.29
95.75
96.83
98.3
99.07
94.48
94.60
94.71
94.60
82.00
83.29
84.33
83.42
82.55
84.39
84.39
83.78
84.51
83.84
88.09
88.31
87.88
87.89
87.89
96.3
94.52
96.18
98.61
94.48
94.83
93.90
94.29
80.84
84.25
83.92
82.76
83.36
83.72
84.79
84.16
83.15
83.43
87.69
87.42
87.29
87.11
87.11
95.76
92.82
97.53
97.99
88.27
89.58
90.58
93.05
80.42
83.35
82.85
82.99
82.93
85.36
85.18
85.15
85.31
85.06
88.14
88.07
87.87
87.86
87.86
97.19
96.74
98.25
99.13
93.11
93.84
93.66
94.26
82.11
83.97
84.00
83.75
83.57
Как видно из экспериментов, проведенных для алгоритма GIRS (см. табл.3), для набора
данных «игра в крестики-нолики» наиболее эффективным является использование среднего
количества «ближайших соседей» (т.е. 5-9); для наборов данных первой и третьей «задач
монахов» предпочтительным является большое значения этого параметра; для наборов данных
«диагностика сердечных заболеваний» и «австралийский кредит» не замечено практически
никакой зависимости точности классификации от исследуемого параметра. Отметим, что ни
для одного из выбранных для эксперимента наборов данных не было обнаружено, что
использование малого количества «ближайших соседей» является наиболее эффективным.
Заключение
В работе рассматривалась задача обобщения информации и исследовались пути ее
решения при наличии шума в исходных данных.
Рассмотрены модели шума в таблицах баз данных, следствием которых является отсутствие
значений признаков, либо искажение значения признаков в обучающей выборке. Предложены
алгоритмы IDTUV и GIRS, позволяющие обрабатывать обучающие выборки, содержащие
неизвестные и искаженные значения.
Разработана и программно реализована система построения обобщенных понятий в виде
дерева решений и решающих правил, которая использует полученные теоретические
результаты и создана на основе предложенных алгоритмов. Проведено исследование влияния
количества ближайших соседей на точность классификации примеров при обучении на
выборках, содержащих шум.
Полученные результаты моделирования показали, что предложенные алгоритмы в сочетании
с алгоритмом восстановления позволяет существенно повысить точность классификации
примеров при наличии шума в данных.
Список литературы
[1] Вагин В.Н. и др. Достоверный и правдоподобный вывод в интеллектуальных системах. –
М.: ФизМатЛит, 2004.  704 с.
[2] Quinlan J.R. Induction of Decision Trees// Machine Learning, Vol.1, 1986, 81-106
[3] Quinlan J.R. Improved Use of Continuous Attributes in C 4.5//Journal of Artifical Intelligence
Reseach, Vol. 4, 1996, 77-90
[4] J. Bazan, A Comparison of Dynamic and Non-dynamic Rough Set Methods for Extracting Laws
from Decision Tables//Rough Sets in Knowledge Discovery 1.: Methodology and Application/ Ed.
by L.Polkowski, A.Skowron. Heidelberg: Phisica-Verlag, 1998, 321-365.
[5] H. S. Nguyen, S. H. Nguyen. Discretization Methods in Data Mining// Rough Sets in Knowledge
Discovery 1:
Methodology and
Application/ Ed. by L.Polkowski, A.Skowron. Heidelberg:
Phisica-Verlag, 1998, 451-482.
[6] V.N. Vagin, A.V. Kulikov , M.V. Fomina. The Development of the Generalization Algorithm
Based on the Rough Set Theory./ Intern. Journal "Information Theories & Applications", Vol.13,
Nu. 3, 2006, 255-262.
[7] Kulikov A., Fomina M. The Development of Concept Generalization Algorithm Using Rough Set
Approach / Knowledge-Based Software Engineering: Proceedings of the Sixth Joint Conference on
Knowledge-Based Software Engineering (JCKBSE 2004) // V.Stefanuk and K. Kajiri (eds). – IOS
Press, 2004. – P.261–268.
[8] V. Mookerjee, M. Mannino, R. Gilson, Improving the Performance Stability of Inductive Expert
Systems under Input Noise.// Information Systems Research. 1995, Vol.6, Nu.4, 328-356.
[9] Бериша А.М., Вагин В.Н., Куликов А.В., Фомина М.В. Методы обнаружения знаний в
«зашумленных» базах данных // Известия РАН. Теория и системы управления. – 2005. – №6.
– С.143–158.
[10] Merz C.J., Murphy P.M. UCI Repository of Machine Learning Datasets. – Information and
Computer
Science
University
of
http://www.ics.uci.edu/~mlearn/MLRepository.html
California,
Irvine,
CA,
1998.
Download