Классификация и регрессия

advertisement
Классификация и регрессия
Доклад по курсу
Интеллектуальный
анализ данных
Закирова А.Р.
1
Постановка задачи
В задаче классификации и регрессии требуется
определить значение зависимой переменной
объекта на основании значений других
переменных, характеризующих данный объект.
Если значениями переменной являются значения
конечного
множества,
то
она
имеет
категориальный тип. Если множество значений
переменной у конечна, то задача называется
классификацией. Если же множество значений
является множеством действительных чисел, то
задача называется регрессией.
2
Математическая модель
Имеется множество объектов:
I  {i1 , i2 ,, i j ,, in }
где i - исследуемый объект.
j
Каждый объект характеризуется набором
переменных:
I j  {x1 , x2 ,, xh ,, xm , y}
где xh - независимые переменные, значение
которых известны и на основании которых
определяется значение зависимой переменной
у.
3
Таблица значений
4
Различие задач
Если множество значений
С  {c1 , c2 ,, ci ,, ck }
переменной у конечное, то задача
называется задачей классификации. Если
переменная у принимает значение на
множестве действительных чисел R , то
задача называется задачей регрессии.
5
Правила классификации
В рассматриваемых задачах
функциональная зависимость между
переменными может быть представлена
одним из следующих способов
 Классификационные правила
 Деревья решений
 Математические функции
6
Классификационные правила
Состоят из двух частей:
ЕСЛИ (условие) ТО (заключение) .
Преимущества: простота, легкость восприятия,
независимость.
Однако с последним достоинством связан и
главный недостаток данного метода –
противоречивость результата.
7
Деревья решений
Это
способ
представления
правил
в
иерархической структуре. Каждый узел дерева
включает проверку первой независимой
переменной. От дерева решений можно
перейти к правилам. Преобразования от
правил в деревьям не всегда возможно в связи
с тем, что правила имеют большую свободу к
записи.
8
Пример дерева решений
9
Математические функции
В этом случае объекты рассматриваются как
точки в m+1 мерном пространстве признаков.
Если используются категориальные
переменные, то они преобразовываются к
числовому типу.
Тогда переменные объекта
i j  {x1, x2 ,, xh ,, xm , y}
рассматриваются как координаты.
10
а функция имеет следующий вид:
y j  0  1 x1  2 x2    m xm
где 0  1    m- веса независимых
переменных, в поиске которых и состоит
задача нахождения классификационной
функции.
11
Методы построения правил
классификации
1. Алгоритм построения
Этот алгоритм строит правила по значению одной
независимой переменной. Для любого возможного
значения каждой независимой переменной
формируется правило, которое классифицирует
объекты из обучающей выборки. При этом в
заключительной части правила указывается значение
независимой переменной, которое наиболее часто
встречается у объектов с выбранным значением
независимой переменной. В этом случае ошибкой
правила является количество объектов, имеющих то
же значение рассматриваемой переменной, но не
относящейся к выбранному классу.
12
13
Проблема метода
Численные значения переменных. Если
переменная имеет вещественный тип, то
количество возможных значений может быть
бесконечно. Решение: вся область значений
такой переменной разбивают на интервалы
таким образом, чтобы каждый из них
соответствовал определенному классу в
обучающей выборке. В результате б. получен
набор дискретных значений, с некоторыми
может работать данный алгоритм.
14
15
Метод Naive bayes.
Метод, рассматривающий несколько
независимых переменных, использую
формулу Байеса для расчета вероятности.
Название- наивное предположение, что
все переменные независимы.
Вероятность того, что некоторый объект i j
относится к классу cr (т.е. y  cr )
обозначим как P ( y  cr )
Идея алгоритма заключается в расчете
условной вероятности принадлежности
объекта к c r
16
Метод Naive bayes.
Другими словами, формируются правила,
в условных частях которых сравниваются
все независимые переменные с
соответствующими возможными
значениями. В заключительной части
присутствуют все возможные значения
зависимой переменной: если
1
2
m
x1  c p и x2  cd и  xm  ch , тогда y  cr.
Вероятность для всего правила:
P( y  cr | E )  P( x1  c1p | y  cr )  P( x2  cd2 | y  cr )   
 P( xm  chm | y  cr )  P( y  cr ) / P( E )
17
Метод Naive bayes.
18
Метод Naive bayes.
Вероятность P ( y  cr ) есть отношение
объектов из обучающей выборки,
принадлежащих классу , к общему
количеству объектов в выборке. В данном
примере это:
19
Метод Naive bayes.
Таким образом, необходимо определить,
состоится ли игра при следующих
значениях независимых переменных
(событие Е):
20
Метод Naive bayes.
То надо вычислить следующие условные
вероятности:
21
Метод Naive bayes.
Подставляя соответствующие вероятности
получим следующие значения:
Вероятность P(Е ) не учитывается, т.к. при
нормализации вероятностей для каждого
из возможных правил она исчезает.
Нормализованная вероятность для
правила вычисляется по формуле:
P( y  cr | E )  P( y  cr | E ) /  P( y  cr | E )
22
Метод Naive bayes.
В данном случае можно утверждать, что
при указанных условиях игра состоится с
вероятностью:
P(игра  да | E )  0,0053 /(0,0053  0,0206 )  0,205
и не состоится с вероятностью:
P(игра  нет | E )  0,0206 /(0,0053  0,0206 )  0,795
Таким образом, при указанных условиях
более вероятно, что игра не состоится.
23
Методы построения деревьев решений.
Методика разделяй и властвуй.
Рекурсивное разбиение множества
объектов их обучающей выборки на
подмножества, содержащие объекты,
относящиеся к одинаковым классам.
Т
Относительно обучающей выборки и
множества классов С возможны 3
ситуации:
24
Методы построения деревьев решений.
1. множество Т содержит один или более
объектов, относящихся к одному классу с r
Тогда дерево решений для Т - это лист,
определяющий класс сr;
2. множество Т не содержит ни одного
объекта (пустое множество). Тогда это
снова лист, и класс, ассоциируемый с
листом, выбирается из другого множеств,
отличного от Т , например из множества,
ассоциированного с родителем;
25
Методы построения деревьев решений.
3. мн-во Т содержит объекты,
относящиеся к разным классам. В этом
случае следует разбить множество Т на
некоторые подмножества. Для этого
выбирается одна из независимых
переменных xh , имеющих два и более
отличных друг от друга значений c1h , ch2 , chl ;
множествоТ разбивается на подмн-ва
Т1 , Т 2 , Т n где каждое подмн-во Т i , содержит
все объекты, имеющие значение сhl для
выбранного признака.
26
Алгоритм IDЗ
Алгоритм использует последовательность
тестовых процедур, с помощью которых
множество разделяется на подмножества,
содержащие объекты только одного класса.
Ключевой в алгоритме является процедура
построения дерева решений, в котором
нетерминальные узлы соответствуют
тестовым процедурам, каждая из которых
имеет дело с единственным атрибутом
объектов из обучающей выборки.
27
Алгоритм IDЗ
Рассмотрим критерий выбора независимой
переменной, от которой будет строиться дерево.
Полный набор вариантов разбиения |X| xh
количество независимых переменных.
1 2
m
c
,
c
,

c
Рассмотрим проверку переменой
h h
h , которая
принимает m значений
.
Тогда разбиение множества всех объектов
Т1 , Т 2 ,Т m
xh
обучающей выборки
N по проверке
переменной даст подмножества
.
28
Алгоритм IDЗ
При разделении исходного множества на более
мелкие подмножества, используя в качестве
критерия для разделения значения выбранной
независимой переменной, неопределённость
принадлежности объектов конкретным классам
будет уменьшаться. Задача состоит в том, чтобы
выбрать такие независимые переменные, чтобы
максимально уменьшить эту неопределенность и
в конечном итоге получить подмножества,
содержащие объекты только одного класса.
В последнем случае неопределенность равна
нулю.
29
Алгоритм C4.5
Алгоритм C4.5 строит дерево решений с
неограниченным количеством ветвей у узла.
Данный алгоритм может работать только с
дискретным зависимым атрибутом и поэтому
может решать только задачи классификации.
C4.5 считается одним из самых известных и
широко используемых алгоритмов построения
деревьев классификации.
Для работы алгоритма C4.5 необходимо
соблюдение следующих требований:
30




Каждая запись набора данных должна быть
ассоциирована с одним из предопределенных
классов, т.е. один из атрибутов набора данных
должен являться меткой класса
Классы должны быть дискретными. Каждый
пример должен однозначно относиться к одному
из классов.
Количество классов должно быть значительно
меньше количества записей в исследуемом наборе
данных.
Алгоритм C4.5 медленно работает на
сверхбольших и зашумленных наборах данных.
31
Download