Выбор информативных признаков. Оценка информативности

advertisement
Министерство образования
Российской федерации
Томский политехнический университет
________________________________________________________________
УТВЕРЖДАЮ
Зав. каф. Промышленной
и медицинской электроники
проф., д-р техн. наук
_____________ Г.С. Евтушенко
ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ.
ОЦЕНКА ИНФОРМАТИВНОСТИ
Методические указания к лабораторной работе
по дисциплине "Методы обработки биомедицинских данных"
Томск - 2003
УДК 628.931
Выбор информативных признаков. Оценка информативности
Методические указания к лабораторной работе по дисциплине "Методы обработки
биомедицинских данных" для бакалавров по направлению 553400 "Биомедицинская
инженерия"
Томск: Изд. ТПУ, 2003. – 18 с.
Составитель
ст. преп.
И.С. Голованова
Рецензент
к. т. н. доц. каф. ПМЭ В.Н. Макаревич
Методические указания рассмотрены и рекомендованы
методическим семинаром кафедры промышленной и
электроники 17 апреля 2003 г.
Зав кафедрой
проф., д-р техн. наук _________________________Г.С. Евтушенко
к изданию
медицинской
ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ
Любая обработка медико-биологической информации (МБИ) посвящена конкретным
целям, таким как исследование, лечение, выведение новых видов и т.д.
Едва ли не важнейшей целью медицинских исследований является классификация
объекта или применительно к пациенту и заболеванию – диагностика. И это очевидно,
так как от результатов диагностики зависят все дальнейшие действия. Исторически
постановка диагноза являлась в определенной мере искусством, помноженным на опыт и
интуицию врача, и только с математизацией медицины постановка диагноза может быть
сформулирована, как математическая задача, а следовательно автоматизирована.
Так как поставить диагноз означает классифицировать объект (распознать его, как
принадлежащий
к
какому-
либо
классу),
то
медицинская
задача
диагностики
(классификации) становится математической задачей распознаваний образцов.
В общем случае задача классификации (распознавания) объекта сводится к
следующему: если ввести в рассмотрение n-мерное пространство признаков {Xi}, где i =
1,2,…n, то каждый j-й (j = 1,2…m) объект в этом пространстве изображается точкой с
координатами x1,j ,x2,j ,…,xn,j ,а каждый класс объектов – множеством таких точек.
Классифицировать неизвестный объект, то есть распознать образ, означает
определить, к какому классу относится объект, на основании анализа значений его
признаков.
Применительно к медицине поставить диагноз, то есть распознать заболевание или
его отсутствие, можно только тогда, когда получены и проанализированы некие признаки,
присущие этому объекту (пациенту). Такие признаки называются информативными
признаками.
Другими словами информативными признаками называется полезная для данной
цели информацией, полученная из исходной информации.
Однако информативные признаки далеко не равнозначны для достижения
конкретной цели, поэтому очень важной задачей является поиск и отбор признаков
достаточно информативных для постановки достоверного диагноза. Чтобы понять, что
значит понятие "достаточно информативный", вводится понятие информативности
признака.
Информативность признака означает, насколько данный признак характеризует
психофизическое состояние объекта, то есть насколько от него зависит постановка
диагноза – результат распознавания.
Существует по меньшей мере 2 подхода к оценке информативности –
энергетический и информационный.
Энергетический подход основан на том, что информативность оценивается по
величине признака.
Признаки упорядочиваются по величине, и наиболее информативным считается тот,
чья величина больше. Например, при амплитудно-временном анализе ЭКГ самым
информативным признаком среди амплитуд считается амплитуда R зубца.
Однако такой подход к оценке информативности может оказаться плохо пригодным
для распознавания объекта. Действительно, если какой- то признак велик по абсолютной
величине, но почти одинаков у объектов различных классов, то по значению этого
признака трудно отнести объект к какому-то классу.
И наоборот - если признак относительно мал по величине, но сильно отличается у
объектов разных классов, то по его значению можно легко классифицировать объект.
Поэтому более пригодным для распознавания объекта является информационный
подход, согласно которому информация признака рассматривается, как достоверное
различие между классами образов в пространстве признаков.
Если при распознании объекта его нужно отнести к одному из 2-х классов, то в
качестве такого достоверного различия может выступать различие распределений
вероятностей признака, построенных по выборкам из 2-х сравниваемых классов.
Оценкой информативности служит величина I(xj) - площадь одного распределения
признака xj, не общая с площадью другого распределения этого же признака.
На рисунках 1,2 и 3 показаны распределения трех признаков, построенные по
выборкам из двух классов. Очевидно, что первый признак – самый информативный,
второй – менее информативный и информативность третьего признака – наименьшая. На
практике информативность признака с использованием различия распределений можно
получить методом накопленных частот.
Метод накопленных частот.
Сущность этого метода состоит в том, что если имеются 2 выборки признака х,
принадлежащие 2-м различным классам, то по обеим выборкам в одних координатных
осях строят эмпирические распределения признака х и подсчитывают накопленные
частоты (сумму частот от начального до текущего интервала распределения).
Оценкой информативности служит модуль максимальной разности накопленных
частот.
Пример.
Пусть измерено 10 значений признака xi у объектов двух классов: А1 и А2. Данные
измерений содержатся в Таблице 1.
Таблица 1
Номер объекта i
1 2 3 4 5
6 7 8
9 10 11 12 13 14 15
Класс A1
x1,i 3 1 2 2 5
2 4 1,5 4 3 2 3 2 3 6
Класс A2
x2,i 3 4 2 4 1,5 6 2 4
4 5 4 3 3 5 4
Построим эмпирические распределения признака х по каждой выборке в одних
координатных осях. Для этого определим минимальное значение признака х по двум
выборкам xmin = 1 и максимальное значение признака х по двум выборкам xmax = 6.
Определим размах значений признака: xmax – xmin. Зададимся количеством интервалов
распределения. Для удобства, количество интервалов выбирается таким, чтобы размах
значений признака делился на количество интервалов нацело. Зададим количество
интервалов распределения n = 5.
Теперь посчитаем величину интервала распределения. Для этого нужно размах
значений признака поделить на количество интервалов:
K=
xmax − xmin 5 , здесь К – величина интервала распределения.
= =1
5
5
Границы каждого j-го интервала определяются из соотношения: dj = xmin + j·K, где j = 0,
1, … , n.
Чтобы построить эмпирические распределения признака х по выборке из класса А1,
нужно подсчитать частоты распределения mj, то есть подсчитать количество попаданий
признака х в каждый интервал, исходя из соотношения d j −1 < xi ≤ d j . Количество частот
распределения на 1 больше, чем количество интервалов. Частота m0, определяется, исходя
из соотношения xi ≤ d 0 . То есть в нулевой интервал попадут значения х, которые
окажутся меньше или равны единице. В первый интервал – от единицы до двух - попадут
все значения х, которые окажутся больше единицы, но меньше или равны двум и так
далее.
Точно также строится эмпирические распределения признака х по выборке из класса
А2.
Чтобы посчитать накопленную частоту для текущего интервала Mj, нужно
просуммировать частоты mj от начального интервала до текущего. То есть M0
M1 = m0 + m1
и так далее.
=
m0
Для значений признака из Таблицы 1 все результаты по подсчету частот распределения,
накопленных частот, и модулей разности накопленных частот каждого интервала
приведены в Таблице 2.
Таблица 2
Класс A1
Класс A2
Частоты Накопленные Частоты Накопленные
Интервалы
| M1,j - M2,j |
частоты
m2,j
частоты
M1,j
M2,j
m1,j
0÷1
1
1
0
0
1
1÷2
6
7
3
3
4
2÷3
4
11
3
6
5
3÷4
2
13
6
12
1
4÷5
1
14
2
14
0
5÷6
1
15
1
15
0
Теперь, чтобы определить информативность признака x, нужно найти максимальный
модуль разности накопленных частот. Из Таблицы 2 видно, что это число 5. Значит,
информативность признака x равна пяти.
Эмпирические
частоты
можно
изобразить
графически,
то
есть
построить
гистограмму распределения признака x. На Рис. 4 приведены гистограммы распределения
признака x по двум классам в одних координатных осях. Накопленные частоты
представляют собой ломаные линии. Максимальное расстояние между накопленными
частотами на гистограмме (Рис. 4) показывает информативность признака.
Метод Шеннона
Существуют другие способы оценки информативности известные из теории
информации.
Один из них – метод Шеннона – предлагает оценивать информативность
как средневзвешенное количество информации, приходящиеся на различные
градации признака. Под информацией в теории информации понимают
величину устраненной энтропии.
Итак, информативность j-ого признака:
G
K
i =1
k =1
I ( xi ) = 1 + ∑ (Pi ⋅ ∑ Pi,k ⋅ log K Pi,k )
, где
G- количество градаций признака; K- количество классов;
K
Pi - вероятность i-той градации признака. Pi =
∑m
k =1
N
i,k
, где mi,k- частота
появления i-той градации в К-том классе; N – общее число наблюдений.
Pi,k - вероятность появления i -той градации признака в К – том классе Pi , k =
mi , k
K
∑m
k =1
i,k
.
Пример:
При диагностике рака печени и инфекционного гепатита важное значение имеет
признак Курвуазье – прощупывание желчного пузыря при пальпации. Так как этот признак
относится к качественной информации, то для его обработки применяется прием
условного кодирования. В данном случае – альтернативного кодирования, то есть такого,
при котором признак может принимать одно из двух возможных значений: 0- нет
прощупывания, 1- есть прощупывание. В клинических условиях обследовано 209
больных, из которых у 89 - рак печени, а у 120 – инфекционный гепатит. Результаты
обследования приведены в Таблице 3.
Таблица 3
Номер градации
признака
i
1
2
Значение
градации
признака
Курвуазье
0
1
Номер класса
1(рак)
2(гепатит)
Частоты появления
градаций
m11 = 33
m12 = 119
m21 = 56
m22 = 1
Подсчитаем информативность признака Курвуазье по методу Шеннона. Расписывая
суммы на отдельные слагаемые, получим:
I ( x) = 1 + P1 ( P11 ∗ log 2 P11 + P12 ∗ log 2 P12 ) + P2 ( P21 ∗ log 2 P21 + P22 ∗ log 2 P22 );
m11 + m12 33 + 119
=
= 0,73;
N
209
m + m22 1 + 56
P2 = 21
=
= 0,27;
N
209
m11
33
P11 =
=
= 0,22;
m11 + m12 33 + 119
m12
119
P12 =
=
= 0,78 ;
m11 + m12 33 + 119
m 21
56
P21 =
=
= 0 ,98;
m 21 + m 22 57
P1 =
P22 =
m 22
1
=
= 0 ,02 ;
m 21 + m 22 57
При подсчете учитываем соотношение: log 2 P = ln P ;
ln 2
Значение информативности, полученное после подстановки чисел будет равно: I(x) = 0,46;
Метод Кульбака
Другой метод оценки информативности – метод Кульбака – предлагает в качестве
оценки информативности меру расхождения между двумя классами, которая называется
дивергенцией.
Согласно этому методу информативность или дивергенция Кульбака вычисляется по
формуле:
G
I ( x j ) = ∑[ Pi1 − Pi 2 ] ⋅ log 2
i =1
Pi1
Pi 2
, где G- число градаций признака;
Pi1 - вероятность появления i-той градации в первом классе.
m i1
Pi 1 =
;
G
∑
i =1
где mi1 – частота появления i-той градации в первом классе;
m i1
Знаменатель – появление всех градаций в первом классе, то есть общее число наблюдений
в первом классе.
Pi2 – вероятность появления i-той градации во втором классе.
Pi 2 =
m i2
;
G
∑m
i =1
где mi2 - частота появления i-той градации во втором классе.
i2
Знаменатель - число наблюдений во тором классе.
Пример: Рассчитаем информативность признака Курвуазье по методу Кульбака.
Расписывая сумму на отдельные слагаемые, получим:
I ( x) = 1 + P1 ( P11 ∗ log 2 P11 + P12 ∗ log 2 P12 ) + P2 ( P21 ∗ log 2 P21 + P22 ∗ log 2 P22 );
P11 =
m11
33
=
= 0,37;
m11 + m12 33 + 56
P12 =
m12
119
=
= 0,992 ;
m11 + m12 120
P21 =
m 21
56
=
= 0,63;
m 21 + m 22 35 + 56
P22 =
m 22
1
=
= 0,008 ;
m 21 + m 22 120
Подставляя числа, получим
I(x) = 1,41;
Определим информативность признака Курвуазье методом накопленных частот.
Подсчитаем частоты эмпирического распределения то есть число попаданий в
каждый интервал значений признака по двум классам и подсчитаем накопленные частоты.
Результаты подсчетов приведены в Таблице 4.
Таблица 4
интервалы
-0,5 ÷ 0,5
0,5 ÷ 1,5
1 класс (рак)
mi1
33
56
Mi1
33
89
2 класс
(гепатит)
mi2
Mi2
119
119
1
120
| Mi1 - Mi2 |
86
31
Модуль максимальной разницы накопленных частот равен 86. Следовательно
информативность равна I(x) = 86.
Итак, информативность одного и того же признака была подсчитана тремя разными
методами, и были получены три различных результата. Какой же способ оценки
информативности выбрать?
Чтобы ответить на этот вопрос проведем сравнительный анализ трех методов
определения информативности признака.
1. Зависимость методов от способа кодировки признака.
Метод накопленных частот (МНЧ) зависит от способа кодировки признака, методы
Шеннона и Кульбака – не зависят от способа кодировки.
2. Зависимость методов от числа классов.
МНЧ и метод Кульбака служат для определения информативности признака, который
участвует в распознавании только двух классов объектов. Метод Шеннона позволяет
определить информативность признака, участвующего в распознавании произвольного
числа классов объектов.
3. Зависимость методов от числа градаций признака.
Все три метода не зависят от числа градаций признака.
4. Зависимость методов от объема выборки.
Так как МНЧ оперирует частотами, то объем выборки наблюдений признака
должен быть одинаков по обоим распознаваемым классам. Методы Кульбака и
Шеннона оперируют вероятностями, поэтому объемы выборки наблюдений признака
по двум распознаваемым классам могут быть различны.
5. Зависимость методов от объема вычислений.
МНЧ - проще по объему вычислений. Методы Кульбака и Шеннона – сложнее.
6. Универсальность
методов
или
зависимость
от
абсолютной
величины
информативности.
Информативность, определяемая всеми тремя методами – величина положительная,
однако в МНЧ и методе Кульбака она не является нормированной, поэтому об
информативности, определенной этими методами можно говорить только в
относительном плане – более высокая или более низкая по сравнению с
информативностью другого признака.
Метод Шеннона дает оценку информативности, как нормированной величины, которая
изменяется от 0 до 1. поэтому об информативности признака, определенной методом
Шеннона можно говорить в абсолютном плане: ближе к 1 – высокая; ближе к 0 –
низкая.
Метод определения информативности выбирает сам исследователь в зависимости от
целей исследования, количества распознаваемых классов и медико-биологических
данных – способа кодировки, объема выборки количества градаций.
Какой бы из способов ни применялся, если информативность всех признаков оценивать
одним и тем же способом, то можно выбрать более информативные и отбросить менее
информативные признаки для постановки конкретного диагноза.
ЦЕЛЬ РАБОТЫ
Изучить определение информативности признаков разными методами.
ПОРЯДОК РАБОТЫ
Работа выполняется на ПК средствами MathCAD
1. Ввести данные наблюдений первого признака из варианта, указанного преподавателем
Для удобства построения гистограммы, данные нужно вводить в виде матрицы, например:
0 .. 9
i
j
0 .. 1
xi , 0
xi , 1
313
301
313
301
313
313
313
313
313
296
296
296
301
296
296
301
296
296
301
313
Нулевой столбец матрицы х – значения признака в классе А1, первый столбец матрицы х
– значения признака в классе А2.
2. Построить распределение признака по двум классам в одних координатных осях. Для
этого
2.1. задать количество интервалов распределения, например n := 5.
k
( max( x)
2.2. вычислить величину интервала распределения, например
2.3. задать индекс для границ интервалов распределения m 0 .. n 1
2.4. вычислить границы интервалов
dm
min( x)
2.5. задать индекс для частот распределения t
m. k
0 .. n
min( x) )
n
2.6. построить сами распределения с помощью встроенной функции hist, которая
<0>
hist d , x
h1
возвращает вектор частот, например
h2
t
t
M1t
h1j
M2t
j= 0
2.7. подсчитать накопленные частоты
<1>
hist d , x
h2j
j= 0
ft
2.8. найти модули разности накопленных частот
M1t
M2t
2.9. определить информативность, как максимальный модуль разности накопленных
частот INF1 max( f )
построить график гистограмм и накопленных частот
2.10.
10
10
h1
t
h2
t
M1
M2
5
t
t
0
0
0
1
2
4
t
6
5
3. Определить информативность первого признака методом Шеннона
3.1. для этого нужно задать число градаций, например j 0 .. 2 , если у признака – три
градации и число классов k 0 .. 1 , если задано два класса.
3.2. подсчитать частоты появления каждой градации в каждом классе:
m0 , 0
if xi , 0 296, 1 , 0
m0 , 0 = 1
if xi , 0 301, 1 , 0
m1 , 0 = 2
m0 , 1
i
m1 , 0
m0 , 1 = 6
if xi , 1 301, 1 , 0
m1 , 1 = 3
if xi , 1 313, 1 , 0
m2 , 1 = 1
i
m1 , 1
i
i
if xi , 0 313, 1 , 0
m2 , 0
if xi , 1 296, 1 , 0
m2 , 0 = 7
m2 , 1
i
i
3.3. задать общее число наблюдений
N
20
mj , k
3.4. подсчитать вероятности каждой градации
k
Pj
N
pj , k
3.5. подсчитать вероятности каждой градации в каждом классе
IS1
3.6. подсчитать информативность
Pj .
1
j
p( j , k ) .
k
ln p j , k
ln( 2 )
mj , k
mj , k
k
4. Определить информативность первого признака методом Кульбака
mj , k
pj , k
4.1. подсчитать вероятности каждой градации в каждом классе
ln
IK1
4.2. подсчитать информативность
pj , 0
pj , 1 .
j
mj , k
j
pj , 0
pj , 1
ln( 2 )
5. Повторить все вычисления для второго признака
6. Сравнить информативность признаков и сделать вывод, например: "Вывод: Метод
накопленных частот показал одинаковую информативность обоих признаков.
Методы Шеннона и Кульбака показали, что информативность второго признака
незначительно выше, чем информативность первого признака."
7. Ответить на контрольные вопросы
ПРИМЕЧАНИЕ При выполнении работы следует как можно полнее использовать
операции копирования и вставки фрагментов. Каждый этап необходимо снабдить
текстовым комментарием.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Что такое информативность признака?
2. Что такое накопленная частота?
3. Что значит "распознать объект"?
4. В чем заключается прием условного кодирования?
5. Что такое градация признака?
6. В чем состоит энергетический подход к оценке информативности?
7. Почему энергетический метод оценки информативности плохо пригоден для
распознавания классов?
8. Почему информативность, рассчитанная по методу Шеннона, является нормированной
величиной?
ВАРИАНТЫ ЗАДАНИЙ
Вариант 1
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
98
98
60
90
138
138
60
90
114
98
60
72
138
114
72
90
138
98
60
72
114
138
72
90
138
138
90
72
114
114
60
90
138
114
60
60
138
98
60
90
Вариант 2
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
0,64
0,64
-2
7
0,04
0,32
-2
3
0,11
0,64
1
7
0,04
0,64
-2
1
0,04
0,04
3
7
0,11
0,32
-2
1
0,04
0,64
3
7
0,04
0,11
1
1
0,32
0,64
3
3
0,64
0,32
7
-2
Вариант 3
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
68
90
-10
-20
90
40
-15
-20
52
68
-15
-20
40
52
-15
-10
52
52
-20
-20
52
68
-20
-20
52
68
-20
-25
40
68
-15
-25
40
52
-25
-25
52
90
Вариант 4
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
1
3
-60
-80
1,5
3
-60
-70
2
3
-60
-80
2
2
-70
-60
2
3
-70
-70
3
1.5
-70
-80
3
3
-60
-70
2
1
-60
-60
1,5
3
-70
-60
3
3
-80
-80
Вариант 5
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
92
68
105
231
84
68
174
174
84
68
105
231
92
92
231
174
84
84
105
231
92
68
174
105
92
68
105
231
92
68
231
231
68
92
105
231
92
92
174
105
Вариант 6
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
3,3
10,5
-6,7
-1,2
10,5
3,3
-1,2
-6,7
8,2
8,2
-3,6
-3,6
10,5
3,3
-1,2
-6,7
5,9
5,9
-4,2
-6,7
8,2
8,2
-1,2
-3,6
10,5
3,3
-3,6
-4,2
8,2
5,9
-1,2
-4,2
10,5
5,9
-1,2
-6,7
10,5
3,3
-1,2
-6,7
Вариант 7
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
226
130
0,4
0,4
178
178
0,05
0,01
130
178
0,26
0,05
130
178
0,4
0,01
101
101
0,01
0,05
101
226
0,26
0,01
101
226
0,05
0,05
101
226
0,4
0,01
101
226
0,4
0,01
101
226
0,4
0,26
Вариант 8
Признак Х1
Признак Х2
Класс А1 Класс А2 Класс А1 Класс А2
313
296
-10
-10
301
296
-18
-18
313
301
-12
-10
301
296
-18
-10
313
296
-12
-10
313
301
-12
-12
313
296
-18
-10
296
296
-18
-10
313
301
-18
-12
313
313
-18
-10
В методических указаниях даны понятия о методах оценки информативности
биомедицинских признаков применяемых для выявления наиболее информативных
биомедицинских данных при решении задач диагностики. Описаны отдельные методы
определения информативности и их сравнительный анализ.
ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ.
ОЦЕНКА ИНФОРМАТИВНОСТИ
Методические указания
к лабораторной работе
Составитель
И.С. Голованова
Подписано к печати
Формат 60х84/16. Бумага писчая № 2.
Плоская печать. Усл. печ. л. 0,70. Уч. – изд. л. 0,63.
Тираж 50 экз. Заказ №
. Бесплатно.
ИПФ ТПУ. Лицензия ЛТ №1 от 18.07.94.
Ротапринт ТПУ, 634034, г. Томск, пр. Ленина, 30
Download