Министерство образования Российской федерации Томский политехнический университет ________________________________________________________________ УТВЕРЖДАЮ Зав. каф. Промышленной и медицинской электроники проф., д-р техн. наук _____________ Г.С. Евтушенко ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ. ОЦЕНКА ИНФОРМАТИВНОСТИ Методические указания к лабораторной работе по дисциплине "Методы обработки биомедицинских данных" Томск - 2003 УДК 628.931 Выбор информативных признаков. Оценка информативности Методические указания к лабораторной работе по дисциплине "Методы обработки биомедицинских данных" для бакалавров по направлению 553400 "Биомедицинская инженерия" Томск: Изд. ТПУ, 2003. – 18 с. Составитель ст. преп. И.С. Голованова Рецензент к. т. н. доц. каф. ПМЭ В.Н. Макаревич Методические указания рассмотрены и рекомендованы методическим семинаром кафедры промышленной и электроники 17 апреля 2003 г. Зав кафедрой проф., д-р техн. наук _________________________Г.С. Евтушенко к изданию медицинской ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ Любая обработка медико-биологической информации (МБИ) посвящена конкретным целям, таким как исследование, лечение, выведение новых видов и т.д. Едва ли не важнейшей целью медицинских исследований является классификация объекта или применительно к пациенту и заболеванию – диагностика. И это очевидно, так как от результатов диагностики зависят все дальнейшие действия. Исторически постановка диагноза являлась в определенной мере искусством, помноженным на опыт и интуицию врача, и только с математизацией медицины постановка диагноза может быть сформулирована, как математическая задача, а следовательно автоматизирована. Так как поставить диагноз означает классифицировать объект (распознать его, как принадлежащий к какому- либо классу), то медицинская задача диагностики (классификации) становится математической задачей распознаваний образцов. В общем случае задача классификации (распознавания) объекта сводится к следующему: если ввести в рассмотрение n-мерное пространство признаков {Xi}, где i = 1,2,…n, то каждый j-й (j = 1,2…m) объект в этом пространстве изображается точкой с координатами x1,j ,x2,j ,…,xn,j ,а каждый класс объектов – множеством таких точек. Классифицировать неизвестный объект, то есть распознать образ, означает определить, к какому классу относится объект, на основании анализа значений его признаков. Применительно к медицине поставить диагноз, то есть распознать заболевание или его отсутствие, можно только тогда, когда получены и проанализированы некие признаки, присущие этому объекту (пациенту). Такие признаки называются информативными признаками. Другими словами информативными признаками называется полезная для данной цели информацией, полученная из исходной информации. Однако информативные признаки далеко не равнозначны для достижения конкретной цели, поэтому очень важной задачей является поиск и отбор признаков достаточно информативных для постановки достоверного диагноза. Чтобы понять, что значит понятие "достаточно информативный", вводится понятие информативности признака. Информативность признака означает, насколько данный признак характеризует психофизическое состояние объекта, то есть насколько от него зависит постановка диагноза – результат распознавания. Существует по меньшей мере 2 подхода к оценке информативности – энергетический и информационный. Энергетический подход основан на том, что информативность оценивается по величине признака. Признаки упорядочиваются по величине, и наиболее информативным считается тот, чья величина больше. Например, при амплитудно-временном анализе ЭКГ самым информативным признаком среди амплитуд считается амплитуда R зубца. Однако такой подход к оценке информативности может оказаться плохо пригодным для распознавания объекта. Действительно, если какой- то признак велик по абсолютной величине, но почти одинаков у объектов различных классов, то по значению этого признака трудно отнести объект к какому-то классу. И наоборот - если признак относительно мал по величине, но сильно отличается у объектов разных классов, то по его значению можно легко классифицировать объект. Поэтому более пригодным для распознавания объекта является информационный подход, согласно которому информация признака рассматривается, как достоверное различие между классами образов в пространстве признаков. Если при распознании объекта его нужно отнести к одному из 2-х классов, то в качестве такого достоверного различия может выступать различие распределений вероятностей признака, построенных по выборкам из 2-х сравниваемых классов. Оценкой информативности служит величина I(xj) - площадь одного распределения признака xj, не общая с площадью другого распределения этого же признака. На рисунках 1,2 и 3 показаны распределения трех признаков, построенные по выборкам из двух классов. Очевидно, что первый признак – самый информативный, второй – менее информативный и информативность третьего признака – наименьшая. На практике информативность признака с использованием различия распределений можно получить методом накопленных частот. Метод накопленных частот. Сущность этого метода состоит в том, что если имеются 2 выборки признака х, принадлежащие 2-м различным классам, то по обеим выборкам в одних координатных осях строят эмпирические распределения признака х и подсчитывают накопленные частоты (сумму частот от начального до текущего интервала распределения). Оценкой информативности служит модуль максимальной разности накопленных частот. Пример. Пусть измерено 10 значений признака xi у объектов двух классов: А1 и А2. Данные измерений содержатся в Таблице 1. Таблица 1 Номер объекта i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Класс A1 x1,i 3 1 2 2 5 2 4 1,5 4 3 2 3 2 3 6 Класс A2 x2,i 3 4 2 4 1,5 6 2 4 4 5 4 3 3 5 4 Построим эмпирические распределения признака х по каждой выборке в одних координатных осях. Для этого определим минимальное значение признака х по двум выборкам xmin = 1 и максимальное значение признака х по двум выборкам xmax = 6. Определим размах значений признака: xmax – xmin. Зададимся количеством интервалов распределения. Для удобства, количество интервалов выбирается таким, чтобы размах значений признака делился на количество интервалов нацело. Зададим количество интервалов распределения n = 5. Теперь посчитаем величину интервала распределения. Для этого нужно размах значений признака поделить на количество интервалов: K= xmax − xmin 5 , здесь К – величина интервала распределения. = =1 5 5 Границы каждого j-го интервала определяются из соотношения: dj = xmin + j·K, где j = 0, 1, … , n. Чтобы построить эмпирические распределения признака х по выборке из класса А1, нужно подсчитать частоты распределения mj, то есть подсчитать количество попаданий признака х в каждый интервал, исходя из соотношения d j −1 < xi ≤ d j . Количество частот распределения на 1 больше, чем количество интервалов. Частота m0, определяется, исходя из соотношения xi ≤ d 0 . То есть в нулевой интервал попадут значения х, которые окажутся меньше или равны единице. В первый интервал – от единицы до двух - попадут все значения х, которые окажутся больше единицы, но меньше или равны двум и так далее. Точно также строится эмпирические распределения признака х по выборке из класса А2. Чтобы посчитать накопленную частоту для текущего интервала Mj, нужно просуммировать частоты mj от начального интервала до текущего. То есть M0 M1 = m0 + m1 и так далее. = m0 Для значений признака из Таблицы 1 все результаты по подсчету частот распределения, накопленных частот, и модулей разности накопленных частот каждого интервала приведены в Таблице 2. Таблица 2 Класс A1 Класс A2 Частоты Накопленные Частоты Накопленные Интервалы | M1,j - M2,j | частоты m2,j частоты M1,j M2,j m1,j 0÷1 1 1 0 0 1 1÷2 6 7 3 3 4 2÷3 4 11 3 6 5 3÷4 2 13 6 12 1 4÷5 1 14 2 14 0 5÷6 1 15 1 15 0 Теперь, чтобы определить информативность признака x, нужно найти максимальный модуль разности накопленных частот. Из Таблицы 2 видно, что это число 5. Значит, информативность признака x равна пяти. Эмпирические частоты можно изобразить графически, то есть построить гистограмму распределения признака x. На Рис. 4 приведены гистограммы распределения признака x по двум классам в одних координатных осях. Накопленные частоты представляют собой ломаные линии. Максимальное расстояние между накопленными частотами на гистограмме (Рис. 4) показывает информативность признака. Метод Шеннона Существуют другие способы оценки информативности известные из теории информации. Один из них – метод Шеннона – предлагает оценивать информативность как средневзвешенное количество информации, приходящиеся на различные градации признака. Под информацией в теории информации понимают величину устраненной энтропии. Итак, информативность j-ого признака: G K i =1 k =1 I ( xi ) = 1 + ∑ (Pi ⋅ ∑ Pi,k ⋅ log K Pi,k ) , где G- количество градаций признака; K- количество классов; K Pi - вероятность i-той градации признака. Pi = ∑m k =1 N i,k , где mi,k- частота появления i-той градации в К-том классе; N – общее число наблюдений. Pi,k - вероятность появления i -той градации признака в К – том классе Pi , k = mi , k K ∑m k =1 i,k . Пример: При диагностике рака печени и инфекционного гепатита важное значение имеет признак Курвуазье – прощупывание желчного пузыря при пальпации. Так как этот признак относится к качественной информации, то для его обработки применяется прием условного кодирования. В данном случае – альтернативного кодирования, то есть такого, при котором признак может принимать одно из двух возможных значений: 0- нет прощупывания, 1- есть прощупывание. В клинических условиях обследовано 209 больных, из которых у 89 - рак печени, а у 120 – инфекционный гепатит. Результаты обследования приведены в Таблице 3. Таблица 3 Номер градации признака i 1 2 Значение градации признака Курвуазье 0 1 Номер класса 1(рак) 2(гепатит) Частоты появления градаций m11 = 33 m12 = 119 m21 = 56 m22 = 1 Подсчитаем информативность признака Курвуазье по методу Шеннона. Расписывая суммы на отдельные слагаемые, получим: I ( x) = 1 + P1 ( P11 ∗ log 2 P11 + P12 ∗ log 2 P12 ) + P2 ( P21 ∗ log 2 P21 + P22 ∗ log 2 P22 ); m11 + m12 33 + 119 = = 0,73; N 209 m + m22 1 + 56 P2 = 21 = = 0,27; N 209 m11 33 P11 = = = 0,22; m11 + m12 33 + 119 m12 119 P12 = = = 0,78 ; m11 + m12 33 + 119 m 21 56 P21 = = = 0 ,98; m 21 + m 22 57 P1 = P22 = m 22 1 = = 0 ,02 ; m 21 + m 22 57 При подсчете учитываем соотношение: log 2 P = ln P ; ln 2 Значение информативности, полученное после подстановки чисел будет равно: I(x) = 0,46; Метод Кульбака Другой метод оценки информативности – метод Кульбака – предлагает в качестве оценки информативности меру расхождения между двумя классами, которая называется дивергенцией. Согласно этому методу информативность или дивергенция Кульбака вычисляется по формуле: G I ( x j ) = ∑[ Pi1 − Pi 2 ] ⋅ log 2 i =1 Pi1 Pi 2 , где G- число градаций признака; Pi1 - вероятность появления i-той градации в первом классе. m i1 Pi 1 = ; G ∑ i =1 где mi1 – частота появления i-той градации в первом классе; m i1 Знаменатель – появление всех градаций в первом классе, то есть общее число наблюдений в первом классе. Pi2 – вероятность появления i-той градации во втором классе. Pi 2 = m i2 ; G ∑m i =1 где mi2 - частота появления i-той градации во втором классе. i2 Знаменатель - число наблюдений во тором классе. Пример: Рассчитаем информативность признака Курвуазье по методу Кульбака. Расписывая сумму на отдельные слагаемые, получим: I ( x) = 1 + P1 ( P11 ∗ log 2 P11 + P12 ∗ log 2 P12 ) + P2 ( P21 ∗ log 2 P21 + P22 ∗ log 2 P22 ); P11 = m11 33 = = 0,37; m11 + m12 33 + 56 P12 = m12 119 = = 0,992 ; m11 + m12 120 P21 = m 21 56 = = 0,63; m 21 + m 22 35 + 56 P22 = m 22 1 = = 0,008 ; m 21 + m 22 120 Подставляя числа, получим I(x) = 1,41; Определим информативность признака Курвуазье методом накопленных частот. Подсчитаем частоты эмпирического распределения то есть число попаданий в каждый интервал значений признака по двум классам и подсчитаем накопленные частоты. Результаты подсчетов приведены в Таблице 4. Таблица 4 интервалы -0,5 ÷ 0,5 0,5 ÷ 1,5 1 класс (рак) mi1 33 56 Mi1 33 89 2 класс (гепатит) mi2 Mi2 119 119 1 120 | Mi1 - Mi2 | 86 31 Модуль максимальной разницы накопленных частот равен 86. Следовательно информативность равна I(x) = 86. Итак, информативность одного и того же признака была подсчитана тремя разными методами, и были получены три различных результата. Какой же способ оценки информативности выбрать? Чтобы ответить на этот вопрос проведем сравнительный анализ трех методов определения информативности признака. 1. Зависимость методов от способа кодировки признака. Метод накопленных частот (МНЧ) зависит от способа кодировки признака, методы Шеннона и Кульбака – не зависят от способа кодировки. 2. Зависимость методов от числа классов. МНЧ и метод Кульбака служат для определения информативности признака, который участвует в распознавании только двух классов объектов. Метод Шеннона позволяет определить информативность признака, участвующего в распознавании произвольного числа классов объектов. 3. Зависимость методов от числа градаций признака. Все три метода не зависят от числа градаций признака. 4. Зависимость методов от объема выборки. Так как МНЧ оперирует частотами, то объем выборки наблюдений признака должен быть одинаков по обоим распознаваемым классам. Методы Кульбака и Шеннона оперируют вероятностями, поэтому объемы выборки наблюдений признака по двум распознаваемым классам могут быть различны. 5. Зависимость методов от объема вычислений. МНЧ - проще по объему вычислений. Методы Кульбака и Шеннона – сложнее. 6. Универсальность методов или зависимость от абсолютной величины информативности. Информативность, определяемая всеми тремя методами – величина положительная, однако в МНЧ и методе Кульбака она не является нормированной, поэтому об информативности, определенной этими методами можно говорить только в относительном плане – более высокая или более низкая по сравнению с информативностью другого признака. Метод Шеннона дает оценку информативности, как нормированной величины, которая изменяется от 0 до 1. поэтому об информативности признака, определенной методом Шеннона можно говорить в абсолютном плане: ближе к 1 – высокая; ближе к 0 – низкая. Метод определения информативности выбирает сам исследователь в зависимости от целей исследования, количества распознаваемых классов и медико-биологических данных – способа кодировки, объема выборки количества градаций. Какой бы из способов ни применялся, если информативность всех признаков оценивать одним и тем же способом, то можно выбрать более информативные и отбросить менее информативные признаки для постановки конкретного диагноза. ЦЕЛЬ РАБОТЫ Изучить определение информативности признаков разными методами. ПОРЯДОК РАБОТЫ Работа выполняется на ПК средствами MathCAD 1. Ввести данные наблюдений первого признака из варианта, указанного преподавателем Для удобства построения гистограммы, данные нужно вводить в виде матрицы, например: 0 .. 9 i j 0 .. 1 xi , 0 xi , 1 313 301 313 301 313 313 313 313 313 296 296 296 301 296 296 301 296 296 301 313 Нулевой столбец матрицы х – значения признака в классе А1, первый столбец матрицы х – значения признака в классе А2. 2. Построить распределение признака по двум классам в одних координатных осях. Для этого 2.1. задать количество интервалов распределения, например n := 5. k ( max( x) 2.2. вычислить величину интервала распределения, например 2.3. задать индекс для границ интервалов распределения m 0 .. n 1 2.4. вычислить границы интервалов dm min( x) 2.5. задать индекс для частот распределения t m. k 0 .. n min( x) ) n 2.6. построить сами распределения с помощью встроенной функции hist, которая <0> hist d , x h1 возвращает вектор частот, например h2 t t M1t h1j M2t j= 0 2.7. подсчитать накопленные частоты <1> hist d , x h2j j= 0 ft 2.8. найти модули разности накопленных частот M1t M2t 2.9. определить информативность, как максимальный модуль разности накопленных частот INF1 max( f ) построить график гистограмм и накопленных частот 2.10. 10 10 h1 t h2 t M1 M2 5 t t 0 0 0 1 2 4 t 6 5 3. Определить информативность первого признака методом Шеннона 3.1. для этого нужно задать число градаций, например j 0 .. 2 , если у признака – три градации и число классов k 0 .. 1 , если задано два класса. 3.2. подсчитать частоты появления каждой градации в каждом классе: m0 , 0 if xi , 0 296, 1 , 0 m0 , 0 = 1 if xi , 0 301, 1 , 0 m1 , 0 = 2 m0 , 1 i m1 , 0 m0 , 1 = 6 if xi , 1 301, 1 , 0 m1 , 1 = 3 if xi , 1 313, 1 , 0 m2 , 1 = 1 i m1 , 1 i i if xi , 0 313, 1 , 0 m2 , 0 if xi , 1 296, 1 , 0 m2 , 0 = 7 m2 , 1 i i 3.3. задать общее число наблюдений N 20 mj , k 3.4. подсчитать вероятности каждой градации k Pj N pj , k 3.5. подсчитать вероятности каждой градации в каждом классе IS1 3.6. подсчитать информативность Pj . 1 j p( j , k ) . k ln p j , k ln( 2 ) mj , k mj , k k 4. Определить информативность первого признака методом Кульбака mj , k pj , k 4.1. подсчитать вероятности каждой градации в каждом классе ln IK1 4.2. подсчитать информативность pj , 0 pj , 1 . j mj , k j pj , 0 pj , 1 ln( 2 ) 5. Повторить все вычисления для второго признака 6. Сравнить информативность признаков и сделать вывод, например: "Вывод: Метод накопленных частот показал одинаковую информативность обоих признаков. Методы Шеннона и Кульбака показали, что информативность второго признака незначительно выше, чем информативность первого признака." 7. Ответить на контрольные вопросы ПРИМЕЧАНИЕ При выполнении работы следует как можно полнее использовать операции копирования и вставки фрагментов. Каждый этап необходимо снабдить текстовым комментарием. КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Что такое информативность признака? 2. Что такое накопленная частота? 3. Что значит "распознать объект"? 4. В чем заключается прием условного кодирования? 5. Что такое градация признака? 6. В чем состоит энергетический подход к оценке информативности? 7. Почему энергетический метод оценки информативности плохо пригоден для распознавания классов? 8. Почему информативность, рассчитанная по методу Шеннона, является нормированной величиной? ВАРИАНТЫ ЗАДАНИЙ Вариант 1 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 98 98 60 90 138 138 60 90 114 98 60 72 138 114 72 90 138 98 60 72 114 138 72 90 138 138 90 72 114 114 60 90 138 114 60 60 138 98 60 90 Вариант 2 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 0,64 0,64 -2 7 0,04 0,32 -2 3 0,11 0,64 1 7 0,04 0,64 -2 1 0,04 0,04 3 7 0,11 0,32 -2 1 0,04 0,64 3 7 0,04 0,11 1 1 0,32 0,64 3 3 0,64 0,32 7 -2 Вариант 3 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 68 90 -10 -20 90 40 -15 -20 52 68 -15 -20 40 52 -15 -10 52 52 -20 -20 52 68 -20 -20 52 68 -20 -25 40 68 -15 -25 40 52 -25 -25 52 90 Вариант 4 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 1 3 -60 -80 1,5 3 -60 -70 2 3 -60 -80 2 2 -70 -60 2 3 -70 -70 3 1.5 -70 -80 3 3 -60 -70 2 1 -60 -60 1,5 3 -70 -60 3 3 -80 -80 Вариант 5 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 92 68 105 231 84 68 174 174 84 68 105 231 92 92 231 174 84 84 105 231 92 68 174 105 92 68 105 231 92 68 231 231 68 92 105 231 92 92 174 105 Вариант 6 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 3,3 10,5 -6,7 -1,2 10,5 3,3 -1,2 -6,7 8,2 8,2 -3,6 -3,6 10,5 3,3 -1,2 -6,7 5,9 5,9 -4,2 -6,7 8,2 8,2 -1,2 -3,6 10,5 3,3 -3,6 -4,2 8,2 5,9 -1,2 -4,2 10,5 5,9 -1,2 -6,7 10,5 3,3 -1,2 -6,7 Вариант 7 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 226 130 0,4 0,4 178 178 0,05 0,01 130 178 0,26 0,05 130 178 0,4 0,01 101 101 0,01 0,05 101 226 0,26 0,01 101 226 0,05 0,05 101 226 0,4 0,01 101 226 0,4 0,01 101 226 0,4 0,26 Вариант 8 Признак Х1 Признак Х2 Класс А1 Класс А2 Класс А1 Класс А2 313 296 -10 -10 301 296 -18 -18 313 301 -12 -10 301 296 -18 -10 313 296 -12 -10 313 301 -12 -12 313 296 -18 -10 296 296 -18 -10 313 301 -18 -12 313 313 -18 -10 В методических указаниях даны понятия о методах оценки информативности биомедицинских признаков применяемых для выявления наиболее информативных биомедицинских данных при решении задач диагностики. Описаны отдельные методы определения информативности и их сравнительный анализ. ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ. ОЦЕНКА ИНФОРМАТИВНОСТИ Методические указания к лабораторной работе Составитель И.С. Голованова Подписано к печати Формат 60х84/16. Бумага писчая № 2. Плоская печать. Усл. печ. л. 0,70. Уч. – изд. л. 0,63. Тираж 50 экз. Заказ № . Бесплатно. ИПФ ТПУ. Лицензия ЛТ №1 от 18.07.94. Ротапринт ТПУ, 634034, г. Томск, пр. Ленина, 30