Диалоговая система принятия решений в задачах

advertisement
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Государственное образовательное учреждение высшего
профессионального образования
«Нижегородский государственный университет им.Н.И.Лобачевского»
Диалоговая система принятия решений
ББК: 22.18
Диалоговая система принятия решений в задачах
распознавания образов. Часть 2. Анализ статистического
материала : Методическая разработка / Сост. Т.И.Чачхиани,
М.Г.Серова. – Нижний Новгород: Издательство Нижегородского
госуниверситета, 2006. – 14 с.
в задачах распознавания образов
Часть 2.
Анализ статистического материала
Методическая разработка содержит краткое изложение
теоретических сведений
для
выполнения
лабораторной
работы и описание работы программы.
Методическая разработка
Составители:
доцент, канд. физ.-мат. наук Т.И.Чачхиани,
инженер-программист М.Г.Серова.
Рекомендовано методической комиссией факультета ВМК
для студентов высших учебных заведений, обучающихся по направлению
подготовки 0102 «Прикладная математика и информатика»
Рецензент:
доцент каф. МЛиВА, кандидат физ.-мат. наук Н.Ю.
Золотых.
Нижний Новгород
2006
УДК: 519.92
2
имеет градации: мужской – 0, женский – 1, а в статистическом
1. Введение.
Целью двух лабораторных работ комплекса «Диалоговая
система принятия решений в задачах распознавания образов»
является
проведение
полного
анализа
определенного
статистического материала, по результатам которого можно
сделать вывод о возможности использования этого материала
для решения задачи медицинской диагностики.
Анализ статистического материала решает несколько
задач: выявление непроверенных признаков и технических
ошибок в материале, выделение
дифференцирующих
признаков, а также решение вопросов о полноте и достаточности
набора признаков, включенного в карту обследования, и о
достаточности объема статистического материала для решения
поставленной задачи.
Будут рассмотрены две первые задачи.
2. Поиск технических ошибок и непроверенных
признаков.
Сбор статистического материала представляет собой
довольно трудоемкую задачу. Необходимо отобрать истории
болезни и закодировать их в соответствии с данными карты
обследования. При кодировании историй болезней или при
занесении статистического материала в базу возможны
технические ошибки. Вместо кодовых чисел, указанных в
таблице кодирования признаков иногда обнаруживаются числа,
не предусмотренные таблицей. Например, признак
x1 – «пол»
3
материале в признаке
x1 обнаружена цифра 2.
Найти эту ошибку бывает трудно, но она может повлиять
на построение решающего правила. Для выявления и коррекции
таких случаев предназначен модуль импорта и поиска
технических ошибок.
Надо заметить, что с помощью
программы ввода
статистического материала данного комплекса сделать такую
ошибку невозможно, так как ввод кодированных данных
больных осуществляется путем выбора из вариантов
кодировочной таблицы. Но зачастую врачи используют для
подготовки данных стандартные программы и передают
статистический материал в виде простой таблицы (dbf-файла),
где могут встретиться подобные технические ошибки. Для
импортирования этих данных в структуру баз, используемую в
комплексе, разработан специальный модуль импорта.
Таким образом, после предварительного импорта данные
должны пройти коррекцию ошибок в модуле «Поиск
технических ошибок», где на основе кодировочной таблицы
проводится проверка градаций признаков каждого больного.
Если в статистическом материале встречается градация, не
предусмотренная картой обследования, то в список найденных
ошибочных данных добавляется номер больного, номер
признака и значение ошибочной градации. Все ошибочные
градации
должны пройти сверку с картой больного и
коррекцию. Если исправить ошибку по каким-либо причинам
невозможно, следует удалить больного.
После этого
4
корректированный статистический материал направляется на
окончательную конвертацию в используемый формат баз
данных.
Отметим, что таким образом не выявляются случаи, когда
вместо верного кодового числа стоит другое, ошибочное для
карты больного, но присутствующее в кодировочной таблице.
Кроме технических ошибок, приходится искать истории
болезней с непроверенными признаками, т.е. такие случаи, когда
нет данных о градациях некоторых признаков. Для этого по
договоренности отсутствие данных по признаку в карте
больного кодируется максимальным из кодовых чисел всех
градаций и названием градации «непроверенно».
Истории болезней с непроверенными признаками не могут
быть использованы в качестве обучающего материала для
построения решающих диагностических правил. Такие истории
должны быть дополнены недостающими анализами или, если
это невозможно, исключены из статистического материала.
Для поиска непроверенных градаций используется
соответствующий по названию модуль. При запуске модуля
«Поиск непроверенных признаков» (из окна подсчета частот
градаций признаков), все больные с непроверенными
признаками (НП) будут найдены и выведены списком на экран
для коррекции или удаления больных с большим количеством
НП- признаков.
При подсчете частот градаций признаков может оказаться,
что какой-либо признак непроверен у большинства больных,
тогда должен быть удален сам признак.
5
3. Подсчет частот встречаемости градаций
признаков
Чтобы судить о дифференциальной значимости признаков
и их градаций, необходимо иметь данные о частотах
встречаемости градаций признаков в каждом классе больных с
различными значениями признака . Может оказаться, что у
всех больных с  = 0,
нулю. Тогда признак
x10 = 1, а у всех больных с  = 1, он равен
x10 является дифференцирующим, он
разделяет больных на 2 класса: X0 ( = 0) и X1 ( = 1).
Если в одном классе определенная градация признака
встречается в несколько раз чаще, чем в другом, то эта градация
может быть названа дифференцирующей. Наоборот, если
некоторая градация встречается в разных классах с одинаковой
частотой, то, как правило, она не является дифференцирующей и
не может быть использована для разделения классов. Такие
градации
обозначим
как
незначащие
для
данного
статистического материала. За счет исключения незначащих
признаков можно в ряде случаев упростить задачу, уменьшив
размерность пространства признаков.
Для получения чисел и частот встречаемости градаций
признаков в разных классах предназначен модуль подсчета
частот встречаемости градации. С его помощью ведется подсчет
количества градации каждого признака в классе больных с
различными значениями

и
встречаемости градаций признаков:
6
вычисляются
частоты

ij
p 
где
признаке,
aij
aij -
I
признак оказывается непроверен у большинства больных,
должен быть удален сам признак.
,
число больных класса X с градацией j в i-ом
I  - число больных в классе X.
Анализ результатов работы этого модуля решает
несколько задач:
1. Прежде всего выделение дифференцирующих и
незначащих признаков позволяет сделать вывод о возможности
решения поставленной задачи по построению диагностических
решающих правил. Если дифференцирующие признаки
отсутствуют или их мало, то кодировочная таблица и
статистический материал не пригодны для дальнейшей
работы, так как у больных, принадлежащим разным классам
признаки заболевания одинаковы или мало отличаются.
Следовательно, необходимо вернуться к уточнению постановки
задачи, разработке карты обследования и подготовке
статистического материала.
2. В ряде случаев удается упростить задачу, исключив
незначащие признаки и тем самым уменьшить размерность
пространства признаков.
3. Кроме того, определяется процент больных, имеющих
непроверенные признаки. Этих больных нельзя использовать при
построении диагностических правил. В случае если таких
больных немного, то следует исключить больного. Если же
7
4. Описание программы
После запуска программы пользователю необходимо
задать путь к папке, содержащей исходную базу статистического
материала и скопировать ее в рабочий каталог пользователя для
внесения изменений. Для этого выбираются пункты меню:
сначала «Файл - Каталог с базами данных», затем «Файл –
Выбрать рабочий каталог» (рис.1).
рис.1
Также можно воспользоваться кнопкой
из бара, которая
последовательно вызывает окна выбора исходного и затем
рабочего каталогов.
После сообщения об успешном копировании файлов
можно приступать к подготовке и анализу статистического
материала.
8
Поиск технических ошибок.
Для случаев, когда базы статистического материала
созданы не с помощью первой программы комплекса, а
предоставлены в форме одиночной простой таблицы, разработан
модуль импорта с поиском технических. Он запускается через
пункт меню «Файл – Импорт и поиск технических ошибок».
После прохождения окон диалога и процесса импорта данных
предоставляется возможность найти технические ошибки.
поступили требуемые данные.
Для удаления больного с
большим количеством непроверенных признаков используется
кнопка «Удалить больного», которая становиться активной
после выделения больного.
После коррекции всех ошибок следует снова провести
поиск ошибочных градаций и, удостоверившись, что таких нет,
выйти из окна для продолжения работы по выявлению
дифференцирующих признаков. При выходе из окна следует
согласиться на конвертацию данных, чтобы статистический
материал был преобразован в правильный формат баз данных.
После этого исследования продолжаются с помощью модуля
подсчета частот встречаемости градаций признаков.
Подсчет частот встречаемости градаций признаков
Для подсчета частот встречаемости следует выбрать пункт
меню «Анализ - Подсчет частот встречаемости градаций» (или
рис.2
Здесь найденные в результате поиска ошибки
представляются в виде раскрывающегося списка при
соответствующем больном (рис.2). Щелчком мыши на
найденном признаке открывается список всех градаций данного
признака, из него можно выбрать значение и провести
коррекцию признака (с помощью одноименной кнопки), если
9
использовать кнопку
). После этого будет открыто окно, где
с помощью радио-кнопок можно выбрать форму представления
данных и произвести подсчет встречаемости градаций (рис. 3).
Результат подсчета формируется в виде таблицы, в которой для
каждой градации признака выводятся:
1. количество больных каждого класса с данной градацией;
2. процент количества больных с данной градацией в массе
больных класса (частота встречаемости градации).
Эти данные выводятся для каждого класса и для всего
массива больных последовательно (форма представления по
10
классам), или одновременно (форма представления по
признакам).
В случае вывода по классам (рис.3) происходит
рис.3
упорядочивание частот встречаемости градаций признаков по
убыванию их значений в данном признаке. То есть наиболее
характерные градации признака для рассматриваемого класса
оказываются на первом месте. Это позволяет оценить
выраженность признаков и представительность обучающей
выборки, получить ее общую характеристику.
Вывод по признакам (рис. 4) облегчает анализ данных,
который заключается прежде всего в сравнении частот
встречаемости градаций разных классов с целью поиска
градации, частоты встречаемости которой диаметрально
противоположны (т.е. максимальны в одном классе и
минимальны в другом). Таким образом
можно выделить
11
дифференцирующие признаки. Незначащие признаки (с
максимальными значениями частот встречаемости в обоих
рис.4
классах) необходимо отметить и удалить с помощью
соответствующей кнопки.
Также при необходимости можно провести анализ частот
встречаемости непроверенных признаков. Признаки с большими
частотами встречаемости непроверенных градаций необходимо
удалить. Вообще все непроверенные градации признаков
должны быть найдены и проработаны.
В случае если много непроверенных признаков имеет
какой-либо больной – легче удалить больного. Для этого
запускается окно «Поиск непроверенных признаков» (с
помощью одноименной кнопки), где найденные в результате
поиска признаки представляются в виде раскрывающегося
списка при соответствующем больном (рис.5). Щелчком мыши
12
на непроверенном признаке открывается список всех градаций
данного признака, из него можно выбрать значение и провести
ЛИТЕРАТУРА
1. Распознавание образов и медицинская диагностика / Под ред.
рис.5
Неймарка Ю.И. - М.: 1972. - 328 с.
2. Трошин М.В., Образцова Н.Д., Скорнякова Б.Л., Чачхиани
Т.И. Математическая модель фазности течения черепно-мозговой
травмы. В кн.: Клинико-кибернетические подходы к проблеме
диагноза и прогноза черепно-мозговой травмы. - Горький: ГИИТО,
1982. - С.88-110.
3. Чачхиани Т.И., Денисов В.М. Диагностирование двигателей
по токсичности. В журн. Автомобильный транспорт, №5, 1984.
4. Чачхиани Т.И. Опыт использования математических методов
в анализе социологической информации. Межвуз. сб.: Социальные
аспекты перестройки управления обществом. - Горький: Горьковский
ун-т, 1989. - С.116-119.
коррекцию признака (с помощью одноименной кнопки), если
поступили требуемые данные.
Для удаления больного с
большим количеством непроверенных признаков используется
кнопка «Удалить больного», которая становиться активной
после выделения больного.
Кнопки «Параметры» и «Справка» предоставляют
соответственно информацию о количестве больных, признаков,
расположении файлов базы данных и таблицу кодирования.
5. Неймарк Ю.И., Баталова З.С., Васин Ю.Г., Брейдо М.Д.
Распознавание образов и медицинская диагностика. – М:Наука, 1972.
6. Неймарк Ю.И., Баталова З.С. Опыт использования
быстродействующей вычислительной машины для медицинской
диагностики, прогнозирования исхода операционного вмешательства
или заболевания и выбора оптимального метода лечения. Уч. зап.
прикладная математика и кибернетика.– Горький, 1967.
7. Неймарк Ю.И., Баталова З.С. и др. Дифференциальная
диагностика
ревматизма
и
тиреотоксикоза
с
помощью
быстродействующих вычислительных машин. – Горький, 1966.
8. Неймарк Ю.И., Емерельсон Н.Б., Баталова З.С. и др.
Прогнозирование
острой
послеоперационной
дыхательной
недостаточности при резекции легких с помощью ЭВМ. – Горький,
1965.
13
14
Download