Диссертация Цурко

advertisement
Федеральное государственное бюджетное учреждение науки
Институт Проблем правления В. А. Трапезникова
Российской академии наук
На правах рукописи
Цурко Варвара Владимировна
Разработка численных методов выбора контрастирующих признаков
по эмпирическим данным
Специальность 05.13.18 –
«Математическое моделирование, численные методы и комплексы программ»
Диссертация на соискание учёной степени
кандидата технических наук
научный руководитель
д. б. н., к. т. н.
Михальский А. И.
Москва – 2014
2
Оглавление
Введение............................................................................................................................................................ 4
1
Восстановление зависимостей по эмпирическим данным ................................................................. 15
1.1
1.1.1
Классификация ....................................................................................................................... 17
1.1.2
Регрессия ................................................................................................................................. 17
1.1.3
Оценка плотности распределения ........................................................................................ 18
1.1.4
Контрастирование распределений ........................................................................................ 19
1.2
Методы отбора признаков ............................................................................................................. 20
1.2.1
Определения понятия «значимый признак» ........................................................................ 22
1.2.2
Классификация методов отбора значимых признаков ....................................................... 24
1.3
Обзор методов оценки среднего риска по эмпирическим данным ........................................... 27
1.3.1
Теория Вапника-Червоненкиса ............................................................................................. 28
1.3.2
Оценки среднего риска по эмпирическому риску, адаптированные к данным ............... 31
1.4
2
Задачи восстановления зависимостей .......................................................................................... 15
Основные выводы .......................................................................................................................... 34
Разработка метода выбора контрастирующих признаков .................................................................. 35
2.1
Средний риск .................................................................................................................................. 35
2.2
Эмпирический риск........................................................................................................................ 37
2.3
Равномерная оценка Вапника-Червоненкиса уклонения эмпирического риска от среднего в
задаче контрастирования ........................................................................................................................... 38
2.4
Оценки среднего риска, основанные на Радемахеровской сложности ..................................... 41
2.4.1
Штраф Радемахера ................................................................................................................. 41
2.4.2
Оценка среднего риска .......................................................................................................... 47
2.5
Алгоритм выбора контрастирующих признаков......................................................................... 48
2.6
Основные выводы .......................................................................................................................... 50
3 Применение метода выбора контрастирующих принаков для поиска классов заболеваний,
влияющих на возникновение злокачественных новообразований ............................................................ 52
3.1
Статистические данные о причинах смерти и сопутствующих заболеваниях ......................... 53
3.2
Применение метода контрастирования распределений при поиске связи между причинами
смерти и сопутствующими заболеваниями ............................................................................................. 56
3.2.1
Рак органов пищеварения и брюшины ................................................................................. 59
3.2.2
Рак органов дыхания и грудной клетки ............................................................................... 64
3.2.3
Рак мочеполовых органов...................................................................................................... 67
3.3
Основные выводы .......................................................................................................................... 70
4 Применение метода выбора контрастирующих признаков для контроля производственного
процесса .......................................................................................................................................................... 73
3
4.1
Выбор параметров для классификации состояний производственного процесса ................... 73
4.2
Применение метода выбора контрастирующих признаков для контроля производственного
процесса ...................................................................................................................................................... 74
4.3
Проверка результатов применения метода выбора контрастирующих признаков .................. 78
4.4
Основные выводы .......................................................................................................................... 81
Заключение ..................................................................................................................................................... 82
Список основных обозначений ..................................................................................................................... 84
Список литературы ........................................................................................................................................ 85
Список иллюстраций ..................................................................................................................................... 93
Список таблиц ................................................................................................................................................ 94
Приложение .................................................................................................................................................... 95
4
Введение
Актуальность темы. Современное развитие экспериментальной базы научных
исследований, создание сложных систем с большим числом взаимосвязанных
компонент, развитие средств телекоммуникации и телеметрии привело к
необходимости автоматически обрабатывать большие объёмы многомерных
массивов данных и создало возможность выявлять ранее недоступные для
анализа закономерности и связи.
Среди многих задач автоматизированной обработки многомерных
эмпирических данных актуальна проблема выделения наиболее значимых,
существенных для решаемой задачи факторов и переменных. Эта проблема
важна
при
анализе
популяционных
данных
с
целью
выявления
закономерностей заболеваемости и смертности, при поиске факторов,
существенных для классификации состояний производственного процесса, а
также в различных задачах медицинской диагностики, анализа изображений и
текстов.
Исходные
данные,
возникающие
в
таких
задачах,
обычно
характеризуются высокой размерностью. Количество признаков, например, в
задачах распознавания текстов может достигать порядка 104 – 107 , причем
значимыми является лишь небольшая часть из них. Данные, получаемые в
биологических экспериментах на микрочипах, характеризуются экспрессией
десятков тысяч генов, причем число доступных для анализа объектов
исчисляется сотнями. В такой ситуации необходимо привлечение алгоритмов
машинного
обучения,
способных
учитывать
явно
ненаблюдаемые
закономерности между признаками. Учёт этих закономерностей может
использоваться для более компактного и статистически надёжного описания
данных. Кроме того, наличие таких закономерностей часто представляет
самостоятельный интерес для исследователя, давая новые знания об изучаемом
объекте.
Для повышения результативности анализа многомерных данных большой
эффект даёт снижение их размерности через выделение лидирующих факторов
и комбинаций признаков. При этом строятся модели взаимного влияния
5
признаков друг на друга и выявляются их независимые комбинации. Однако
существует круг задач, в которых такой подход малоэффективен. Например,
при исследовании состояния здоровья человека масса параметров имеет
качественный характер, и для выяснения взаимосвязи между ними необходимо
строить сложные классификационные модели, решая задачу по сложности
сопоставимую с исходной, что сильно снижает статистическую достоверность
результата.
Альтернативным
путем
является
выделение
совокупности
признаков и факторов, которые напрямую связаны с восстановлением
зависимости без построения, по сути промежуточной, модели взаимодействия
признаков. В случае решения задачи классификации такой подход означает
выбор признаков, распределения которых в двух классах максимально
различны, без построения модели взаимодействия факторов, например, в виде
системы главных компонент. В свою очередь, выделение факторов, значимых
для классификации, приводит и к снижению размерности задачи поиска той
зависимости между факторами, которая существенная для возникновения
классов. Примером такой задачи является задача анализа заболеваний,
сопутствующих возникновению рака.
Часто различие между распределениями признаков в двух классах
характеризуется с помощью расстояния Кульбака-Лейблера. В работах [36],
[62]
предложено
параметризованных
максимизации
эмпирические
аппроксимировать
функций.
расстояния
данные
без
Выбор
эти
признаков
Кульбака-Лейблера,
контроля
распределения
смесью
осуществляется
опираясь
обобщающей
путем
только
способности
на
при
использовании этих признаков. В качестве обобщающей способности в данном
случае служит теоретическая величина расстояния Кульбака-Лейблера, либо
связанная с ним характеристика, имеющая смысл среднего риска потерь.
Проблема контроля достигнутой величины среднего риска при анализе
данных хорошо изучена в машинном обучении. В задаче классификации эта
величина может характеризоваться методами теории статистического обучения,
оценивая вероятность ошибки построенного алгоритма на объектах, не
6
входящих в обучение. В.Н. Вапником и А.Я. Червоненкисом в 1970-х годах
были получены неравенства для оценки вероятности ошибки классификации
через ошибку на обучающей выборке с учетом сложности семейства
рассматриваемых алгоритмов [3-7]. Позже эти оценки были обобщены на более
широкий круг задач и улучшены путём учета свойств данных и специфики
рассматриваемых задач. Среди плодотворных подходов можно выделить
оценки, адаптирующиеся к данным и использующие понятие Радемахеровской
сложности класса [50-53].
Применение оценок, полученных Вапником и Червоненкисом, а также
оценок, адаптирующиеся к данным, позволяет построить алгоритмы поиска
факторов, значимых при разделении двух классов, обладающих высокой
обобщающей способностью без решения промежуточной задачи выявления
зависимости между факторами.
Цель диссертационной работы. Разработка, исследование и применение
метода выбора по эмпирическим данным признаков для описания состояния
системы с учётом сложности полученного описания.
Методы исследования. В диссертационной работе задача выбора признаков
формулируется в терминах максимизации функционала среднего риска по
наборам признаков.
В отличие от задачи классификации, где ищется
минимальное значение среднего риска, этот подход направлен на поиск
факторов и признаков, в терминах которых описания объектов в различных
классах максимально различаются. Средний риск формализуется как аналог
информационного расстояния между внутриклассовыми распределениями. Для
оценки среднего риска по эмпирическим данным используются результаты
теории статистического обучения, в частности, равномерная по классу функций
оценка уклонения среднего от эмпирического риска, полученная Вапником и
Червоненкисом [7], и оценки, использующие понятие Радемахеровской
сложности класса [52].
Предложенный в диссертации метод выбора совокупности признаков для
описания состояния системы с учётом сложности полученного описания
7
применён к двум практическим задачам: для выяснения связи заболеваемости
раком с заболеваниями, которыми человек болел в конце жизни, и для выбора
параметров для контроля производственного процесса.
Основные результаты, выносимые на защиту:
1. Постановка задачи выбора признаков для описания состояния системы
как задачи максимизации среднего риска.
2. Адаптация оценок равномерного уклонения среднего и эмпирического
рисков, основанных на теории Вапника-Червоненкиса, и оценок,
основанных на Радемахеровской сложности, для решения поставленной
задачи.
3. Теорема о величине локальной Радемахеровской сложности в классе
байесовских оценок гистограмм.
4. Метод выбора контрастирующих признаков.
5. Программный комплекс, реализующий предложенный алгоритм выбора
контрастирующих признаков.
6. Практическое
применение
алгоритма
выбора
контрастирующих
признаков для выявления связи между возникновением злокачественных
новообразований
заболеваниях
и
при
присутствующих
анализе
при
данных
этом
сопутствующих
медицинской
статистики
о
заболеваемости и смертности.
7. Практическое
использование
алгоритма
выбора
контрастирующих
признаков для выбора параметров для контроля производственного
процесса.
Научная новизна. Существенным новшеством предложенного метода является
постановка задачи выбора признаков как задачи максимизации среднего риска.
В отличие от работ многих авторов, не используется параметрическое
представление
распределений
промежуточная
задача
Предложенный
функционал
ожиданием
энтропийной
признаков
построения
модели
среднего
функции
в
риска
потерь.
классах
не
решается
взаимодействия
факторов.
является
Для
и
математическим
максимизации
этого
8
функционала по эмпирическим данным модифицированы методы оценки
среднего риска с использованием равномерных оценок уклонения среднего
риска от эмпирического по классу функций (Вапник-Червоненкис) и с
использованием Радемахеровской сложности, что позволяет эффективно
контролировать сложность получаемого описания.
Теоретическая значимость. В диссертационной работе ставится и
решается задача поиска факторов, распределения которых в двух классах
максимально
различны,
строится
функционал
среднего
риска,
соответствующий данной задаче. В работе рассмотрены два подхода к оценке
среднего риска по эмпирическим данным. В рамках первого подхода, показано,
что для оценки функционала среднего риска применим результат ВапникаЧервоненкиса о равномерной по классу функций сходимости средних к
математическим ожиданиями, проведена необходимая модификация метода для
рассматриваемой задачи. В рамках второго подхода, используются оценки,
адаптированные
к
данным,
Радемахеровскую
сложность,
в
частности,
получено
оценки,
аналитическое
использующие
выражение
для
величины штрафа Радемахера в классе байесовских оценок гистограмм для
рассматриваемого функционала эмпирического риска.
Практическая значимость. В работе приведен пошаговый алгоритм отбора
значимых факторов, описаны процедуры вычисления эмпирического риска и
оценки
среднего,
разработан
программный
комплекс,
реализующий
предложенный алгоритм выбора контрастирующих признаков.
Решены две практические задачи. В первой задаче метод позволил выявить
зависимости между заболеваниями, которые человек имел в конце свой жизни,
и
возникновением
злокачественных
новообразований.
Показано,
что
предложенный метод устойчиво выделяет сердечно-сосудистые заболевания
(ишемическая болезнь сердца, гипертония, цереброваскулярные заболевания) в
качестве
заболеваний,
характеризующих
нераковую
группу,
т.е.
конкурирующих причин смерти, и заболевания, выступающие в роли факторов
риска возникновения рака.
9
Во второй задаче алгоритм выбора контрастирующих признаков позволил
выделить параметры, связанные с определенным состояния производственного
процесса, что позволяет осуществить эффективный контроль за состоянием
процесса, регистрируя малое число параметров.
Внедрение. Метод выбора контрастирующих признаков, разработанный в
диссертации, успешно внедрен в практику работы компании ООО «Ай Эм Эс
Хэлс». Внедрение метода позволило сократить количество признаков,
необходимое для достоверного разделения аптек на классы по объемам продаж.
Результаты внедрения подтверждены соответствующими актами.
Область исследования. Согласно паспорту специальности 05.13.18 –
«Математическое моделирование, численные методы и комплексы программ»:
 Разработка новых математических методов моделирования объектов
и явлений (п. 1);
 Реализация эффективных численных методов и алгоритмов в виде
комплексов проблемно-ориентированных программ для проведения
вычислительного эксперимента (п.4);
 Комплексные
исследования
научных
и
технических
проблем
с
применением современной технологии математического моделирования
и вычислительного эксперимента (п.5).
Согласно формуле специальности «содержанием специальности является
разработка
фундаментальных
основ
и
применение
математического
моделирования, численных методов и комплексов программ для решения
научных
и
технических,
фундаментальных
и
прикладных
проблем».
Разработанный в диссертационной работе алгоритм решает фундаментальную
задачу анализа данных – задачу выбора значимых признаков. Применение
алгоритма к популяционным данным о заболеваемости и смертности позволяет
создать математическую модель влияния сопутствующих заболеваний на
заболеваемость раком. Применение алгоритма выбора контрастирующих
признаков к данным о состоянии производственного процесса моделирует
зависимость между параметрами и состоянием системы.
10
Достоверность и обоснованность результатов. Достоверность результатов
обеспечивается математическими доказательствами теорем и утверждений.
Обоснованность выводов анализа популяционных данных проводилась
путем сопоставления результатов с опубликованными медицинскими данными.
Результаты
были
доложены
на
специализированных
конференциях
и
опубликованы в профильных изданиях [20], [25], [72].
В задаче выделения факторов, значимых для классификации состояний
производственного процесса, качество метода оценивалось по контрольной
части выборки, результаты, полученные алгоритмом выбора контрастирующих
признаков, сравнивались с результатами других популярных алгоритмов отбора
признаков.
Апробация работы. Результаты диссертационной работы докладывались и
обсуждались на следующих конференциях и научных семинарах:
1. III Международная конференция «Математическая биология и
биоинформатика», Пущино, 2010 [24];
2. XV Международная научно-практическая конференция «Пожилой
больной. Качество жизни», Москва, 2010;
3. Международная конференция “14th Applied Stochastic Models and
Data Analysis International Conference (ASMDA2011)”, Рим, Италия, 2011
[67];
4. Международная
научная
школа
«Моделирование
и
анализ
безопасности и риска в сложных системах» (МАБР - 2011), СанктПетербург, 2011 [70];
5. Международный симпозиум “Applied Methods of Statistical Analysis.
Simulations and Statistical Inference (AMSA)”, Новосибирск, 2011 [71];
6. XVI Международная научно-практическая конференция «Пожилой
больной. Качество жизни», Москва, 2011;
7. Международная конференция “Statistical Models and Methods for
Reliability and Survival Analysis and Their Validation”, Бордо, Франция,
2012 [69];
11
8. Научный семинар «Математическое моделирование и системная
биология» под руководством д.т.н. В.Н.Новосельцева и д.ф.-м.н.
А.А.Романюхи, ИПУ РАН и ИВМ РАН, Москва, 28 ноября 2012;
Международная
9. VII
конференция
«Управление
развитием
крупномасштабных систем» (MLSD’2013), Москва, 2013;
XII Всероссийское совещание по проблемам управления
10.
(ВСПУ 2014), Москва, 2014 [23];
XVI Международная конференция “Artificial Intelligence:
11.
Methodology, Systems, Applications” (AIMSA 2014), Варна, Болгария, 2014
[68].
Публикации. Основные результаты диссертационной работы опубликованы в
10 работах [20], [23-25], [67-72], 3 из которых включены в перечень ведущих
рецензируемых научных журналов и изданий, рекомендованных ВАК [20], [25],
[68].
Личный вклад. Личный вклад диссертанта заключается в теоретическом
решении
задач,
поставленных
научным
руководителем,
в
проведении
экспериментальных исследований.
Подготовка к публикации работ [20], [23-25], [67-72] проводилась
совместно с научным руководителем.
Структура и объем работы. Диссертация состоит из оглавления, введения,
четырех глав, заключения, списка основных обозначений, списка литературы,
списка иллюстраций, списка таблиц и приложения. Общий объем работы
составляет 99 страниц.
Краткое содержание работы по главам.
Первая глава диссертационной работы является обзорной, она посвящена
задачам восстановления зависимостей по эмпирическим данным, которые
включают в себя задачи обучения по прецедентам, отбор значимых признаков,
оценку качества и обобщающей способности простроенной зависимости. В
разделе 1.1
представлен обзор задач восстановления зависимостей по
эмпирическим данным. Задачи классификации, регрессионного анализа,
12
восстановления плотностей распределений сформулированы в общем виде как
частные случаи задачи восстановления функциональных зависимостей. В
разделе 1.1 также приводятся основные идеи метода выбора контрастирующих
признаков, разработанного в диссертации. В разделе 1.2 рассмотрена проблема
отбора признаков. Приведены различные определения понятия «значимый
признак», дан обзор и классификация существующих методов. В разделе 1.3
описана задача оценки качества обучения, дан обзор оценок обобщающей
способности, начиная с равномерных по классу решающих функций оценок,
полученных Вапником В.Н и Червоненкисом А.Я. в 70-х годах XX века и
положивших начало развитию этой теории, и заканчивая недавними работами,
в которых получены оценки, адаптированные к данным.
Вторая глава посвящена формальному описанию рассматриваемой задачи
выбора признаков, ставится задача максимизации среднего риска для
нахождения признаков, распределения которых в двух классах максимально
отличаются. В разделах 2.1 и 2.2 диссертационной работы вводятся
необходимые обозначения, объясняется выбор функция штрафа, теоретически
обосновывается построение функционалов среднего и эмпирического риска. В
разделе 2.3 доказано, что в рамках поставленной задачи применима теория
Вапника-Червоненкиса, выведена форма штрафного члена, корректирующего
значение эмпирического риска для оценки среднего риска. В Утверждении 1
оценена функция роста рассматриваемой системы множеств. В Утверждении 2
для поставленной задачи приводится нижняя оценка функционала среднего
риска. В разделе 2.4 рассматривается применение оценки среднего риска,
адаптированной к данным и основанной на Радемахеровской сложности. В
Теореме 1 и Лемме 1 решена оптимизационная задача, позволяющая в классе
байесовских оценок гистограмм вычислить аналитически штраф Радемахера. В
Утверждении 3 приводится нижняя оценка рассматриваемого функционала
среднего риска, использующая штраф Радемахера. В разделе 2.5 приведен
метод выбора контрастирующих признаков, решающий задачу поиска такого
13
подмножества
признаков,
на
котором
достигается
максимум
оценки
функционала среднего риска.
В третьей главе диссертационной работы предложенный метод выбора
контрастирующих признаков применяется к данным медицинской статистики о
смертности и сопутствующей заболеваемости для выделения заболеваний,
связанных с возникновением злокачественных новообразований. В разделе 3.1
приведено
подробное
описание
анализируемых
данных,
обоснована
актуальность поставленной задачи. В разделе 3.2 описываются особенности
применения метода к рассматриваемым данным медицинской статистики,
приведены результаты применения метода выбора контрастирующих признаков
с использованием равномерной оценки Вапника-Червоненкиса и
штрафной
функции Радемахера для выделения сопутствующих заболеваний, связанных с
возникновением
злокачественных
новообразований
трех
различных
локализаций. Третья глава оканчивается обсуждением полученных результатов,
приводится медицинское обоснование найденных закономерностей.
В четвертой главе метод выбора контрастирующих признаков применен для
выбора
подмножества
параметров
для
контроля
за
состоянием
производственного процесса. В разделе 4.1 приведено описание данных задачи
и постановка задачи. Раздел 4.2 посвящен применению метода к данным о двух
состояниях, продемонстрировано преимущество оценки, основанной на
Радемахеровской сложности, по сравнению с оценкой среднего риска ВапникаЧервоненкиса в силу сильной завышенности последней. В разделе 4.3
результаты, полученные методом выбора контрастирующих признаков,
сравнивались с результатами, полученными шестью другими известными
алгоритмами отбора признаков. После отбора или преобразования признаков
данные классифицировались наивным байесовским классификатором, качество
оценивалось
процедурой
скользящего
контроля.
Алгоритм
выбора
контрастирующих признаков выбрал пару признаков, позволяющих с высокой
точностью
предсказать
рассмотренные
состояние производственного
алгоритмы
выбрали
большее
процесса.
количество
Другие
признаков
и
14
обеспечили более низкое качество классификации, что демонстрирует
преимущества алгоритма выбора контрастирующих признаков над другими
рассмотренными методами отбора признаков.
В заключении диссертации сформулированы основные результаты и
выводы.
Благодарности. Автор благодарит своего научного руководителя доктора
биологических наук, кандидата технических наук Анатолия Ивановича
Михальского за постановку задачи, помощь и плодотворные дискуссии,
сотрудников Института проблем управления им. В.А. Трапезникова РАН за
содержательные советы и интерес к работе, а также мужа и родителей за
терпение и поддержку.
15
1 Восстановление зависимостей по эмпирическим данным
Восстановление зависимостей по эмпирическим данным является одной из
центральных областей теории статистического обучения, которая включает в
себя задачу обучения по прецедентам, отбор значимых признаков, оценку
качества и обобщающей способности построенной зависимости.
В части 1.1 данной главы представлен обзор задач восстановления
зависимостей
по
регрессионного
эмпирическим
анализа,
данным.
восстановления
Задачи
классификации,
плотностей
распределений
сформулированы в общем виде как частные случаи задачи восстановления
функциональных зависимостей. В части 1.1 также приводятся основные идеи
метода выбора контрастирующих признаков, разработанного в диссертации.
Подробному изложению этого метода посвящена вторая глава.
В части 1.2 рассмотрена проблема отбора признаков. Приведены
различные
определения
классификация
понятия
существующих
«значимый
методов,
признак»,
обсуждается
дан
проблема
обзор
и
оценки
обобщающей способности метода при отборе признаков.
В части 1.3 описана задача оценки качества обучения, дан обзор оценок
обобщающей
способности,
начиная
с
равномерных
по классу решающих функций оценок, полученных Вапником В.Н и
Червоненкисом А.Я. в 70-х годах XX века и положивших начало развитию этой
теории, и заканчивая недавними работами, в которых получены оценки,
адаптированные к данным.
Данная
глава
является
обзорной.
В
ней
вводится
используемая
терминология, необходимые определения и обозначения.
1.1 Задачи восстановления зависимостей
Методы решения задачи восстановления зависимостей по эмпирическим
данным называются «методами машинного обучения». Этот обширный термин
включает методы построения регрессионных зависимостей, классификацию,
кластеризацию и многие другие.
16
Рассмотрим множество объектов 𝑋 ∈ 𝐑𝑛 и множество ответов 𝑌 ∈ 𝐑.
Пусть на декартовом произведении 𝑋 × 𝑌 задано неизвестное вероятностное
распределение 𝑃. Обозначим (𝑥, 𝑦) случайную пару из распределения 𝑃. Дана
обучающая выборка – последовательность пар (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑙 , 𝑦𝑙 ),
состоящая из 𝑙 независимых наблюдений случайной пары (𝑥, 𝑦). Величины
(𝑥1 , … , 𝑥𝑙 ) называют также входными значениями, а (𝑦1 , … , 𝑦𝑙 ) – выходами,
соответствующими входным значениям. Задача заключается в нахождении
такой зависимости 𝑦 = 𝜑(𝑥), чтобы предсказанные значения 𝑦 ∗ = 𝜑(𝑥) как
можно
точнее
аппроксимировали
фактическое
выходное
значение
𝑦,
соответствующее входу 𝑥.
Чтобы оценить насколько хорошо выбранная исследователем функция
𝑦 ∗ = 𝜑(𝑥) подходит для описания наблюдаемой связи между входом и
выходом
вводится
так
называемая
штрафная
функция
𝐿(𝑦, 𝑦 ∗ ),
характеризующая отклонение предсказания выходного значения 𝑦 ∗
от
истинного значения 𝑦. Цель обучения формально может быт сформулирована
как нахождение такой функции (решения), на которой минимизируется
математическое ожидание функции штрафа, называемое истинным (средним)
риском:
𝑀(𝜑) = 𝐸𝐿(𝑦, 𝑦 ∗ ) = ∫ 𝐿(𝑦, 𝑦 ∗ )𝑑𝑃(𝑥, 𝑦) = ∫ 𝐿(𝑦, 𝜑(𝑥))𝑑𝑃(𝑥, 𝑦),
(1.1)
где 𝜑(𝑥) –выбранная функция.
Эмпирическим риском, согласно [7], называют среднее значение функции
штрафа на обучающей выборке:
𝑙
1
𝑀𝑒 (𝜑) = ∑ 𝐿(𝑦𝑖 , 𝜑(𝑥𝑖 )).
𝑙
(1.2)
𝑖=1
В задачах восстановления зависимостей в качестве штрафной функции
часто используют квадрат разности (𝑦 − 𝑦 ∗ )2 . В этом случае эмпирический
риск
интерпретируется
как
средний
квадрат
уклонения
построенной
зависимости от эмпирических данных. В задачах классификации значение
штрафной функции 𝐿(𝑦, 𝑦 ∗ ) равно нулю при правильной классификации
17
объекта и 1 иначе, тогда эмпирический риск равен среднему числу ошибок на
обучении, а средний риск равен вероятности ошибочной классификации при
использовании данного решающего правила.
Далее в данном разделе будут рассмотрены классические задачи
восстановления зависимостей, будут выписаны функционалы среднего и
эмпирического риска для них.
1.1.1 Классификация
Задачи
классификации
являются
частным
случаем
восстановления
функциональных зависимостей. Вектор 𝑥 является набором непрерывных или
дискретных признаков, выход 𝑦 в задаче классификации – скалярная величина,
принимающая дискретные значения из конечного множества и имеющая смысл
номера или метки класса, 𝐹 – класс функций, определенных на множестве
значений признаков 𝑥 и принимающих значения из множества значений
переменной 𝑦. Штрафная функция, определенная через индикатор
𝐿(𝑦, 𝜑(𝑦)) = 𝐼{𝑦 ≠ 𝜑(𝑥)}, 𝜑(𝑥) ∈ 𝐹
и принимает значение 1, если с помощью функции 𝜑(𝑥) вектор 𝑥
классифицируется правильно, т.е. выполнено 𝑦 = 𝜑(𝑥), или значение 0 иначе.
Средний риск
𝑀(𝜑) = 𝐸𝑥𝑦 𝐼{𝑦 ≠ 𝜑(𝑥)}
имеет смысл вероятности ошибочной классификации при использовании
правила классификации 𝜑(𝑥).
Эмпирический риск
𝑙
1
𝑀𝑒 (𝜑) = ∑ 𝐼{𝑦𝑖 ≠ 𝜑(𝑥𝑖 )}
𝑙
𝑖=1
является частотой ошибок на обучающей выборке (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑙 , 𝑦𝑙 ).
Методы классификации нацелены на минимизацию этой величины.
1.1.2 Регрессия
В задаче восстановления регрессионной зависимости предполагается, что
выходом является числовое значение. Входным значением может быть одно
18
число или вектор из 𝑛 координат, в первом случае говорят о восстановлении
функции одной переменной, во втором случае о восстановлении функции 𝑛
переменных.
В задаче регрессии вектор 𝑥 является вектором непрерывных признаков, 𝑦
– скалярная непрерывная величина, 𝐹 – класс функций, определенных на
множестве значений признаков 𝑥 и принимающих значения из множества
значений переменной 𝑦. Штрафную функцию можно определить как квадрат
разности предсказанного значения 𝑦 ∗ = 𝜑(𝑥) и истинного значения 𝑦
2
𝐿( 𝑦, 𝜑(𝑥)) = (𝑦 − 𝜑(𝑥)) , 𝜑(𝑥) ∈ 𝐹.
В этом случае средний риск является математическим ожиданием квадрата
уклонения 𝑦 от функции 𝜑(𝑥) и легко выражается через среднеквадратичное
уклонение функции 𝜑(𝑥) от функции условного математического ожидания функции регрессии
2
2
𝑀(𝜑) = 𝐸𝑥𝑦 [𝑦 − 𝜑(𝑥)]2 = 𝐸𝑥 [𝜑(𝑥) − 𝐸𝑦 [𝑦|𝑥]] + 𝐸𝑥𝑦 [𝑦 − 𝐸𝑦 [𝑦|𝑥]] .
Эмпирический риск, определяется равенством
𝑙
1
2
𝑀𝑒 (𝜑) = ∑(𝑦𝑖 − 𝜑(𝑥𝑖 ))
𝑙
𝑖=1
и
имеет
смысл
усреднённого
по
выборке
квадрата
уклонения
экспериментальных значений выходной переменной от предсказанных с
помощью функции 𝜑(𝑥) значений. Минимизация эмпирического риска в такой
форме известна как метод наименьших квадратов.
Определение штрафной функции через квадрат разности приведен как
пример и не является единственным возможным. В качестве функции штрафа
можно
использовать
также
модуль
разности
или
другую
функцию,
отвечающую требованиям решения конкретной задачи.
1.1.3 Оценка плотности распределения
В задачах оценивания плотности распределений вероятности строится
функция, описывающая плотность распределения случайного вектора 𝑥. При
19
этом вектор 𝑥 является вектором непрерывных признаков, а переменная 𝑦
отсутствует, 𝐹 – класс всевозможных плотностей распределения вероятностей,
определенных на множестве значений признаков 𝑥. Чтобы задачу оценивания
плотности распределений вероятности свести к задаче минимизации среднего
риска рассмотрим 𝜑(𝑥) ∈ 𝐹 и функцию штрафа вида
𝐿(𝜑(𝑥)) = − ln 𝜑(𝑥).
В этом случае средний риск, равен
𝑀(𝜑) = −𝐸𝑥 ln 𝜑(𝑥)
и имеет смысл энтропии распределения 𝜑(𝑥) относительно случайной
величины 𝑥. Эмпирический риск равен
𝑙
1
𝑀𝑒 (𝜑) = − ∑ ln 𝜑(𝑥𝑖 )
𝑙
𝑖=1
и оказывается логарифмом функции правдоподобия со знаком минус,
минимизация которого совпадает с классическим методом максимума
правдоподобия.
1.1.4 Контрастирование распределений
Рассмотренные
классические
задачи
поиска
зависимостей
по
эмпирическим данным укладываются в единую схему: выбор функционала
среднего риска, построение функционала эмпирического риска и минимизация
этого функционала на основе эмпирических данных.
К такой же схеме можно свести и другие задачи машинного обучения, в
которых необходимо выделить факторы, присущие различным классам. В этих
задачах за критерий качества решения удобно принимать различие между
классами при заданных факторах. В диссертационной работе разработан метод
выбора контрастирующих признаков (метод контрастирования распределений),
реализующий этот подход. В данном разделе рассматриваются основные идеи
метода контрастирования. Глава 2 посвящена подробному описанию этого
метода.
20
Пусть (𝑥, 𝑦) – пара, имеющая распределение 𝑃, заданное на 𝑋 × 𝑌.
Множество классов (ответов) 𝑌 состоит из двух элементов, 𝑌 = {0,1}, т.е.
рассматривается задача с двумя классами. Объект 𝑥 является многомерным
вектором непрерывных признаков. Плотности 𝑝(𝑥|𝑦 = 0) и 𝑝(𝑥|𝑦 = 1)
обозначают условные плотности распределения случайного вектора 𝑥 в двух
классах, а функции 𝜑0 (𝑥) и 𝜑1 (𝑥) являются оценками условных плотностей
𝑝(𝑥|𝑦 = 0) и 𝑝(𝑥|𝑦 = 1).
Различие
между
плотностями
функционалом
среднего
риска,
максимизации
симметризованного
распределения
максимизация
формализуется
которого
информационного
эквивалентна
расстояния
(J-
дивергенции) между плотностями распределения и их оценками, т.е. между
двумя
парами
𝜑0 (𝑥), 𝑝(𝑥|𝑦 = 1)
и
𝜑1 (𝑥), 𝑝(𝑥|𝑦 = 0).
Средний
риск
оценивается через эмпирический риск с использованием неравенств теории
эмпирических процессов, которые позволяют контролировать уклонение
эмпирического риска от среднего через учёт сложности распределений на
подмножествах признаков. Обзор таких методов оценки среднего риска по
эмпирическим данным приводится в части 1.3 настоящей главы.
Разработанный в диссертации алгоритм контрастирования распределений
является алгоритмом отбора признаков, доставляющий максимум оценке
среднего риска. Обзор алгоритмов отбора признаков содержится в части 1.2.
Там же обсуждается место предложенного алгоритма в обширной и развитой
теории отбора значимых признаков.
1.2 Методы отбора признаков
Современные
задачи
машинного
обучения
становятся
все
более
сложными, возрастает объем данных, с которыми приходится работать. В
области распознавания текстов достаточно часто встречаются данные с
количеством признаков порядка 104 – 107 , причем значимыми является лишь
небольшая часть из них [57]. Таков же порядок размерности данных по анализу
экспрессии генов на микрочипах. Они содержат большое количество признаков
21
(генов) при небольшом количестве наблюдений (образцов биологического
материала) [21]. Важность проблемы отбора признаков возрастает.
В разделе 1.2 диссертационной работы приведено обоснование важности
задачи отбора значимых признаков. Обсуждаются различные определения
значимого признака, встречающиеся в литературе. Центральное место раздела
занимает классификация алгоритмов отбора признаков, примеры и ссылки на
различные алгоритмы.
Выделяют три основные причины негативного влияния большого
количества неинформативных признаков на алгоритм обучения [77]. Вопервых,
с
увеличением
числа
признаков
уменьшается
статистическая
надёжность работы алгоритма машинного обучения. По мере увеличения числа
признаков средняя ошибка на обучении обычно убывает, а средняя ошибка на
неизвестных алгоритму контрольных данных сначала убывает, затем проходит
через точку минимума, а потом только возрастает. Это явление называют
переобучением, снижением обобщающей способности алгоритма. Пусть 𝑙 –
число объектов обучающей выборки, а 𝑘 – число параметров классификатора.
Чем больше 𝑘, тем легче настроить классификатор на безошибочную
классификацию
обучающей
выборки.
В
[19]
предлагается
простая
характеристика общности классификатора, равная 𝑙/𝑘. Чем больше значение
𝑙/𝑘, тем большей обобщающей способностью обладает классификатор.
Следовательно, при увеличении количества признаков в задаче, увеличивается
знаменатель
способность
предложенного
значения
классификатора
и
общности,
уменьшается
падает
точность
обобщающая
правильной
классификации тестовых данных.
Из этих же рассуждений следует и вторая причина важности задачи отбора
признаков: при росте числа признаков задачи увеличивается количество
объектов обучения, необходимых для надежной классификации. В литературе
[55] приводится пример, когда для достижения необходимой точности работы
простого алгоритма ближайших соседей количество необходимых объектов
обучения растет экспоненциально с ростом числа неинформативных признаков.
22
Наконец, как правило, с увеличением числа признаков резко возрастает
время работы алгоритма. Многие классификаторы сравнивают значения
признаков элементов из тестовой выборки с сохраненными значениями
признаков элементов из обучения, поэтому если число признаков чрезмерно
велико, то
время работы алгоритмов на тестовых данных становится
недопустимо большим для приложений в реальном времени.
Главным преимуществом отбора информативных признаков является
увеличение точности алгоритма и его обобщающей способности, повышение
стабильности его работы. Также в качестве преимуществ отбора признаков
можно выделить лучшую визуализацию и интерпретацию данных, уменьшение
размерности и затрат на хранение данных, уменьшение времени обучения
алгоритма и времени его работы в реальных условиях [77].
1.2.1 Определения понятия «значимый признак»
Понятие «значимый признак» может определяться различными способами.
Определение
зависит
от
целей
исследователя.
определений, встречающихся в литературе, и
Приведем
несколько
поясним какое из них
предпочтительнее для нашего исследования.
Определение 1 (Значимый признак по отношению к классу). Признак
является значимым, если в пространстве объектов существуют два объекта, у
которых значения всех признаков кроме рассматриваемого равны, и при этом
объекты принадлежат разным кассам.
Это определение является интуитивно наиболее понятным, но практически
неприменимо на практике из-за ряда недостатков. Алгоритм обучения как
правило имеет доступ только к обучающей выборке, а по ней нельзя
определить значимые признаки таким образом. В выборке могут, вообще, не
существовать объекты удовлетворяющие определению 1, но это не будет
означать, что все признаки являются значимыми. Это определение может быть
полезно при теоретических выкладках или в случае, если целевая функция
является
реальным
объектом,
которому
на
вход
можно
смоделированные векторы данных и получать метку класса для них.
подавать
23
Адаптация определения 1 к данным выборки позволила John и соавторам
[45] сформулировать два следующих определения значимости признака по
отношению к распределению объектов.
Определение
2
(Сильно
значимый
признак
по
отношению
к
выборке/распределению). Признак является сильно значимым по отношению к
выборке, если в выборке существует два объекта, отличающихся только на
рассматриваемом признаке и имеющих разные метки классов. И при этом
существует ненулевая вероятность существования этих объектов во всем
пространстве.
Определение
3
(Слабо
значимый
признак
по
отношению
к
выборке/распределению). Признак является слабо значимым по отношению к
выборке, если после удаления некоторого подмножества признаков он
становится сильно значимым.
Сильная значимость признака означает, что удаление этих признаков
приведет к противоречивости выборки – совершенно одинаковые объекты
будут принадлежать к разным классам. Слабая значимость признаков не
означает, что их надо обязательно использовать в задаче.
Для практических целей исследователь может принять следующее
определение значимого признака.
Определение 4 (Значимость признака на основе корреляции). Признак
является значимым, если его корреляция с целевым признаком больше
некоторого порога.
Приведенные
определения
независимы
от
алгоритма
обучения,
применяемого к данным, и не дают нам гарантии, что отобранные согласно им
признаки обеспечат высокое качество, например, классификации данных. Для
устранения этого недостатка в работе [34] было приведено определение
инкрементальной значимости признака.
Определение 5 (Пошаговая значимость признака). Пусть 𝐴 – алгоритм
обучения, 𝐶𝑛 – набор признаков, тогда признак 𝑖 является инкрементально
значимым для алгоритма 𝐴 при фиксированном наборе 𝐶𝑛 , если точность
24
работы алгоритма 𝐴 на объединенном множестве признаков {𝑖} ∪ 𝐶𝑛 выше, чем
на множестве 𝐶𝑛 .
В дальнейшем мы будем считать, что признак является значимым при
использовании алгоритма, если он входит в подмножество признаков,
обеспечивающее максимальную точность работы алгоритма на обучающей и
тестовой выборках. Такое определение не предлагает способа поиска значимых
признаков, но иллюстрирует цель отбора – найти подмножество признаков,
наиболее полезных при решении задачи, наиболее точно описывающих
исследуемый процесс, отфильтровать шум, ложные зависимости и упростить
решаемую задачу.
1.2.2 Классификация методов отбора значимых признаков
Определив понятие значимый признак, перейдем к рассмотрению
алгоритмов их поиска. Как правило, осуществляя отбор признаков, необходимо
перебирать
подмножества
признаков
и
выбирать
подмножество,
оптимизирующее некий критерий. Можно осуществлять полный перебор
подмножеств признаков. Этот алгоритм гарантирует, что будет найдено лучшее
из имеющихся подмножество, но сложность алгоритма растет экспоненциально
с ростом количества признаков, поэтому применимость полного перебора
ограничена задачами с 25-30 признаками [49]. Стратегии последовательного
добавления и удаления признаков, которые принято называть жадными,
сокращают трудоемкость перебора и имеют сложность всего 𝑂(𝑛2 ), где 𝑛 –
общее число признаков. Существенным недостатком жадных стратегий
является то, что найденный набор признаков может являться неоптимальным.
Поиск в глубину и ширину, основанные на стратегиях полного обхода дерева,
позволяют вводить эвристики для сокращения полного перебора и находить
оптимальные наборы при количестве признаков порядка 50-70.
Согласно [31] существуют три основных класса алгоритмов отбора
признаков: алгоритмы, встроенные в основной алгоритм обучения (Embedded
approach), методы, надстроенные над основным алгоритмом, они несколько раз
запускают алгоритм обучения с разными параметрами и выбирают лучший
25
вариант (Wrapper approach) и фильтры, применяющиеся к признакам задачи до
запуска основного алгоритма (Filter approach).
Алгоритмы обучения, имеющие встроенный отбор признаков, выбирают
значимые признаки последовательно в процессе обучения на основании
обучающей выборки и внутреннего критерия точности работы алгоритма.
Классическим примером таких алгоритмов являются логические алгоритмы
классификации. Алгоритмы построения решающих списков и деревьев на
каждом шаге выбирают наиболее информативные признаки, составляющие
правило и позволяющее наилучшим образом отделить один фиксированный
класс от остальных. Примерами могут служить алгоритмы построения
решающих деревьев ID3, C4.5, CART [63], «разделяй и властвуй» метод
обучения решающих списков [14].
Второй класс методов отбора признаков независим от основного
алгоритма обучения, но использует основной алгоритм как подпроцедуру.
Методы осуществляют перебор подмножеств признаков и выбирают такое
подмножество, на котором точность работы основного алгоритма обучения
наилучшее. В качестве основного алгоритма может использоваться, например,
решающее дерево [41], [45], алгоритм ближайших соседей [56], нейросеть [64]
и другие методы классификации. Основным преимуществом методов второго
класса является то, что они обеспечивают наилучшую точность. Недостатком
же является их вычислительная сложность.
Третий класс методов отбора признаков объединяет в себе алгоритмы,
отбирающие значимые признаки предварительно, до запуска основного
алгоритма обучения. В литературе [45] эти алгоритмы отбора признаков
получили название фильтрующих. Простейшим примером фильтрующего
алгоритма является упорядочивание признаков по убыванию корреляции с
целевым признаком и выбор 𝑘 признаков с наибольшим значением
вычисленной корреляции.
Одними из наиболее известных алгоритмов отбора признаков являются
RELIEF [48] и FOCUS [27]. В алгоритме RELIEF строится вектор
26
релевантности, для дальнейшей работы используются признаки со значением
релевантности больше заданного порога. Обычно после отбора признаков
алгоритмом RELIEF далее для классификации данных используется алгоритм
решающих деревьев, например, ID3 [31]. Алгоритм FOCUS ищет минимальную
комбинацию признаков, позволяющую наилучшим образом разделить два
класса, выбирая сначала единственный признак, потом пару, тройку и т.д.
Далее к данным применяется классификация решающим деревом. К данным
после фильтрующих алгоритмов отбора признаков могут применяться не
только решающие деревья. Например, Cardie в своем подходе [33] использует
фильтрацию признаков как предварительную подготовку для классификации
алгоритмом ближайших соседей. Koller и соавторы в своей работе [49]
используют информационный критерий для отбора признаков и наивный
байесовский классификатор для разделения объектов разных классов.
К фильтрующим алгоритмам отбора признаков также можно отнести
методы преобразующие признаковое пространство. Чаще всего используется
принцип главных компонент [46], также можно встретить ссылки на метод
независимых компонент [37].
В
диссертационной
работе
разработан
метод
отбора
признаков,
относящийся в фильтрующим алгоритмам. Критерием выбора подмножества
признаков
является
максимизация
расстояния
между
распределениями
признаков в двух классах. Похожий подход применён в [29], где для решения
социологических задач конструировались наборы признаков, разность частот
появления которых в изучаемых классах максимальна по модулю. Для оценки
расстояния между распределениями в классах можно использовать методы из
теории информации, например, вычислять расстояние Кульбака-Лейблера [54].
В [62] используется симметризованное расстояние Кульбака-Лейблера между
распределениями, аппроксимированными смесью параметризованных функций
плотности. В [36] приводится несколько модификаций функции расстояния,
позволяющие достичь более точных результатов. Поскольку реальные законы
распределений признаков в классах неизвестны, то они оцениваются по
27
эмпирическим
данным
с
использованием
дополнительных
гипотез
о
распределении признаков. Точность получаемых оценок зависит от размера
выборки и сложности класса распределений.
В рамках метода отбора признаков, разработанного в диссертационной
работе, рассматривается функционал среднего риска, максимизация которого
эквивалентна
максимизации
симметризованного
расстояния
Кульбака-
Лейблера. В использовании модификации информационного расстояния между
распределениями и заключается сходство предложенного алгоритма с
методами, изложенными в [36], [62], [49]. Но в отличие от работ других авторов
в
методе
выбора
параметрическое
контрастирующих
представление
признаков
распределений
не
признаков
используется
в
классах.
Существенным новшеством предложенного метода является максимизация не
эмпирического риска, а оценки функционала среднего (истинного) риска.
Применение методологии оценки уклонения эмпирического риска от среднего
позволяет определять оптимальный набор признаков при заданном объёме
обучающей выборки. О методах оценки среднего риска речь пойдет в части 1.3
данной главы.
1.3 Обзор методов оценки среднего риска по эмпирическим данным
Решая задачу обучения на основании обучающей выборки, часто
называемую
обучением
по
прецедентам,
строится
алгоритм,
восстанавливающий зависимость выходных переменных от входных на
объектах из обучающей выборки. В то же время, для успешного применения
построенного алгоритма он должен
хорошо работать на произвольных
объектах, не обязательно входящих в обучение. Поэтому одной из центральных
проблем
теории
статистического
обучения
является
оценка
качества
полученного алгоритма восстановления зависимостей по эмпирическим
данным [7].
Пионерами этой области стали Вапник В.Н. и Червоненкис А.Я., которые
в 70-х годах XX века сформулировали основные статистические проблемы
28
обучения в терминах проблемы минимизации среднего риска и предложили
методы оценки среднего риска по эмпирическим данным [3-7], [73-76].
Вапник и Червоненкис в своих работах получили равномерные по классу
функций оценки, связывающие вероятность уклонения среднего риска от
эмпирического с длиной обучающей выборки и сложностью класса функций,
над которыми минимизируется средний риск. Этот фундаментальный результат
активно используется в теоретических и практических исследованиях и
сегодня. Теория продолжает активно развиваться, последователи теории
Вапника-Червоненкиса
занимаются
повышением
точности
равномерных
оценок с учетом особенностей данных и конкретных алгоритмов.
В данном разделе представлен обзор равномерных оценок отклонения
среднего риска от эмпирического. Приведены основные результаты теории
Вапника-Червоненкиса и работ последних лет, включающих методы оценки,
зависящие от данных.
1.3.1 Теория Вапника-Червоненкиса
Задача минимизации среднего риска, частным случаем которой являются
задачи классификации, восстановления регрессии и многие другие, заключается
в нахождении зависимости 𝜑(𝑥), доставляющей минимум функционалу
среднего риска 𝑀(𝜑). Однако, значение среднего риска неизвестно, так как
неизвестны распределения входных x и выходных переменных y, и поэтому
часто на практике вместо минимизации 𝑀(𝜑) применяется минимизация
эмпирического риска 𝑀𝑒 (𝜑) по 𝜑(𝑥). При этом считается, что минимизация
эмпирического риска является хорошим методом для выбора искомой
зависимости, т.к. в силу закона больших чисел средневыборочное значение
сходится к математическому ожиданию, т.е. эмпирический риск сходится к
среднему. В [7] показано, что близость точки минимума эмпирического риска к
минимуму среднего риска зависит от длины выборки и размера класса
функций, из которого выбирается зависимость. Известны примеры классов
функций, для которых минимум эмпирического риска не сходится к минимуму
среднего риска при неограниченном увеличении объёма обучающей выборки.
29
Чтобы величина функционала среднего риска 𝑀(𝜑) была близка к
минимальной не зависимо от того, какая функция 𝜑(𝑥) выбрана, в рамках
теории Вапника-Червоненкиса исследуется вопрос о равномерной сходимости
среднего риска к эмпирическому для класса равномерно ограниченных
функций. Одним из основных результатов теории Вапника-Червоненкиса
является оценка скорости равномерной сходимости.
Пусть для измеримой функции потерь 𝐿(𝑦, 𝜑(𝑥)) выполнено условие
0 ≤ 𝐿(𝑦, 𝜑) ≤ 𝑎. Рассмотрим систему множеств 𝑆 вида
𝐴(𝜑, 𝑐) = {𝑥: 𝐿(𝑦, 𝜑) ≥ 𝑐}
(1.3)
для всевозможных значений 𝑐 и 𝜑(𝑥) ∈ 𝐹.
Тогда справедлива оценка [7]
𝑃 {sup|𝑀(𝜑) − 𝑀𝑒 (𝜑)| > 𝑎𝜀} ≤ 6𝑚
𝜑∈𝐹
𝑆 (2𝑙)
𝜀 2 (𝑙 − 1)
exp (−
),
4
(1.4)
где 𝑙 – длина обучающей выборки, а 𝑚 𝑆 (𝑙) – функция роста системы множеств
𝑆, равная максимальному числу различных способов разделения выборки на
два класса с помощью множеств 𝐴(𝜑, 𝑐) из системы множеств 𝑆. В [7]
показано, что функцию роста можно оценить сверху
𝑚
𝑆 (𝑙)
3𝑙 𝑟−1
<
,
2(𝑟 − 1)!
где (𝑟 − 1) – максимальная длина выборки, которую ещё можно разбить на два
класса всеми возможными способами с помощью множеств из 𝑆. Если для
любого 𝑙 найдется выборка 𝑙 такая, что ее можно разбить множествами из 𝑆 на
классы всеми возможными способами, то 𝑚 𝑆 (𝑙) = 2𝑙 .
Чтобы вероятность 𝑃{sup𝜑∈𝐹 |𝑀(𝜑) − 𝑀𝑒 (𝜑)| > 𝜀} не превышала наперед
заданное значение 𝜂, должно выполняться равенство
9𝑙 𝑟−1
𝜀 2 (𝑙 − 1)
𝜂(𝜀) =
exp (−
).
2(𝑟 − 1)!
4
(1.5)
Из равенства (1.5) точность 𝜀 можно выразить через надежность 𝜂. Раскрывая
модуль в неравенстве (1.4) получаем, что с вероятностью не менее 1 − 𝜂
одновременно для всех 𝜑(𝑥) ∈ 𝐹 выполняется неравенство для среднего риска
30
𝜂
2𝑙
𝑟
+
1)
−
ln
(ln
(
)
√
𝑟
5.
𝑀(𝜑) < 𝑀𝑒 (𝜑) + 2
𝑙−1
Выбор
оптимальной
модели
производится
(1.6)
методом
структурной
минимизации, в котором рассматривается структура вложенных подсемейств
функций, задача обучения решается последовательно в каждом из подсемейств
и выбирается подсемейство, доставляющее минимум оценки среднего риска
(1.6).
Если в рамках задачи требуется не минимизировать, а максимизировать
средний риск, то аналогично из неравенства (1.4) можно получить и нижнюю
оценку среднего риска.
Подробно эта задача будет рассмотрена в главе 2
диссертационной работы.
В [9] исследуются причины завышенности оценок Вапника-Червоненкиса,
которыми
являются:
применение
принципа
равномерной
сходимости,
использование неравенства Буля (оценка максимума суммой) при выводе
оценок равномерной сходимости, применение функции роста, и, как следствие,
независимость оценок от конкретной выборки. Оценка Вапника-Червоненкиса
универсальна, но «она ориентирована на худший случай, который, скорее
всего,
никогда
не
возникнет
на
практике»
[9].
Экспериментальные
исследования показывают, что оценки Вапника-Червоненкиса могут быть
завышены в 106 − 1012 [8], [10].
В работе [8] с использованием оценки Вапника-Червоненкиса вычисляется
необходимая длина обучающей выборки 𝑙 как функции от емкости при
фиксированных значениях точности 𝜀 и надежности 𝜂. Показано, что при
𝜂 = 0.01 и 𝜀 = 0.01 при емкости класса от 10 до 50 необходимо иметь
обучающую выборку длиной порядка 106 , при емкости, равной 100, требуемая
длина обучающей выборки уже достигает порядка 107 . На практике, задачи с
таким большим числом объектов обучения встречаются не так часто, но в
случае использования популяционных данных или данных медицинской
31
статистики такие выборки существуют. В главе 3 диссертационной работы
рассмотрена такая задача анализа данных медицинской статистики.
В первых работах Вапника и Червоненкиса оценка среднего риска
существенно опиралась на использование бинарной функции потерь. Позднее
теория распространилась на случай вещественной ограниченной функции
потерь. Существуют и альтернативные подходы, в работах [47] вводится
понятие fat-разнообразие, которое является ещё одним обобщением функции
роста на случай вещественной функции потерь, ограниченной на интервале
[0,1].
Уточнение оценок, полученных Вапником и Червоненкисом
ведётся в
направлении построения оценок уклонения эмпирического риска от среднего,
зависящих от данных. В разделе 1.3.2 рассматриваются некоторые из таких
оценок.
1.3.2 Оценки среднего риска по эмпирическому риску, адаптированные к
данным
Оценки Вапника-Червоненкиса не зависят ни от распределения 𝑃, ни от
обучающей выборки, поэтому они не учитывают свойств задачи, что делает их
завышенными для большинства задач. В данном разделе рассмотрим меры
сложности, адаптированные к данным: мощность покрытия, зависящую от
распределения 𝑃, и Радемахеровскую сложность (локальную), зависящую от
выборки.
Мощность покрытия. Определим метрику на семействе функций потерь
𝐿 = {𝐿(𝑦, 𝜑(𝑥)): 𝜑 ∈ 𝐹}
𝑙
1
𝜌 (𝐿(𝑦, 𝜑1 (𝑥)), 𝐿(𝑦, 𝜑2 (𝑥))) = ∑|𝐿(𝑦𝑖 , 𝜑1 (𝑥𝑖 )) − 𝐿(𝑦𝑖 , 𝜑2 (𝑥𝑖 ))| , 𝜑1 , 𝜑2 ∈ 𝐹.
𝑙
𝑖=1
Пусть для любого 𝜀 > 0 существует подмножество семейства функций потерь
𝐿′ ⊆ 𝐿, и для любого элемента 𝐿(𝑦, 𝜑) ∈ 𝐿 найдется 𝐿(𝑦, 𝜑′) ∈ 𝐿′ такой, что
‖𝐿(𝑦, 𝜑) − 𝐿(𝑦, 𝜑′)‖ < 𝜀. Минимальная мощность такого подмножества 𝐿′
называется мощностью -покрытия множества 𝐿 а метрике 𝜌 и обозначается
32
𝑁(𝜀, 𝐿, 𝑥). Справедлива оценка уклонения среднего риска от эмпирического на
основе введенной величины покрытия [60].
Пусть функция потерь ограничена на интервале [0,1], класс 𝐹 бесконечный
и несчетный. Тогда для любого 𝜀 > 0, такого что 𝑙𝜀 2 ≥ 8 справедливо
𝑃 {sup|𝑀(𝜑) − 𝑀𝑒 (𝜑)| ≥ 𝜀 } ≤ 8𝐸𝑥 [𝑁(𝜀, 𝐿, 𝑥)]𝑒 −𝑙𝜀
2 /128
𝜑∈𝐹
.
(1.7)
Задача оценки мощности покрытия является отдельной сложной задачей.
Оценка (1.7) зависит от распределения 𝑃, но не зависит от обучающей выборки.
Радемахеровская сложность. Наиболее известной оценкой среднего риска,
зависящей от данных, является оценка, предложенная В. Колчинским [50-53]. В
[52] предложено оценивать эмпирический процесс путем его замены на
радемахеровский процесс
𝑙
1
𝑅(𝐿𝜑 ) = ∑ 𝛿𝑖 𝐿𝜑 (𝑦𝑖 , 𝜑(𝑥𝑖 )) , 𝜑(𝑥) ∈ 𝐹,
𝑙
𝑖=1
где
𝛿1 , … , 𝛿𝑙
независимые
одинаково
распределенные
радемахеровские
случайные величины, принимающие значения +1 и -1 с вероятностью ½ и
независимые от выборки. Процесс 𝑅(𝐿𝜑 ), 𝜑 ∈ 𝐹 зависит от данных, и его
значение может быть вычислено на наборе сгенерированных радемахеровских
случайных величин 𝛿1 , … , 𝛿𝑙 . Для каждой функции 𝜑 ∈ 𝐹, 𝑅(𝐿𝜑 ) имеет смысл
ковариации между значениями функции 𝐿𝜑 на выборке и независимым
радемахеровским шумом. Большое значение величины sup𝜑∈𝐹 |𝑅(𝐿𝜑 )| означает,
что
существует
𝜑∈𝐹
такая
что,
функция
штрафа
𝐿𝜑
близка
к
радемахеровскому шуму, т.е. семейство функций 𝐹 слишком сложное, и
функция,
полученная минимизацией эмпирического риска над таким
семействам скорее всего будет обладать плохой обобщающей способностью.
Величина Радемахеровской сложности или, как ее ещё называют, штрафа
Радемахера, определяется выражением
33
𝑙
1
𝑅(𝐹) = sup|𝑅(𝐿𝜑 )| = sup |∑ 𝛿𝑖 𝐿𝜑 (𝑦𝑖 , 𝜑(𝑥𝑖 ))|.
𝑙 𝜑∈𝐹
𝜑∈𝐹
(1.8)
𝑖=1
В работе [52] оценки скорости равномерной сходимости эмпирического
риска к среднему через Радемахеровсую сложность получены с помощью
неравенств концентрации и симметризации.
Неравенство симметризации, связывающее математическое ожидание
отклонения эмпирического риска от среднего с математическим ожиданием
штрафа Радемахера имеет вид [52], [58]:
𝐸 [sup|𝑀(𝜑) − 𝑀𝑒 (𝜑)|] ≤ 2𝐸[𝑅(𝐹)].
(1.9)
𝜑∈𝐹
Математические ожидания в правой и левой части неравенства симметризации
(1.9) берутся над различными пространствами случайных величин. В левой
части неравенства математическое ожидание берется над выборкой (𝑥1 , … , 𝑥𝑙 ),
а в правой части над радемахеровскими случайными величинами (𝛿1 , … , 𝛿𝑙 ).
В [52] доказано, что значения величин sup𝜑∈𝐹 |𝑀(𝜑) − 𝑀𝑒 (𝜑)| и 𝑅(𝐹)
сконцентрированы вокруг их математических ожиданий. Для функции потерь,
равномерно ограниченной константой 𝑈, и для любого 𝑡 > 0 выполнено
неравенство концентрации
𝑃 {|sup|𝑀(𝜑) − 𝑀𝑒 (𝜑)| − 𝐸 [sup|𝑀(𝜑) − 𝑀𝑒 (𝜑)|]| ≥
𝜑∈𝐹
𝜑∈𝐹
𝑡𝑈
√𝑙
}≤
𝑡2
−
2𝑒 2 .
(1.10)
Аналогичное неравенство концентрации справедливо и для радемахеровского
процесса. Комбинация неравенства симметризации (1.9)
концентрации
позволило
оценить
скорость
равномерной
и неравенств
сходимости
эмпирического риска к среднему через штраф Радемахера.
Пусть функция потерь равномерно ограниченна константой 𝑈, тогда для
любого 𝑡 > 0 выполнено [50]
𝑃 {sup |𝑀(𝜑) − 𝑀𝑒 (𝜑)| ≥ 2𝑅(𝐹) +
𝜑∈𝐹
3𝑡𝑈
√𝑙
}≤
𝑡2
−
𝑒 2.
(1.11)
Неравенство (1.11) дает формулу для оценки уклонения эмпирического
риска от среднего через штраф Радемахера и константу 𝑈, ограничивающую
34
используемый класс функций. Для вычисления значения штрафа Радемахера
необходимо найти супремум по классу функций, который в некоторых случаях
можно вычислить аналитически.
Выразив параметр 𝑡 через наперед заданную надежность 𝜂 и раскрыв
модуль в неравенстве (1.11), получим, что с вероятностью не менее 1 − 𝜂
одновременно для всех 𝜑(𝑥) ∈ 𝐹 справедлива оценка среднего риска
𝑀 (𝜑) < 𝑀𝑒 (𝜑) + 2𝑅(𝐹 ) +
3√−2 ln 𝜂 𝑈
(1.12)
√𝑙
Выбор оптимальной функции так же, как в теории Вапника-Червоненкиса,
может
производиться
методом
структурной
минимизации.
Выбирается
подсемейство функций, доставляющее минимум оценки среднего риска (1.12).
1.4 Основные выводы
Задача восстановления зависимостей по эмпирическим данным сводится к
задаче нахождения экстремума функционала среднего риска. Такой постановке
удовлетворяют
не
только
регрессионных
зависимостей
задачи
или
классификации,
оценки
восстановления
плотности
распределения
вероятностей, но и задачи отбора признаков, которые часто являются
предварительным этапом обучения.
Функционал среднего риска вычисляется с учётом закона распределения
изучаемых объектов, который в общем случае неизвестен. Для оценки
функционала среднего риска по эмпирическим данным используется средний
риск. Величина отклонения среднего риска от эмпирического может
оцениваться различными способами, связывающими вероятность отклонения с
длиной выборки и сложностью класса функций. Среди этих способов
лидирующее
место
занимают
оценки,
основанные
на
вычислении
комбинаторной размерности Вапника и Червоненкиса, Fat-размерности (Кернс
и Шапиро), мощности покрытия (Мендельсон), а также оценки, основанные на
Радемахеровской сложности.
35
2 Разработка метода выбора контрастирующих признаков
Задача контрастирования распределений возникает при отборе факторов и
признаков распределения которых в наибольшей степени различаются при
сравнении
двух
классов.
Примером
является
выбор
симптомов
и
сопутствующих заболеваний при выяснении условий развития конкретной
патологии, например, возникновения онкологического заболевания. Также
такой подход может применяться при выделении набора параметров, связанных
с интересующим состоянием технического объекта, например, с исправным
функционированием отдельных узлов.
В второй главе описывается постановка задачи выбора контрастирующих
признаков как задачи максимизации среднего риска и рассматриваются методы
максимизации среднего через эмпирический с применением равномерной
оценки
Вапника-Червоненкиса
и
адаптированной
к
данным
оценки,
использующей штрафную функцию Радемахера.
2.1 Средний риск
Многие задачи анализа данных могут быть поставлены как задачи
минимизации
среднего
риска.
Такими
задачами
являются
задача
классификации, восстановления регрессионной зависимости, восстановления
плотности распределения. Задача выбора контрастирующих признаков может
быть сформулирована аналогичным образом.
Пусть 𝑋 ∈ 𝐑𝑛 – множество объектов, 𝑌 = {0,1} – множество классов, 𝑃 –
неизвестное вероятностное распределение на 𝑋 × 𝑌. Обозначим (𝑥, 𝑦)
случайную пару из распределения 𝑃. Объект 𝑥 = (𝑥(1), … , 𝑥(𝑛)) – 𝑛-мерный
вектор, координаты вектора имеют смысл признаков.
Определим байесовские оценки многомерных гистограмм. Пусть область
значения координаты 𝑥(𝑗) разделена на 𝜏𝑗 интервалов, тогда 𝑘 = ∏𝑛𝑗=1 𝜏𝑗 –
число интервалов 𝑛-мерной гистограммы, 𝜎1 , … , 𝜎𝑘 – 𝑛-мерные интервалы
деления области значений 𝑥. Если априорное распределение вероятностей
36
равномерно на 𝑘-мерном симплексе, то 𝜑𝑦𝑏 (𝑥) – байесовская оценки n-мерной
гистограммы распределения в классе 𝑦 [7]
𝑘
𝜑𝑦𝑏 (𝑥)
𝑦
𝑛 +1
= ∑ 𝐼{𝑥 ∈ 𝜎𝑖 } 𝑖
,
𝑙𝑦 + 𝑘
𝑖=1
где 𝑦 = 0, 1, 𝐼{𝑥 ∈ 𝜎𝑖 } – индикатор, значение которого равно 1, если 𝑥
принадлежит интервалу 𝜎𝑖 , и равно 0 иначе, 𝑙𝑦 – размер независимой выборки
𝑦
из класса 𝑦, 𝑛𝑖 – количество элементов выборки из класса 𝑦, попавших в
интервалы 𝜎𝑖 гистограммы.
Класс 𝐹 – класс байесовских оценок гистограмм, построенных для
всевозможных подмножеств множества признаков.
Использование байесовских оценок гистограмм обосновано удобством их
применения:
они
не
принимают
нулевых
значений
и
являются
непараметрическими. Мера различия гистограмм вводится через средний риск,
для этого определим функцию штрафа
𝐿(𝑥, 𝑦, 𝜑0𝑏 , 𝜑1𝑏 ) = −𝑦 ln 𝜑0𝑏 (𝑥) − (1 − 𝑦) ln 𝜑1𝑏 (𝑥)
(2.1)
и рассмотрим ее математическое ожидание - функционал среднего риска
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) = −𝐸𝑥𝑦 [𝑦 ln 𝜑0𝑏 (𝑥) + (1 − 𝑦) ln 𝜑1𝑏 (𝑥)].
Средний
распределению
риск
(2.2)
имеет
смысл
взвешенной
𝑦 энтропии плотностей 𝜑0𝑏 (𝑥)
(2.2)
по
априорному
и 𝜑1𝑏 (𝑥) относительно
распределения случайной величины 𝑥 в классах 1 и 0. В диссертации
рассматривается задача максимизации среднего риска в заданном классе 𝐹.
Если 𝑥 – вектор непрерывных признаков, и 𝑝(𝑥|𝑦 = 0) и 𝑝(𝑥|𝑦 = 1) –
плотности распределения в двух классах. Для случая непрерывного вектора
признака обоснуем целесообразность максимизации среднего риска, запишем
функционал среднего риска в виде
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) = 𝐷(𝜑0𝑏 , 𝜑1𝑏 )
− 𝐸𝑥𝑦 [𝑦 ln 𝑝(𝑥|𝑦 = 1) + (1 − 𝑦) ln 𝑝(𝑥|𝑦 = 0)],
где
(2.3)
37
𝐷(𝜑0𝑏 , 𝜑1𝑏 )
𝜑0𝑏 (𝑥)
𝜑1𝑏 (𝑥)
= −𝐸𝑥𝑦 [𝑦 ln
+ (1 − 𝑦) ln
].
𝑝(𝑥|𝑦 = 1)
𝑝(𝑥|𝑦 = 0)
Очевидно, что задача максимизации функционала среднего риска по 𝜑0𝑏 (𝑥)
и 𝜑1𝑏 (𝑥) эквивалентна максимизации функционала 𝐷(𝜑0𝑏 , 𝜑1𝑏 ), т.к. второе
слагаемое в выражении (2.3) не зависит от плотностей 𝜑0𝑏 (𝑥)
и 𝜑1𝑏 (𝑥).
Функционал 𝐷(𝜑0𝑏 , 𝜑1𝑏 ) представляет собой расстояние Кульбака-Лейблера
между оценкой 𝜑0𝑏 (𝑥) и плотностью 𝑝(𝑥|𝑦 = 1) и 𝜑1 (𝑥) и 𝑝(𝑥|𝑦 = 0) [54].
Задача максимизации функционала 𝐷(𝜑0 , 𝜑1 ) соответствует поиску в
классе 𝐹 двух оценок 𝜑0𝑏 (𝑥) и 𝜑1𝑏 (𝑥), которые по количеству информации
максимально отличаются от плотностей распределения вектора 𝑥 в двух
классах. То есть, найденная оценка 𝜑0𝑏 (𝑥) должнa максимально отличаться в
смысле информационной меры Кульбака-Лейблера от истинной плотности 𝑥 в
классе 1, а найденная плотность распределения 𝜑1𝑏 (𝑥) должна максимально
отличаться от истинной плотности распределения 𝑥 в классе 0.
Максимизируя средний риск (2.2) по классу гистограмм, построенных на
разном числе признаков, получим набор признаков, для которого байесовские
оценки максимально отличаются в смысле смешанной энтропии.
2.2 Эмпирический риск
Поскольку распределения вектора 𝑥 в двух классах неизвестны, то
величину функционала среднего риска нельзя вычислить точно, и она
оценивается по экспериментальным данным.
𝑦
𝑦
Пусть 𝑥1 , … , 𝑥𝑙𝑦 – выборка из класса 𝑦, 𝑦 = 0,1. Тогда байесовские оценки
вероятности попадания в i-ый интервал для каждого класса имеют вид
𝑦
𝜑𝑦𝑏 (𝑖)
𝑦
𝑙
𝑦
𝑦
где 𝑦 = 0,1, 𝑛𝑖 = ∑𝑗=1
𝐼{𝑥𝑗 ∈ 𝜎𝑖 }.
При этом выполняются ограничения
𝑛 +1
= 𝑖
,
𝑙𝑦 + 𝑘
38
0 < 𝑐 ≤ 𝜑𝑦𝑏 (𝑖), 𝑖 = 1, … , 𝑘, 𝑐 =
1
;
𝑘 + max(𝑙0 , 𝑙1 )
(2.4)
𝑘
∑ 𝜑𝑦𝑏 (𝑖) = 1, 𝑦 = 0,1.
(2.5)
𝑖=1
Эмпирический риск равен среднему по выборке значению функции
штрафа
𝑘
𝑘
1
𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) = −
(∑ 𝑛1𝑖 ln 𝜑0𝑏 (𝑖) + ∑ 𝑛𝑖0 ln 𝜑1𝑏 (𝑖)).
𝑙0 + 𝑙1
𝑖=1
(2.6)
𝑖=1
Нетрудно убедится, что математическое ожидание эмпирического риска
для фиксированных функций 𝜑0𝑏 (𝑥) и 𝜑1𝑏 (𝑥) равно значению среднего риска на
них, а при неограниченном увеличении числа наблюдений 𝑙0 и 𝑙1 значение
эмпирического риска с вероятностью 1 сходится к значению среднего риска. В
нашем случае функции 𝜑0𝑏 и 𝜑1𝑏 не фиксированы, а определяются случайными
выборками.
2.3 Равномерная оценка Вапника-Червоненкиса уклонения эмпирического
риска от среднего в задаче контрастирования
Для оценки уклонения эмпирического риска от среднего можно
использовать равномерную оценку уклонения математического ожидания от
среднего значения [7]. Пользуясь этой оценкой, средний риск выражается через
неравенства, включающие величину эмпирического риска, длину выборки и
сложность класса функций, в котором оценивается средний риск. Следуя [7],
введем понятие сложности класса функций 𝐹.
Рассмотрим выборку 𝑥1 , … , 𝑥𝑙 . Выборка длины 𝑙, вообще говоря, может
быть разделена на два класса 2𝑙 способами. Однако нас будут интересовать
только те способы разделения выборки, которые могут быть реализованы с
помощью функций из класса 𝐹. Число таких разделений зависит как от класса
функций, так и от состава обучающей выборки.
разбиений
по
всевозможным выборкам длины
Максимизируя число
𝑙, получим величину,
независимую от состава выборки, а зависящую только от длины выборки и
39
свойств класса функций 𝐹. Эту величину принято называть функцией роста
класса функций 𝐹 и обозначать 𝑚𝐹 (𝑙). В [7] приведены свойства функции
роста, способы ее вычисления и оценки.
Чтобы использовать результат Вапника-Червоненкиса о сходимости
средних к математическим ожиданиям, заметим, что средний риск (2.2)
является математическим ожиданием, эмпирический риск (2.6) можно
интерпретировать как средневыборочное значение функции штрафа (2.1).
Функции ln 𝜑𝑦𝑏 , для которых вычисляются значения функционалов
среднего и эмпирического рисков, равномерно ограничены, поскольку для
байесовских оценок справедливo неравенствo (2.4), из которого следует
равномерная ограниченность функций ln 𝜑𝑦𝑏 :
| ln 𝜑𝑦𝑏 | ≤ ln(𝑘 + max(𝑙0 , 𝑙1 )) = 𝑈,
а, следовательно, и равномерная ограниченность функции штрафа (2.1)
|𝐿(𝑥, 𝑦, 𝜑0𝑏 , 𝜑1𝑏 )| = |𝑦 ln 𝜑0𝑏 (𝑥) + (1 − 𝑦)𝜑1𝑏 (𝑥)| ≤ max(|ln 𝜑0𝑏 |, |ln 𝜑1𝑏 |) ≤ 𝑈.
Пусть 𝑆 – система множеств {𝑥, 𝑦: 𝐿(𝑥, 𝑦, 𝜑0𝑏 , 𝜑1𝑏 ) ≥ 𝑐} при произвольно
меняющейся величине 𝑐 и 𝜑0𝑏 , 𝜑1𝑏 , удовлетворяющим ограничениям (2.4) и
(2.5).
Тогда справедлив результат Вапника-Червоненкиса о равномерном
уклонении средних от математических ожиданий для классов равномерно
ограниченных функций
𝑃 { sup |𝑀(𝜑0𝑏 , 𝜑1𝑏 ) − 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 )| > 𝜀 ∙ 𝑈} ≤ 6𝑚 𝑆 (2𝑙) exp (−
𝜑0𝑏 ,𝜑1𝑏
𝑙−1 2
𝜀 ),
4
(2.7)
где 𝑚 𝑆 (2𝑙) – функция роста системы множеств 𝑆, 𝑙 – размер объединенной
выборки, 𝑙 = 𝑙0 + 𝑙1 .
Оценку для функции роста системы множеств 𝑆 получим, учитывая, что
байесовские оценки плотностей
𝜑0𝑏 (𝑥) и 𝜑1𝑏 (𝑥) являются гистограммами,
построенными на многомерных сетках, состоящих из 𝑘 ячеек.
40
Утверждение 1. Пусть ℎ(𝑥) – гистограмма, построенная для 𝑘 фиксированных
интервалов, 𝐻 – множество таких гистограмм. Для функции роста системы
множеств 𝑆 = {𝑥: ℎ(𝑥) ≥ 𝑐, ℎ ∈ 𝐻} справедлива оценка 𝑚 𝑆 (2𝑙) < (2𝑙)𝑘 .
Доказательство. В [7] доказано, что функция роста 𝑚 𝑆 (𝑙) любой системы 𝑆
либо равна 2𝑙 , либо оценивается сверху выражением 𝑙 𝑛−1 , где 𝑛 – минимальное
число элементов, при котором никакую выборку, состоящую из 𝑛 элементов,
нельзя разбить на две подвыборки 2𝑛 способами с помощью элементов системы
𝑆. Ясно, что множество гистограмм, построенных для 𝑘 фиксированных
интервалов, порождает не более, чем 2𝑘 разбиений любой выборки, и, значит,
выборка, состоящая из 𝑘 + 1 элементов, не может быть разбита на две 2𝑘+1
способами. Следовательно, для множества гистограмм, построенных для 𝑘
элементов, справедлива оценка 𝑚 𝑆 (2𝑙) < (2𝑙)𝑘 , что и требовалось доказать.
Используя
равномерную
оценку
Вапника-Червоненкиса
уклонения
среднего риска от эмпирического получим нижнюю оценку функционала
среднего риска (2.3).
Утверждение 2. В классе байесовских гистограммных оценок с вероятностью
не менее 1 − 𝜂 справедлива нижняя оценка для функционала среднего риска
𝑘
ln 6(2(𝑙0 + 𝑙1 )) − ln 𝜂 (2.8)
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) ≥ 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2 ln(𝑘 + max(𝑙0 , 𝑙1 )) √
𝑙0 + 𝑙1 − 1
Доказательство. Из неравенства (2.7) следует
𝑃 { sup |𝑀(𝜑0𝑏 , 𝜑1𝑏 ) − 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 )| ≤ 𝜀 ∙ 𝑈} ≥ 1 − 6𝑚 𝑆 (2𝑙) exp (−
𝜑0𝑏 ,𝜑1𝑏
𝑙−1 2
𝜀 ).
4
Потребуем, чтобы неравенство
sup |𝑀(𝜑0𝑏 , 𝜑1𝑏 ) − 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 )| ≤ 𝜀 ⋅ 𝑈
𝜑0𝑏 ,𝜑1𝑏
выполнялось с вероятностью не менее 1 − 𝜂. Тогда можем написать
1 − 6𝑚 𝑆 (2𝑙) exp (−
𝑙−1 2
𝜀 ) = 1 − 𝜂.
4
Значение параметра 𝜂 может варьироваться в зависимости от точности,
необходимой в задаче. Выразим величину 𝜀 через 𝜂 и получим
41
ln(6𝑚𝑆 (2𝑙)) − ln 𝜂
𝜀 = 2√
.
𝑙−1
Используя
неравенства,
выполненные
для
любых
гистограмм,
удовлетворяющих (2.4) и (2.5), запишем
𝜀 ⋅ 𝑈 ≥ sup |𝑀(𝜑0𝑏 , 𝜑1𝑏 ) − 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 )| ≥ |𝑀(𝜑0𝑏 , 𝜑1𝑏 ) − 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 )|
𝜑0𝑏 ,𝜑1𝑏
и раскрывая модуль, получаем оценку снизу для среднего риска по значению
эмпирического риска, справедливую с вероятностью не менее 1 − 𝜂
𝑘
ln 6(2(𝑙0 + 𝑙1 )) − ln 𝜂
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) ≥ 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2 ln(𝑘 + max(𝑙0 , 𝑙1 )) √
,
𝑙0 + 𝑙1 − 1
что и требовалось доказать.
Для надежной максимизации среднего риска необходимо максимизировать
эмпирический риск с учетом штрафного члена, величина которого растет с
увеличением числа интервалов, для которых строятся гистограммы.
2.4 Оценки среднего риска, основанные на Радемахеровской сложности
2.4.1 Штраф Радемахера
Результаты,
полученные
Вапником
и
Червоненкисом,
являются
универсальными, охватывают общий случай и дают оценку уклонения среднего
риска от эмпирического, справедливую для всех функций из заданного класса.
Отсюда следует и основная проблема оценок Вапника-Червоненкиса –
завышенность полученных оценок вероятности. Современные тенденции
исследований
направлены
на
повышение
точности
оценок
с
учётом
особенностей эмпирических данных [52].
В 1999 году В. Колчинский ввел в теорию статистического обучения
понятие радемахеровской сложности и штрафа Радемахера. Радемахеровская
сложность
–
мера
сложности
класса
вещественных
функций.
Она
интерпретируется как максимальная ковариация функций из данного класса со
случайным (радемахеровским) шумом [52]. Чем сложнее множество функций,
тем выше шансы найти в нём функцию, похожую на произвольный случайный
42
шум, тем больше величина штрафа Радемахера. Выведем вид штрафа
Радемахера в терминах рассматриваемой нами задачи.
Функционал эмпирического риска может быть записан в форме
𝑙1
𝑙0
𝑖=1
𝑖=1
1
𝑏
𝑏
𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) = −
(∑ ln 𝜑0,𝑥
0 ),
1 + ∑ ln 𝜑
1,𝑥
𝑖
𝑖
𝑙0 + 𝑙1
𝑏
где 𝜑𝑦,𝑥
𝑡 – байесовская оценка вероятности попадания элемента выборки класса
𝑖
𝑦 в интервал гистограммы, в который попал элемент 𝑥𝑖𝑡 выборки 𝑡.
Пусть 𝛿10 , … , 𝛿𝑙00 , 𝛿11 , … , 𝛿𝑙11 - последовательность независимых одинаково
распределенных случайных величин, принимающих значения +1 и -1 с
вероятностью ½ и независимых от выборки (𝑥10 , … , 𝑥𝑙00 , 𝑥11 , … , 𝑥𝑙11 ). Штраф
Радемахера имеет вид
𝑙1
𝑙0
𝑖=1
𝑖=1
1
𝑏
𝑏
0
𝑅(𝐹) = sup |
(∑ 𝛿𝑖1 ln 𝜑0,𝑥
0 )|.
1 + ∑ 𝛿𝑖 ln 𝜑
1,𝑥
𝑖
𝑖
𝜑0𝑏 ,𝜑1𝑏 ∈𝐹 𝑙0 + 𝑙1
Просуммировав
𝑦
𝛿𝑖 ,
переменные
соответствующие
одинаковым
интервалам, получим
𝑘
1
𝑅(𝐹) = sup |
∑(Δ1𝑖 ln 𝜑0𝑏 (𝑖) + Δ0𝑖 ln 𝜑1𝑏 (𝑖))|,
𝜑0𝑏 ,𝜑1𝑏 ∈𝐹 𝑙0 + 𝑙1
(2.9)
𝑖=1
𝑦
𝑦
где Δ𝑖 - сумма переменных 𝛿𝑡 , соответствующих i-ому интервалу гистограммы,
𝑦
полученная согласно правилу: если 𝑥𝑡 входит в i-ый интервал гистограммы, то
𝑦
𝑦
соответствующий ему 𝛿𝑡 входит в сумму Δ𝑖 .
Отметим, что по построению справедливо
𝑘
𝑦
∑ Δ 𝑖 ≤ 𝑙𝑦 .
𝑖=1
𝑦
𝑦
Обозначим Δ𝑦 = (Δ1 , … , Δ𝑘 ).
Чтобы найти величину штрафа Радемахера сформулируем и
докажем Лемму 1 и Теорему 1.
Теорема 1. В классе байесовских оценок гистограмм 𝐹 величина
43
𝑘
𝑦
𝑄(𝐹, Δ𝑦 ) = max
∑ Δ𝑖 ln 𝜑𝑦𝑏 (𝑖)
𝑏
𝜑𝑦 ∈𝐹
𝑖=1
равна
𝑦
𝑦
1) если ∃ 𝑡: Δ𝑡 < 0 и Δ𝑖 ≤ 0, 𝑖 = 1, … , 𝑘, то
𝑘
𝑦
Δ𝑗
𝑄(𝐹, Δ𝑦 ) =
𝑦
ln(1 − 𝑐(𝑘 − 1)) + ∑ Δ𝑖 ln 𝑐 ,
𝑖=1,𝑖≠𝑗
где 𝑗 = arg max𝑖 Δ𝑖 𝑦 ,
𝑦
𝑦
2) если Δ𝑖 ≤ 0, 𝑖 = 1, … , 𝑠 и Δ𝑖 > 0, 𝑖 = 𝑠 + 1, … , 𝑘, то
𝑠
𝑄(𝐹, Δ
3) если
𝑦
Δ𝑖
𝑦)
=
𝑘
𝑦
∑ Δ𝑖
𝑖=1
𝑦
Δ𝑖
ln 𝑐 + ∑
𝑖=𝑠+1
𝑦
Δ (1 − 𝑐𝑠)
ln 𝑖 𝑘
,
∑𝑗=𝑠+1 Δ𝑗𝑦
> 0, 𝑖 = 1, … , 𝑘, то
𝑘
𝑄(𝐹, Δ𝑦 ) =
𝑦
∑ Δ𝑖
𝑖=1
𝑦
ln
Δ𝑖
∑𝑘𝑗=1 Δ𝑗𝑦
.
Доказательство.
1) Рассмотрим случай, когда все коэффициенты неположительны:
𝑦
Δ𝑖 ≤ 0, 𝑖 = 1, … , 𝑘.
Рассмотрим
функцию
𝑦
𝑟(𝜑𝑦𝑏 ) = 𝑟 (𝜑𝑦𝑏 (1), … , 𝜑𝑦𝑏 (𝑘)) = ∑𝑘𝑖=1 Δ𝑖 ln 𝜑𝑦𝑏 (𝑖).
координаты градиента grad 𝑟(
𝜑𝑦𝑏 )
=(
𝑦
Δ1
𝑏 (1)
𝜑𝑦
,…,
𝑦
Δ𝑘
𝑏 (𝑘)
𝜑𝑦
Все
) отрицательны, тогда
максимум функции 𝑟(𝜑𝑦𝑏 ) достигается в вершине симплекса Γ = {𝜑𝑦𝑏 (𝑖): 0 <
𝑐 ≤ 𝜑𝑦𝑏 (𝑖), 𝑖 = 1, … , 𝑘; ∑𝑘𝑖=1 𝜑𝑦𝑏 (𝑖) = 1}. Вершины симплекса Γ представляют
собой точки c 𝑘 координатами, значения 𝑘 − 1 координат равны 𝑐, значение
одной координаты равно 1 − 𝑐(𝑘 − 1). Вершина симплекса с номером 𝑗 имеет
вид 𝑣𝑗 = (𝑐, … ,1 − 𝑐(𝑘 − 1), … , 𝑐), где неравная 𝑐 координата стоит на j-ом
месте. Исследуемая функция 𝑟(𝜑𝑦𝑏 ) в вершине 𝑣𝑗 принимает значение
𝑘
𝑦
𝑦
𝑟(𝑣𝑗 ) = ∑ Δ𝑖 ln 𝑐 + Δ𝑗 ln(1 − 𝑐(𝑘 − 1)).
𝑖=1,𝑖≠𝑗
44
Ясно что,
max
𝑟(𝜑𝑦𝑏 ) = max {𝑟(𝑣𝑗 )}.
𝑏
𝑗=1,…,𝑘
𝜑𝑦 ∈𝐹
Тогда в качестве 𝑗 выберем индекс, соответствующий максимальной
𝑦
величине Δ𝑗 , получим
𝑘
𝑦
𝑦
𝑄(𝐹, Δ𝑦 ) = ∑ Δ𝑖 ln 𝑐 + Δ𝑗 ln(1 − 𝑐(𝑘 − 1)),
𝑖=1,𝑖≠𝑗
𝑦
где 𝑗 = arg max𝑖 Δ𝑖 .
𝑦
2) Рассмотрим случай, когда коэффициенты Δ𝑖 принимают значения любого
знака. Не ограничивая общности, будем считать, что коэффициенты
упорядочены по возрастанию:
𝑦
𝑦
𝑦
𝑦
Δ1 ≤ ⋯ ≤ Δ𝑠 ≤ 0 < Δ𝑠+1 ≤ ⋯ ≤ Δ𝑘 .
В случае, если все коэффициенты положительны, 𝑠 = 0.
Построим Лагранжиан
𝑘
𝑘
𝑦
𝐿(𝜑𝑦𝑏 , 𝜆, 𝜇) = ∑ Δ𝑖 ln 𝜑𝑦𝑏 (𝑖) − 𝜆 (∑ 𝜑𝑦𝑏 (𝑖) − 1) + 𝜇𝑇 (𝜑𝑦𝑏 (𝑖) − 𝑐),
𝑖=1
𝑖=1
𝑦
𝜕𝐿
Δ𝑖
=
− 𝜆 + 𝜇𝑖 ,
𝜕𝜑𝑦𝑏 (𝑖) 𝜑𝑦𝑏 (𝑖)
при 𝜇𝑖 ≥ 0.
Найдём критические точки системы Лагранжа
𝑦
Δ𝑖
− 𝜆 + 𝜇𝑖 = 0, 𝑖 = 1, … , 𝑘
𝜑𝑦𝑏 (𝑖)
𝑘
∑ 𝜑𝑦𝑏 (𝑖) = 1
𝑖=1
𝜇𝑖 (𝜑𝑦𝑏 (𝑖) − 𝑐) ≥ 0, 𝑖 = 1, … , 𝑘
𝜇𝑖 ≥ 0, 𝜑𝑦𝑏 (𝑖) ≥ 𝑐, 𝑖 = 1, … , 𝑘.
Обозначим за 𝐽𝑐 – множество индексов, для которых функция 𝜑𝑦𝑏 (𝑖) равна
константе 𝑐:
45
𝐽𝑐 = {𝑗: 𝜑𝑦𝑏 (𝑗) = 𝑐}.
За 𝑁 = |𝐽𝑐 | обозначим мощность множества 𝐽𝑐 . За 𝐼𝑐 = 𝐽̅𝑐 = 𝐼\ 𝐽𝑐 обозначим
дополнение к множеству 𝐽𝑐 .
C учётом введённых обозначений имеем:
𝑦
𝜑𝑦𝑏 (𝑗) = 𝑐,
𝜇𝑗 = 𝜆 −
Δ𝑗
,
𝑐
𝜇𝑗 ≥ 0, 𝑗 ∈ 𝐽𝑐 ;
𝑦
Δ
𝜑𝑦𝑏 (𝑖) = 𝑖 ,
𝜆
𝜑𝑦𝑏 (𝑖) ≥ 𝑐,
𝜇𝑖 = 0, 𝑖 ∈ 𝐼𝑐 .
Выразим величину 𝜆, исходя из равенства единице суммы 𝜑𝑦𝑏 (𝑖)
с𝑁 +
𝜆=
∑𝑖∈𝐼𝑐 Δ𝑦𝑖
𝜆
∑𝑖∈𝐼𝑐 Δ𝑦𝑖
1 − 𝑁𝑐
= 1;
.
Все 𝜑𝑦𝑏 (𝑖) не могут быть одновременно равны 𝑐, т.к. 𝑐𝑘 =
𝑘
𝑘+𝑙
< 1,
следовательно, выполнено 𝑁 < 𝑘, 𝐼𝑐 ≠ ∅. Множество 𝐼𝑐 не пусто, из первого
𝑦
равенства с учетом 𝑐𝑁 < 1 следует, что ∑𝑖∈𝐼𝑐 Δ𝑖 ≠ 0, поэтому параметр 𝜆
определен во всех возможных стационарных точках.
Для решения задачи необходимо найти такие множества 𝐽𝑐 , для которых
система Лагранжа будет совместна. Исследуем решение с учетом
наложенных ограничений-неравенств: 𝜇𝑗 ≥ 0, 𝑗 ∈ 𝐽𝑐 и 𝜑𝑦𝑏 (𝑖) ≥ 𝑐, 𝑖 ∈ 𝐼𝑐 ,
получим
𝑦
Δ𝑗
∑𝑖∈𝐼𝑐 Δ𝑦𝑖
𝜇𝑗 =
−
≥ 0, 𝑗 ∈ 𝐽𝑐 ;
(1 − 𝑐𝑁) 𝑐
𝑦
𝜑𝑦𝑏 (𝑖)
𝑦
=
Δ𝑖
∑𝑖∈𝐼𝑐 Δ𝑦𝑖
Если ∑𝑖∈𝐼𝑐 Δ𝑖 < 0, то получаем
(1 − 𝑐𝑁) ≥ 𝑐, 𝑖 ∈ 𝐼𝑐 .
46
𝑦
Δ𝑗 ≤
𝑐
𝑦
∑ Δ𝑖 < 0, 𝑗 ∈ 𝐽𝑐
1 − 𝑐𝑁
𝑖∈𝐼𝑐
𝑦
Δ𝑖 ≤
𝑐
𝑦
∑ Δ𝑖 < 0, 𝑖 ∈ 𝐼𝑐
1 − 𝑐𝑁
𝑖∈𝐼𝑐
𝑦
Тогда Δ𝑖 отрицательные, и этот случай разобран в пункте 1) доказательства.
𝑦
Если ∑𝑖∈𝐼𝑐 Δ𝑖 > 0, то получаем
𝑐
𝑦
∑ Δ𝑖 , 𝑗 ∈ 𝐽𝑐
1 − 𝑐𝑁
(2.10)
𝑐
𝑦
∑ Δ𝑖 > 0, 𝑖 ∈ 𝐼𝑐
1 − 𝑐𝑁
(2.11)
𝑦
Δ𝑗 ≤
𝑖∈𝐼𝑐
𝑦
Δ𝑖 ≥
𝑖∈𝐼𝑐
𝑦
Множество 𝐼𝑐 не содержит индексы отрицательных коэффициентов Δ𝑖 .
Положим 𝐽𝑐 = {1, … , 𝑠} и докажем, что никакой коэффициент нельзя ни
исключить из 𝐽𝑐 , ни добавить в 𝐽𝑐 .
Попробуем добавить индекс (𝑠 + 1) в множество 𝐽𝑐 . Пусть 𝐽𝑐 = {1, … , 𝑠 +
1}, а 𝐼𝑐 = {𝑠 + 2, … , 𝑘} проверим неравенства (2.10)-(2.11).
𝑦
𝑦
По условию Δ𝑠+1 > 0, следовательно, по построению Δ𝑠+1 ≥ 1. Также по
𝑦
𝑦
𝑦
построению коэффициентов ∑𝑖∈𝐼𝑐 Δ𝑖 ≤ ∑𝑘𝑖=1 Δ𝑖 − Δ𝑠+1 ≤ 𝑙 − 1 < 𝑙 и из
условия 𝑘 > 𝑠, следует цепочка неравенств
𝑐
𝑐
𝑙
𝑦
𝑦
⋅𝑙 =
≤ 1 ≤ Δ𝑠+1 .
∑ Δ𝑖 <
1 − 𝑐𝑁
1 − 𝑐𝑁
𝑙+𝑘−𝑠−1
𝑖∈𝐼𝑐
Получили (𝑠 + 1) ∈ 𝐼𝑐 . Большие индексы 𝑠 + 2, … , 𝑘 не могут входить в 𝐽𝑐 ,
𝑦
𝑦
т.к. из (2.10)-(2.11) следует, что если 𝑖 ∈ 𝐼𝑐 , 𝑗 ∈ 𝐽𝑐 , то Δ𝑗 ≤ Δ𝑖 .
Таким образом, получили, что ограничения (2.10)-(2.11) справедливы
тогда и только тогда, когда 𝐽𝑐 = {1, … , 𝑠}, 𝐼𝑐 = {𝑠 + 1, … , 𝑘}.
Решение задачи будет иметь вид
47
𝜑𝑦𝑏 (𝑗) = 𝑐, 𝑗 = 1, … , 𝑠
𝑦
Δ (1 − 𝑠𝑐)
𝜑𝑦𝑏 (𝑖) = 𝑖 𝑘
, 𝑖 = 𝑠 + 1, … , 𝑘
∑𝑗=𝑠+1 Δ𝑗𝑦
Тогда максимальное значение функции равно
𝑠
𝑄(𝐹, Δ
𝑦)
=
𝑘
𝑦
∑ Δ𝑖
𝑖=1
ln 𝑐 + ∑
𝑖=𝑠+1
𝑦
Δ𝑖
𝑦
Δ (1 − 𝑐𝑠)
ln 𝑖 𝑘
.
∑𝑗=𝑠+1 Δ𝑗𝑦
𝑦
3) Если все коэффициенты Δ𝑖 строго положительны, то доказательство
дословно повторяет доказательство в пункте 2) в точности до
подстановки 𝑠 = 0. Тогда 𝐽𝑐 = ∅, 𝐼𝑐 = {1, … , 𝑘}.
𝑘
𝑄(𝐹, Δ
𝑦)
=
𝑦
∑ Δ𝑖
𝑖=1
𝑦
ln
Δ𝑖
∑𝑘𝑗=1 Δ𝑗𝑦
,
что и требовалось доказать.
Теорема 1. В классе байесовских оценок гистограмм 𝐹 штраф Радемахера
вычисляется по формуле
𝑅(𝐹) =
1
max{𝑄(𝐹, Δ1 ) + 𝑄(𝐹, Δ0 ); 𝑄(𝐹, −Δ1 )
𝑙0 + 𝑙1
(2.12)
+ 𝑄(𝐹, −Δ0 )}.
Доказательство. Выражение (2.12) получается из формулы (2.9) путем
раскрытия супремума модуля по правилу: sup|𝐴| = max{sup 𝐴 ; sup −𝐴} и
заменой супремума, на достижимый максимум, который можно вычислить
по правилам из Леммы 1.
Таким образом, Лемма 1 и Теорема 1 позволяют найти величину
штрафа Радемахера в явном виде в классе байесовских оценок.
2.4.2 Оценка среднего риска
Значения штрафа Радемахера и эмпирического риска используются для
оценки функционала среднего риска с помощью неравенства, полученного в
48
работах Колчинского [50]. Для класса равномерно ограниченных константой 𝑈
функций потерь и для любого 𝑡 > 0 выполнено
𝑃 { sup
𝜑0𝑏 ,𝜑1𝑏 ∈𝐹
|𝑀(𝜑0𝑏 , 𝜑1𝑏 )
−
𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 )|
𝑡2
≥ 2𝑅(𝐹) +
} ≤ exp (− ).
2
√𝑙0 + 𝑙1
3𝑡𝑈
Утверждение 4. В классе байесовских оценок гистограмм 𝐹 с вероятностью не
менее 1 − 𝜂 справедлива нижняя оценка для функционала среднего риска
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) > 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2𝑅(𝐹) −
Доказательство.
1
max(𝑙0 ,𝑙1 )+𝑘
Для
3√−2 ln 𝜂 ln(max(𝑙0 , 𝑙1 ) + 𝑘)
байесовских
√𝑙0 + 𝑙1
оценок
справедливы
.
(2.13)
неравенства:
≤ 𝜑𝑦𝑏 < 1, из которых следует равномерная ограниченность класса
функций штрафа (2.1):
|𝐿(𝑥, 𝑦, 𝜑0𝑏 , 𝜑1𝑏 )| = |𝑦 ln 𝜑0𝑏 (𝑥) + (1 − 𝑦)𝜑1𝑏 (𝑥)| ≤ max(|ln 𝜑0𝑏 |, |ln 𝜑1𝑏 |) ≤
≤ ln(max(𝑙0 , 𝑙1 ) + 𝑘) = 𝑈.
Зафиксируем
вероятность
выполнения
неравенства
величиной
𝜂=
𝑡2
exp (− ) тогда выполнено
2
𝑃 { sup |𝑀(𝜑0𝑏 , 𝜑1𝑏 ) − 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 )| < 2𝑅(𝐹) +
3√−2 ln 𝜂 ln(max(𝑙0 , 𝑙1 ) + 𝑘)
√𝑙0 + 𝑙1
𝜑0𝑏 ,𝜑1𝑏
}
> 1 − 𝜂.
С вероятностью не меньше 1 − 𝜂 нижняя граница функционала среднего
риска представима
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) > 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2𝑅(𝐹) −
3√−2 ln 𝜂 ln(max(𝑙0 , 𝑙1 ) + 𝑘)
√𝑙0 + 𝑙1
,
что и требовалось доказать.
2.5 Алгоритм выбора контрастирующих признаков
Алгоритм выбора контрастирующих признаков, также называемый в
диссертации алгоритмом контрастирования распределений, решает задачу
поиска такого подмножества признаков, на котором байесовские оценки 𝜑0𝑏 (𝑥)
и 𝜑1𝑏 (𝑥) по количеству информации максимально отличаются в смысле
49
смешанной энтропии, мера различия формализована в виде функционала
среднего риска. Байесовские оценки гистограмм 𝜑0𝑏 (𝑥) и 𝜑1𝑏 (𝑥) зависят от
рассматриваемого подмножества признаков. Опишем пошаговый алгоритм
перебора и выбора подмножества признаков, доставляющего максимум оценке
среднего риска.
Пусть объект 𝑥 = (𝑥(1), … , 𝑥(𝑛)) состоит из 𝑛 признаков (координат),
𝐶𝑛 = {1, … , 𝑛} – множество всех признаков, будем строить вектор 𝜋𝐶𝑚 (𝑥),
состоящий из подмножества 𝐶𝑚 ⊆ 𝐶𝑛 координат вектора 𝑥.
Метод контрастирования состоит из двух этапов: на первом этапе строится
упорядоченная последовательность подмножеств признаков, на втором этапе
выбирается подмножество, доставляющее максимум оценке функционала
среднего риска. Первый этап состоит из 𝑛 шагов.
На первом шаге происходит перебор всех признаков по одному,
выбирается признак 𝑖, максимизирующий эмпирический риск (2.6):
𝑖 = arg max 𝑀𝑒 (𝜑0𝑏 (𝜋𝑖 (𝑥)), 𝜑1𝑏 (𝜋𝑖 (𝑥))).
𝑗=1,…,𝑛
Выбранный признак 𝑖 включается в первое построенное подмножество в
последовательности 𝐶1 = {𝑖}.
На втором шаге перебираются всевозможные пары признаков, в которых
один признак фиксирован на предыдущем шаге, а второй признак не равен
первому.
Выбирается
пара
признаков
{𝑖, 𝑗},
доставляющая
максимум
эмпирическому риску:
𝑗 = arg max 𝑀𝑒 (𝜑0𝑏 (𝜋{𝑖,𝑑} (𝑥)), 𝜑1𝑏 (𝜋{𝑖,𝑑} (𝑥)))
𝑑=1,…,𝑛
𝑑≠𝑖
Строится подмножество множества признаков 𝐶2 = {𝑖, 𝑗}, для которого
выполнено 𝐶1 ⊂ 𝐶2 .
На третьем шаге перебираются всевозможные тройки признаков, два из
которых фиксированы на предыдущих шагах, а третий отличен от первых двух.
Выбирается тройка {𝑖, 𝑗, 𝑑}, максимизирующая эмпирический риск, строится
подмножество 𝐶3 = {𝑖, 𝑗, 𝑑}, 𝐶1 ⊂ 𝐶2 ⊂ 𝐶3 .
50
На последующих шагах процесс повторяется. Процесс останавливается,
когда все признаки исчерпаны и построена последовательность подмножеств
множества
признаков
𝐶1 ⊂ 𝐶2 ⊂ 𝐶3 ⊂ ⋯ ⊂ 𝐶𝑛 .
После
построения
последовательности подмножеств переходим ко второму этапу алгоритма –
оценке среднего риска.
На втором этапе алгоритма контрастирования распределений для каждого
подмножества
𝐶𝑖
из
построенной
последовательности
вычисляется
эмпирический риск (2.6) и оценка среднего риска. Для оценки среднего риска
может
использоваться
оценка (2.8),
следующая
из
теории
Вапника-
Червоненкиса, или оценка (2.13), использующая штрафной член Радемахера.
Алгоритм выбирает подмножество признаков 𝐶𝑖 , доставляющее максимум
оценке среднего риска
𝐶𝑖 : 𝑖 = arg max 𝑀 (𝜑0𝑏 (𝜋𝐶𝑗 (𝑥)) , 𝜑1𝑏 (𝜋𝐶𝑗 (𝑥))).
𝑗=1,…,𝑛
2.6 Основные выводы
Задача выбора по эмпирическим данным совокупности признаков сводится
к поиску набора признаков, для которого распределения в двух классах
максимально различны. Мерой различия между распределениями является
функционал
среднего
риска,
максимизация
которого
эквивалентна
максимизации симметризованного расстояния Кульбака-Лейблера между
распределениями признаков в двух классах. Значение среднего риска
оценивается эмпирическим риском, вычисленным по данным. Уклонение
эмпирического риска от среднего оценивается с помощью методов теории
статистического обучения. Рассмотрены оценки, основанные на теории
Вапника-Червоненкиса, и оценки, использующие Радемахеровскую сложность.
Первая оценка универсальна, справедлива для любой восстанавливаемой
зависимости, метода обучения и ориентирована на наихудшее распределение
объектов в пространстве. Оценка, использующая Радемахеровскую сложность,
адаптирована к данным и потенциально является более точной. Во второй главе
диссертационной работы получено аналитическое выражение для величины
51
штраф Радемахера в классе гистограммных оценок для рассматриваемого
функционала эмпирического риска.
Процесс выбора набора признаков, максимизирующих оценку среднего
риска, формализован в алгоритме выбора контрастирующих признаков,
предложенном в диссертации.
52
3 Применение метода выбора контрастирующих принаков для поиска
классов заболеваний, влияющих на возникновение злокачественных
новообразований
В главе рассматривается применение метода выбора контрастирующих
признаков, описанного в главе 2, для выявления значимых связей между
лидирующим и сопутствующим ему заболеваниям. Рассматривается связь
между онкологическими заболеваниями и заболеваниями, которые человек
имел в конце жизни.
Актуальность такого исследования обоснована фактом увеличения
продолжительности жизни, наблюдаемым в экономически развитых странах с
середины XX века, и связанной с этим необходимостью изучения и уточнения
факторов риска возникновения онкологических заболеваний в пожилом и
старческом возрасте.
Важность этой проблемы заключается ещё и в том, что рак является
многофакторным, системным заболеванием организма. Из чего следует, что
лечение и профилактика этого заболевания должны ориентироваться на
излечение не конкретной системы организма, например, желудочно-кишечного
тракта, а и прочих систем, расстройства которых создаёт предпосылки
возникновения
онкологического
заболевания.
Существуют
медицинские
данные, что некоторые состояния неполного здоровья могут стимулировать
защитные силы организма, снижая риск возникновения онкологического
заболевания [28], [30], [32].
Поиск сопутствующих заболеваний значимо связанных с лидирующим
заболеванием, например, раком, можно рассмотреть как поиск факторов,
связанных с наблюдаемым процессом. В терминах машинного обучения эта
задача ставится как задача поиска значимых признаков [18], среди которых
выделяется класс методов, использующих информационные характеристики
признаков, рассчитанные по эмпирическим данным. К этому методу относится
и метод контрастирования, предложенный в диссертации. Рассматриваются две
модификации
метода:
с
использованием
оценок
теории
равномерной
53
сходимости эмпирического риска [7] и оценок, основанных на адаптируемой к
данным Радемахеровской сложности.
3.1 Статистические
данные
о
причинах
смерти
и
сопутствующих
заболеваниях
Для
выявления
скрытых
закономерностей
заболеваемости
были
использованы популяционные данные о сочетанной заболеваемости и причинах
смерти
на
территории
США
в
1980
году.
Эти
данные
являются
индивидуальными, неперсонифицированными, собираются Национальным
центром статистики по здравоохранению США и находятся в открытом доступе
[61]. Каждая запись в базе данных представляет собой случай смерти и
содержит возраст смерти, дату смерти, причину смерти, список сопутствующих
заболеваний, которые имел человек в конце своей жизни. Причина смерти и все
сопутствующие заболевания закодированы согласно МКБ-9 классификации
[35].
Анализ проводился для старшей возрастной группы: люди, умершие после
65 лет (включительно). Именно 65 лет является возрастом выхода на пенсию в
большинстве стран, в том числе и в США, людей старше 65 лет принято
считать пожилыми. В диссертационной работе изучался риск возникновения
заболеваний в пожилом возрасте.
Целью исследования являлось выделение сопутствующих заболеваний,
связанных с возникновением рака. Рак (или злокачественные новообразования)
– это общее обозначение более чем 100 заболеваний, которые могут поражать
любую часть организма. Одним из характерных признаков рака является
быстрое образование аномальных клеток, прорастающих за пределы обычных
границ своего органа, способных проникать в близлежащие части организма и
другие органы. Этот процесс называется метастазированием. Метастазы
являются основной причиной смерти от рака.
Актуальность выбора такого заболевания как рак в качестве объекта
исследования обоснована тем фактом, что среди всех неинфекционных
заболеваний смертность от рака занимает одну из лидирующих позиций.
54
Рисунок 1 иллюстрирует состав смертности от неинфекционных заболеваний
среди людей старше 65 лет в 2008 г. в США [61]. Болезни системы
кровообращения являются причиной 37% смертей от неинфекционных
заболеваний; второе место занимают новообразования, доля которых равна
23%; доля смертности от болезней органов дыхания составляет 12%, от
болезней
органов
пищеварения
и
диабета
–
по
3%,
доля
других
неинфекционных заболеваний равна 22%. Такое распределение отражает
общемировую картину.
3%
3%
Болезни системы кровообращения
Новообразования
12%
37%
22%
Другие неинфекционные
Болезни органов дыхания
23%
Болезни органов пищевания
Сахарный диабет
Рисунок 1. Структура смертности от неинфекционных заболеваний среди
людей старше 65 лет (США, 2008 г.)
По прогнозам ВОЗ, темпы заболеваемости раком и смертности от него не
будут уменьшаться в течение следующих десятилетий во всех регионах мира.
Исследования подтверждают связь заболеваемости раком с возрастом [2].
Анализ данных о заболеваемости и смертности на территории Австралии за
2007 г. показал [26], что среди людей моложе 75 лет рак был диагностирован у
одного из 3 мужчин и у одной из 4 женщин, в группе людей старше 85 лет рак
был диагностирован уже у каждого второго мужчины и у каждой третьей
женщины. Точные причины возникновения многих видов рака до сих пор не
выяснены. Данные о причинах смерти содержат дополнительную информацию
о медицинских условиях, влияющих на возникновение различных заболеваний
и на смертность [40], [42], [66]. Исследование сопутствующих раку болезней и
сравнение их с патологиями, при которых злокачественное новообразование не
возникло, дает информацию о факторах риска возникновения рака, о
заболеваниях, которые могут быть конкурирующими причинами смерти по
55
отношению к смертности от рака либо выступать в качестве стимуляторов
механизмов, защищающих организм от возникновения злокачественного
новообразования [28], [32].
В
диссертационной
работе
проводился
отдельный
анализ
для
новообразований различных локализаций. На Рисунке 2 приведены доли
людей, выраженные в процентах по отношению к общему числу смертей в
возрасте старше 65 лет в 1980 году в США, имеющих определенное
новообразование в качестве причины смерти. Для последующего анализа были
выбраны новообразования таких локализаций, доля смертей от которых в
старшей возрастной группе составила больше 3%, этими заболеваниями стали:
злокачественные
новообразования
органов
пищеварения
и
брюшины,
злокачественные новообразования органов дыхания и грудной клетки,
злокачественные новообразования мочеполовых органов.
6%
5%
4%
3%
2%
1%
Новообразования in situ,
новообразования неопределенного
или неизвестного характера
Доброкачественные
новообразования
Нейроэндокринные опухоли
Злокачественные новообразования
лимфоидной, кроветворной и
родственных им тканей
Злокачественные новообразования
других и неуточненных
локализаций
Злокачественные новообразования
мочеполовых органов
Злокачественные новообразования
кости, соединительной ткани,
кожи и груди и саркомы Капоши
Злокачественные новообразования
органов дыхания и грудной клетки
Злокачественные новообразования
органов пищеварения и брюшины
Злокачественные новообразования
губы, полости рта, глотки
0%
Рисунок 2. Доля смертей от новообразований разных локализаций среди людей
старше 65 лет, выраженная в долях к общему числу смертей
56
3.2 Применение метода контрастирования распределений при поиске связи
между причинами смерти и сопутствующими заболеваниями
Исследование
новообразования
связи
между
определенной
возникновением
локализации
и
злокачественного
сопутствующими
заболеваниями, которыми болел человек в конце своей жизни, проводилось
путём сравнения распределения сопутствующих заболеваний среди людей,
имеющих рак, с распределением сопутствующих заболеваний среди людей, у
которых рак не был диагностирован. Приведем математическою формализацию
задачи.
Пусть класс 0 означает, что у человека было диагностировано
злокачественное новообразование определенной локализации, в этом случае
будем говорить, что человек принадлежит «раковой» группе. Класс 1 означает,
что у человека не было диагностировано злокачественное новообразование
рассматриваемой локализации, т.е. человек принадлежит «нераковой» группе.
Изучаемыми
признаками
являются
сопутствующие
заболевания,
присутствовавшие в конце жизни, сгруппированные в блоки по первым двум
цифрам МКБ-9 классификации. Список рассматриваемых сопутствующих
заболеваний приведён в приложении. Для облегчения работы с базой данных о
смертности и заболеваемости блоки сопутствующих заболеваний были
упорядочены и пронумерованы. Общее число возможных блоков обозначено за
𝑛. Всего 99 возможных блоков сопутствующих заболеваний, в исследуемых
данных встречаются 92 блока, 𝑛 = 92.
Пространство признаков состоит из бинарных векторов длины 𝑛, каждый
элемент вектора указывает на наличие или отсутствие сопутствующего
заболевания из конкретного блока у человека в конце жизни. Значение 0 на i-ой
позиции бинарного вектора означает отсутствие заболеваний из i-го блока, а
значение 1, наоборот, наличие. В диссертации рассматривались случаи смерти в
возрасте старше 65 лет, составившие две выборки из «раковой» и «нераковой»
групп: 𝑥10 , … , 𝑥𝑙00 , 𝑥11 , … , 𝑥𝑙11 ∈ {0,1}𝑛 , где 𝑙0 и 𝑙1 – размеры «раковой» и
«нераковой» групп соответственно.
57
Применительно
к
злокачественного
исследованию
новообразования
связи
между
определенной
возникновением
локализации
и
сопутствующими заболеваниями метод контрастирования заключается в поиске
совокупности таких сопутствующих заболеваний, распределения которых в
«раковой» и «нераковой» группах максимально различны.
Обозначим через 𝑓𝑖 событие наличия сопутствующего заболевания из
̅𝑖 событие отсутствия сопутствующего заболевания из этого
блока 𝑖, а через 𝑓
блока. Чтобы учесть специфику воспользуемся модификацией алгоритма
контрастирования
признаков
распределений.
состоит
последовательности
из
Алгоритм
двух
выбора
этапов:
подмножеств
контрастирующих
построение
признаков
и
выбор
упорядоченной
подмножества,
доставляющего максимум оценке среднего риска. Первый этап состоит из 𝑛
шагов, где 𝑛 – число признаков. При применении метода контрастирования к
базе данных о заболеваемости и смертности число шагов первого этапа меньше
𝑛, т.к. 𝑛 – это число возможных сопутствующих заболеваний, а все они
одновременно не встречаются ни у одного человека в базе. Необходимость
учета сопутствующей заболеваемости человека приводит к следующей
модификации метода контрастирования распределений.
На
первом
шаге
алгоритма
выбора
контрастирующих
признаков
перебираются всевозможные сопутствующие заболевания от первого из
упорядоченного списка до n-го, cтроятся разбиения пространства Ω =
̅𝑖 }, 𝑖 = 1, … , 𝑛,
{𝑓𝑖 , 𝑓
выбирается
разбиение,
доставляющее
максимум
̅𝑖 }, то
функционалу эмпирического риска. Если выбрано i-ое разбиение {𝑓𝑖 , 𝑓
подмножество
признаков
𝐶1
полагается
равным
выбранному
i-ому
сопутствующему заболеванию, 𝐶1 = 𝑖.
На втором шаге алгоритма ищется такое сопутствующее заболевание 𝑗,
которое вместе с признаком, выбранным на предыдущем шаге максимизирует
̅𝑖 ∩ 𝑓𝑗 , 𝑓
̅𝑖 ∩ 𝑓̅𝑗 , 𝑗 =
эмпирический риск. Перебираются события 𝑓𝑖 ∩ 𝑓𝑗 , 𝑓𝑖 ∩ 𝑓̅𝑗 , 𝑓
̅𝑖 ∩ 𝑓𝑗 , 𝑓
̅𝑖 ∩ 𝑓̅𝑗 } и {𝑓
̅𝑖 , 𝑓𝑖 ∩
1, … , 𝑛, 𝑗 ≠ 𝑖, строятся разбиения пространства {𝑓𝑖 , 𝑓
58
𝑓𝑗 , 𝑓𝑖 ∩ 𝑓̅𝑗 },
выбирается
разбиение,
на
которой
достигается
максимум
эмпирического риска. Если на втором шаге выбран 𝑗 признак, то формируется
подмножество признаков 𝐶2 = {𝑖, 𝑗}.
Процесс выбора сопутствующих заболеваний продолжается до тех пор,
пока возможно дальнейшее разбиение. Обозначим через 𝑚 общее число шагов
первого этапа.
Функционал эмпирического риска, максимизируемый на каждом шаге,
имеет вид
𝑘
𝑘
1
𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) = −
(∑ 𝑛1𝑖 ln 𝜑0𝑏 (𝑖) + ∑ 𝑛𝑖0 ln 𝜑1𝑏 (𝑖)),
𝑙0 + 𝑙1
𝑖=1
(3.1)
𝑖=1
где величина 𝑘 равна количеству интервалов в рассматриваемых гистограммах,
𝑘 растет линейно: на первом шаге 𝑘 = 2, на втором 𝑘 = 3 и т.д., 𝑙0 и 𝑙1 –
размеры «раковой» и «нераковой» групп соответственно, байесовские оценки
вероятности 𝜑𝑦𝑏 , 𝑦 = 0,1 определяются по формуле
𝑦
𝜑𝑦𝑏 (𝑖)
=
𝑛𝑖 + 1
∑𝑘𝑖=1 𝑛𝑖𝑦 + 𝑘
,
𝑦
где 𝑛𝑖 равно количеству людей из группы 𝑦 (𝑦 = 0 – «раковая» группа, 𝑦 = 1 –
«нераковая» группа), принадлежащих i-ому интервалу соответствующей
гистограммы. Так, например, если гистограмма распределения порождена
̅𝑖 , 𝑓𝑖 ∩ 𝑓𝑗 , 𝑓𝑖 ∩ 𝑓̅𝑗 }, количество интервалов 𝑘 = 3,
разбиением пространства Ω = {𝑓
то 𝑛11 обозначает количество людей нераковой группы, у которых не
диагностировано заболевание i, 𝑛12 – количество людей нераковой группы,
имеющих сопутствующие заболевания i и j, 𝑛13 – количество людей нераковой
группы, имеющих заболевание i и не имеющих заболевание j.
На
втором
этапе
алгоритма
выбора
контрастирующих
признаков
выбирается подмножество признаков 𝐶𝑖 , максимизирующее оценку среднего
риска. Средний риск оценивается двумя способами, подробно описанными во
второй главе диссертационной работы.
59
Первый подход использует неравенства, полученные Вапником и
Червоненкисом. Утверждение 2 из второй главы диссертационной работы
позволяет с вероятностью не менее 1 − 𝜂 оценить снизу функционал среднего
риска 𝑀(𝜑0𝑏 , 𝜑1𝑏 )
𝑘
ln 6(2(𝑙0 + 𝑙1 )) − ln 𝜂 (3.2)
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) ≥ 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2 ln(𝑘 + max(𝑙0 , 𝑙1 )) √
,
𝑙0 + 𝑙1 − 1
величина 𝜂 в данном исследовании заболеваемости полагается равной 0.05, т.е.
неравенство справедливо с вероятностью 95%.
В рамках второго подхода нижняя оценка среднего риска 𝑀(𝜑0𝑏 , 𝜑1𝑏 )
основана на Радемахеровской сложности. Утверждение 3 из второй главы
диссертационной
работы
даёт
следующую
оценку
среднего
риска,
справедливую с вероятностью 1 − 𝜂
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) > 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2𝑅(𝐹) −
3√−2 ln 𝜂 ln(max(𝑙0 , 𝑙1 ) + 𝑘)
√𝑙0 + 𝑙1
,
(3.3)
где 𝑅(𝐹) – штраф Радемахера, значение которого найдено в Теореме 1 второй
главы диссертационной работы, величина 𝜂 = 0.05.
Для каждого набора сопутствующих заболеваний 𝐶1 ⊂ 𝐶2 ⊂ ⋯ ⊂ 𝐶𝑚
вычисляются достигнутое значение эмпирического риска и оценки среднего
риска (3.2) и (3.3). Для каждого подхода выбирается набор, доставляющий
максимальное значение оценки среднего риска.
Рассмотрим результаты применения алгоритма выбора контрастирующих
признаков для поиска связи между сопутствующими заболеваниями и
злокачественными новообразованиями трёх различных локализаций: рак
органов пищеварения и брюшины, рак органов дыхания и грудной клетки, рак
мочеполовых органов.
3.2.1 Рак органов пищеварения и брюшины
Алгоритм выбора контрастирующих признаков был применен к данным о
сопутствующей заболеваемости и смертности на территории США в 1980 году
для выделения сопутствующих заболеваний, связанных с возникновением
60
злокачественных новообразований органов пищеварения и брюшины в
пожилом возрасте.
Исходная численность раковой группы составляла 72360 человека (люди
старше 65 лет, имеющие рак органов пищеварения и брюшины, или умершие от
него). Исходная численность нераковой группы была 1059194 человек (люди
старше 65 лет, у которых рак органов пищеварения и брюшины не
диагностирован). На первом шаге алгоритма контрастирования распределений
было получено, что функционал эмпирического риска (3.1) достигает
максимального значения на блоке заболеваний «другие формы болезни
сердца». Далее из нераковой и из раковой групп были выделены люди, у
которых не было заболевания из блока «другие формы болезни сердца». Таких
оказалось 593370 и 54016 в нераковой и в раковой группах соответственно. На
следующем этапе блок «отсутствие заболевания „другие формы болезни
сердца“» был дополнен блоком «отсутствие заболевания „ВИЧ, полиомиелит и
др.“». В результате, нераковая и раковая группы сократились до 452583 и 47589
человек
соответственно.
Продолжая
эту
процедуру,
получили
список
сопутствующих заболеваний, приведённый в Таблице 1.
В Таблице 1 приведены блоки сопутствующих заболеваний, добавляемых
в набор на каждом шаге алгоритма выбора контрастирующих признаков, и две
оценки среднего риска (3.2) и (3.3). Максимум как оценки среднего риска (3.2),
так и оценки (3.3) достигается на первых тринадцати блоках сопутствующих
заболеваний.
61
Таблица 1
Рак органов пищеварения и брюшины. Результаты применения метода
контрастирования распределений
Оценка
№
1
Название
блока
сопутствующих
заболеваний среднего
(МКБ-9)
Отсутствие заболевания «другие формы болезни
Оценка
среднего
риска
риска
(3.2)
(3.3)
0.6070326 0.6447801
сердца» (~42)
Отсутствие заболеваний «ВИЧ, полиомиелит и
2
другие вирусные заболевания центральной
0.9123234 0.9745169
нервной системы, не передаваемые
членистоногими» (~04)
Отсутствие заболевания «ишемическая болезнь
3
сердца и болезни легочного кровообращения»
1.1425451 1.2254807
(~41)
4
5
6
7
8
9
Отсутствие «неспецифических патологических
1.2918491 1.3943429
проявлений» (~79)
Отсутствие « болезней артерий, артериол и
1.4580312 1.5775059
капилляров» (~44)
Отсутствие заболевания «другие болезни
1.5088957 1.6442501
пищеварительной системы» (~57)
Отсутствие заболевания «цереброваскулярные
1.5898927 1.7393634
болезни» (~43)
Отсутствие «симптомов и плохо определенных
1.6441058 1.7998161
условий» (~78)
Отсутствие заболевания «вирусные заболевания,
сопровождающиеся сыпью» (~05)
1.6905910 1.8545910
62
Окончание таблицы 1
Оценка
№
10
11
12
13
14
15
Название
блока
сопутствующих
заболеваний среднего
(МКБ-9)
Отсутствие заболевания «риккетсиозы и другие
Оценка
среднего
риска
риска
(3.2)
(3.3)
1.7453602 1.9196610
болезни, передаваемые членистоногими» (~08)
Отсутствие заболевания «гипертоническая
1.7848276 1.9605613
болезнь» (~40)
Отсутствие «заболевания других эндокринных
1.8078494 1.9830964
желез» (~25)
Наличие заболевания «другие бактериальные
1.8291456 2.0114662
заболевания» (03)
Отсутствие заболевания «другие болезни
1.8193147 2.0074172
кишечника и брюшины» (~56)
Отсутствие заболевания «другие болезни
1.8095943 2.0005614
мочевыделительной системы» (~59)
Другие и неуточненные эффекты воздействия
16
внешних причин, осложнения хирургических и
1.7989433 1.9919375
терапевтических вмешательств, не
классифицированные в других рубриках (99)
17
Отсутствие открытых ран головы, шеи и туловища
1.7874469 1.9823369
(~87)
Результаты,
полученные
методом
контрастирования
распределений,
показывают, что наибольшее влияние на заболеваемость раком органов
пищеварения и брюшины оказывают не сами сопутствующие заболевания, а
блоки, определяемые через отсутствие конкретного заболевания.
Рисунок
3
иллюстрирует
распространенность
полученных
блоков
сопутствующих заболеваний в раковой (люди, имеющие рак органов
63
пищеварения и брюшины, или умершие от него) и нераковой группах (люди, у
которых рак органов пищеварения и брюшины не диагностирован).
100%
80%
Раковая
группа
60%
40%
Нераковая
группа
20%
03
~25
~40
~08
~05
~78
~43
~57
~44
~79
~41
~04
~42
0%
Рисунок 3. Рак органов пищеварения и брюшины. Доли людей с
сопутствующими заболеваниями в раковой и нераковой группах
Анализ
распространенности
блоков
сопутствующих
заболеваний
показывает, что в раковой группе чаще, чем в нераковой, отсутствуют
гипертоническая болезнь (коды МКБ-9 40), ишемическая болезнь сердца и
болезни легочного кровообращения (МКБ-9 41), другие формы заболеваний
сердца (МКБ-9 42), цереброваскулярные заболевания (МКБ-9 43), болезни
артерий артериол и капилляров (МКБ-9 44), заболевания других эндокринных
желез (МКБ-9 25). Эти заболевания, сами по себе имеют высокую летальность
и
выступают по отношению к раку в качестве конкурирующей причины
смерти. Поскольку перечисленные выше заболевания имеют высокую степень
распространённости, то необходимо использовать чрезвычайно обширный
статистический материал, чтобы после исключения таких конкурирующих
причин смерти осталось достаточно данных для дальнейшего анализа.
В
построенный
список
пищеварительной системы»
входит
блок
«отсутствие
заболеваний
(МКБ-9 57). Учёт этого блока увеличивает
различие распределений сопутствующих заболеваний в раковой и нераковой
группах. При этом, как видно из Рисунка 3, заболевания пищеварительной
системы чаще отсутствует в нераковой группе, чем в раковой, т.е. эти
64
заболевания сопутствуют раку органов пищеварения и брюшины и могут
провоцировать его развитие. Этот вывод подтверждается тем, что наличие
заболеваний органов пищеварения, особенно хронических, часто является
фактором риска развития рака органов пищеварения и брюшины [38].
3.2.2 Рак органов дыхания и грудной клетки
Анализ связи возникновения рака органов дыхания и грудной клетки и
сопутствующих заболеваний проводился среди людей, умерших в 1980 году в
возрасте старше 65 лет. В Таблице 2 приведены блоки сопутствующих
заболеваний, добавляемых в набор на каждом шаге алгоритма выбора
контрастирующих признаков, и две оценки среднего риска: равномерная оценка
Вапника-Червоненкиса (3.2) и оценка, использующая Радемахеровскую
сложность (3.3). Максимум оценки среднего риска достигается на первых
пятнадцати блоках сопутствующих заболеваний из Таблицы 2.
Таблица 2
Рак органов дыхания и грудной клетки. Результаты применения метода
контрастирования распределений
Оценка
№
1
Название
блока
сопутствующих
заболеваний среднего
(МКБ-9)
Отсутствие заболевания «другие формы болезни
Оценка
среднего
риска
риска
(3.2)
(3.3)
0.6080536 0.6350743
сердца» (~42)
Отсутствие заболеваний «ВИЧ, полиомиелит и
2
другие вирусные заболевания центральной
0.8874358 0.9429629
нервной системы, не передаваемые
членистоногими» (~04)
3
Отсутствие «неспецифических патологических
проявлений» (~79)
1.0772424 1.1506277
65
Продолжение таблицы 2
Оценка
№
4
Название
блока
сопутствующих
заболеваний среднего
(МКБ-9)
Отсутствие заболеваний «ишемическая болезнь
Оценка
среднего
риска
риска
(3.2)
(3.3)
1.2779547 1.3724416
сердца и болезни легочного кровообращения»
(~41)
5
6
7
8
9
10
11
12
13
14
Отсутствие заболевания «артерий, артериол и
1.4429605 1.5451650
капилляров» (~44)
Отсутствие «симптомов и плохо определенных
1.5016102 1.6149257
условий» (~78)
Отсутствие заболевания «цереброваскулярные
1.5784945 1.7059601
болезни» (~43)
Отсутствие заболевания «вирусные заболевания,
1.6324277 1.7733010
сопровождающиеся сыпью» (~05)
Отсутствие заболеваний «риккетсиоз и другие
1.6818719 1.8347264
болезни, передаваемые членистоногими» (~08)
Отсутствие заболевания «гипертоническая
1.7230888 1.8850241
болезнь» (~40)
Отсутствие заболевания «другие заболевания
1.7586558 1.9314787
пищеварительной системы» (~57)
Отсутствие «заболеваний других эндокринных
1.7826410 1.9603082
желез» (~25)
Отсутствие заболевания «другие бактериальные
1.8061920 1.9910202
заболевания» (~03)
Отсутствие заболевания «другие болезни органов
дыхания» (~51)
1.8108529 1.9995963
66
Окончание таблицы 2
Оценка
Название
№
блока
сопутствующих
заболеваний среднего
(МКБ-9)
Оценка
среднего
риска
риска
(3.2)
(3.3)
Другие и неуточненные эффекты воздействия
внешних причин, осложнения хирургических и
15
терапевтических вмешательств, не
1.8224105 2.0170336
классифицированные в других рубриках (99)
Наличие открытых ран головы, шеи и туловища
16
1.8162201 2.0160235
(87)
Наличие заболевания «другие болезни кишечника
17
1.8053806 2.0024168
и брюшины» (56)
Для лучшей интерпретации результатов на Рисунке 4 приведен график
распространённости заболеваний в раковой и нераковой группах.
100%
80%
60%
Раковая
группа
40%
Нераковая
группа
20%
99
~51
~03
~25
~57
~40
~08
~05
~43
~78
~44
~41
~79
~04
~42
0%
Рисунок 4. Рак органов дыхания и грудной клетки. Доли людей с
сопутствующими заболеваниями в раковой и нераковой группах
67
Как и в случае рака органов пищеварения и брюшины, наибольшее
влияние на заболеваемость раком оказывают не сами сопутствующие
заболевания, а отсутствие заболеваний с высокой летальностью. Анализ
распространенности блоков сопутствующих заболеваний показывает, что в
раковой группе чаще, чем в нераковой, отсутствуют болезни сердца и сосудов
(коды МКБ-9 40-44),
заболевания
заболевания других эндокринных желез (МКБ-9 25),
пищеварительной
системы
(МКБ-9
57),
бактериальные
заболевания (МКБ-9 03).
В результате проведенного анализа были выделены не только заболевания,
являющиеся конкурирующими причинами смерти, но и заболевания, которые
могут являться факторами риска развития рака. Как видно из Рисунка 4,
заболевания дыхательной системы более распространены среди людей с раком
органов дыхания и грудной клетки нежели, чем в нераковой группе.
Заболевания дыхательной системы могут быть как факторами риска развития
рака, так и иметь с злокачественными новообразованиями схожие причины
возникновения. Перенесенные в прошлом легочные заболевания такие, как
хронические обструктивные заболевания легких (ХОЗЛ), хронический бронхит,
пневмония и туберкулез являются основными причинами воспаления легочной
ткани. Эти заболевания могут играть промежуточную или основную роль в
развитии раковых новообразований, а могут быть связаны с развитием рака
[28]. Биологическим обоснованием связи этих заболеваний с раком легких
является тот факт, что повторное воспаление тканей приводит к формированию
«рубцов», участков пневмосклероза и, в ряде случаев, к последующему
образованию злокачественной опухоли. Но, с другой стороны, пневмония и
туберкулез могут являться не причиной, а следствием ракового заболевания, в
силу ослабленной иммунной системой больного.
3.2.3 Рак мочеполовых органов
В Таблице 3 приведены результаты применения алгоритма выбора
контрастирующих признаков к данным о смертности и сопутствующей
заболеваемости (1980 год смерти, возрастная группа 65+). Последовательно
68
приведены блоки сопутствующих заболеваний, выбираемые на каждом шаге
метода и средний риск оцененный двумя способами: с использованием теории
Вапника-Червоненкиса и оценки (3.2) и с помощью штрафа Радемахера –
оценка (3.3).
Таблица 3
Рак мочеполовых органов. Результаты применения метода
контрастирования распределений
Оценка
№
Название блока сопутствующих заболеваний среднего
(МКБ-9)
риска
(3.2)
1
Отсутствие заболевания «другие формы болезни
сердца» (~42)
Оценка
среднего
риска (3.3)
0.5998941 0.64778082
Отсутствие заболеваний «ВИЧ, полиомиелит и
2
другие вирусные заболевания центральной
нервной системы, не передаваемые
0.8993354 0.96645163
членистоногими» (~04)
Отсутствие заболевания «ишемическая болезнь
3
сердца и болезни легочного кровообращения»
1.1282351 1.21528128
(~41)
4
5
6
7
Отсутствие «неспецифических патологических
проявлений» (~79)
Отсутствие заболевания «артерий, артериол и
капилляров» (~44)
Наличие заболевания «вирусные заболевания,
сопровождающиеся сыпью» (05)
Отсутствие заболевания «другие болезни
мочевыделительной системы» (~59)
1.2750112 1.38231807
1.4360362 1.55964886
1.4832281 1.63011519
1.4933664 1.63326862
69
Окончание таблицы 3
Оценка
№
Название блока сопутствующих заболеваний среднего
(МКБ-9)
риска
(3.2)
8
9
10
Наличие заболевания «гипертоническая болезнь»
(40)
Наличие «заболеваний других эндокринных
желез» (25)
Наличие «заболевания нефрит, нефротический
синдром и нефроз» (58)
Оценка
среднего
риска (3.3)
1.4741739 1.63598875
1.4590762 1.63132407
1.4439659 1.62898543
Первые семь блоков сопутствующих заболеваний, приведенных в Таблице
3, доставляют максимум оценке функционала среднего риска, поэтому можно
говорить, что они статистически наиболее надёжно отражают различие в
распределении сопутствующих заболеваний в нераковой и в раковой группах.
Большинство из них сводятся к отсутствию медицинских условий.
На
Рисунке
5
показана
распространенность
полученных
блоков
сопутствующих заболеваний в раковой (люди, имеющие рак мочеполовых
органов, или умершие от него) и нераковой группах (люди, у которых рак
мочеполовых органов не диагностирован).
70
100%
80%
Раковая
группа
60%
40%
Нераковая
группа
20%
40
~59
05
~44
~79
~41
~04
~42
0%
Рисунок 5. Рак мочеполовых органов. Доли людей с сопутствующими
заболеваниями в раковой и нераковой группах
Из Рисунка 5 видно, что, как и при исследовании других типов
злокачественных новообразований, отсутствие заболеваний сердца и сосудов
(коды МКБ-9 41, 42, 44) присуще людям, у которых рак мочеполовых органов
не диагностирован. Заболевания мочевыделительной системы (МКБ-9 59),
наоборот, более распространены среди людей, больных раком мочеполовых
органов. Эти заболевания могут являться факторами риска развития рака
соответствующих органов, или иметь с раком схожие причины возникновения
[65].
3.3 Основные выводы
В главе 3 описан статистический алгоритм поиска заболеваний, связанных
с возникновением рака трех различных локализаций, на основании информации
о заболеваниях, которыми страдал человек перед смертью. Этот алгоритм
основан на методе контрастирования распределений, развитом в главе 2
диссертационной
использующие
работы.
оценку
Рассмотрены
две
Вапника-Червоненкиса
модификации
равномерной
метода,
сходимости
эмпирического риска к среднему и оценки, основанные на адаптируемой к
данным Радемахеровской сложности. Результаты расчетов показали, что оба
71
подхода дают согласованные результаты, определяя, в основном, одинаковые
наборы
сопутствующих
функционала
среднего
заболеваний.
риска
Сравнение
показывает,
что
полученных
при
оценок
использовании
Радемахеровской сложности, уклонение среднего риска от эмпирического
меньше,
чем
при
использовании
оценок
Вапника-Червоненкиса,
что
свидетельствует об адаптации Радемахеровской сложности к данным.
В полученный список попадают заболевания, провоцирующие, либо
защищающие от возникновения рака. Анализ полученных результатов среди
лиц в возрастной группе 65+, умерших в 1980 году, показал, что в качестве
заболеваний, «защищающих от возникновения рака», выделяются заболевания
с высокой летальностью, выступающие как конкурирующие риски смерти. К
таким заболеваниям были отнесены, например, ишемическая болезнь сердца,
гипертония, цереброваскулярные заболевания. Исключение из рассмотрения
лиц, страдающих этими заболеваниями, резко сокращает число исследуемых
случаев, что не позволяет делать статистически надёжные выводы о связи
оставшихся заболеваний с раком.
В диссертации приводятся результаты исследования заболеваемости раком
трех наиболее распространенных форм: раком органов пищеварения и
брюшины, раком органов дыхания и грудной клетки, раком мочеполовых
органов. Предложенный метод устойчиво выделяет сердечно-сосудистые
заболевания в качестве заболеваний, характеризующих нераковую группу при
анализе всех трех рассматриваемых форм злокачественных новообразований.
Сердечно-сосудистые заболевания наиболее часто приводят к летальному
исходу и являются конкурирующей причиной смерти по отношению к раку.
Среди сопутствующих были выделены заболевания, выступающие в роли
факторов риска возникновения рака. Для рака органов пищеварения и
брюшины такими факторами являются «другие заболевания пищеварительной
системы», для рака органов дыхания – « другие болезни органов дыхания», для
рака мочеполовых органов – «другие болезни мочевыделительной системы».
72
Сравнительные
сочетанной
исследования
заболеваемости
смертности
позволяют
по
составить
причинам
общую
с
учётом
структуру
заболеваемости в старшем возрасте, выделить заболевания, имеющие высокую
летальность и являющиеся конкурирующими причинами смерти, указать
сопутствующие
заболевания,
провоцирующие
патологий, нередко приводящих к смерти.
развитие
более
тяжелых
73
4 Применение метода выбора контрастирующих признаков для контроля
производственного процесса
Метод выбора контрастирующих признаков был применен для выделения
значимых параметров, позволяющих наиболее точно отделить одно состояние
производственного процесса от другого.
Работа технической системы
характеризуется множеством параметров, измеренных во времени. Существует
два режима работы: один можно интерпретировать как нормальный, штатный
режим, другой как режим экономичного потребления ресурсов или выход на
высокий производительный уровень. Задача состоит в выявлении скрытых
закономерностей в эмпирических данных и выделении параметров, связанных
со сменой состояния системы.
Подобные
задачи
отбора
признаков
нередко
встречаются
в
технологической сфере, они обычно характеризуются большим количеством
измерений состояния системы во времени, высокой размерностью – десятками
или даже сотнями признаков. Это затрудняет или делает невозможным ручной
экспертный анализ данных, что повышает актуальность разработанного метода.
4.1 Выбор параметров для классификации состояний производственного
процесса
В диссертационной работе метод выбора контрастирующих признаков
применялся для сокращения числа параметров при классификации одного из
двух состояний производственного процесса. Такое сокращение необходимо
при
создании
необходимыми
экономичной
системы
контроля,
оперирующей
лишь
параметрами с целью упрощения работы оператора и
повышения надёжности автоматического принятий решения о возникновении
аварийной ситуации. Выбор признаков производился по записям рядов
значений 10 параметров, характеризующих работу системы, измеренных в
различные моменты времени. Периоды работы системы экпертно были
разделены на два класса, характеризующие два различных состояния системы.
В первый класс вошли 562 измерения десяти параметров, во второй класс – 258
74
измерений десяти параметров. Параметры для краткости кодировались
номерами от 1 до 10, расшифровка кодов приведена в Таблице 4.
Таблица 4
Названия параметров состояний системы
Код Название параметра
1
Dryer Exit Temperature
2
Total Gluten Feed Flow
3
Scrubber Outlet Pressure
4
Scrubber Inlet Pressure
5
Main Fan Vibration
6
Main Fan Motor Current
7
Dryer Recycle Air Pressure
8
Dryer Loop Temperature
9
Dryer Exhaust Pressure
10
Burner Firing Rate
Задача состоит в выборе такого подмножества параметров, на котором
распределения параметров в двух представленных классах максимально
различны. В диссертационной работе эта задача сводится к поиску
подмножества признаков, доставляющих максимум функционалу среднего
риска, и решается методом контрастирования распределений. При этом
значения каждого параметра, измеренные в различные моменты времени,
считаются независимыми, но значения параметров, измеренные в один момент
зависимы.
4.2 Применение метода выбора контрастирующих признаков для контроля
производственного процесса
Для применения метода выбора контрастирующих признаков при
выделении
значимых
производственного
параметров
процесса
для
строятся
распределений признаков в каждом
классификации
многомерные
состояния
гистограммы
из классов. Гистограммы строятся
согласно упорядочиванию признаков, описанному ниже. При построении
75
гистограмм области значений признаков делятся на равные интервалы.
Наилучшее число интервалов определяется перебором в процессе применения
метода контрастирования из условия достижения максимума нижней оценки
среднего риска.
На первом шаге метода контрастирования признаки рассматриваются по
одному и строятся одномерные гистограммы распределения признаков в двух
классах. Среди признаков выбирается признак, доставляющий максимум
эмпирическому риску. Далее рассматриваются все возможные пары сочетаний
оставшихся признаков с признаком, зафиксированном на предыдущем шаге.
Для каждой пары строятся двумерные гистограммы распределения в каждом
классе, вычисляются значения эмпирического риска и выбирается такая пара
признаков, для которой значение эмпирического риска максимально. На
следующем шаге к уже найденной паре добавляется третий признак из
оставшихся, строятся трехмерные гистограммы. Процесс продолжается пока
все признаки не будут упорядочены.
Функционал эмпирического риска, максимизируемый на каждом шаге,
имеет вид
𝑘
𝑘
1
𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) = −
(∑ 𝑛1𝑖 ln 𝜑0𝑏 (𝑖) + ∑ 𝑛𝑖0 ln 𝜑1𝑏 (𝑖)),
𝑙0 + 𝑙1
𝑖=1
(4.1)
𝑖=1
где величина 𝑘 равна количеству интервалов в рассматриваемых гистограммах,
𝑘 растет степенным образом: на первом шаге 𝑘 равно числу интервалов, на
которые делятся области значения каждого признака, на i-шаге 𝑘 равно числу
интервалов, которые делятся области значения каждого признака, в степени 𝑖,
𝑙0 и 𝑙1 – количество измерений в первом и втором состояниях соответственно,
байесовские оценки вероятности 𝜑𝑦𝑏 , 𝑦 = 0,1 определяются по формуле
𝑦
𝜑𝑦𝑏 (𝑖)
=
𝑛𝑖 + 1
∑𝑘𝑖=1 𝑛𝑖𝑦 + 𝑘
𝑦
,
где 𝑛𝑖 равно количеству измерений состояния 𝑦 (𝑦 = 0, 1), принадлежащих iому интервалу соответствующей гистограммы.
76
На втором этапе метода контрастирования вычисляется оценка среднего
риска через эмпирический риск, учитывающая число признаков, участвующих
в вычислениях. В главе 2 диссертационной работы рассмотрены две оценки
среднего риска по эмпирическим данным: первая основана на результатах
теории Вапника-Червоненкиса, вторая учитывает особенность данных и
использует штрафную функцию Радемахера.
Утверждение 2 из второй главы диссертационной работы позволяет с
вероятностью не менее 1 − 𝜂 оценить снизу функционал среднего риска
𝑘
ln 6(2(𝑙0 + 𝑙1 )) − ln 𝜂 (4.2)
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) ≥ 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2 ln(𝑘 + max(𝑙0 , 𝑙1 )) √
,
𝑙0 + 𝑙1 − 1
величина 𝜂 в данном исследовании полагается равной 0.1.
Оценка среднего риска (4.2), основанная на результатах теории ВапникаЧервоненкиса, неприменима к данной задаче, поскольку оказывается слишком
грубой из за того, что ориентирована на наихудшее расположение точек в
выборочном пространстве. Это приводит к тому, что оценка сильно зависит от
числа интервалов гистограммы 𝑘, которое имеет степенной рост при
добавлении нового признака. Так на первом шаге метода контрастирования,
при рассмотрении одиночных признаков, величина 𝑘 равна числу интервалов,
на которое мы делим вещественную область значений признаков. На втором
шаге 𝑘 уже равно числу интервалов в квадрате, при рассмотрении всех десяти
признаков 𝑘 равно числу интервалов в 10 степени. В штраф, на который
корректируется величина эмпирического риска, входит квадратный корень от
𝑘, поэтому штраф также имеет степенной рост, а оценка среднего риска
принимает отрицательные значения. Для уменьшения влияния размерности,
растущей по степенному закону, необходимо иметь выборку достаточно
большого объёма. Выборка размером порядка 102 является недостаточной для
получения достоверных оценок Вапника-Червоненкиса в данной задаче. В
теоретических исследованиях [8], [10] также показано, что оценки Вапника-
77
Червоненкиса оказываются слишком пессимистичны при использовании малых
выборок.
В противоположность, оценка среднего риска, использующая штраф
Радемахера, уменьшает влияние размерности. Утверждение 3 из второй главы
диссертационной
работы
даёт
следующую
оценку
среднего
риска,
справедливую с вероятностью 1 − 𝜂
𝑀(𝜑0𝑏 , 𝜑1𝑏 ) > 𝑀𝑒 (𝜑0𝑏 , 𝜑1𝑏 ) − 2𝑅(𝐹) −
3√−2 ln 𝜂 ln(max(𝑙0 , 𝑙1 ) + 𝑘)
√𝑙0 + 𝑙1
,
(4.3)
где 𝑅(𝐹) – штраф Радемахера, значение которого найдено в Теореме 1 второй
главы диссертационной работы, величина 𝜂 = 0.1.
Для выбора наилучшего
набора
признаков и
проверки
качества
полученного результата данные были случайным образом разделены на
обучающую выборку, содержащую 2/3 данных и на контрольную выборку,
состоящую из 1/3 данных. Алгоритм контрастирования распределений
применялся к обучающей выборке.
На первом этапе алгоритма выбора контрастирующих признаков была
построена последовательность признаков: 10, 1, 4, 5, 2, 7, 3, 6, 8, 9. На втором
этапе был оценен функционал среднего риска и выбран оптимальный набор
признаков. В Таблице 5 приведены значения функционала эмпирического риска
и оценка среднего риска (4.3) для расширяющегося набора признаков.
Количество интервалов, на которое делится область значения каждого
признака, равно 29, именно при таком количестве оценка среднего риска
достигает наибольшего значения.
Признаки последовательно добавляются в набор согласно методу
контрастирования распределений. Эмпирический риск растет при добавлении
нового признака. Оценка среднего риска достигает максимального значения на
паре признаков с номерами 10 и 1, при дальнейшем увеличении числа
признаков оценка среднего риска начинает убывать.
78
Таблица 5
Результаты применения алгоритма контрастирования распределений
Количество
признаков
в Набор признаков
наборе
Эмпирический
Оценка
риск
среднего риска
1
10
4.799
2.1275
2
10, 1
6.884
2.9038
3
10, 1, 4
10.1013
1.9058
4
10, 1, 4, 5
13.4695
0.6662
5
10, 1, 4, 5, 2
16.8365
-0.4554
6
10, 1, 4, 5, 2, 7
20.2038
-1.5773
7
10, 1, 4, 5, 2, 7, 3
23.5711
-2.6551
8
10, 1, 4, 5, 2, 7, 3, 6
26.9384
-3.738
9
10, 1, 4, 5, 2, 7, 3, 6, 8
30.3057
-4.8208
10
10, 1, 4, 5, 2, 7, 3, 6, 8, 9
33.673
-5.9037
4.3 Проверка результатов применения метода выбора контрастирующих
признаков
Проверка того, насколько признаки, отобранные с помощью метода
контрастирования
распределений,
эффективны
для
прогноза
состояния
системы, проводилась с использованием классификатора, основанного на
методе «наивный Байес» [59]. Для различного числа параметров от одного до
десяти в соответствии с порядком, полученным в результате работы метода
выбора контрастирующих признаков, по обучающей выборке
строилось
правило классификации. Это правило использовалось для классификации
обучающей
и
контрольной
выборок.
Вычислялась
доля
неправильно
классифицированных состояний. Результат представлен на Рисунке 6, на
горизонтальной оси отложены наборы параметров, по вертикальной оси,
отложено
значение
доли
ошибочно
классифицированных
состояний,
79
выраженной в процентах. Каждая пара столбцов отражает ошибки на обучении
и на контроле соответственно.
16%
14%
12%
10%
8%
6%
4%
2%
0%
Ошибка на
обучении
10, 1, 4, 5, 2, 7, 3, 6, 8, 9
10, 1, 4, 5, 2, 7, 3, 6, 8
10, 1, 4, 5, 2, 7, 3, 6
10, 1, 4, 5, 2, 7, 3
10, 1, 4, 5, 2, 7
10, 1, 4, 5, 2
10, 1, 4, 5
10, 1, 4
10, 1
10
Ошибка на
контроле
Рисунок 6. Ошибки классификации при различных наборах признаков
Из Рисунка 6 следует, что минимум ошибки на обучении (6.4%)
достигается на паре параметров с номерами 10 и 1, что совпадает с
результатом, полученным методом контрастирования распределений для
параметров, наиболее перспективных при определении состояния системы.
Ошибка классификации контрольной выборки в этом случае составляет 8%.
Для всех прочих наборов параметров ошибка классификации и на обучающей и
на контрольной выборках больше. Таким образом, результаты классификации
доказывают, что набор параметров, полученный методом контрастирования
распределений, соответствует наиболее надёжному предсказанию состояния
системы.
Результаты, полученные алгоритмом контрастирования распределений,
сравнивались с результатами, полученными другими известными алгоритмами
отбора признаков. К данным был применены алгоритм RELIEF [48], два метода
отбора признаков на основе корреляции: CFS [43] и метод отбора признаков
IBM SPSS Modeler [44], отбор признаков, основанный на вычислении
скорректированного расстояния Кульбака-Лейблера [36], принцип главных
компонент [46] и метод независимых компонент [37]. Для выбора наилучшего
80
набора признаков и проверки качества полученного результата применялась
процедура 10-кратного скользящего контроля (10-fold cross validation). Вся
выборка разбивалась на 10 непересекающихся блоков почти одинаковой длины
(с точностью до округления). Разбиение являлось стратифицированным, т.е. в
блоках сохранялись те же пропорции разделения объектов по классам, что и на
всей выборке. Каждый блок по очереди становился контрольной выборкой.
Алгоритмы отбора и преобразования признаков применялись к обучающей
выборке, составленной из остальных девяти блоков, после отбора (или
преобразования) признаков данные классифицировались наивным байесовским
классификатором, качество которого оценивалось на контрольной части
выборки. В Таблице 6 приведено сравнение качества классификации на наборах
признаков, полученных разными алгоритмами.
Таблица 6
Результаты сравнения алгоритмов отбора (преобразования) признаков
Алгоритм
1 Контрастирование распределений
2 RELIEF
3
Отбор признаков на основе
Подмножество
признаков
10, 1
10, 2, 7, 3, 5, 1, 8,
6
Доля правильно
классифицированных
объектов
0.92561
0.9109776
4, 5, 6, 10
0.9109776
3, 7
0.730488
10, 1, 4, 5, 2, 7
0.893902
6 Принцип главных компонент
3 компоненты
0.895122
7 Метод независимых компонент
10 компонент
0.876829
4
5
корреляции CFS
Отбор признаков на основе
корреляции IBM
Скорректированное расстояние
Кульбака-Лейблера
81
Сравнение точности классификации показывает, что наиболее точные
результаты достигаются на наборе признаков, выбранных алгоритмом
контрастирования
распределений.
Важным
преимуществом
алгоритма,
предложенного в диссертации также является то, что он выбрал меньшее число
признаков, чем другие рассматриваемые алгоритмы.
4.4
Основные выводы
Метод выбора контрастирующих признаков, разработанный в главе 2
диссертационной работы, был применен для выбора параметров, значимых при
классификации двух состояний системы. В силу малого размера выборки было
показано, что оценка среднего риска на основе теории Вапника-Червоненкиса
сильно завышена, но применима оценка, учитывающая особенности данных и
использующая штраф Радемахера, которая также позволяет эффективно учесть
размер выборки и сложность класса рассматриваемых функций.
На
рассмотренной
контрастирующих
задаче
признаков
было
применим
показано,
к
что
задачам
с
метод
выбора
вещественными
признаками, автоматически определяя при построении гистограмм количество
интервалов деления области значений признаков. Результатом применения
метода к данным о состояниях производственного процесса стал выбор двух
признаков из десяти, на которых оценка функционала среднего риска достигает
максимального значения. Выбранные два признака позволили с помощью
процедуры классификации «наивный байес» достоверно предсказать состояние
процесса. Точность предсказания составила около 94% на обучающей выборке
и 92% на контрольной выборке.
Результаты, полученные методом выбора контрастирующих признаков,
сравнивались с результатами, полученными шестью другими методами отбора
и преобразования признаков. Показано, что пара признаков, отобранная
методом, предложенным в диссертации, обеспечивает лучшее качество
классификации алгоритмом «наивный байес», чем наборы
выбранные другими рассмотренными алгоритмами.
признаков,
82
Заключение
В диссертационной работе рассматривается задача выбора на основании
эмпирических
данных
набора
признаков,
имеющих
максимально
различающиеся распределения в двух классах. Различия распределений
характеризуются через симметризованное расстояние Кульбака-Лейблера.
Во второй главе диссертации рассмотрена формальная постановка задачи,
как задачи максимизации функционала среднего риска, эквивалентная
максимизации
информационного
расстояния
между
внутриклассовыми
распределениями. Величина среднего риска оценивается эмпирическим риском
по данным. Рассматриваются оценки, основанные на теории ВапникаЧервоненкиса о равномерном уклонении среднего риска от эмпирического. В
Утверждении 2 для поставленной задачи приводится нижняя оценка
функционала среднего риска. Другая оценка, рассмотренная в диссертации,
основана на Радемахеровской сложности. В Лемме 1 и Теореме 1 получена
величина штрафа Радемахера для класса многомерных гистограмм. В
Утверждении 3 приведена нижняя оценка рассматриваемого функционала
среднего риска с использованием штрафа Радемахера.
Процесс выбора набора признаков, максимизирующих оценку среднего
риска, формализован в алгоритме выбора контрастирующих признаков.
Разработан программный комплекс, реализующий предложенный алгоритм.
В
третьей
главе
диссертационной
работы
приведены
результаты
применения алгоритма выбора контрастирующих признаков к задаче поиска
заболеваний, связанных с возникновением рака, на основании информации о
заболеваниях, которыми страдал человек перед смертью. Рассматриваются лица
старше
65
лет
и
злокачественные
новообразования
трех
различных
локализаций: злокачественные новообразования органов пищеварения и
брюшины, злокачественные новообразования органов дыхания и грудной
клетки, злокачественные новообразования мочеполовых органов. Применялись
две модификации метода контрастирования распределений, использующие
оценку Вапника-Червоненкиса и оценку, основанную на Радемахеровской
83
сложности. Оба подхода дали согласованные результаты, определяя, в
основном, одинаковые наборы сопутствующих заболеваний.
Предложенный
метод
устойчиво
выделяет
сердечно-сосудистые
заболевания в качестве заболеваний, характеризующих нераковую группу при
всех
трех
локализациях
злокачественных
новообразований.
Сердечно-
сосудистые заболевания наиболее часто приводят к летальному исходу и
являются конкурирующей причиной смерти по отношению к раку. Алгоритм
также
выделяет
заболевания,
выступающие
в
роли
факторов
риска
возникновения рака. Для рака органов пищеварения и брюшины такими
факторами являются «другие заболевания пищеварительной системы», для рака
органов дыхания и грудной клетки – «другие болезни органов дыхания», для
рака мочеполовых органов – «другие болезни мочевыделительной системы».
Полученные результаты согласуются с медицинскими данными.
В четвертой главе алгоритм выбора контрастирующих признаков
применен для выделения параметров, значимых при классификации двух
состояний производственного процесса. В результате применения алгоритма с
оценкой среднего риска, основанной на Радемахеровской сложности, из десяти
признаков были выбраны два, на которых оценка функционала среднего риска
достигает максимального значения. Оценка Вапника-Червоненкиса оказалась
неприменимой в данной задаче при данном объеме данных в силу ее
завышенности.
Полученный результат верифицировался с помощью процедуры «наивный
байес». Точность предсказания состояния по двум найденным признакам
составила около 94% на обучающей выборке и 92% на контрольной выборке.
На примере рассмотренной задачи показано преимущество предложенного в
диссертации
алгоритма
преобразования признаков.
над
шестью
другими
алгоритмами
отбора
и
84
Список основных обозначений
𝑋и𝑌
𝑃
(𝑥, 𝑦)
{𝑥𝑖 , 𝑦𝑖 }𝑙𝑖=1
𝑙
𝜑: 𝑋 → 𝑌
𝐿(𝑦, 𝜑(𝑥)), 𝐿𝜑
𝐸[⋅]
Пространства объектов и классов
Неизвестное вероятностное распределение на 𝑋 × 𝑌
Случайная пара из распределения 𝑃, 𝑥 – входные значения,
𝑦 – выход
Обучающая выборка
Длина обучающей выборки
Отображение, классификатор, функциональная зависимость
между входными значениями и выходом
Функция штрафа
Математическое ожидание
𝑀(𝜑)
Средний риск
𝑀𝑒 (𝜑)
Эмпирический риск
𝐹
Класс функций 𝜑(𝑥)
𝐼{⋅}
Индикатор события
𝑝(𝑥|𝑦)
Условные плотность распределения классе 𝑦
𝑚 𝑠 (𝑙)
Функция роста
𝜀
Точность эмпирического предсказания
𝜂
Надежность эмпирического предсказания
𝑁(𝜀, 𝐿, 𝑥)
𝛿𝑖
Мощность -покрытия
Радемахеровские случайные величины
𝑅(𝐿𝜑 )
Радемахеровский процесс
𝑅(𝐹)
Штраф Радемахера, Радемахеровская сложность
𝜑𝑦𝑏 (𝑥), 𝑦 = 1,2
Байесовские оценки плотностей распределений
𝐶𝑛
arg max 𝑓(𝑢)
𝑢∈𝑈
Ω
Множество из 𝑛 признаков
Произвольный элемент из множества точек максимума
Пространство элементарных событий
85
Список литературы
1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д.
Прикладная статистика: классификация и снижение размерности. – М:
Финансы и статистика, 1989.
2. Анисимов
В. Н.
Молекулярные
и
физиологические
механизмы
старения (в 2-х т.). – СПб.: Наука, 2008.
3. Вапник В. Н. Восстановление зависимостей по эмпирическим данным.
– М.: Наука, 1979.
4. Вапник В.Н., Червоненкис А.Я. Необходимые и достаточные условия
равномерной сходимости средних к математическим ожиданиям //
Теория вероятностей и ее приложения. – 1981. – T. 26, № 3. – С. 543564.
5. Вапник В.Н., Червоненкис А.Я. О методе упорядоченной минимизации
риска. I // Автоматика и телемеханика. – 1974. – №8. – С. 21-30.
6. Вапник В.Н., Червоненкис А.Я. О методе упорядоченной минимизации
риска. II // Автоматика и телемеханика. – 1974. – №9. – С. 29-39.
7.Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. – М.:
Наука, 1974
8. Воронцов К.В. Комбинаторный подход к оценке качества обучаемых
алгоритмов // Математические вопросы кибернетики / Под ред. О.Б.
Лупанов. – М.: Физматлит, 2004. – Т. 13. – С. 5-36.
9. Воронцов К.В. Комбинаторная теория надежности обучения по
прецедентам. Диссертация на соискание ученой степени д. ф.-м. н.: ВЦ
РАН, 2010
10. Воронцов К.В. Обзор современных исследований по проблеме
качества обучения алгоритмов // Таврический вестник информатики и
математики. – 2004. – №1. – С. 5-24.
11. Вьюгин В.В. Элементы математической теории машинного обучения.
– М:МФТИ, 2010.
86
12. Гнеденко Б.В. Курс теории вероятностей. – М.: Наука, Главная
редакция физико-математической литературы, 1965.
13. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир,
1976.
14. Дюличева Ю.Ю. Оценка VCD r-редуцированного эмпирического леса
// Таврический вестник информатики и математики. – 2003. – №1. – С.
31-42.
15. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. –
Новосибирск: ИМ СО РАН, 1999.
16. Кобзарь
А.И.
Прикладная
математическая
статистика.
–
М.:
Физматлит, 2006.
17. Колмогоров А.Н. Теория информации и теория алгоритмов / Под ред.
Ю.В. Прохорова. – М.: Наука, 1987. – 304 с.
18. Мерков
А.Б.
Распознавание
образов.
Введение
в
методы
статистического обучения. – М. : Эдиториал УРСС, 2011 . – 256 с.
19. Местецкий Л.М. Математические методы распознавания образов. –
М.: ИНТУИТ, 2008.
20. Михальский А.И., Цурко В.В. Возрастные особенности причин
смерти и сопутствующих болезней // Клиническая геронтология. –
2014. – 1-2. – С. 35-40
21. Свешникова А.Н., Иванов П.С. Экспрессия генов и микрочипы:
проблемы количественного анализа // Рос. Хим. Ж. – 2007. – LI № 1. –
С. 127-135.
22. Ту Дж., Гонсалес Р. Принципы распознавания образов. – М.: Мир,
1978.
23. Цурко В.В., Михальский А.И. Исследование влияния сопутствующих
заболеваний на возникновение злокачественных новообразований //
XII Всероссийского совещания по проблемам управления (ВСПУ
2014). Москва, 16-19 июня 2014 г.: Труды. [Электронный ресурс] М.:
ИПУ РАН. – 2014. – С. 6800-6810
87
24. Цурко В.В., Михальский А.И. Математическое моделирование
смертности по причинам при сочетанной заболеваемости // Доклады
III
Международной
конференции
Математическая
биология
и
биоинформатика. г. Пущино, 10-15 октября 2010 г.: Сборник докладов.
– М.: МАКС Пресс. – 2010. - С. 260-261.
25. Цурко В.В., Михальский А.И. Статистический анализ связи рака и
сопутствующих заболеваний // Успехи Геронтологии. – 2013. – Т.26. №4. – С. 766-774
26. AIHW & AACR 2012. Cancer in Australia: an overview 2012. Cancer
series no. 74. Cat. no. CAN 70. Canberra: AIHW.
27. Allmuallim H., Dietterich T.G. Learning with many irrelevant features //
Proceedings of the Ninth National Conference on Artificial Intelligence. pp.
547-552. San Jose. – CA: AAAI Press, 1991.
28. Azad N., Rojanasakul Y., Vallyathan V. Inflammation and lung cancer:
roles of reactive oxygen/nitrogen species // J. Toxicol. Environ Hlth B Crit.
Rev. – 2008. – Vol. 11. – Pp. 1–15.
29. Bay S.D., Pazzani M.J. Detecting group differences: mining contrast sets //
Data mining and knowledge discovery. – 2001. – Vol. 5. – Pp. 213-246.
30. Blagosklonny M.V. Why human lifespan is rapidly increasing: solving
“longevity riddle” with “revealed-slow-aging” hypothesis // AGING. –
2010. – Vol.2, no.4. – Pp. 177-182.
31. Blum A., Langley P. Selection of relevant features and examples in
machine learning // AI. – 1997. – Vol. 97(1-2). – Pp. 245-271.
32. Boorjian S. A., Kim S. P., Tollefson M. K. et al. Comparative Performance
of Comorbidity Indices for Estimating Perioperative and 5-Year All Cause
Mortality Following Radical Cystectomy for Bladder Cancer // J. Urol. –
2013. – Vol. 190. – Pp. 55–60.
33. Cardie C. Using decision trees to improve case-based learning //
Proceedings of the IEEE Symposium on Foundations of Computer Science.
Pp. 302-311. – IEEE: Palo Alto, CA. – 1993.
88
34. Caruana R.A., Freitag D. How useful is relevance? // Working notes of the
AAAI Fall Symposium on Relevance. – LA: AAAI Press, New Orleans. –
1994. – Pp 25-29.
35. Classification
of
Diseases
and
Injuries.
Доступно:
http://icd9cm.chrisendres.com/
36. Coetzee F.M. Correcting Kullback-Leibler Distance for Feature Selection //
Pattern Recognition Letters. – 2005. – Vol. 26, no.11. – Pp. 1675-1683.
37. Comon P.
Independent component analysis. A new concept // Signal
Processing. – 1994. – Vol. 36. – Pp. 287-314.
38. Correa P. Chronic gastritis as a cancer precursor // Scand. J. Gastroenterol.
– 1984. – Vol. 104. – Рp. 131–136.
39. Cover T., Thomas J. Elements of Information Theory. – Wiley, 1991.
40. Desesquelles A., Salvatore M. A., Frova L. et al. Revisiting the mortality of
France and Italy with the multiple-cause-of-death approach // Dem. Res. –
2010. – Vol. 23. – Pp. 771–806.
41. Doak J. An evaluation of feature-selection methods and their application to
computer security // Technical Repport CSE-92-18. – 1992.
42. Erbas B., Akram M., Gertig D.M. et. al. Using functional data analysis
models to estimate future time trends in age-specific breast cancer mortality
for the United States and England-Wales // J. Epidemiol. – 2010. – Vol. 20,
no. 2. – Pp. 159-165.
43. Hall M.A. Correlation-based feature selection for discrete and numeric
machine learning // Proceedings of Seventeenth International Conference on
Machine Learning (ICML-00). – Morgan Kaufmann Publishers, 2000.
44. IBM
SPSS
Modeler
14.2
Algorithms
Guide.
Доступно:
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/.
45. John G.H., Kohavi R., Pfleger K. Irrelevant features and the subset
selection problem // Proceedings of the Eleventh International Conference
on Machine Learning. – Morgan Kaufmann Publishers, 1994. – Pp. 121129.
89
46. Jolliffe I.T. Principal component analysis. - New York: Springer-Verlag,
1986.
47. Kearns M.J., Schapire R.E. Efficient distribution-free learning of
probabilistic concepts // Computational Learning Theory and Natural
Learning Systems, Volume I: constrains and Prospect, edited by Stephen
Jose Hanson, George A. Drastal, and Ronald L. Rivest, Bradford/MIT
Press. – 1994. – Vol. 1.
48. Kira K., Rendell L. The feature selection problem: Traditional methods and
a new algorithm // In: Tenth National Conference on Artificial Intelligence.
– MIT Press. – 1992. – Pp. 129-134.
49. Koller D., Sahami M. Toward Optimal Feature Selection // In: Proceedings
of the Thirteenth International Conference on Machine Learning. Morgan
Kaufmann Publishers. – 1996. – Pp. 284-292.
50. Koltchinskii V. Oracle Inequalities in Empirical Risk Minimization and
Sparce Recovery Problems: Ecole d’Ete de Probabilities de Saint-Flour
XXXVIII-2008. – Springer. – 2011.
51. Koltchinskii V. Rademacher penalties and structural risk minimization //
IEEE Transactions on Information Theory. – 2001. – Vol. 47, no. 5. – Pp.
1902-1914.
52. Koltchinskii V., Panchenko D. Rademacher process and bounding the risk
of function learning // High Dimentional Probability, II / Ed. By D.E. Gine,
J. Wellner. – Birkhauser, 1999. – Pp. 443-457.
53. Koltchinskii V., Panchenko D. Empirical margin distributions and
bounding the generalization error of combined classifiers // The Annals of
Statistics. – 2002. – Vol. 30, no. 1. – Pp. 1-50.
54. Kullback S., Leibler R.A. On information and sufficiency // The Annals of
Mathematical Statistics. – 1951. – V. 22, no. 1. – Pp. 79-86.
55.Langley P., Iba W. Average-case analysis of a nearest neighbor algorithm //
Proceedings of the Thirteenth International Joint Conference on Artificial
Intelligence. – Chambery, France, 1993. – Pp. 889-894.
90
56. Langley P., Sage S. Oblivious decision trees and abstract cases // Working
Notes of the AAAI94 Workshop on Case-Based Reasoning. – AAAI Press,
Seattle, 1994. – Pp. 113-117.
57. Lewis D.D. Feature selection and feature extraction for text cauterization //
Proceedings of Speech and Natural Language Workshop. – Morgan
Kaufmann Publishers, 1992. – Pp. 212-217.
58. Lozano F. Model selection using Rademacher Penalization // Proceedings
2nd ICSC Symp. Neural Computation NC2000. – ICSC Academic, Berlin,
2000.
59. Manning C., Raghavan P., Schutze H.: An Introduction to Information
Retrieval. – Cambridge University Press, Cambridge, 2009.
60. Mendelson S. A Few Notes on Statistical Learning Theory. // Lecture
Notes in Computer Science. – 2003.
61. Mortality
Data, Multiple
Cause-of-Death
Public-Use
Data
Files.
Доступно:
http://www.cdc.gov/nchs/data_access/VitalStatsOnline.htm#Mortality_Mult
iple
62. Novovicova J., Pudil P., Kittler J. Divergence based feature selection for
multimodal class densities // IEEE Transactions on Pattern Analysis and
Machine Intelligence. – 1996. – Vol. 18(2). – Pp. 218-223.
63. Quinlan J.R. Induction of decision trees // Machine Learning/ - 1986. –
V.1, № 1. – P. 81-106.
64. Singh M., Provan G.M. A comparison of induction algorithms for selective
and non-selective Bayesian classifiers // Proceedings of the Twelfth
International Conference on Machine Learning. – CA: Morgan Kaufmann,
Lake Tahoe, 1995. – Pp. 497-505.
65. Ross R. K., Jones P. A., Yu M. C. Bladder cancer epidemiology and
pathogenesis // Seminars Oncol. – 1996. – Vol. 23, no. 5. – Pp. 536–545.
91
66. Stallard E. Underlying and multiple cause mortality at advanced ages:
United States 1980–1998 // North Amer. Actuarial J. – 2002. – Vol. 6. – Pp.
64-87.
67. Tsurko V., Michalskii A. Comorbidity in Cancer Mortality Analysis //
Proceedings of the 14th Applied Stochastic Models and Data Analysis
International Conference – ASMDA 2011, Rome, Italy, 6-10 June 2011. –
2011. – Pp. 1373.
68. Tsurko V., Michalski A. Feature Selection by Distributions Contrasting //
Artificial Intelligence: Methodology, Systems and Applications, G. Agre, P.
Hitzer, A.A. Krisnadhi, S.O. Kuznetsov (eds.), LNAI 8722, SpringerVerlag, 2014. – Pp. 139-149.
69. Tsurko V., Michalski A. Investigation of cancer mortality on the basis of
historical comorbidity data // Proceedings of the International Conference
on Statistical Models and Methods for Reliability and Survival Analysis and
Their Validation – S2MRSA, Bordeaux, France, 4-6 July 2012. – 2012. –
Pp. 236-239.
70. Tsurko V.V., Mikhalsky A.I. Investigation Of Cancer Death Risk In The
Comorbidity Case // Международная Научная Школа Моделирование и
Анализ Безопасности и Риска в Сложных Системах (МАБР - 2011),
Санкт-Петербург, 28 июня - 2 июля, 2011 г. – C. 399-404.
71. Tsurko V., Michalski A. Statistical analysis of mortality-comorbidity links
// Proceedings of the International Workshop “Applied Methods of
Statistical Analysis. Simulations and Statistical Inference” – AMSA’2011,
Novosibirsk, Russia, 20-22 September, 2011. - Novosibirsk: Publishing
house of NSTU. – 2011. – Pp. 63-70.
72. Tsurko V.V., Michalski A.I. Statistical analysis of the relationship between
cancer and associated diseases // Advances in Gerontology, SpringerVerlag, 2014. – Vol. 4, issue 3. – Pp. 205-212.
73. Vapnik V. Estimation of Dependences Based on Empirical Data. –
Springer-Verlag, New York, 1982.
92
74. Vapnik V. The nature of statistical learning theory. – Springer-Verlag, New
York, 1995.
75. Vapnik V. Statistical learning theory. – Wiley, New York, 1998.
76. Vapnik V., Levin E., Cun Y.L. Measuring the VC-dimension of a learning
machine // Neural Computation. – 1994. – Vol. 6, no 5. – Pp. 230-240.
77. Wolf L., Shashua A. Features Selection for Unsupervised and Supervised
Inference: The Emergence of Sparsity in a Weight-Based Approach //
Journal of Machine Learning Research. – 2005. – Vol. 6. – Pp. 1855-1887.
93
Список иллюстраций
Рисунок 1
Структура смертности от неинфекционных
Стр. 54
заболеваний среди людей старше 65 лет (США,
2008 г.)
Рисунок. 2
Доля смертей от новообразований разных
локализаций среди людей старше 65 лет,
Стр. 55
выраженная в долях к общему числу смертей
Рисунок 3
Рак органов пищеварения и брюшины. Доли
Стр. 63
людей с сопутствующими заболеваниями в
раковой и нераковой группах
Рисунок 4
Рак органов дыхания и грудной клетки. Доли
Стр. 66
людей с сопутствующими заболеваниями в
раковой и нераковой группах
Рисунок 5
Рак мочеполовых органов. Доли людей с
Стр. 70
сопутствующими заболеваниями в раковой и
нераковой группах
Рисунок 6
Ошибки классификации при различных наборах
признаков
Стр. 79
94
Список таблиц
Таблица 1
Рак органов пищеварения и брюшины. Результаты
Стр. 61
применения метода контрастирования
распределений
Таблица 2
Рак органов дыхания и грудной клетки. Результаты
применения метода контрастирования
Стр. 64
распределений
Таблица 3
Рак мочеполовых органов. Результаты применения Стр. 68
метода контрастирования распределений
Таблица 4
Названия параметров состояний системы
Стр. 74
Таблица 5
Результаты применения метода контрастирования
Стр. 78
распределений
Таблица 6
Результаты сравнения алгоритмов отбора
Стр.80
(преобразования) признаков
Таблица 7
Блоки сопутствующих заболеваний, согласно
МКБ-9
Стр. 95
95
Приложение
Таблица 7
Блоки сопутствующих заболеваний, согласно МКБ-9
№
Название блока заболеваний, согласно МКБ-9
00
Кишечные инфекции
01
Туберкулез
02
Зоонозные бактериальные заболевания
03
Другие бактериальные заболевания
Вирус иммунодефицита человека, полиомиелит и другие вирусные
04
заболевания центральной нервной системы, не передаваемые
членистоногими
05
Вирусные заболевания, сопровождается сыпью
06
Вирусные заболевания, передаваемые членистоногими
07
Другие болезни, вызываемые вирусами и хламидиями
08
Риккетсиоз и другие болезни, передаваемые членистоногими
09
Сифилис и другие венерические заболевания
10
Другие болезни, вызываемые спирохетами
11
Микозы
12
Гельминтозы
13
Другие инфекционные и паразитарные болезни и поздние эффекты
инфекционных и паразитарных заболеваний
14
Злокачественные новообразования губы, полости рта и глотки
15
Злокачественные новообразования органов пищеварения и брюшины
16
17
Злокачественные новообразования органов дыхания и органов грудной
клетки
Злокачественные новообразования костей, соединительной ткани,
кожи, молочной железы и саркомы Капоши
18
Злокачественные новообразования мочеполовых органов
19
Злокачественные новообразования неуточненного или другого
96
характера
20
Злокачественные новообразования лимфоидной и кроветворной ткани
и нейроэндокринные опухоли
21
Доброкачественные новообразования
22
Доброкачественные новообразования
23
Карциномы in situ, новообразования неопределенного поведения и
характера
24
Болезни щитовидной железы
25
Заболевания других эндокринных желез
26
Дефицит питательных веществ
27
Другие метаболические и иммунные расстройства
28
Болезни крови и кроветворных органов
29
Психоз
30
31
32
33
Невротические расстройства, расстройства личности, и другие
непсихотические психические расстройства
Невротические расстройства, расстройства личности, другие
непсихотические психические расстройства, умственная отсталость
Воспалительные болезни центральной нервной системы
Наследственные и дегенеративные заболевания центральной нервной
системы, боль и другие симптомы головной боли
34
Другие нарушения центральной нервной системы
35
Расстройства периферической нервной системы
36
Заболевания глаза и его придаточного аппарата
37
Заболевания глаза и его придаточного аппарата
38
Болезни уха и сосцевидного отростка
39
Острая ревматическая лихорадка и хронические ревматические болезни
сердца
40
Гипертоническая болезнь
41
Ишемическая болезнь сердца и болезни легочного кровообращения
97
42
Другие формы болезни сердца
43
Цереброваскулярные болезни
44
Болезни артерий, артериол и капилляров
45
Болезни вен, лимфатических сосудов, лимфатических узлов и другие
заболевания сердечно-сосудистой системы
46
Острые респираторные инфекции
47
Другие болезни верхних дыхательных путей
48
Пневмония и грипп
49
Хроническая обструктивная легочная болезнь и смежные условия
50
Пневмокониозы и другие заболевания легких, вызванные внешними
агентами
51
Другие болезни органов дыхания
52
Болезни полости рта, слюнных желез и челюстей
53
Болезни пищевода, желудка и двенадцатиперстной кишки
54
Аппендицит
55
Грыжа брюшной полости, неинфекционный энтерит и колит
56
Другие болезни кишечника и брюшины
57
Другие болезни пищеварительной системы
58
Нефрит, нефротический синдром и нефроз
59
Другие болезни мочевыделительной системы
60
Болезни мужских половых органов
61
62
63
64
65
Болезни молочной железы и воспалительные болезни женских тазовых
органов
Другие болезни женских половых путей
Внематочная и молярная беременность, беременность, закончившаяся
выкидышем
Осложнения, связанные преимущественно с беременностью
Нормальные роды и другие показания для ухода в период
беременности, родов и родоразрешения
98
66
67
Осложнения, возникающие преимущественно в ходе родов и
родоразрешения
Осложнения в послеродовом периоде, другие осложнения у матери и
плода
68
Инфекции кожи и подкожной клетчатки
69
Другие воспалительные состояния кожи и подкожной клетчатки
70
Другие болезни кожи и подкожной клетчатки
71
Артропатии и родственные нарушения
72
Дорсопатии и ревматизм, исключая спину
73
Остеопатии, хондропатии и приобретенные мышечные деформации
74
Врожденные аномалии
75
Врожденные аномалии
76
Отдельные состояния, возникающие в перинатальном периоде
77
Отдельные состояния, возникающие в перинатальном периоде
78
Симптомов и плохо определенные условия
79
Неспецифические патологические проявления
80
Перелом черепа, шеи и неуточненной части туловища
81
Перелом верхней конечности
82
Перелом нижней конечности
83
Вывих
84
Вывихи суставов и растяжения прилегающих мышц
85
Внутричерепные травмы, за исключением перелома черепа
86
Внутренняя травма грудной клетки, брюшной полости и таза
87
Открытая рана головы, шеи, туловища
88
Открытая рана верхней конечности
89
Открытая рана нижней конечности
90
91
Повреждение кровеносных сосудов, поздние эффекты травм,
отравлений, токсического воздействия и других внешних причин
Поверхностная травма
99
92
93
94
95
96
97
98
Ушиб без повреждения поверхности кожи, размозжение
Последствия проникновения инородного тела через естественные
отверстия
Ожоги
Повреждение нервов и спинного мозга, некоторые последствия травм и
неуточненные травмы
Отравления лекарственными средствами, медикаментами и
биологическими веществами
Отравления лекарственными средствами, медикаментами и
биологическими веществами
Токсическое действие веществ, преимущественно немедицинского
назначения
Другие и неуточненные эффекты воздействия внешних причин,
99
осложнения хирургических и терапевтических вмешательств, не
классифицированные в других рубриках
Download