Ш.Х. Ишкина Комбинаторные оценки обобщающей способности

УДК 519.25 Применение комбинаторных оценок переобучения пороговых решающих правил для отбора признаков Ш.Х. Ишкина1 1 Федеральный исследовательский центр «Информатика и управление» Российской академии наук Во многих задачах классификации, в частности, в задачах медицинской диагностики [1] и категоризации текстов [2], хорошо зарекомендовал себя синдромный алгоритм. Он заключается в следующем. Для каждого класса по обучающей выборке выделяется набор из K информативных признаков, и если объект тестовой выборки обладает хотя бы M из них, то объект относится к данному классу. Частными случаями являются линейные классификаторы, еще более частными – наивные байесовские линейные классификаторы. Обычно они выводятся из предположения, что признаки являются независимыми случайными величинами и описываются нормальными, биномиальным или пуассоновским распределением. Несмотря на жесткость сделанных предположений, классификаторы данного типа оказываются успешными в некоторых прикладных задачах, причем часто в таких, где предположения о независимости признаков заведомо не выполняются. Это означает, что имеет смысл искать альтернативные обоснования этих алгоритмов, находящиеся вне байесовской теории классификации. В данной работе исследуется обобщающая способность алгоритмов обучения линейных классификаторов, основанных на оценивании индивидуальных информативностей признаков. Линейный классификатор имеет вид 𝑎 𝑥 = Σ 𝑤! 𝑓! (𝑥) ≥ 𝑤! , где [] – предикат, равный единице, когда выражение внутри скобок истинно, и нулю в противном случае, 𝑓! – признаки, 𝑤! – веса признаков, 𝑤! - порог, x – классифицируемый объект. Линейный классификатор возращает метку класса, к которому отнесен объект x. Веса и порог настраиваются по некоторому конечному множеству объектов, называемому обучающей выборкой, с известными для каждого объекта метками классов. Обобщающая способность характеризует способность построенного классификатора верно классифицировать объекты на произвольной тестовой выборке, на которой метки классов неизвестны. Выбор K наиболее значимых признаков является простейшим методом отбора признаков. В некоторых прикладных задачах классификации он показывает достаточно высокое качество и удивительно низкий уровень переобучения. Применение переборных методов дискретной оптимизации (жадный Add-Del, полужадные методы поиска в ширину, эволюционные алгоритмы, случайный поиск с адаптацией) может, с одной стороны, приводить к выбору лучшего подмножества признаков и улучшению качества классификации, с другой стороны, – к росту переобучения. Для разрешения данной дилеммы при отборе признаков предлагается применить комбинаторные оценки вероятности переобучения и ожидаемой частоты ошибок скользящего контроля [3, 4]. Рассматривается случай, когда признаки имеют вещественные веса, поэтому семейство пороговых классификатором с настраиваемым порогом М порождает последовательность бинарных векторов ошибок, называемое цепью классификаторов. Для таких семейств ранее [5, 6] были получены точные оценки вероятности переобучения и показано, что в зависимости от свойств расслоения и связности этой цепи величина переобучения может меняться во много раз. Оценки вероятности переобучения и ожидаемой частоты ошибок скользящего контроля используются в качестве критерия отбора признаков в задаче медицинской для решения прикладной задачи диагностики заболеваний внутренних органов человека методами информационного анализа электрокардиосигналов по В. М. Успенскому [1]. Эксперимент проводится следующим образом. Объекты представляют из себя символьные последовательности в алфавите из 6 символов. Признаки – частоты встречаемости триграмм, то есть всего 216 признаков. Имеется априорная информация о том , что K = 40 – оптимальное число признаков для болезней РО (онкопатология различной локализации) и ХГ (хронический гастрит). При построении классификатора отбираем признаки жадным способом. На каждом шаге добавляется признак, в композиции с которым у построенного линейного классификатора достигается наименьшая ожидаемая частота ошибок скользящего контроля. При этом мы перебираются не все признаки, а только top(K + M) по значению некоторого критерия информативности S. Параметр M варьируется, принимая значения 10, 20, 30. Критерий информативности S для каждой триграммы w – это количество объектов класса 0, в которых представлена триграмма w. Рисунок 1. Разность значений AUC на тестовой и обучающей выборках. Болезнь ХГ. Рисунок 2. Значения AUC на тестовой выборке для раличных алгоритмов. Болезнь ХГ. В качестве критерия качества используется AUC (Area Under Curve) на отложенной тестовой (Hold-Out, HO) и обучающей выборках (Train). На графиках сравнивается четыре алгоритма. В первых трех используется жадный отбор при разных M (10, 20, 30), в четвертом - отбор с помощью критерия информативности S. Этот же критерий используется в первых трех алгоритмах, когда выбирается top-(K + M) признаков. Строится два графика зависимости: 1) Разности AUC на Train и Hold-Out от количества признаков для разных алгоритмов. На легенде алгоритмы 1- 3 обозначены как “S:12, M: ….” (10, 20, 30), алгоритм 4 обозначен как “S:1”. Результаты представлены на рисунках 1 и 3. 2) AUC на Hold-Out от количества признаков для разных алгоритмов. Здесь черной горизонтальной линией отмечен HO-AUC у top-40 по критерию S (то есть оптимального по критерию S набора признаков). На легенде алгоритмы 1-3 обозначены как “S:12, M: ….” (10, 20, 30), алгоритм 4 обозначен как “S:1,K:40”. Результаты представлены на рисунках 2 и 4. Рисунок 3. Разность значений AUC на тестовой и обучающей выборках. Болезнь РО. Рисунок 4. Значения AUC на тестовой выборке для раличных алгоритмов. Болезнь РО. Результаты подтверждают гипотезу, что с помощью более сложных переборных методов возможно отбирать наборы признаков с контролируемой переобученностью, превосходящие по качеству классификации метод отбора по индивидуальной информативности. Исследование выполнено при финансовой поддержке РФФИ в рамках научных проектов №№ 14-07-00847, 15-37-50350 мол_нр. Литература [1] Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика и информатика, 2008. – 116 с. [2] Lui M., Lau J.H., Baldwin T. Automatic Detection and Language Identification of Multilingual Documents. – Transactions of the Association for Computational Linguistics. – 2014. – Vol. 2. – P. 27–40. [3] Vorontsov K. V., Ivahnenko A. A. Tight combinatorial generalization bounds for threshold conjunction rules. – 4-th Int’l Conf. on Pattern Recognition and Machine Intelligence (PReMI’11), June 27 – July 1, 2011. Lecture Notes in Computer Science. Springer-Verlag, 2011. — P. 66–73. [4] Vorontsov K. V. Exact combinatorial bounds on the probability of overfitting for empirical risk minimization. – Pattern Recognition and Image Analysis. — 2010. — Vol. 20, No. 3. — P. 269–285. [5] Ишкина Ш. Х. Ивахненко А.А. Комбинаторные оценки переобучения пороговых решающих правил. – Математические методы распознавания образов:16-я Всероссийская конференция, г. Казань, 6-12 сентября 2013 г.: Тезисы докладов. – М.: Торус Пресс, 2013. – С.23. [6] Ишкина Ш. Х. Комбинаторные оценки переобучения одномерных пороговых классификаторов. – Математические методы распознавания образов: Тезисы докладов 17-й Всероссийской конференции с международным участием, г. Светлогорск, 2015 г. М.: Торус Пресс, 2015. – С.76–77.

Ш.Х. Ишкина Комбинаторные оценки обобщающей способности

Related documents

Products

Support

Ш.Х. Ишкина Комбинаторные оценки обобщающей способности

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib