Ш.Х. Ишкина Комбинаторные оценки обобщающей способности

advertisement
УДК 519.25
Применение комбинаторных оценок переобучения пороговых решающих
правил для отбора признаков
Ш.Х. Ишкина1
1
Федеральный исследовательский центр «Информатика и управление»
Российской академии наук
Во многих задачах классификации, в частности, в задачах медицинской
диагностики [1] и категоризации текстов [2], хорошо зарекомендовал себя
синдромный алгоритм. Он заключается в следующем. Для каждого класса по
обучающей выборке выделяется набор из K информативных признаков, и если
объект тестовой выборки обладает хотя бы M из них, то объект относится к
данному классу. Частными случаями являются линейные классификаторы, еще
более частными – наивные байесовские линейные классификаторы. Обычно они
выводятся из предположения, что признаки являются независимыми случайными
величинами и описываются нормальными, биномиальным или пуассоновским
распределением.
Несмотря
на
жесткость
сделанных
предположений,
классификаторы данного типа оказываются успешными в некоторых прикладных
задачах, причем часто в таких, где предположения о независимости признаков
заведомо не выполняются. Это означает, что имеет смысл искать альтернативные
обоснования
этих
алгоритмов,
находящиеся
вне
байесовской
теории
классификации.
В данной работе исследуется обобщающая способность алгоритмов
обучения
линейных
классификаторов,
основанных
на
оценивании
индивидуальных информативностей признаков.
Линейный классификатор имеет вид
𝑎 𝑥 = Σ 𝑤! 𝑓! (𝑥) ≥ 𝑤! ,
где [] – предикат, равный единице, когда выражение внутри скобок истинно, и
нулю в противном случае, 𝑓! – признаки, 𝑤! – веса признаков, 𝑤! - порог, x –
классифицируемый объект. Линейный классификатор возращает метку класса, к
которому отнесен объект x.
Веса и порог настраиваются по некоторому конечному множеству объектов,
называемому обучающей выборкой, с известными для каждого объекта метками
классов.
Обобщающая
способность
характеризует
способность
построенного
классификатора верно классифицировать объекты на произвольной тестовой
выборке, на которой метки классов неизвестны.
Выбор K наиболее значимых признаков является простейшим методом
отбора признаков. В некоторых прикладных задачах классификации он
показывает достаточно высокое качество и удивительно низкий уровень
переобучения. Применение переборных методов дискретной оптимизации
(жадный Add-Del, полужадные методы поиска в ширину, эволюционные
алгоритмы, случайный поиск с адаптацией) может, с одной стороны, приводить к
выбору лучшего подмножества признаков и улучшению качества классификации,
с другой стороны, – к росту переобучения.
Для разрешения данной дилеммы при отборе признаков предлагается
применить комбинаторные оценки вероятности переобучения и ожидаемой
частоты ошибок скользящего контроля [3, 4]. Рассматривается случай, когда
признаки
имеют
вещественные
веса,
поэтому
семейство
пороговых
классификатором с настраиваемым порогом М порождает последовательность
бинарных векторов ошибок, называемое цепью классификаторов. Для таких
семейств ранее [5, 6] были получены точные оценки вероятности переобучения и
показано, что в зависимости от свойств расслоения и связности этой цепи
величина переобучения может меняться во много раз. Оценки вероятности
переобучения и ожидаемой частоты ошибок скользящего контроля используются
в качестве критерия отбора признаков в задаче медицинской для решения
прикладной задачи диагностики заболеваний внутренних органов человека
методами
информационного
анализа
электрокардиосигналов
по
В. М. Успенскому [1].
Эксперимент проводится следующим образом. Объекты представляют из
себя символьные последовательности в алфавите из 6 символов. Признаки –
частоты встречаемости триграмм, то есть всего 216 признаков. Имеется
априорная информация о том , что K = 40 – оптимальное число признаков для
болезней РО (онкопатология различной локализации)
и ХГ (хронический
гастрит).
При построении классификатора отбираем признаки жадным способом. На
каждом шаге добавляется признак, в композиции с которым у построенного
линейного классификатора достигается наименьшая ожидаемая частота ошибок
скользящего контроля. При этом мы перебираются не все признаки, а только top(K + M) по значению некоторого критерия информативности S. Параметр M
варьируется, принимая значения 10, 20, 30.
Критерий информативности S для каждой триграммы w – это количество
объектов класса 0, в которых представлена триграмма w.
Рисунок 1. Разность значений AUC на тестовой и обучающей выборках. Болезнь ХГ. Рисунок 2. Значения AUC на тестовой выборке для раличных алгоритмов. Болезнь ХГ. В качестве критерия качества используется AUC (Area Under Curve) на
отложенной тестовой (Hold-Out, HO) и обучающей выборках (Train).
На графиках сравнивается четыре алгоритма. В первых трех используется
жадный отбор при разных M (10, 20, 30), в четвертом - отбор с помощью критерия
информативности S. Этот же критерий используется в первых трех алгоритмах,
когда выбирается top-(K + M) признаков.
Строится два графика зависимости:
1) Разности AUC на Train и Hold-Out от количества признаков для разных
алгоритмов. На легенде алгоритмы 1- 3 обозначены как “S:12, M: ….” (10, 20, 30),
алгоритм 4 обозначен как “S:1”. Результаты представлены на рисунках 1 и 3.
2) AUC на Hold-Out от количества признаков для разных алгоритмов. Здесь
черной горизонтальной линией отмечен HO-AUC у top-40 по критерию S (то есть
оптимального по критерию S набора признаков). На легенде алгоритмы 1-3
обозначены
как
“S:12,
M:
….”
(10,
20,
30),
алгоритм
4
обозначен
как “S:1,K:40”. Результаты представлены на рисунках 2 и 4.
Рисунок 3. Разность значений AUC на тестовой и обучающей выборках. Болезнь РО. Рисунок 4. Значения AUC на тестовой выборке для раличных алгоритмов. Болезнь РО. Результаты подтверждают гипотезу, что с помощью более сложных
переборных методов возможно отбирать наборы признаков с контролируемой
переобученностью, превосходящие по качеству классификации метод отбора по
индивидуальной информативности.
Исследование выполнено при финансовой поддержке РФФИ в рамках
научных проектов №№ 14-07-00847, 15-37-50350 мол_нр.
Литература
[1] Успенский В. М. Информационная функция сердца. Теория и практика
диагностики заболеваний внутренних органов методом информационного анализа
электрокардиосигналов. – М.: Экономика и информатика, 2008. – 116 с.
[2] Lui M., Lau J.H., Baldwin T. Automatic Detection and Language Identification of
Multilingual Documents. – Transactions of the Association for Computational
Linguistics. – 2014. – Vol. 2. – P. 27–40.
[3] Vorontsov K. V., Ivahnenko A. A. Tight combinatorial generalization bounds for
threshold conjunction rules. – 4-th Int’l Conf. on Pattern Recognition and Machine
Intelligence (PReMI’11), June 27 – July 1, 2011. Lecture Notes in Computer Science.
Springer-Verlag, 2011. — P. 66–73.
[4] Vorontsov K. V. Exact combinatorial bounds on the probability of overfitting for
empirical risk minimization. – Pattern Recognition and Image Analysis. — 2010. —
Vol. 20, No. 3. — P. 269–285.
[5] Ишкина Ш. Х. Ивахненко А.А. Комбинаторные оценки переобучения
пороговых решающих правил. – Математические методы распознавания
образов:16-я Всероссийская конференция, г. Казань, 6-12 сентября 2013 г.: Тезисы
докладов. – М.: Торус Пресс, 2013. – С.23.
[6] Ишкина Ш. Х. Комбинаторные оценки переобучения одномерных пороговых
классификаторов. – Математические методы распознавания образов: Тезисы
докладов 17-й Всероссийской конференции с международным участием,
г. Светлогорск, 2015 г. М.: Торус Пресс, 2015. – С.76–77.
Download