О поиске логических закономерностей по прецедентам для

advertisement
О поиске логических закономерностей по прецедентам для
решения задач распознавания и анализа данных
С.Б.Ларин, В.В.Рязанов
Вычислительный центр Российской Академии наук
Вавилова 40, ГСП-1, Москва, 117967, Россия
Факс: 7(095)135 6159; E-mail: riazanov@ccas.ru
Рассматриваются задачи анализа числовой прецедентной информации
(таблиц признаковых описаний объектов, ситуаций или явлений) с целью поиска
логических закономерностей классов объектов, построения логических описаний
классов, вычисления информационных характеристик признаков, объектов и
классов, решения задач распознавания. Под логическими закономерностями класса
понимаются определенные на признаковых подпространствах специальные
предикаты, принимающие значение “истина” на части эталонных (обучающих)
объектов данного класса и “ложь” на эталонных объектах остальных классов, а
также удовлетворяющие условиям оптимальности.
Разработан новый эффективный подход для поиска систем логических
закономерностей
классов,
основанный
на
нахождении
оптимальных
параллелепипедов в признаковых подпространствах с центрами в эталонных
объектах. При этом независимыми переменными при решении основной
экстремальной задачи являются параметры, задающие подмножество признаков и
размеры параллелепипеда. Основная оптимизационная задача сведена к задаче
целочисленного
линейного
программирования
,
коэффициенты
матрицы
ограничений и целевого функционала которой имеют специальную блочную
структуру со свойствами монотонности. Показана в виде оценки взаимосвязь
между “качеством исходной информации” и значениями оптимальных решений.
Исследована проблема практической адаптации разработанной модели
распознавания
для
решения
новых
последовательные
практических
задач.
формализованы
те
вычислительные
распознавания,
для которых важна разновариантность
Выделены
этапы
и
процесса
их выполнения в
зависимости от свойств
данных конкретной
прикладной задачи.
На данной
основе создана программа обучения и распознавания с высокими адаптационными
свойствами к новым стандартным информациям. Приведены сравнительные
результаты решения одной задачи медицинской диагностики.
ВВЕДЕНИЕ
В статье рассматривается задача распознавания в стандартной постановке
/1/.
Предполагается, что исследуемое множество объектов (ситуаций, процессов,
событий или явлений) M представимо в виде объединения l подмножеств Kj,
называемых классами: M 
l
K
j 1
j
. Задана начальная информация I0 о классах и
описание I(S) произвольного объекта S из M. Требуется по информации I0 и I(S) для
j=1,2,...,l определить значения свойств “ S  K j ”. Предполагается, что описания
I(S) определяются наборами значений n числовых признаков x1 , x 2 ,... , x n , а
начальная информация I0 (обучающая, эталонная информация) задается выборкой
описаний I(S1),I(S2),...,I(Sm), I(S) = (x1(S),x2(S),...,xn(S)), в виде числовой таблицы Tnml,
в которой представлены объекты всех l классов с известным распределением их по
классам. Для определенности и простоты будем полагать,что
Smi 1 1, Smi 1 2 ,... , Smi  K i , i  1,2,... , l , m0  0, ml  m.
Задача распознавания произвольного объекта S некоторым алгоритмом
распознавания A r записывается в следующем виде:
A r ( I 0 , I (S ))   A ,  A  (1A ,  2A ,... ,  lA ),  jA   jA ( I (S ))  {01
, , } .
Здесь
 jA  1 соответствует отнесению объекта в класс Kj,  jA  0 - решению " S  K j " ,
 jA   - отказу от распознавания данного объекта.
К настоящему времени разработано несколько основных направлений в
теории распознавания, объединяюших сотни конкретных алгоритмов и методов. В
качестве
таковых
следует
отметить
перцептрон
Розенблата
/2/,
метод
потенциальных функций /3/, статистические модели распознавания /4,5/, модели
распознавания, основанные на построении кусочно-линейных (или более сложных)
разделяющих поверхностей в признаковом пространстве /6,7/, алгоритмы ,
основанные
на
построении
решающих
деревьев
/8-10/,
структурные
(лингвистические) методы /11/, модели частичной прецедентности /1, 12-14/,
алгебраический подход /1/, нейросетевые алгоритмы /15/, основанные на теории
нечетких множеств методы /16/, и другие. Основанные на различных идеях,
гипотезах и принципах, а также их сочетаниях, они имеют свои достоинства и
недостатки, различные требования к исходным данным, ограничения на области
применения.
Значительная часть алгоритмов распознавания основана на идеях поиска и
использования логических взаимосвязей между признаками и классами.
Важнейшим аттрибутом логических алгоритмов является решение задачи
распознавания на основе вычисления значений специальных не более чем n местных предикатов, определенных на различных подмножествах заданной
системы признаков. Обычно, каждый такой предикат принимает значение 1 (или
“преимущественно” значение 1) на эталонных объектах одного класса и 0 на всех
остальных
эталонах.
По
данной
тематике
существует
весьма
обширная
библиография, в связи с чем отметим следующие два обстоятельства. Во - первых,
для обозначения близких по своей сути предметов различными исследователями
используется различная терминология (элементарный классификатор, признаковый
предикат, функция близости, и т.п.). В данном введении мы будем придерживаться
авторских терминов. Во - вторых, мы отметим лишь идеи основных подходов,
связанных с предметом настоящей работы, и не будем приводить точные
формулировки,
вдаваться
в
подробности
или
приводить
всевозможные
модификации и обобщения.
К числу первых логических алгоритмов для задач с бинарными или kзначными
признаками
относится
тестовый
алгоритм
распознавания
/13/,
базирующийся на нахождении тупиковых тестов /17/. Под тупиковым тестом
эталонной таблицы понимается несократимый набор ее столбцов, разделяющих
эталонные объекты разных классов. При распознавании некоторого объекта S для
произвольного тупикового теста T в признаковом описании S выделяется фрагмент
описания, соответствующий данному T. Далее по выборке эталонов выясняется
существование класса, содержащего данный фрагмент. Если такой класс Kj
существует, то число данных фрагментов в обучающей выборке называют числом
голосов за класс Kj по тупиковому тесту T . Данная процедура повторяется по всем
предварительно найденным тупиковым тестам. Голоса суммируются по каждому
классу и нормируются. В итоге вычисляются эвристические меры близости
(оценки) объекта S к каждому из классов, на основе которых проводится
классификация S.
Данная
схема
распознавания
используется
и
в
других
моделях
распознавания, основанных на принципе частичной прецедентности /1, 12-14/.
В алгоритмах вычисления оценок /14/ вместо
тупиковых тестов
используются всевозможные наборы из 0<qn признаков. Значение параметра q
находится в результате решения задачи оптимизации модели распознавания.
Алгоритм обучения распознаванию образов “Кора” /17/ в процедурах
голосования использует специальные конъюнкции признаков длины 3.
В модели алгоритмов распознавания с представительными наборами /12/
опорными множествами распознающих алгоритмов являются несократимые
фрагменты эталонных описаний, позволяющие различать эталоны разных классов.
В отличие от тестового алгоритма для каждого отдельного эталонного объекта S (а
не для всех эталонов сразу) находятся несократимые подсистемы признаков и,
следовательно, их значений, отделяющие S от эталонов других классов. Длина
представительных наборов априори не ограничивается. После нахождения для
каждого
класса
Kj
множества
{P}j
данных
несократимых
фрагментов
(представительных наборов), используются стандартные процедуры голосования
моделей частичной прецедентности.
Вышеприведенные
обобщаются
на
случаи
модели
распознавания
вещественнозначных
естественным
признаков
/1,14/.
образом
Задается
неотрицательный вектор пороговых параметров =(1,2,...,n). При сравнении
произвольной пары объектов по некоторому признаку xi требования совпадения
или несовпадения значений признаков заменяются на требования их близости
(соответственно удаленности) с точностью i . Значения пороговых параметров
задаются экспертами, вычисляются по эвристическим формулам /19/, или
находятся
в
процессе
оптимизации
модели
распознавания
/1/.
Другой,
предложенный Ю.И.Журавлевым подход для решения задачи поиска логических
закономерностей в пространствах числовых признаков состоит в преобразовании
числовых признаков в k - значные. Вводится для каждого признака своя система
интервалов (-,c1 ], (c1, c2], ..., (ck-1 ,+). По номерам интервалов признаковому
описанию произвольного объекта ставится в соответствие его дискретное
описание. Значения параметров ci находятся из условия отделимости классов на
дискретизированной таблице эталонов. Для дискретизированной таблицы обучения
применяются
стандартные
процедуры
поиска
тупиковых
тестов
или
представительных наборов.
Задачи поиска тупиковых тестов и представительных наборов относятся к
классу трудных комбинаторных задач. Существующие практические алгоритмы
ограничиваются лишь поиском некоторых множеств тупиковых тестов или
тупиковых представительных наборов, используемых в качестве опорных
множеств в процедурах голосования при распознавании новых объектов. Здесь
следует
отметить
асимптотически
оптимальные
алгоритмы
поиска
и
их
программные реализации, в том числе для некоторых модификаций исходных
постановок /20-21/.
Многие логические методы распознавания основаны на построении
решающих деревьев /8-10/ и др. Вводится множество из n “признаковых
предикатов” - не более чем n - местных предикатов, определенных на
подмножествах множества признаков. Данные предикаты отображают описания
объектов в вершины n - мерного единичного куба En, а таблицу обучения Tnml - в
булеву таблицу обучения T0nml. Решающим называется корневое бинарное дерево,
каждая вершина которого (кроме висячих) соответствует одному из признаковых
предикатов, дуги соответствуют значениям предикатов на признаковых описаниях
объектов, висячие вершины соответствуют меткам классов объектов и ни в одной
ветви дерева нет двух одинаковых вершин. Задача построения решающего дерева
состоит в выборе множества признаковых предикатов и последующего синтеза
решающих булевых функций.
В работах
/23, 24/ изложена теория алгоритмов распознавания,
инвариантных
относительно
Допустимыми
считаются
действительных
чисел,
все
преобразований
пространства
признаков.
биективные
преобразования
множества
сохраняющие
порядок
или
меняющие
его
на
противоположный. Доказано, что предикаты  jA ( I (S )) алгоритмов распознавания
A r ( I 0 , I (S )) ,
инвариантных
относительно
данных
покоординатных
преобразований, представимы в виде дизъюнктивных нормальных форм от
предикатов определенного вида. Авторам, однако, не известны результаты их
практических реализаций.
В работе /25/ был предложен новый класс распознающих алгоритмов алгоритмы распознавания, основанные на локальных критериях оптимальности.
Исходными
понятиями
являются
признаковые
окрестности
(специальные
подмножества пространства допустимых признаковых описаний, имеющие
непустые
пересечения
определенными
на
с
I0 )
них,
и
системы
соответственно,
признаковых
окрестностей,
локальными
и
с
глобальными
функционалами. Основная задача состояла в поиске оптимальных систем
признаковых окрестностей. Множества локально-оптимальных решений данной
задачи являются аналогами систем опорных множеств моделей частичной
прецедентности.
В
настоящей
статье,
являющейся
продолжением
исследования/25/,
рассматривается задача практического создания распознающих алгоритмов,
основанных на поиске систем предикатов вида (1) и использовании процедур
голосования, а также некоторые смежные вопросы анализа данных.
Pi (S) & (aij  ij  xij  aij  ij ) .
Для
каждого
объекта
таблицы
(1)
обучения
Si
в
рамках
единой
оптимизационной задачи требуется найти “оптимальную” пару (,), ={i1,i2,...,ik},
=(1,2,...,n)0, задающую окрестность эталонного объекта в подпространстве
признаковых описаний.
В разделе 1 будет приведен общий формализм для поиска предикатов (1),
удовлетворяющих определенным критериям оптимальности, а также описан
алгоритм их нахождения.
В
разделе 2 рассмотрен вопрос взаимосвязи “качества” начальной
информации I0 и оптимальных решений.
Вопросам
практического
поиска
логических
закономерностей,
распознавания, и построения логических описаний классов будет посвящен раздел
3.
В
разделе
4
рассматривается
проблема
практической
адаптации
разработанной модели распознавания для решения новых практических задач.
Выделены и формализованы те последовательные вычислительные этапы процесса
распознавания,
для которых важна разновариантность
зависимости от свойств
данных конкретной
их выполнения в
прикладной задачи.
На данной
основе создана программа обучения и распознавания с высокими адаптационными
свойствами к новым стандартным информациям.
В разделе 5 приведены сравнительные результаты решения одной задачи
медицинской
диагностики
и
показаны на данном примере возможности
разработанного метода поиска логических закономерностей классов для решения
задач распознавания и анализа данных.
1. Нахождение оптимальных систем признаковых окрестностей.
В настоящем разделе мы рассмотрим задачу поиска оптимальных
параллелепипедных
подмножеств
пространства
описаний, связанных с объектами St
допустимых
признаковых
, I(St)= (at1,at2,...,atn), из класса Kj.
Характеристическими функциями данных подмножеств являются предикаты (1).
Введем ряд обозначений и определений.
Признаковой окрестностью объекта St назовем подмножество O()={x: at-
  x at +} пространства допустимых признаковых описаний. Здесь и далее мы
опускаем лишние индексы, имея ввиду, что исследуется объект St. Признаковые
окрестности O(e1) и O(e2) назовем эквивалентными, если O(e1) I0
=
O(e2) I0.
~(,  ) признаковых окрестностей назовем набор окрестностей {
Системой O
O(),
},
где
={i1,i2,...,ik}

(1,2,...,n)
-
некоторое
признаковое
подпространство, =(1,2,...,n)  0 - вектор числовых параметров.
~(,  ) называется разделяющей для класса Kj, если
Система окрестностей O
SKj справедливо: SO(), .
Множествам чисел ={i=ai-at, i=1,2,...,m}, =1,2,...,n, поставим в
соответствие следующие числовые последовательности С=1,2,...,h, h=h():
a) 0i< i+1, i=1,2,...,h-1,
b) e , i, 1ih : e=i.
Легко заметить, что произвольная окрестность O() эквивалентна
окрестности O(e), где e=max{i : i , i=1,2,...,h}. Поэтому далее будет
достаточно ограничиться рассмотрением конечных подмножеств {O(),  С}
параметрических семейств {O(),  0}.
Введем обозначения:
0, ai  at    ,
1, ai  at    ;
 i (  )  
1   i , (S i )  (S t ),
  i , (S i )  (S t ).
 i (  )  
где (Si)= (1(Si), 2(Si) ,..., l(Si)),
1, S i  K  ,
0, S i  K  ;
 (S i )  
Локальным функционалом называется функционал f: {O()}R.
Глобальным функционалом называется функционал
~(,  ) }R.
F: {O
Введем следующее семейство локальных функционалов f(O();0,1,...,l), i
 0, i=1,2,...,l, >0, если (St)=1,  - const:
l
f(O()) =   
 1
m

(1-i())+0.
i  m 1
Пусть ={i1,i2,...,ik}  (1,2,...,n), H()={1,2,..., h()}
~(,  ) } обозначим множество всевозможных разделяющих для
Через D = {O
~(,  ) . Положим F(O
~(,  ) )=
класса Kj систем окрестностей O
 f(O()).

Задача поиска оптимальной разделяющей для класса Kj
окрестностей формулируется в виде
~(,  ) )  min, O
~(,  ) D
F(O
(2).
Рассмотрим последовательности С=1,2,...,h, h=h(), =1,2,...,n.
Подпоследовательность v, v+1,..., v+u, u0,
(3)
системы
последовательности С назовем подпоследовательностью первого типа, если:
a) для каждого элемента , =v,v+1,...,v+u, не существует строки I(Si) ,
SiKj, для которой ai-at=;
b) свойство a) нарушается для  v+u+1, если v+u< h(), и для для  v-1, если
v>1.
Подпоследовательность
(3)
последовательности
С
назовем
подпоследовательностью второго типа, если:
a) для каждого элемента , =v,v+1,...,v+u, не существует строки I(Si) ,
SiKj, для которой ai-at=;
b) свойство a) нарушается для  v+u+1, если v+u< h(), и для для  v-1, если
v>1.
Пусть дана вещественнозначная функция действительного аргумента (с) и
имеется числовая последовательность
последовательность
(c1),
(c2),...,
c1, c2,..., ck, которой соответствует
(ck)
(последнюю
будем
называть
функциональной).
Определим следующие три алгоритма сокращения последовательностей
С=1,2,...,h, где С - произвольная подпоследовательность С.
Первый алгоритм сокращения.
В последовательности С выделяется подпоследовательность первого типа.
Из
С
исключаются
все
элементы
данной
последовательности
кроме
максимального. Данная процедура повторяется для всех подпоследовательностей
первого типа последовательности С..
Второй алгоритм сокращения.
Из
С
последовательности
исключаются
элементы
всех
подпоследовательностей второго типа.
Третий алгоритм сокращения.
Строится
подпоследовательность
e1,e2,...,ev
последовательности
С=1,2,...,h :
1. Полагаем v=1, i=1, e1=1.
2. Если i=h, подпоследовательность e1,e2,...,ev
считается построенной и
алгоритм заканчивает работу. В противном случае i увеличивается на единицу.
3. При
(e)>(i) увеличиваем  на единицу и полагаем e=i.
Переходим к выполнению этапа 2.
Используя
описанные
выше
три
алгоритма
сокращения
последовательностей С сведем задачу (2) к специальной задаче целочисленного
линейного программирования.
Ясно, что решение задачи (2) при дополнительном ограничении С1С2...Сn , будет решением и самой задачи (2).
Для элементов подпоследовательности первого типа (3) справедливо:
1. f(O( +i+1)) < f(O( +i)) , для i=0,1,2,...,u-1;
~(,  ) является разделяющей для класса Kj,
2. если система окрестностей O
{v,
v+1
,...,
~(,  ' ) также является разделяющей для класса Kj
}, то O
v+u-1
системой, где
i  ,
  ,
i=  i
 i v u , i  .
~(,  ' ) < F(O
~(,  ) ). Системы O
~(,  ' ) и O
~(,  )
Следовательно, F(O
являются одновременно разделяющими или неразделяющими.
Применим к последовательностям С первый алгоритм сокращения. После
переобозначения
оставшихся
элементов
получим
последовательности
С=1,2,...,h , h=h().
Ясно, что решение задачи (2) при дополнительном ограничении - С1
С2... Сn , будет решением и самой задачи (2).
Рассмотрим последовательности
f(O(1)), f(O(2)),..., f(O(h)), =1,2,...,n.
(4)
Выделим в С подпоследовательность
=e1,e2,...,e(), =1,2,...,n,
согласно
третьему
последовательность
алгоритму
(4)
как
(5)
сокращения,
соответствующую
последовательность. Для элементов (5) выполнено:
1. f(O(ei))> f(O(e i+1)) для i=1,2,...,()-1;
рассматривая
С
числовую
функциональную
2.
если
~(,  )
система O
является
разделяющей
для
класса
Kj ,
{1,2,...,h }, то существует ei, i=1,2,...,(), такое , что f(O(ei)) 
~(,  ' ) )  F(O
~(,  ) )) и O
~(,  ' ) также является
f(O()) (следовательно, F(O
разделяющей системой для Kj, где
  ,   ,
ei ,   .
= 
Следовательно, решение задачи (6) при ограничениях (7)
~(,  ) )=
F(O
 f(O())  min,
(6)
~(,  ) D,
O
(7)

12...n ,
будет решением и самой задачи (2).
Сформируем матрицу =i(eu), где = m-mj+mj-1, =(), =1,2,...,n.
0, a  at  eu ,
1, a  at  eu ;
i ( eu )  
(8)
здесь i(eu) - результат сравнения описания I(St) с некоторым эталонным
 1
описанием I(S)Kj, столбцы i(eu), i=   () +u, (0)=0, упорядочены в порядке
 0
=1, u=1,2,..., (1); =2, u=1,2,..., (2); ...; =n, u=1,2,..., (n). Столбцу i(eu)
поставим в соответствие “вес” - скаляр
pu= f(O(eu)) 0.
Сформулируем
программирования:
(9)
следующую
задачу
целочисленного
линейного
n  ( )




1
n  ( )




1
py  min
(10)
1
i(e)y1, = m-mj+mj-1,
(11)
1
y{0,1},
(12)
где коэффициенты целевого функционала и матрицы ограничений определяются
согласно (8-9) и удовлетворяют по построению условиям:
p > p +1 0,
 i(e)   i+1(e +1),
(13)
при фиксированном .
Задача (10)-(12) со свойствами коэффициентов (13) получила название
задачи БМС-ЦЛП (задача целочисленного линейного программирования с блочномонотонными столбцами матрицы коэффициентов системы ограничений и
целевого функционала) /25/. В силу свойств монотонности коэффициентов, для
каждого значения индекса  в решении задачи возможно не более одного
единичного y. Единичным компонентам ее оптимального решения однозначно
соответствует, как показано выше, разделяющая для класса Kj система
~(,  ) . Таким образом, задача (2) с полиномиальной сложностью
окрестностей O
путем
применения
последовательностей
первого
С
сводится
и
к
третьего
алгоритмов
задаче
целочисленного
сокращения
линейного
программирования, матрица коэффициентов целевого функционала и системы
ограничений которой обладают свойствами монотонности. Данный факт был
эффективно использован в процедурах решения задач БМС-ЦЛП.
~(,  ) , ={i1,i2,...,ik},
Отметим в заключение, что системе окрестностей O
соответствует
гиперпараллелепипед
H i  {x: aij  ij  xij  aij  ij ,  1,2,... , k i }, покрывающий часть эталонов
только одного класса Kj.
2. Об одной качественной характеристике последовательностей С.
Рассмотрим вопрос качественной взаимосвязи свойств последовательностей
С и оптимальных значений локального функционала f(O()). Ограничимся
случаем :
a) =1, 0, 0=0;
б) ai-atav-at, iv, i,v=1,2,...,m.
В
данном
случае
С
образуют
последовательно
чередующиеся
подпоследовательности Сi1 первого типа и Сi2 второго типа, причем, поскольку
первый элемент С равен нулю, первой идет подпоследовательность первого типа.
Тогда имеет место С = С11, С12, С21,С22,...,Сk1, либо С = С11, С12, С21,С22,...,Сk1 ,Сk2.
Пусть Сi1=bi>0 (число элементов Сi1), Сi2=di>0. Пусть =e1,e2,...,e
подпоследовательность, полученная в результате применения к С первого и
третьего алгоритмов сокращения. Обозначим через h число эталонов Si таблицы
обучения: (Si) = (St). Тогда будет справедливо неравенство:
k-1  min f(O())  min {h-1,m-h}
(14)
Докажем его справедливость. В силу свойств алгоритмов сокращения
элементы
ei
являются
крайними
правыми
элементами
некоторых
из
последовательностей Сi1, i=1,2,...,k. Пусть ei являются крайними правыми
элементами подпоследовательностей Ñ1i , ii. Следствием применения третьего
алгоритма сокращения является равенство min f(O())=f(O(e)).
i
Тогда fi= f(ei) = h-  b +
 1
 i 1


d. По построению ei имеет место
1
f1 >f2 > ... >f
(15)
В силу оптимальности e ,
f  h -
 i i


 i i 1


b +
1
По условию
d, i=1,2,..., где +i  k
(16)
1
k 1
k


b = h,
1


d m-h.
1
Из (15) следует последовательность неравенств f  f-1 -1  f-2 -2  .... f1 -(1)  h-. Используя (16) имеем оценку
k
f  h-  b +
 1
k 1


d m-h. Объединяя оценки окончательно имеем f  min
1
{h-, m-h}. С другой стороны f =h-



1
  1
b +


1
  1
k
d =

   1
b +


d  k-1.
1
Неравенство (14) доказано.
Из (14) непосредственно следует неравенство -1  min f(O())  min {h,m-h} , которое имеет простую интерпретацию: чем больше значения величин ()
в (10)-(11), тем большую оценку снизу и, возможно, меньшую сверху имеет
величина min f(O()). Разброс величин f(O()) становится мал. Следовательно,
данный признак является малоинформативным. Таким образом значения ()
могут использоваться в эвристическом критерии отбраковки признаков до поиска
логических закономерностей.
3. Оптимальные системы признаковых окрестностей в алгоритмах
распознавания, анализ прецедентной информации.
Оптимальные
системы
признаковых
~(,  ) ,
окрестностей O
которые
находятся в результате решения задач БМС-ЦЛП (10-12) для всех эталонов
таблицы обучения, лежат в основе представленных в настоящей статье логических
алгоритмов распознавания. В работе /25/ наименование "алгоритмы распознавания,
основанные на локальных критериях оптимальности" отражает основную идею
взвешенного синтеза систем окрестностей из окрестностей элементарных.
Принцип
работы
данных
алгоритмов
аналогичен
алгоритмам
частичной
прецедентности и состоит в использовании процедур голосования по найденным
~(,  ) .
для каждого класса оптимальным системам признаковых окрестностей O
Другим весьма важным направлением использования оптимальных систем
признаковых
окрестностей
классов
является
возможность
извлечения
количественных и качественных знаний о взаимосвязях признаков, их значений и
классов, о геометрической конфигурации классов и их сложности, и т.п. Это дает
возможность более точного и обоснованного принятия решений в задачах
распознавания, и понимания исследуемых классов объектов, ситуаций или
явлений. Введем ряд определений.
Предикат P(S) назовем логической закономерностью класса Kj, если
удовлетворяются следующие условия:
1. P(Si)=1 для некоторых эталонных объектов Si класса K j ,
2. P(Si)=0 для всех эталонных объектов Si , не принадлежащих классу K j ,
3. (P)=max, где - некоторый критерий оптимальности.
Предикат P(S) назовем частичной логической закономерностью класса Kj ,
если выполняются только условия 1 и 3.
~(,  ) - оптимальная разделяющая классы система окрестностей,
Пусть O
связанная с объектом StKj, ={i1,i2,...,ik}, =(1,2,...,n). Рассматривая =F поставим
в
соответствие
системе
~(,  )
O
Pt(S)=&(ati   i  xi (S)  ati   i ).
Предикату
Pt(S)
геометрически
логическую
закономерность
(17)
соответствует
параллелепипедная
окрестность Ht объекта St в некотором признаковом подпространстве, содержащая
объекты только своего класса и удовлетворяющая условию оптимальности по
критерию .
В процессе поиска оптимальных систем признаковых окрестностей
накапливается множество локально-оптимальных решений задач (10-12) с равными
или близкими значениями функционала F. Таким образом, для каждого класса Kj
мы находим некоторые множества оптимальных систем признаковых окрестностей
(и множества соответствующих им логических закономерностей {P ji (S )} ) как
объединения
множеств
оптимальных
систем
признаковых
окрестностей,
найденных для эталонов данного класса. Далее в настоящей статье используя фразу
"множество логических закономерностей класса" будет подразумеваться то
множество, которое удалось найти в процессе решения задач БМС-ЦЛП, а
логические закономерности имеют вид (17).
Общая схема, которая будет использоваться в алгоритмах распознавания,
основанных на голосовании по системам логических закономерностей, включает
следующие последовательные этапы.
1. Для каждого класса Kj по обучающей информации I0 находятся множества
логических закономерностей {P ji (S )} .
2. Для произвольного распознаваемого объекта S вычисляется величина
Gj=i P ji (S ) - мера близости объекта S к классу Kj. Таким образом, Gj является
"взвешенной суммой голосов" за класс Kj , или, следуя терминологии /1/, оценкой S
за класс Kj. Нормировочные коэффициенты i могут вычисляться различными
способами и задают тип процедуры голосования.
3. Ar(I(S))=1 , если Gr=max{Gj, j=1,2,...,l}. В противном случае Ar(I(S))=0.
Строка A(I(S)) = (A1(I(S)), A2(I(S)),..., Al(I(S))), содержащая ровно одну
единицу, означает однозначное решение задачи распознавания - отнесение
алгоритмом распознавания A объекта S в один из l классов.
Строка A(I(S)), содержащая несколько единиц, означает многозначное
решение задачи распознавание. В данной ситуации алгоритм распознавания
указывает несколько классов, которым может принадлежать объект S.
Строка A(I(S)), содержащая одни нули, интерпретируется как отсутствие
классов, на которые похож распознаваемый объект.
Логическим
описанием
класса
Kj
назовем
дизъюнктивную
D j (S )  P j1 (S )  P j2 (S ) ...P jh (S ) ,
форму
(18)
где дизъюнкция берется по множеству {P ji (S )} логических закономерностей
P ji (S ) класса Kj. Ясно, что Dj(St)=1 для всех обучающих объектов из класса Kj, не
имеющих равных описаний эталонов чужих классов, и Dj(St)=0 для всех эталонных
объектов, не принадлежащих классу K j . Таким образом, Dj(S) совпадает на
множестве описаний эталонных объектов с характеристической функцией класса
Kj.
Кратчайшим
логическим
описанием
D js (S )
класса
Kj
назовем
дизъюнктивную форму (18), содержащую минимальное число конъюнкций P ji (S )
из множества {P ji (S )} и реализующую функцию Dj(S) на эталонных объектах.
Минимальным
логическим
описанием
D mj (S )
класса
Kj
назовем
дизъюнктивную форму (18), содержащую минимальное общее число переменных
x1(S),x2(S),...,xn(S) в ее записи и реализующую функцию Dj(S) на эталонных
объектах.
Величину pt=Nt/N, где Nt - число логических закономерностей, содержащих
признак xt, а N - общее число логических закономерностей, назовем мерой
информативности (весом) признака xt. Если рассматривать аналогичное отношение
логических закономерностей связанных с фиксированным классом, то можно
оценить меру информативности данного признака для выделенного класса.
Если найдено множество {P ji (S )} логических закономерностей класса Kj, то
кратчайшее и минимальное логические описания класса находятся как решения
задач
поиска
покрытий
множества
эталонов
класса
параллелепипедными
окрестностями Ht. В первом случае минимизируется линейный функционал с
единичными весовыми коэффициентами. При поиске минимальных логических
описаний
коэффициенты
функционала
равны
длинам
соответствующих
конъюнкций.
4.
Практические
алгоритмы
распознавания,
основанные
на
голосовании по логическим закономерностям
В предыдущем разделе была описана принципиальная трехэтапная схема
алгоритмов голосования по логическим закономерностям. При программной
реализации процесса распознавания выяснилось, что удается достичь хороших
практических результатов и получить высокие адаптационные свойства программы
к новым прикладным задачам, если ввести следующие шесть управляющих
параметров. Опишем их.
Рис.1
Y1 =”Веса окрестностей признаков”.
Значение "константа" параметра Y1 определяет выбор p{0,1} в постановке
(10-12).
Значение "функциональное" параметра Y1 определяет выбор коэффициентов
p согласно (9), явно учитывающего результаты сравнения значений признаков
объектов из равных и различных классов.
Y2
= "Размер окрестности". Произвольной найденной оптимальной
параллелепипедной
окрестности
Ht
обычно
соответствует
континуум
эквивалентных ей окрестностей. Под эквивалентными окрестностями понимаются
окрестности, содержащие одни и те же объекты обучающей выборки.
Значениям
геометрически
"Max", "Min", "Norm"
подобные
эквивалентные
параметра Y2
оптимальные
соответствуют
окрестности
Ht
максимального, минимального и среднего размера (по отношению включения).
Алгоритмы
распознавания,
соответствующие
данным
типам
окрестностей,
реализуют "жадный", "осторожный" и "компромиссный" подходы в процедурах
голосования.
Y3 = "Метод голосования". При вычислении оценок Gj=i P ji (S ) могут быть
использованы различные способы выбора параметров  i .
Значению "Пропорциональные" параметра Y3 соответствует выбор i="число
эталонов класса Kj : P ji (S ) =1". При выборе значения "Вероятностные" параметры
 i вычисляются в соответствии с процедурой статистического взвешенного
голосования / 26 /.
Y4 = "Принадлежность окрестности классу".
При частичной противоречивости или зашумленности данных таблицы
обучения возникают проблемы в вопросах существования и нахождения
логических закономерностей классов. Например, если некоторый объект является
эталоном двух различных классов, то для него не существует вышеопределенных
логических закономерностей. Случайное наличие объекта одного класса в
группировке объектов другого класса приводит к существенному искажению
логических закономерностей данной группировки: окрестности Ht
становится
малы и малоинформативны для процедуры голосования.
Эвристический параметр 50<= Y4<= 100 позволяет ослабить систему
ограничений (12), причем меньшим его значениям соответствует более слабая
система ограничений. В случае Y4<100 предикаты Pj(S) являются, вообще говоря,
частичными логическими закономерностями, причем число нарушений условия 2)
определения логической закономерности класса обычно возрастает с уменьшением
значений Y4.
Таким образом, данный параметр имеет интерпретацию как мера
принадлежности логической закономерности классу, или, другими словами,
степень выполнимости условия 2) на данных обучения. При Y4=100 предикаты Pj(S)
являются логическими закономерностями.
Y5 = "Точность". Характеризует точность решения задачи БМС-ЦЛП максимальное число альтернатив () выбора значений параметров  для каждого
признака. Параметр Y5 принимает натуральные значения от единицы до пяти.
Значение единица соответствует минимальной точности решения. Быстродействие
программы, естественно, обратно пропорционально точности решения.
Y6 = "Минимальная представительность”. После нахождения каждой
логической закономерности Pj(S) вычисляется число объектов “своего” класса,
координаты которых удовлетворяют данному предикату. Если отношение
(выраженное в процентах) данного числа к общему числу эталонов класса меньше
значения
данного
параметра,
то
закономерность
отбраковывается
и
не
используетсяпри голосовании.
Алгоритмы распознавания, основанные на голосовании по логическим
закономерностям,
применения
конструируются
программы
MCL,
по
которая
обучающим
имеет
данным
приведенные
в
результате
выше
шесть
управляющих параметров.
Программа запускается в среде Windows 3.1. и выше. Прежде чем
приступить к расчетам пользователь должен создать (или открыть уже
существующий) файл проекта. Для этого используется команда Создать
(Открыть) меню Проект. В файле проекта хранятся имена файлов данных,
используемых при расчетах, и значения параметров алгоритма.
После того как файл проекта создан или открыт, пользователь с помощью
команды Работа меню Проект запускает диалог Работа с проектом.
Здесь он может: выбрать значения параметров алгоритма и имена файлов
данных, запустить процедуру обучения (поиска логических закономерностей) по
данным таблицы обучения, запустить процедуру распознавания для данных
таблицы распознавания, загрузить файлы печати во встроенный редактор
программы.
Изменить значения параметров алгоритма можно в диалоге Параметры
(команда Параметры диалога Работа с проектом).
Закончив работу с диалогом Параметры, пользователь может либо
сохранить сделанные изменения в файле проекта (команда Сохранить), либо
отменить их (команда Отменить).
Команды Изменить диалога Работа с проектом предназначены для выбора
пользователем нужных файлов данных.
При проведении процедуры обучения (команда Обучение диалога Работа с
проектом) программа на основе данных таблицы эталонных объектов и в
соответствии с заданными управляющими параметрами строит распознающий
алгоритм.
Найденный
распознающий
алгоритм
сохраняется
в
файле.
Содержательные результаты обучения сохраняются в виде текстового файла печати
(обучение).
Проведение процедуры распознавания (команда Распознавание диалога
Работа с проектом) позволяет решить задачу распознавания объектов таблицы
распознаваемых
объектов
найденным на стадии обучения распознающим
алгоритмом. Результаты сохраняются в текстовом файле печати (распознавание).
Файлы печати - это простые текстовые файлы и просмотреть их можно в
любом текстовом редакторе или во встроенном редакторе программы MCL. Для
загрузки файлов печати во встроенный редактор можно воспользоваться командой
Загрузить диалога Работа с проектом или командой Открыть меню Файл.
Данные текстового файла печати результатов обучения сгруппированы по
уровням: объект  класс  задача. Приведем наименования вычисляемых
характеристик. При Y4<100 вместо записи "логическая закономерность" следует
читать "частичная логическая закономерность".
Информационные характеристики объектов:
*
число логических закономерностей найденных для объекта;
*
средняя длина логической закономерности;
*
длина, вес, доля, и состав логической закономерности объекта с
наилучшим значением функционала.
Информационные характеристики классов:
*
число логических закономерностей для класса;
*
среднее число закономерностей, найденных для объекта класса;
*
средняя длина логической закономерности;
*
информационные веса признаков по каждому классу;
*
средние значения -порогов для закономерностей класса;
*
кратчайшие и минимальные логические описания классов.
Информационные характеристики задачи:
*
число логических закономерностей;
*
среднее число закономерностей на объект;
*
средняя длина закономерности;
*
информационные веса признаков;
*
средние значения -порогов.
Данные текстового файла печати результатов распознавания включают
значения предикатов Ai(I(S)) распознаваемых объектов S, число выполнившихся на
S логических закономерностей от общего их количества и оценки G1(S), G2(S), ...,
Gl(S) к каждому классу.
5. Распознавание меланомы по данным радиологического
обследования и геометрической форме опухолей.
В трудах 9-й Скандинавской конференции (Швеция, г. Уппсала, 6-9 июня
1995
г.)
были
приведены
предварительные
результаты
решения
задачи
распознавания меланомы по 32 признакам, первые 12 из которых описывают
геометрическую форму новообразования кожи, последние 21 признак - ее
радиологические характеристики /27/. Исходную информацию составила выборка
из числовых строк, каждая из которых является 32-признаковым описанием либо
злокачественной опухоли (класс 1) - malignant lesions, либо неопасного
новообразования (класс 3) - benign lesions, либо “переходного, промежуточного
состояния новообразования” (класс 2) - dysplastic pigmented skin lesions. Задача
распознавания мелономы состояла в автоматическом отнесении некоторой строки
из 32 чисел, являющейся описанием новообразования кожи некоторого пациента, к
одному из трех вышеуказанных классов. Исходная информация была разбита на
две таблицы, включающей представителей всех классов: таблицу обучения (17
объектов первого класса, 20 второго и 20 третьего) и таблицу контроля (12, 10 и 10
объектов соответствующих классов). Таблицы обучения и контроля в точности
соответствуют экспериментам в /27/, там же приведены описания признаков. Наша
задача будет состоять в исследовании таблицы обучения TLMEL.TAB с помощью
программы MCL и решении задачи распознавания для строк таблицы TRMEL.TAB.
При этом мы не используем какие-либо предположения или знания о внутреннем
содержании самой задачи, как некоторой задачи медицинской диагностики.
Приведем в качестве иллюстрации некоторые результаты обучения и
распознавания,
управляющих
полученные
параметров:
программой
Y1
=
MCL при
“Функциональные”,
следующих
значениях
=
Y3
Y2
“Max”,
=
“Пропорциональные”, Y4 = 100, Y5=1, Y6 = 1.
Было найдено 1684 логические закономерности, средняя длина логических
закономерностей (число переменных в конъюнкции) равна 3.54. Найдены
следующие минимальные логические описания классов:
D 1m (S ) =(9.49x15 15)&( 0.726x300.847) V
(0.989x61.38)&(0x8150)&(0 x232940)&( 0.457x300.804);
D 2m (S ) =(52.8x8278)&(x21=255)&( 1.19 x281.38)&(0x320.313)V
(96.6x5249)&(2.62x1154.1)&(123x16187)&(0x234290)V
(x21=255)&( 1910x2311400)&(160x25186)&(1.07x281.32)V
(0.464x116.26)&(0x19216)&(14.5x2059.5)&(1.95x293.72);
D 3m (S ) =(0x2777)&(0.645x40.759)&(136x18221)&(0.992x2419)V
(180x18223)&(9.01x2033)&(4.94x3131.1)V
(602x2776)&(5.88x3130.1).
Второй класс имеет более громоздкое логическое описание чем первый и
третий. Это объясняется его промежуточным положением между остальными
классами, а также возможными ошибками, допущенными при его формировании
экспертами.
Рис.2
На
Рис.2
приведена
проекция
покрытия
третьего
класса
параллелепипедными окрестностями Ht на плоскость признаков №2 и №31
совместно с проекциями эталонных и распознаваемых объектов. Области
пересечения “большого”, “среднего” и “малого” числа окрестностей Ht отмечены
различной тональностью. Оптимальной логической закономерностью с наилучшим
показателем глобального функционала является для третьего класса предикат
P3(S)=(602x2776)&(5.88x3130.1), который выполняется для 8 (из 11) эталонов.
В
Таблице
1
приведены
результаты
распознавания
контрольной
информации.
Число правильных ответов составило 71.9% от общего числа контрольных
объектов. В Таблице 2 приведены результаты распознавания из работы /27/,
полученные алгоритмом “ближайший сосед” после предварительного применения
преобразования Карунена-Лоева.
K1
K2
K3
K1
10
2
1
K2
2
6
2
Табл.1
K1
K2
K3
K1
8
4
0
K2
3
3
3
Табл.2
K3
0
2
7
K3
1
3
7
В заключение приведем результаты распознавания контрольной таблицы
при различных вариантах выбора управляющих параметров программы.
При
распознавании
произвольной
неизвестной
новой
информации
естественно возникает вопрос о точности решения. Как видно из приведенной
таблицы она может варьироваться в достаточно больших пределах. Здесь имеется
возможность автоматического получения более высоких и стабильных результатов
с использованием корректирующих процедур /1/, когда ошибки различных
расчетов обычно “поглощают” друг друга и в результате находится, как правило,
решение наилучшее или близкое к наилучшему. Так коллективное решение задачи
распознавания, построенное на базе голосования по всем 13 указанным выше
алгоритмам, обеспечило 71.9% правильных ответов, т.е. было чуть ниже
наилучшего из них. Коллективное решение, построенное на базе наихудших
восьми решений (имевших менее 70% правильных ответов), имело 68.7%
правильных ответов и совпало по точности с наилучшими решениями из данного
списка.
№
1
2
3
4
5
6
7
8
9
10
11
12
13
Y1
функцион.
функцион.
функцион.
функцион.
функцион.
функцион.
функцион.
функцион.
функцион.
функцион.
функцион.
константа
константа
Y2
max
max
max
min
min
min
max
min
min
min
min
norm.
norm.
Y3
пропорцион.
пропорцион.
вероятностн.
пропорцион.
пропорцион.
вероятностн.
пропорцион.
вероятностн.
вероятностн.
вероятностн.
вероятностн.
вероятностн.
пропорцион.
Табл.3
Y4
100
100
100
100
80
80
80
80
80
80
100
100
100
Y5
3
1
1
1
1
1
1
1
1
1
1
1
1
Y6
1
1
1
1
1
10
10
20
30
40
20
20
20
%
68.7
71.9
59.3
71.9
75.0
65.6
65.6
71.9
68.7
65.6
71.9
53.1
59.3
Заключение
Авторы настоящей работы стремились к простоте как описания модели
распознавания, так и реализации самой распознающей программы. Программа к
настоящему времени успешно апробирована более чем на 20 прикладных задачах
из медицины, техники, геологии, сельского хозяйства и других предметных
областей. Несомненно, имеются значительные резервы совершенствования как
модели распознавания, так и программы MCL, путем расширения множества
управляющих параметров программы и множеств их допустимых значений,
расширения
параметров
самой
модели
распознавания,
использования
алгебраических корректоров /1/.
Авторы выражают благодарность Харальду Ганстеру и его коллегам/27/,
любезно предоставивших информацию по меланоме, а также Ворончихину В.А.,
создавшему
средства
визуализации
результатов
программы
MCL,
и
Катериночкиной Н.Н., написавшей программу решения задачи БМС-ЦЛП.
Настоящая статья была написана благодаря поддержке Российского Фонда
фундаментальных исследований, проект № 96-01-00543
Литература
1. Журавлев Ю.И. Об алгебраическом подходе к решению задач
распознавания или классификации// Проблемы кибернетики, Наука, Москва, 1978,
вып. 33, стр. 5-68.
2. Минский М., Пейперт С. Персептроны. М.:Мир, 1971.262 с.
3.
Айзерман
М.А.,Браверман
Э.М.,Розоноэр
Л.И.
Метод
потенциальных функций в теории обучения машин . М.: Наука, 1970, 384 с.
4. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. 511
c.
5. Фукунага К. Введение в статистическую теорию распознавания образов.
M.:Наука. 1979. 367 с.
6. Вапник В.Н. Восстановление зависимостей по эмпирическим данным.
М.: Наука, 1979. 448 с.
7. Метод комитетов в распознавании образов. Свердловск: ИММ УНЦ АН
СССР, 1984. 165 с.
8. Донской В.И. Алгоритмы обучения, основанные на построении
решающих деревьев// Журнал выч. мат. и матем. физики. 1982, т.22, №4, с. 963-974.
9. Лбов Г.С. Методы обработки разнотипных экспериментальных данных//
Новосибирск. Наука, 1981. 160 с.
10.
Сироджа
И.Б.
Структурно-аналитический
метод
машинного
распознавания объектов с разнотипными признаками// Теория R-функций и
актуальные проблемы прикладной математики. Киев: Наукова думка. 1986. С.212243.
11. Фу К. Структурные методы в распознавании образов. М. Мир. 1977.
12. Баскакова Л.В., Журавлев Ю.И. Модель распознающих алгоритмов с
представительными наборами и системами опорных множеств //Журн. вычисл.
матем. и матем. физики. 1981. Т.21, № 5. С.1264-1275.
13. Дмитриев А.Н., Журавлев Ю.И., Кренделев Ф.П. О математических
принципах классификации предметов и явлений // Сб. "Дискретный анализ".
Вып. 7. Новосибирск, ИМ СО АН СССР. 1966. C. 3-11.
14. Журавлев Ю.И., Никифоров В.В. Алгоритмы распознавания, основанные
на вычислении оценок // Кибернетика. 1971. №3. С. 1-11.
15. Bezdek J.C. A review of probabilistic, fuzzy, and neural models for pattern
recognition // FUZZY LOGIC AND NEURAL NETWORK HANDBOOK, Chen C.H.
eds, ch.2, McGraw-Hill, 1996.
16. Bezdek J.C. Pattern Recognition with Fuzzy Objective Function Algorithms //
Plenum Press, New-York, 1981.
17.
Чегис
И.А.,
Яблонский
С.В.
Логические
способы
контроля
электрических схем // Труды Матем. ин-та им. В.А.Стеклова АН СССР. 1958. Т. 51.
С. 270-360.
18. Вайнцвайг М.Н. Алгоритм обучения распознаванию образов "Кора" //
Алгоритмы обучения распознаванию образов. М.: Сов.радио, 1973. C. 8-12.
19. Журавлев Ю.И., Камилов М.М., Туляганов Ш.Е. Алгоритмы вычисления
оценок и их применение // Ташкент: ФАН, 1974. 119 с.
20. Дюкова Е.В. Асимптотически оптимальные тестовые алгоритмы в
задачах распознавания// Проблемы кибернетики. М.: Наука, 1982. Вып. 39. С. 165199.
21.
Дюкова
Е.В.
Об
одной
параметрической
модели
алгоритмов
распознавания типа “Кора”// М.:ВЦ АН СССР, 1988, 23 с.
22. Дюкова Е.В. Алгоритмы распознавания типа “Кора”: сложность
реализации и метрические свойства// Распознавание, классификация, прогноз
(матем. методы и их применение). М.: Наука, 1989. Вып.2. С. 99-125.
23. Кочетков Д.В. Распознающие алгоритмы, инвариантные относительно
преобразований пространства признаков // Распознавание , классификация,
прогноз: Мат. методы и их применение. М.: Наука. 1988. Вып. 1. С. 82-113.
24. Кочетков Д.В. Распознающие алгоритмы, инвариантные относительно
преобразований пространства признаков // Распознавание , классификация,
прогноз: Мат. методы и их применение. М.: Наука. 1989. Вып. 11. С. 178-206.
25. Ryazanov V.V. Recognition Algorithms Based on Local Optimality Criteria //
Pattern Recognition and Image Analysis. 1994. Vol.4. no.2. P.98-109.
26. Sen’ko O.V. A Prediction Algorithm Based on the Procedure of Weighted
Voting Using a System of Hyperparallelepipeds in a Multidimensional Feature Space //
Pattern Recognition and Image Analysis, 1993, vol.3, no. 3, pp.283-284.
27. Ganster H., Gelautz M., Pinz A., Binder M., Pehamberger H., Bammer M.,
Krocza J. Initial Results of Automated Melanoma Recognition //Proceedings of the 9th
Scandinavian Conference on Image Analysis, Uppsala, Sweden, June 1995, Vol.1, pp.
209-218.
Download