Рабочие материалы по гранту РФФИ за 2007 г

advertisement
Рабочие материалы по гранту РФФИ за 2007 г
На третьем этапе 2007 г были продолжены исследования по энтропийному анализу
многомерных данных в части разработки быстрых алгоритмов агрегирования
многомерных данных, удовлетворяющих ограничениями, алгоритмов кластеризации и
градации с автоматическим выбором числа кластеров (градаций), оценки
информативности признаков в системах распознавания, сегментации изображений,
разработки методов сравнения альтернатив в системах принятия решений,
прогнозировании многомерных данных в шкале отношений.
1. Начнем изложение результатов с обсуждения свойств различных средних
величин с позиций общего подхода к построению агрегированных характеристик в виде
обобщенных средних значений на основе минимизации меры различий между значениями
признаков элементов определенной выборки и искомой средней величины (см. работы А.И.
Орлова). Показано, что если для заданной выборки выбрать в качестве меры различий
отношение средней арифметической к средней гармонической, построенных на массиве
отношений элементов заданного вектора и элементам вектора искомых средних величин,
то обобщенным средним вектор-столбцом столбцов матрицы с положителными
элементами является вектор-столбец, доставляющий минимум некоторому
энтропийному функционалу. Разработан алгоритм решения этой задачи в виде предела
сходящейся итерационной последовательности вектор-столбцов. Этот метод
агрегирования столбцов матрицы объект-признак предлагается распространить на
решение задачи агрегирования
с ограничениями в виде равенств с учетом
коэффициентов весомости признаков. Аналитический вид градиента целевой функции
позволил решить задачу агрегирования данных с ограничениями в виде неравенств.
Исследование свойств различных видов средних с позиций общего метода [1,2]
заключается в следующем. Для конечной выборки Q  {q1 , q2 ,...qn | qi    R n } ,
Rn  {r  (r1 , r2 ,...rn )T | ri  R, i  1, n} для которой определена мера различия  ( qi , q j ) ,
(являющаяся расстоянием за исключением, быть может, некоторых её свойств),
обобщенное среднее q предлагается определять как результат решение следующей
оптимизационной задачи
n
 (q , p)  min .
i 1
i
(1)
p
n
Таким образом, q  arg min  (qi , p) . В большинстве случаев в качестве подмножества
p
i 1
 достаточно выбрать множество всех вектор-столбцов с положительными
компонентами   Rn , где Rn  {r  (r1, r2 ,...rn )T | ri  0, i  1, n} .
_____
Определим обобщенное среднее для совокупности вектор-столбцов X j , j  1, m . Их
совокупность представим в виде матрицы X  [ X 1 X 2 ,... X m ] . Меру различий  (a, b) для
 a, b  Rn можно представить как
 (a , b)  b T aaT b .
T
(2)
T
Здесь a (b ) - вектор-строки, составленные из обратных величин компонент
транспонированных вектор-столбцов a(b) .
Найдем решение W задачи (1) для множества Q столбцов X j , j  1, m матрицы X ,
при   Rn . Имеем
m
 ( X
j 1
m
j
, w)   w T X j X jT w  w T XX T w  min
w
j 1
(3)
Заметим, что с точностью до константы левая часть (3) совпадает с одним из энтропийных
функционалов, тем самым можно интерпретировать процедуру построения обобщенного
среднего как процедуру минимизации меры разнообразия.
В [3] доказано, что для конечного множества  решение задачи (3) всегда
существует. От меры различий  (a, b) фактически требуется только одно, чтобы ее
большее значение соответствовало паре (a, b ) с большими различиями в значениях их
компонент. Очевидно, что этому условию удовлетворяет мера (2), так как показано, что
логарифм от  (a, b) есть квазимера [1]. Следовательно, приравнивая к нулю частные
производные по компонентам вектора w целевой функции F (w )  w T XX T w получим
систему уравнений для определения вектора W . Используя формулы матричного
дифференцирования [4] выпишем окончательный результат в матричном виде
X  X T  w
Gw

.
(4)
1
T
T
X  X w
G T  w T
Последний результат (4) позволяет получить итерационную формулу для решения задачи
(3)
w
X  X T  w n
G  wn

(5)
1
T
T
X  X  wn
GT  w n T
где операция деления под знаком корня выполняется для каждой компоненты векторов
числителя и знаменателя соответственно. Можно показать, что для матрицы X с
положительными элементами этот предел всегда существует. Предел (по евклидовой
норме) lim w n  w в (5) и есть решение задачи (3), который, очевидно, легко вычислить на
w n1 
n
компьютере с использованием итерационной последовательности (10) с начальным шагом
w0  (1,1,...1)T .
n
Решение w задачи (3) по выше приведенному алгоритму позволяет строить
обобщенные характеристики строк матриц объект-признак. Учитывая, что решение (3)
определяется с точностью до мультипликативной константы, можно всегда выбрать
решение w с нормировкой
n
w
i
i 1
 1 . Поэтому в интересах исследований задачу (3) можно
дополнить условиями
n
w X
i 1
i
ij
 () c j , j  1, m ,
определяющие допустимые значения на характеристики исследуемых
Поскольку градиент целевой функции F (W ) в (3) вычисляется в явном виде
(6)
объектов.
(7)
grad ( F (w))   D(w 2 ) XX T w  X 1 X T w 1 ,
где D( v) диагональная матрица с вектором v на главной диагонали, то решение задачи (3)
с дополнительными условиями (6), как показывает наш опыт, существенно ускоряется [5]
даже для задач большой размерности.
Специфический вид целевой функции F (w ) позволяет весьма просто решать задачу
агрегирования (3) с r1  r2  ...rd условиями равенства
w T XX T w  min

w

 wiq  vs q  1, rs , s  1, d
(8)
которые, очевидно, можно представить с помощью некоторой матрицы A , состоящей из
нулей и единиц в виде равенства w  Av . Тогда решение задачи (8) сводится к решению
более простой задачи, аналогичной (3)
(9)
vT AT XX T Av  min
v
Решение задачи (9) позволяет агрегировать многомерные данные с
дополнительными условиями в виде равенств (8). Другое приложение (9) – анализ данных
на основе информационного критерия, предложенного авторами в рамках настоящего
проекта [6]. Здесь рассмотрены методы оценки информативности признаков и их
оптимальной градации.
При решении задачи (3) целесообразно учитывать вес  j каждого j -го признака.
Тогда задача (3) сводится к задаче
m
 w
j 1
T
j
X j X j T w  w T XD(μ) X T w  min
w
(10)
В некоторых случаях веса  j можно положить пропорциональным вкладу в значение
функции F (w ) . Примем условие для коэффициентов
m
μ  ( 1 , 2 ,...m ) :   2j  1,  j  0, j  1, m . С учетом этих обстоятельств
j 1
m
 w
j 1
j
T
X j X j T w  w T XD(μ) X T w  min
w
max
m
  2j 1,  j 0,j1,m
(11)
μ:
j 1
Её решение определяется итерационной последовательностью
m

T
T




w
X
X
w
,

j

1,
m

:
 2j  1

n
j
j
n
 j
j 1


T
w  X  D(μ)  X  w n
 n1
X 1  D(μ)  X T  w n T

с начальным шагом w0  (1,1,...1)T .
n
Отметим, что поскольку вес  j j -го признака пропорционален мере отличия w n от X j на
n - ом шаге, то на последующем n  1 шаге будут лучше учитываться структурные
отличия столбцов матрицы X в значениях компонент обобщенной характеристики (ОХ)
w n1 . Таким образом в финальной ОХ lim w n  w в большей степени проявятся
n
особенности элементов матрицы X , а компоненты финального вектора μ позволяют
определить информативные признаки.
Примеры применения рассмотренных теоретических положений к обработке
многомерных данных можно найти (ссылка на статью „Информационный критерий
и его использование для решения задач обработки многомерных
данных“, которая прилагается).
2. На основе использования групповых свойств преобразования инверсии столбцов
матрицы объект-признак разработан метод построения двух обобщенных
характеристик (ОХ) матриц объект-признак, который можно использовать для
визуализации многомерных данных. Показано, что этот метод может с успехом
конкурировать с методом главных компонент, в отличие от которого не требуется
хорошей обусловленности корреляционной матрицы. Метод построения двух ОХ
предлагается применять для кластеризации объектов с учителем (задача
классификации), используя их в качестве эталонов для распознаваемых классов.
Работоспособность метода показана на решении тестовой задачи – классификации
цветов ириса, решение которой позволило снизить ошибки кластеризации по сравнению с
ранее разработанном в рамках проекта методом кластеризации на основес
использования одной ОХ в качестве эталона обучающей выборки.
Для построения эталонов и дискриминантных функций для обучающих выборок в
задачах распознавания необходимо решать более сложную задачу по сравнению с задачей
(3). Пусть σ  ( 1 , 2 ,... m ),ãäå  j {1,1} j  1, m , тогда в обозначениях (2) решение
задачи
m
w
T
j 1



 j T
Xj j Xj
w  w T X σ  X σ  w  min
n
T
(11)
wR ,σ
позволяет получить дополнительную информацию о структурных особенностях
исследуемых выборок.
Итерационный алгоритм решения задачи (11) базируется на сравнении вкладов



 j T
t j  w T X j j X j



 j T
t j  wX j j X j
w
в значение функции
Fσ (w)  w T X σ  X σ  w
T
с вкладами
w 1 в значение функции Fσ (w)  w T X σ  X σ  w : если t j  t j , то все
T
элементы столбца X j инвертируются. Содержание каждой итерации включает
инвертирование столбцов по вышеприведенному правилу и последующее вычисление
вектор-столбца w как предел
последовательности (5). Вычислительный процесс
заканчивается, как только значения компонент w не будут отличаться на итерациях
следующих друг за другом.
Этот алгоритм оказался очень эффективным, требуемая точность обеспечивается уже
на 10 итерациях даже для задач большой размерности.
Рассмотрим применение решения задачи (11) к типовым задачам обработки
многомерных данных. Начнем с задачи визуального представления данных. Для этого
необходимо построить две ОХ для матрицы объект-признак X . Для их построения
найдем два вспомогательных вектор-столбца v1 и v 2 . Первый из них v1 найдем как
решение задачи (3), второй v 2 - как решение задачи (11) для матрицы Y  D( v11 )  X .
Искомые обобщенные характеристики w1 и w 2 определяются по вектор-столбцам v1 и
v2
w1  v1  v 2
(12)

1
w 2  v1  v 2
Для того, чтобы оценить насколько хорошо информация о строках матрицы объектпризнак представлена в двух обобщенных характеристиках, введем следующий индекс
точности аппроксимации È ÒÀ

1 
(13)
ИТА  2   w1T X j  X j T w1   w 2T X j  X j T w 2 

n  m  j: t j t j
j: t j t j

È
ÒÀ
Очевидно, коэффициент
принимает минимальное значение равное единице тогда и
только тогда, когда с точностью до пропорциональности все столбцы матрицы
X совпадают либо с w1 , либо с w 2 . Наш опыт агрегирования многомерных данных
показывает, что для практических целей достаточно, чтобы выполнялось условие
ÈÒÀ  1.2 . Рассмотрим классический пример Фишера – анализ цветков ириса. Этот
пример часто используют в качестве теста для алгоритмов классификации. Задача состоит
в том, чтобы по результатам измерения длины и ширины чашелистиков и лепестков
цветков ириса отнести ирис к одному из трех типов: setosa, versicol, virginic. Для всей
выборки из 150 элементов определим ОХ w1 и w 2 , при этом коэффицинт ÈÒÀ  1.03 . На
рис.1 показаны диаграмма рассеивания цветов ириса с указанием маркера класса,
которому они принадлежат.
Диаграмма рассеивания цветов ириса, полученная предлагаемым методом
3
2.5
Значения второй ОХ
2
1.5
1
0.5
0
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
Значения первой ОХ
Рис.1 Диаграмма рассеивания цветов ириса, полученная предлагаемым методом
Для сравнения приведем диаграмму рассеивания цветов ириса, полученную методом
главных комопнент
Диаграмма рассеивания цветов ириса, полученная методом главных компонент
0.15
Значения второй главной компоненты
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.12
-0.11
-0.1
-0.09
-0.08
-0.07
-0.06
-0.05
Значения первой главной компоненты
Рис.2 Диаграмма рассеивания цветов ириса, полученная методом главных компонент
Как видно из приведенных результатов предлагаемый метод визуализации может с
успехом конкурировать с методом главных компонент, однако вычислительный алгоритм
значительно проще.
Метод построения ОХ w1 и w 2 можно с успехом применять для кластеризации
объектов с учителем (задача классификации), используя их в качестве эталонов для
распознаваемых классов. Решающее правило отнесения входного образа к одному из
классов строится на основе минимизации меры различий (2) по следующему алгоритму.
Для k заданных обучающих выборок i i  1, k определяются их ОХ w1i , w 2 i . Затем для
входного образа, представляемого вектор-столбцом признаков x , определяются значения
мер различий  i  min (w1i , x), (w 2 i , x) i  1, k , далее, входной образ относится к
тому классу, номер которого совпадает с i*  arg min(i ) .
i
Для полноты изложений приведем результаты классификации цветов ириса по выше
приведенному алгоритму. Для обучения будем использовать первые 25 элементов
каждого из трех классов. Ранее, в рамках проекта, предлагался алгоритм классификации
цветов ириса по одной ОХ. Для сравнения приведем совместные результаты.
Таблица №1
Результаты классификации цветов ириса
матрица перепутывания
по одной ОХ
По двум ОХ
 45 5 0 
 49 1 0 




 4 46 0 
 4 46 0 
 0 0 50 
 0 0 50 




Как видно результаты классификации улучшились. Приведенный алгоритм
классификации эффективен, если все исследуемые объекты принадлежат к одному из k
распознаваемых классов и не позволяет решать проблему „ прочего “ класса. Для этого
необходимо проводить классификацию с помощью дискриминантной функции (ДФ), с
помощью которой решающее правило о принадлежности входного образа к одному из
распознаваемых классов определяется выполнимостью неравенства d ( x)  a , где a порог дискриминации. На втором этапе проекта была предложена следующая ДФ
wT x
d (x)  T , x, w  Rn ,
(20)
w x
отличительной особенностью которой является инвариантность к мультипликативным
константам: d (x)  d (  x),    0 . Вектор w определяется как результат решения задачи
w  arg min(
v T Xe r eTs Y T v) ,
(21)
m
vR
где X ( Y ) обучающая выборка первого (второго) класса; e r , e s единичные вектор –
столбцы, размерность которых r è s совпадает с количеством обучающей выборки
первого и второго класса соответственно. Метод построения ДФ (20) позволяет провести
приблизительную оценку для порога дискриминации a равной единице.
Оказывается можно существенно улучшить результат распознавания, если использовать
для построения w не формулу (21), а её модификацию
w  arg min(
v T ( X σ )T e r eTs Y σ v)
(22)
m
vR σ
с заменой ДФ (20) на (23)
w T xσ
d (x)  T σ , x, w  Rn
(23)
w x
Так как ДФ (23) уже не будет инвариантной к мультипликативным помехам, то её
целесообразно использовать в их отсутствии. С помощью ДФ (23) был разработан метод
распознавания летательных аппаратов (ЛА) по спектрам их радиолокационных сигналов с
автоматическим определения порога дискриминации.
Результат дискриминации выборок спектров двух ЛА до преобразования инверсии
2
Значение дискриминантной функции
1.8
1.6
1.4
1.2
1
граница разделения выборок
0.8
0.6
0
2
4
6
8
10
12
14
16
18
20
Порядковый номер в выборке
Рис.3. Результат разделения выборок ЛА до преобразования инверсии
Результат дискриминации обучающих выборок спектров двух ЛА после преобразования инверсии
2.2
2
Значение дискриминантной функции
1.8
1.6
1.4
1.2
1
граница разделения выборок
0.8
0.6
0
2
4
6
8
10
12
14
16
18
20
Порядковый номер в выборке
Рис.4. Результат разделения выборок ЛА после преобразования инверсии
На рис.3 и рис.4 приведен результаты дискриминации двух типов ЛА до и после
применения преобразования инверсии (с соответствующими ДФ (20) и (23)). Отметим, что
известные методы дискриминантного анализа не „сработали“ из-за плохой
обусловленности ковариационной матрицы.
Сравним результаты классификации по двум методам построения дискриминантной
функции: первый - с применением существующего метода, второй – на основе
предлагаемого метода.
Результаты классификации гласных фонем
по спектральным признакам
V – объём каждой
Матрица перепутывания
обучающей
выборки; существующий метод
предлагаемый метод
N общее кол - во
объектов в каждом
классе;
rкол - во
признаков
Классификация гласных фонем „О“ и „У“
V=5; N =30; r=25
Отказ от классификации
 28 2 


 0 30 
V=10; N =30; r=25
Отказ от классификации
 30 0 


 0 30 
V=15; N =30; r=25
 29 1 
 30 0 




 0 30 
 0 30 
V=15; N =30; r>28
Отказ от классификации
 30 0 


 0 30 
V=15; N =30; r=55
 30 0 
 30 0 




 0 30 
 0 30 
V=15; N =30; r>55
Отказ от классификации
 30 0 


 0 30 
Выделение гласной фонемы „А “ из совокупности шести гласных фонем
V=5; N =30; r=25
19 11 
 30 0 




 1 149 
 0 150 
V=10; N =30; r=25
 30 0 
 30 0 




 4 146 
 0 150 
V=15; N =30; r=25
 28 2 
 30 0 




 0 150 
 0 150 
V=15; N =30; r=92
 22 8 
 30 0 




 1 149 
 11 139 
V=15; N =30; r>92
Отказ от классификации
 30 0 


 1 149 
Выделение гласной фонемы „И “ из совокупности шести гласных фонем
V=5; N =30; r=25
19 11 
 22 8 




 66 84 
 11 139 
V=10; N =30; r=25
 22 8 
 27 3 




 18 132 
 18 132 
V=15; N =30; r=25
 24 6 
 26 4 




 10 140 
 15 135 
V=15; N =30; r=90
V=15; N =30; r>90
 28 2 


 6 144 
Отказ от классификации
 30 0 


 0 150 
 30 0 


 0 150 
Анализ таблицы позволяет сделать вывод, что существующий метод классификации
критичен к объему обучающей выборки и количеству признаков. Так, например, уже при
r >28 из 125 при объеме обучающей выборки V  15 наблюдался отказ от распознавания в
виду плохой обусловленности ковариационной матрицы.
3. Предложен новый подход к обработке многомерных данных на основе
использования меры однородности, определяемой для одномерного массива как
отношение средней гармонической его значений к средней арифметической. Приведено
обобщение этого определения на матрицы как среднее гармоническое мер однородности
её столбцов. Исследованы свойства этой меры, важнейшие из которых – инвариантность к
преобразованиям подобия и инверсии. Эти свойства позволяют создавать эффективные
алгоритмы агрегирования многомерных данных на множестве допустимых
преобразований подобия, что означает их применимость в шкале отношений.
Рассмотрены примеры из теории принятия решений, агрегирования частных
показателей банков и градации изображений. Предложен новый способ вычисления
вектора приоритетов в методе принятия решений (МАИ). Выявлены свойства новой
оценки: её практическое совпадение с традиционной для МАИ, главным собственным
вектором
обратносимметричной матрицы парных сравнений, в случае хорошей
согласованности последней; её устойчивость к преобразованиям инверсии, тогда как
используемая в МАИ оценка не обладает этим свойством, что проявляется в не
совпадении правого и инвертированных значений левого собственного вектора как оценок
вектора приоритетов. Предложены новые показатели, являющиеся нижней оценкой
используемых в МАИ, для согласования мнения эксперта по определению им элементов
матрицы парных сравнений.
На основе новых показателей и новых оценок вектора приоритетов разработан метод
согласования мнения экспертов, суть которого заключается в определении
последовательности пар альтернатив, на которых проявляются в наибольшей степени
противоречивость оценок эксперта. Показано, что свойство устойчивости позволяет
использовать полученные оценки вектора приоритетов даже в случае плохой
согласованности матрицы парных сравнений. Разработана компьютерная программа. Её
применение в конкретных прикладных исследованиях подтвердили эффективность
предлагаемого метода. В работе [7] рассмотрены другие примеры из теории принятия
решений, агрегирования частных показателей банков и градации изображений.
Введем меру однородности  (x) для одномерных массивов положительных
действительных чисел, представленных в виде вектор-столбца x  ( x1 ,..., xn )T как
квадратный корень из отношения средней гармонической величины к средней


n
T
арифметической для x  R  r  (r1 , r2 ,...rn ) ri  0 i  1, n
 ( x) 
n
(24)
1
xi 

i 1
i 1 xi
Легко увидеть, что значения меры (1) удовлетворяют неравенству 0   ( x)  1 ,
причем  ( x )  1 тогда и только тогда, когда массив x состоит из одинаковых компонент.
Основная идея предлагаемых методов основана на максимизации
меры
однородности в параметрической области. Постулируется, что определяемые решением
n
n
параметры содержат в себе искомую информацию об исходных данных. Проверим
работоспособность этой идеи на конкретных практически важных примерах.
Рассмотрим первый пример из теории принятия решений. Одной из типовых задач
здесь является задача упорядочения по степени важности объектов (альтернатив) из
заданного конечного множества. Одним из методов решения этой задачи является метод
анализа иерархий (МАИ), разработанным Т. Саати [8]. В качестве вектора приоритетов в
МАИ используется собственный вектор, отвечающий максимальному собственному
значению обратносимметричной матрицы парных сравнений альтернатив эксперта (в
дальнейшем просто собственный вектор). Показано, что такая оценка не является
наилучшей в случае, когда высказывания эксперта противоречивы (отношение
согласованности ОС>1.2). В частности, такая оценка не является устойчивой к
преобразованиям инверсии: обратная величина компонент левого собственного вектора не
совпадает с компонентами правого собственного вектора. Предложено в качестве вектора
приоритетов использовать решение задачи
w T Gw  minn ,
(25)
wR
где G - обратносимметричная матрица парных сравнений.
будем искать w из условия, что он должен доставлять максимум мере однородности
 (G , w ) обратносимметричной матрицы G  G./(ww T ) , где операция (./) поэлементная,
 (G, w)  max
(26)
wRn
Решение задачи (25) эквивалентно решению задачи (26), поскольку для
обратносимметричной матрице G имеет место равенство
 (G, w)    w
1
T
Gw  wT GT w 1    w T Gw  wT GT w 1    w T Gw 
T
2
(27)
Следовательно, решение задачи (26) позволяет интерпретировать w как агрегат
(обобщенную характеристику) строк матрицы G . Именно поэтому и предлагается
использовать решение задачи (25) в качестве вектора приоритетов для матрицы парных
сравнений альтернатив G .
Для сравнения матрицы G с согласованной матрицей вводится индекс
согласованности ИС, который определяется по формуле
 n
ИС  max
,
(28)
n 1
где max – максимальное собственное значение матрицы парных сравнений, отвечающее
собственному вектору p : Gp  max p . ИС можно представить в виде
min p T G p  n2
pT G p  n2 pRn
(29)
ИС 


n 1
n(n  1)
n(n  1)
Применительно к вектору приоритетов w , как решению задачи (2), нижнюю оценку ИС
примем за новый показатель согласованности, обозначив его как ИС
(w T Gw)  n2
,
(30)
ИС 
n(n  1)
max  n
Индекс согласованности ИС , сгенерированный случайным образом по шкале от 1 до 9
(принятый в МАИ) обратносимметричной матрицы, назовем в соответствии с [8]
случайным индексом ( СИ ). В обозначениях, сделанных выше, среднее значение
СИ можно определить по первой строке таблицы 2, полученной
по выборке из 10000
наблюдений, сгенерированных случайным образом в 9-ти бальной шкале и усредненной
по всему объему наблюдений. Для сравнения во второй строке этой таблицы
представлены значения СИ, используемого в МАИ (стр 34 [ 8]). Как и следовало ожидать
значения СИ меньше соответствующего значения СИ, что следует из неравенства (29).
Таблица 2
Средние значения случайных индексов
N
СИ
СИ
1
0.00
2
0.00
3
0.5
4
0.78
5
0.97
6
1.09
7
1.18
8
1.25
9
1.30
10
1.34
11
1.37
12
1.4
13
1.42
0.00
0.00
0.58
0.9
1.12
1.24
1.32
1.41
1.45
1.49
1.51
1.48
1.56
Основной проблемой является проблема согласования мнений эксперта. В МАИ в случае
превышения OC некоторого порога (обычно принимаемого равным 0.1) предлагается
пересмотреть заново все оценки пар альтернатив – элементы матрицы парных сравнений
Для этой цели предлагается новый показатель OC , аналогичный OC
ИС
(31)
OC 
СИ
по значениям которого можно выявить все пары альтернатив, экспертные оценки которых
не согласуются с оценками остальных пар альтернатив.
Теперь рассмотрим значение целевой функции (25). Имеет место равенство
T
w
w 
1
T
T G  G
w Gw  w
w    gij j g ji i   n
(32)
2
2  1i  j  n wi
w j 
Следовательно, каждая пара альтернатив (i,j) определяет аддитивный вклад vij в значение
указанной функции (25)
wj
w
vij  gij
 g ji i
(33)
wi
wj
По значениям этого вклада можно определить степень близости альтернативы i к
альтернативе j, поскольку с точностью до константы величина vij есть квазимера.
Этот результат позволяет выделить те пары альтернатив (объектов), сравнительные
оценки которых вносят наибольший вклад в значение ИС , а, следовательно, и в
отношение согласованности (31). Именно с них предлагается осуществлять пересмотр
индивидуальных оценок экспертов в случае больших значений OC (31). Очевидно, этот
способ позволит быстро согласовать мнения эксперта. Разработанная компьютерная
программа [5] и её применение в конкретных прикладных исследованиях подтвердили
эффективность предлагаемого метода. (Здесь ссылка на программную реализацию метода)
4. Предложены новые аналитические зависимости для агрегирования многомерных
данных на основе использования меры однородности матрицы (МОМ) объект-признак Х.
Использование средней гармонической величины для свертки мер однородности столбцов
позволило повысить чувствительность МОМ к изменению малых значений элементов
матрицы Х. Хотя полученные агрегированные оценки близки (как показывают примеры) к
ранее полученным в рамках проекта, их важнейшее свойство - линейность относительно
элементов матрицы Х, что позволило создать простые вычислительные алгоритмы,
пригодные для анализа изображений в масштабе времени близком к реальному.
Метод агрегирования был апробирован на определении сводных показателей
надежности банков. Для этого необходимо эти частные показатели представить таким
образом, чтобы их большие значения соответствовали лучшим банкам (а меньшие
значения худшим). Для этих целей предложено использовать преобразование инверсии,
поскольку используемая мера однородности матрицы частных показателей банков
инвариантна к такому виду преобразований.
Распространим меру (24) на матрицы, состоящие из m
вектор столбцов X   X1 , X 2 ... X m  . Если  ( x j )   j мера однородности j -го столбца X j , то их
средняя гармоническая величина
m
после преобразования представится в виде:
m
1/ 
j 1
j
1
n
n
 1 m
1 
(34)
(X )  
x


ij 
 nm 

j 1
i 1
i 1 xij


Использование средней гармонической величины для свертки мер однородности
столбцов позволяет повысить чувствительность  ( Õ ) к изменению малых значений
элементов матрицы X .
Предложенная мера однородности для матрицы (34) позволяет перейти к решению
задачи агрегирования элементов ее строк. Общая идея состоит в следующем. Пусть ði -
нормировка для i -ой строки матрицы X , что означает: все элементы этой строки делятся
на значение 1/ pi . Совокупность таких чисел обозначим как вектор-столбец
p  ( p1 , p2 ,..., pn )T . Результат нормировки матрицы Х посредством вектор-столбца р
применительно к мере (34) можно записать в матричном виде
1 m
(35)
 ( X , p)1 
 pT X j X j T р
nm j 1
где p T и X j T массивы, составленные из обратных значений массивов p и X j .
Квадратный корень в (35 усложняет аналитические выкладки. Избавиться от него можно,
применив прием квазилинеаризации [9]. Очевидно, имеет место равенство: для
a  0, b  0, p  0
a

ab  0,5 min   bq 
q
q

(36)
Подставляя (36) в (35), и проводя необходимые упрощения, получим
2nm ( X , p)1  min(p T Xq 1  pT X 1q)
q 0
(37)
Процедура агрегирования заключается в том, что путем нормирования матрицы X с
помощью вектор-столбца p осуществляется максимизация (34) или, что одно и тоже
минимизация правой части (35) по p
m
p*  arg min(min pT Xq1  pT X 1q)  arg min  p T X j X j T p
p 0
q 0
p 0
(38)
j 1
Предлагается результат решения задачи (38) использовать в качестве агрегированного
признака (обобщенной характеристики, сводного показателя) для строк матрицы Х.
Аналогично (38) можно показать, что обобщенная характеристика столбцов есть
решение задачи
m
q*  arg min(min p T Xq 1  pT X 1q)  arg min  q T X i X i T q
q 0
p 0
q 0
(39)
i 1
Таким образом, решение задачи (p* , q* ) дает способ определения обобщенных
характеристик строк и столбцов для любой матрицы Х, состоящей из положительных
элементов
(p* , q* )  arq min  ( X , p, q)  arq min  p T Xq 1  pT X 1q 
(40)
p  0,q  0
p  0,q  0
Легко видеть, что решение задачи (40) не зависит от способа нормирования
столбцов и строк матрицы Х. Этот факт можно использовать при агрегировании
размерных величин.
В общем случае вес каждого признака может быть различным. Тогда, если
h вектор коэффициентов весомости признаков, а D(h) - диагональная матрица,
образованная этим вектором, то, рассуждая аналогично (38), получим
p*  arg min(min p T X  D(h)  q 1  pT  D(h)  X 1q) 
p0
q0
m
 arg min  p T X j  D(h)  X j T p
p 0
(41)
j 1
Методы (38-41) являются еще одним способом агрегирования многомерных
данных по сравнению с (3). Их отличительная особенность в том, что они позволяют
агрегировать одновременно и строки и столбцы матрицы X , что можно использовать при
обработке изображений. Применительно к последним можно увидеть, что вклад каждого
пикселя изображения в значение целевой функции является линейным, что позволяет
создать эффективные алгоритмы анализа изображений. В [7] приводятся примеры
использования построения свободного показателя надежности (рейтинга) банков на
основе свертки его частных показателей. Для этого необходимо эти частные показатели
представить таким образом, чтобы их большие значения соответствовали лучшим банкам
(а меньшие значения худшим). Для этих целей естественно использовать преобразование
инверсии, поскольку мера однородности  ( x, p, q) инвариантна к такому виду
преобразований.
5. Предложенную меру однородности можно с успехом использовать для градации
массивов с положительными значениями. Данная задача относится к практически важным
задачам, поскольку равномерное разбиение в общем случае не является оптимальным
(оно является таковым только для массивов, элементы которых измерены в ранговой
шкале [10]). На предыдущем этапе проекта [2] предложено использование
информационного критерия для решения этой задачи. Его достоинством является
возможность адаптировать к потребностям обработки изображения, когда необходимо
более „ часто“ градуировать те области яркостей пикселей, различия которых требуется
подчеркнуть: можно контрастировать как темные, так и светлые участки изображения.
Аналогичные результаты получены при градации массивов на основе максимизации меры
однородности [7]. Недостатком этих методов является необходимость задавать число
градаций. Было продолжено дальнейшее исследование в этом направлении: разработан
метод и его программно-алгоритмическая реализация с автоматическим определением
числа градаций. Фактически метод является частным случаем более общей задачи:
кластеризацией объектов, представленных матрицей объект-признак X  R nm ,
с
автоматическим определением на основе максимизации специального вида энтропии
H (p, X )  ln  pT X  X T p   ln m
(42)
n
для p   n  {p  ( p1 , p2 ,... pn )T |  pi  1, pi  0, i  1, n}
i 1
Отличительной особенностью вектора p * , доставляющего максимум (42), является то, что
две максимальные по своим значениям компоненты соответствуют двум объектам
(строкам матрицы X ), которые в наибольшей степени отличаются друг от друга
структурой значений своих признаков (наиболее деструктивны). Этот факт используется
для построения итерационной процедуры кластеризации. Сначала вся выборка
разбивается на два кластера по выбранной мере близости к двум деструктивным
элементам, затем на три, четыре, …, вплоть до прекращения появления новых кластеров.
Выбор меры близости определяется потребностями исследования. Для примера приведем
результаты кластеризации цветов ириса по мере близости (2). Поскольку она инвариантна
к преобразованиям подобия, то результаты справедливы для случая, когда каждый из
четырех признаков измерен в шкале отношений. Как видно, вся совокупность цветов
ириса разбилась на максимально возможные четыре кластера, первые два из которых
определяют цветы первого и второго типа соответственно, а два последних кластера –
только третий тип цветов.
Табл. 3
Результаты кластеризации цветов ириса
Число градаций
Две
три
четыре и более
 50 0 0 0   45 5 0 0 
100 0 

 



50 0 0 0   4 46 0 0 
0
50



 0 0 34 16   0 0 34 16 

 

Очевидно, применяя этот метод кластеризации последовательно для каждого кластера,
можно получить иерархическую кластеризацию.
6.
Разработанный алгоритм с автоматическим определением числа градации
позволил улучшить результаты по оценке информативности признаков в системах
распознавания, полученные на предыдущем этапе проекта. Алгоритм градации
используется для перевода признака, измеренного в количественной шкале в
номинальную
шкалу.
Необходимость
такого
преобразования
обусловлена
необходимостью сравнения каждого признака с основным номинальным признаком,
принимающего одинаковые значения (не важно какие) на элементах принадлежащие
одному классу и разные значения - на элементах принадлежащие разным классам. Для
сравнения зависимости номинальных признаков можно использовать анализ таблиц
сопряженности, в этом случае информативность признаков можно оценить с помощью
коэффициентов связи, например, коэффициентом Крамера. Были проведены исследования
в этом направлении, которые показали слабую чувствительность этих мер к низко
информативным признакам, что обусловлено природой этих коэффициентов как мер
связи.
Другой подход сравнения номинальных признаков основан на использовании теории
алгебраической информации, позволяющей оценивать количество информации,
заключающейся в одном слове относительно другого. Этот подход был реализован в виде
разработки компьютерной программы. Её тестирование проведено на оценке
информативности характеристик цветов ириса. Полезность этого метода определяется
возможностью определения минимального количества информативных признаков
обеспечивающих наилучшее качество распознавания. Метод алгебраической информации
позволяет оценивать информативность сложных признаков, то есть признаков,
составленных из пар исходных признаков. Определение минимального количества
признаков в системах распознавания является сложной задачей. Предлагаемые подходы к
её решению и достигнутые результаты в создании реальных систем распознавания
вселяют определенный оптимизм в разработку эффективных алгоритмов. Исследования в
этом направлении будут продолжены.
Разработанный алгоритм с автоматическим определением числа градации позволил
улучшить результаты по оценке информативности признаков, полученные на предыдущем
этапе проекта [2]. Идея заключается в следующем. Для выборок из k распознаваемых
классов проводится градация их признаков не более чем на k градаций (некоторые
признаки могут содержать менее чем k градаций, что определяется автоматически).
Каждый градуированный признак представляется словом из конечного алфавита,
содержащим первые k чисел натурального ряда. Затем методами [10] оценивается
количество информации, заключенной в признаке - слове относительно слова, буквы
которого одинаковы, для элементов одного класса распознавания и различные - для
элементов разных классов распознавания.
Приведем пример оценки информативности признаков цветов ириса
Табл.4
Результаты градации и оценки информативности признаков цветов ириса
чашелистик
лепесток
длина
Ширина
длина
ширина
матрицы перепутывания цветов ириса по результатам градации признаков
 31 18 1 
 26 19 5 
 47 3 0 
 46 4 0 








11 33 6 
 22 27 1 
 4 46 0 
 2 48 0 
 0 5 45 
18 1 31 
 0 0 50 
 0 0 50 








информативность признаков
97,04
54,66
201,21
205,38
Из табл.4 видна согласованность результатов градации с результатами оценки
информативности признаков.
Учитывая важность метода оценки информативности признаков для систем
распознавания, рассмотрим ещё один пример применимости названного метода при
распознавании гласных фонем „А“, „И“, „О“, „У“, „Э“, „Ы“. Поскольку каждая выборка
конкретной фонемы была представлена 30-ю спектрами с 128 частотами, то основной
признак сформируем в виде слова из конечного алфавита {1,2,3…6}, буквы которого для
каждой фонемы соответствуют номеру её класса. Информативность признака [10]
предлагается оценивать количеством информации, заключенной в оцениваемом признаке
относительно основного признака.
Информативность частотных полос гласных фонем
300
250
Информативность
200
150
100
50
0
0
500
1000
1500
2000
2500
3000
Частота, Гц
Рис.5 Информативность частотных полос гласных фонем
Как видно наиболее информативными признаками – первые 15 частотных полос.
7. Градация и сегментация изображения. На рис.1 представлены результаты градации
изображения с автоматическим выбором количества уровней посредством представления
его в виде одномерного массива. Эти результаты показывают, что 8 уровневая градация
практически не отличается от исходного изображения. Распределение уровней градации
показывает их неравномерность. Однако, для практических исследований достаточно
провести трёх уровневую градацию.
Исходное изображение
Результат автоматической градации
на 12 уровней
распределение уровней градации
результат сегментации «ярких» объектов
Рис.5 Результаты градации и сегментации изображения
Алгоритм градации предлагается применить для решения задачи сегментации
изображения, поскольку всегда можно по результатам градации разбить всю совокупность
пикселей на непересекающиеся связные области сначала для каждого уровня градации, а
затем, путем их объединения, получить образы интересующих областей. Здесь важно
провести градацию с наименьшим числом уровней. Анализ графика распределения
уровней градации, показывает, что для сегментации «ярких» объектов достаточно
объединить результаты трех градации с наибольшими уровнями яркости пикселей, что
также отражено на приведенном рисунке (для экономии места они представлены не по
отдельности, а вместе).
Другой способ пороговой сегментации на основе применения энтропии бинарной
матрицы рассмотрен в статье 11. Он сводится к определению порога  изображения X ,
которые максимизируют энтропию бинарной матрицы Y  ( X   ) . Заметим, что 8 – ми
уровневая градация позволит снизить память для хранения каждого пикселя с 8-ми до 3-х
бит, что составит экономии памяти более, чем в 2,5 раза. Дополнительное сжатие без
потери информации (например, оптимальное кодирование) позволяет сжать исходное
изображение более, чем в 10 раз, что уже сравнимо с эффективностью работы алгоритма
JPEG.
8. Выше рассмотрены методы кластеризации и агрегирования информации на основе
использования свойств различных энтропийных функционалов (ЭФ), изученных на
первом этапе и которых отличает от настоящей энтропии выполнение не всех её свойств.
Спрашивается можно ли построить энтропию непосредственно по матрице объектпризнак X  Rnm ? Ответ оказывается положительным. Для этих целей рассмотрим
квадратичную форму с нормировкой p   n
H (p)  pT ( XX T  m  D(e))p
(43)
T
где e  (1,1,...1) -единичный вектор, D (e) -диагональная матрица с вектором e на главной
n
диагонали.
Можно показать, что максимальное значение H (p ) достигается на распределении
1
ð * , отличном от равномерного p 0  e . Это значит, что нарушается одно из свойств
n
энтропии (максимальное значение энтропии всегда достигается на равномерном
распределении) и, следовательно, H (p ) как функция распределения p не отвечает
свойствам энтропии. Однако формулу (43) можно скорректировать таким образом, что все
основные свойства энтропии будут выполняться.
Пусть w  Rn . Рассмотрим p   n функционал
H (p)  pT D(w)  G  D(w)p
(44)
T
где G  XX  mD(e) .
Будем подбирать вектор-столбец w таким образом, чтобы максимальное значение
1
H (p) достигалось на равномерном распределении
p 0  e . Далее, поскольку
n
справедливы равенства
pT e  1,
H (p)
0,
p
(45)
то из метода множителей Лагранжа следует матричное равенство
D(w)GD(w)p  D(w)GT D(w)p  e .
(46)
Приравнивая p  ð 0 , перепишем (46) в виде матричного уравнения
(G  G T )w   w 1
(47)
где  - некоторая константа, а w 1 - вектор–столбец инвертированных компонент векторстолбца w Решение w уравнения (47) можно найти как предел w*  lim w s
s
итерационной последовательности
 w s 1  ((G  G T ) w s ) 1

,
w s1

 w s 1 
 wi s1

(48)
а константу  по формуле

1 T
w  (G  GT ) w ,
n
(49)
где w   lim w s
s 
Из построения следует, что максимальное значение H (p) в (44) будет достигаться
на равномерном распределении. Непосредственной проверкой легко убедиться, что
H (p)  0 для любого вырожденного распределения p0  (0,...0,1,0,...0)T . Свойство
выпуклости (вверх) H (p) по вектор – столбцу p следует из свойства выпуклости суммы
выпуклых функцийи теоремы об условиях отрицательности квадратичной формы при
линейных ограничениях:
m
Q(q)   qT X j X j T q  m  qT q
(50)
j 1
Таким образом, построена энтропия (44) на многомерных данных, представленных
матрицей G . Рассмотрим частные случаи.
Пусть G  en en - матрица, все элементы которой - единицы (en  [1,1,...,1] ) .
Тогда легко проверить, что решением матричного уравнения (48) будет вектор-столбец
w  en и энтропию (44) можно представить в виде
T
T
n
H ( p )  pT Gp  pT Gp  pT Ep  1   pi 2
(51)
i 1
Энтропия (51) часто используется в анализе данных и имеет специальное название
– информационной энтропии.
Использованные источники:
1. Отчет за 2005 год по проекту РФФИ 05-08-65501-а
2. Отчет за 2006 год по проекту РФФИ 05-08-65501-а
3. Орлов А.И. Нечисловая статистика. – М.: МЗ - Пресс, 2004. – 513 с.
4. Магнус Я.Р. Нейдеккер Х. Матричное дифференциальное исчисление с
приложениями к статистике и эконометрике. – М.: Физматлит, 2002. – 496 с.
5. Сайт prr.ru
6. Куренков Н.И. Ананьев С.Н., Информационный критерий и его использование
в анализе многомерных данных. Информационные технологии. № 9, 2007 г.
7. Куренков Н.И. Ананьев С.Н., Мера однородности матрицы. Информационные
технологии. 2008 г., (в печати).
8. Саати Т. Принятие решений: Метод анализа иерархий. М.: Радио и связь, 1993.
315 с.
9. Беккенбах Э., Беллман Р. Неравенства — М.: Мир, 1965. — 276 с.
10. Гоппа В.Д. Введение в алгебраическую теорию информации. -М.: Наука, 1995.112 с.
11. Куренков Н.И. Ананьев С.Н. Энтропия бинарной матрицы и её применение в
задачах анализа многомерных данных.
Download