Двоенко С.

advertisement
16
КЛАСТЕРИЗАЦИЯ МНОЖЕСТВА ПО РАССТОЯНИЯМ И БЛИЗОСТЯМ
МЕЖДУ ЕГО ЭЛЕМЕНТАМИ1
С. Двоенко2
2
Тульский государственный университет, 300600, Россия, Тула, пр. Ленина, 92,
dsd@uic.tula.ru
Рассмотрены модификации некоторых известных алгоритмов кластер-анализа,
порождающие несмещенные кластеризации, когда доступна только матрица расстояний или близостей. Показана связь предложенных алгоритмов с алгоритмами
экстремальной группировки признаков. Показано, что метод неиерархических
разбиений позволяет улучшить качество иерархических разбиений.
Введение
ωi   ,
кластер-анализе объекты
i  1,... N рассматриваются как векторы
x i  ( xi1 ,... xin ) в n-мерном евклидовом
пространстве и представлены матрицей
данных X ( N , n) . Предполагается, что они
сконцентрированы в K кластеров (классы,
таксоны). Хорошо известные алгоритмы
кластер-анализа (K-средних, Isodata [1],
семейство Forel [2]) основаны на идее несмещенного разбиения [3]. В соответствии с
ней, каждый кластер  k , k  1,... K предxk , а
ставлен своим «представителем» ~
центр кластера представлен «средним» x k .
Кластеризация является несмещенной, если
xk  x k ,
для всех кластеров справедливо ~
иначе кластеризация является смещенной.
Тогда нужно назначить «средний» объект
«центром» и пересчитать «средние», распределив объекты по кластерам на основе
минимума расстояния до соответствующего «представителя».
Но в случае отсутствия признаков «средний» объект ω(x k ) не представлен в матрице евклидовых расстояний D( N , N ) как
центр кластера. Поэтому обычно как центр
кластера выбирается наиболее близкий к
остальным в кластере объект ωk . Но в
~  ω быть получена
общем случае при ω
k
k
смещенная кластеризация, т.к. центр x(ωk )
не будет «средним» объектом x k в неизВ
вестном признаковом пространстве.
По теореме косинусов скалярное произведение пары объектов ωi , ω j относительно
некоторого объекта k   как начала
координат с расстоянием d ij  d (i ,  j )
может
cij  (d ki2
 d kj2
вычислено
как
2
где cii  d ki при
 d ij2 ) / 2 ,
i  j . В итоге, элементы главных диагоналей матриц Cl ( N , N ) , l  1,...N являются
квадратами расстояний от начала координат ωl   до остальных объектов. В задаче многомерного шкалирования нужно
восстановить неизвестное пространство,
предполагая, что положительно полуопределенная матрица Cl ( N  1, N  1) с рангом n  N может быть представлена разложением Cl  XX T с X ( N  1, n) [4]. В
методе главных проекций Торгенсона [5]
начало координат признакового пространства восстанавливается как центр тяжести
объектов i  , i  1,... N .
1. Несмещенная кластеризация по
расстояниям
Согласно методу главных проекций центр
кластера ωk представлен своими расстояниями
до
остальных
объектов
ωi  , i  1,... N
без необходимости
восстанавливать исходное пространство,
где N k - число объектов в  k :
_____________________________________________________________________
Работа поддержана грантами INTAS 04-77-7347, РФФИ 05-01-00679
1
быть
17
d 2 (ωi , ωk ) 
1
Nk
Nk
 dip2 
p 1
1
2 N k2
sij  (d ki2  d kj2  d ij2 ) / 2 ,
p 1q 1
d ij2  sii  s jj  2sij . Поэтому можно не-
 d pq2 ;
и дисперсия кластера определяется как:
σ k2 
1
Nk
Nk
Nk Nk
1
 d 2 (ωi , ωk )  2 N 2  d pq2 ;
i 1
k p 1q 1
ωi , ω p , ωq  k .
Алгоритм K-средних имеет вид:
Шаг 0. Взять K наиболее далеких предста~ 0 , k  1,... K .
вителей ω
k
Шаг s.
1. Распределить объекты ωi   ks , j  k ,
если
~s ) 
d (ωi , ω
k
~ s ),
d (ωi , ω
j
j  1,...K .
2. Пересчитать центры ωks , k  1,... K по
расстояниям d (ωi , ωks ), i  1,... N .
~ s  ω s , k  1,... K , иначе
3. Стоп, если ω
k
k
~ s 1  ω s , s  s  1 .
ω
k
k
Алгоритм Forel имеет вид:
Шаг 0. Определить порог r и  0   .
Шаг k.
Шаг 0. Взять объект ωi   k как пред-
~ 0 кластера  0 .
ставителя ω
k
k
Шаг s.
1. Перераспределить объекты ωi   ks ,
~s )  r .
если d (ωi , ω
k
2. Пересчитать центр 
3.
s
k
ям d (ωi , ωks ), ωi   k .
~ s  ω s , то
ω
Если
k
k
sii  d ki2 ,
Nk Nk
по расстояни-
~ s 1  ω s ,
ω
k
k
s  s  1 , иначе  k 1   k \  ks .
4. Стоп, если  k 1   , иначе
k  k 1.
2. Несмещенная кластеризация по
близостям
Положительно полуопределенная матрица
близостей S ( N , N ) , где sij  s(ωi , ω j )  0
может быть использована как матрица
скалярных произведений в пространстве
размерности не выше N. Расстояния определяются на основе близостей относительωk   , где
но начала координат
как
медленно применить алгоритмы K-средних
и Forel (как 1-средний) для расстояний и
получить несмещенную кластеризацию.
Здесь центр кластера ωk представлен его
близостями к объектам ωi  , i  1,... N ,
где N k - число объектов в  k :
s(ωi , ωk ) 
1
Nk
Nk
 sip ; ωp  k ,
p 1
и «компактность» кластера выражается
средней близостью его центра к остальным
объектам в кластере:
1 Nk Nk
 s(ωi , ωk )  N 2   sip ;
i 1
k i 1 p 1
ωi , ω p   k .
1
δk 
Nk
Nk
Алгоритм K-средних имеет вид:
Шаг 0. Взять K наименее близких предста-
~ 0 , k  1,... K .
вителей ω
k
Шаг s.
1. Распределить объекты ωi   ks , j  k ,
~ s )  s(ω , ω
~ s ), j  1,...K .
если s(ωi , ω
k
i
j
2. Пересчитать центры ωks , k  1,... K по
близостям s(ωi , ωks ), i  1,... N .
~ s  ω s , k  1,... K , иначе
3. Стоп, если ω
k
k
~ s 1  ω s , s  s  1 .
ω
k
k
Алгоритм Forel имеет вид:
Шаг 0. Определить порог ρ и  0   .
Шаг k.
Шаг 0. Взять объект ωi   k как
~ 0 кластера  0 .
представителя ω
k
k
Шаг s.
1. Перераспределить объекты ωi   ks ,
~s )  ρ .
если s(ωi , ω
k
2. пересчитать центр  ks на основе
близостей s(ωi , ωks ), ωi   k .
~ s  ω s , то ω
~ s 1  ω s , s  s  1 ,
3. Если ω
k
k
k
k
иначе  k 1   k \  ks .
4. Стоп, если  k 1   , иначе k  k  1 .
18
3. Несмещенная кластеризация
признаков
«главных» π k и «центроидных» μk факторов ( ωi   k ):
Несмещенная кластеризация минимизирует
дисперсию кластера σ k2 и максимизирует
его «компактность» δk :
J1   r 2 (ωi , π k ) ,
 k2
1

Nk

Nk Nk
1

d ij2

2 N k2 i 1 j 1
Nk
Nk Nk
 sii 
i 1
1
N k2
  sij .
i 1 j 1
После нормализации sij  sij / sii s jj :
σ k2
1 Nk Nk
 1  2  sij  1  δk .
N k i 1 j 1
Рассмотрим признаки, т.е. столбцы в матрице данных X ( N , n)  ( X 1 ,... X n ) . Похожесть признаков рассматривается как
коррелированность, выраженная взвешенными скалярными произведениями, образующими матрицу R(n, n) . Группировка
признаков, представленных квадратами или
модулями корреляций, может быть выполнена как их кластеризация по близостям
или расстояниям. Алгоритмы K-средних и
Forel дают несмещенную кластеризацию,
максимизируя компактность ( ωi , ω p   k ,
nk - число признаков в  k ):
δk 
1
nk
nk
 r 2 (ωi , ωk ) 
i 1
1 nk nk 2
  rip ,
nk2 i 1 p 1
1 nk nk
| r |;
2   ip
n
i 1
k i 1 p 1
и максимизируя функционалы ( ωi   k ):
δk 
1
nk
nk
| r (ωi , ωk ) | 
K
K nk
k 1
K
k 1 i 1
K nk
k 1
k 1i 1
I1   nk δk   r 2 (ωi , ωk ) ,
I2 
 nk δk  | r (ωi , ωk ) | .
4. Экстремальная группировка как
кластеризация
Известные алгоритмы экстремальной группировки признаков [6] «квадрат» и «модуль» максимизируют функционалы для
K nk
k 1 i 1
K nk
J 2   | r (ωi , μk ) | .
k 1 i 1
Пусть матрица близостей S (n, n) состоит
из
квадратов
sij  rij2
или
модулей
sij | rij | корреляций между признаками
ωi   из матрицы R(n, n) . Можно показать, что для группы  k ее центр ωk ,
главный π k и центроидный μk факторы
представлены их близостями до остальных
признаков ωi   :

1 nk
 s (i ,  k ) 
 sij ,
nk j 1


nk

s
(

,

)


  kj sij  k  kj ,
i
k
j 1

nk

 s (i ,  k )   sij ,

j 1
где α k  (1k ,... nk ) - 1 собств. вектор.
k
В итоге, несмещенная группировка по
«модулю» является несмещенной кластеризацией, но несмещенная группировка по
«квадрату» является смещенной кластеризацией. Алгоритмы кластеризации Kсредних по расстояниям и близостям для
признаков аналогичны алгоритму «модуль»
для их группировки. Различие результатов
экстремальной группировки алгоритмами
«модуль» и «квадрат» может быть объяснено различием между смещенной и несмещенной кластеризациями.
5. Проблема выбора числа K
Проблема выбора числа кластеров хорошо
известна. Один из практических ответов
имеет вид: определить подходящее число K
кластеров (групп), а потом выполнить
кластеризацию (группировку). По этой
схеме построены алгоритмы K-средних,
Forel, «квадрат», «модуль». Второй ответ:
19
найти подходящую кластеризацию (группировку), а она определит число K. По этой
схеме построены алгоритмы Isodata, Forel,
иерархической кластеризации [7, 8], неиерархической кластеризации [9].
Неиерархический дивизимный алгоритм
кластеризации имеет вид: начиная с K  1 ,
возьмем наименее компактное подмножество  k . Найдем пару наименее похожих
объектов и будем считать их представителями, чтобы построить разбиение  k на
два подмножества  k и  K 1 некоторым
алгоритмом кластеризации. Для K  1
подмножеств возьмем два новых предста~ и ω
~ , а также K  1 ранее
вителя ω
k
K 1
~ ,... ω
~ ,ω
~ ,... ω
~ предопределенных ω
1
k 1
k 1
K
ставителей. Построим снова разбиение всех
N объектов на K  1 кластеров. Алгоритм
остановится, когда K  N .
Результатом является последовательность
разбиений, начиная с 1   и заканчивая
одноэлементными множествами 1 ,...  N .
Некоторые разбиения в этой последовательности образуют иерархически вложенные подпоследовательности. Два разбиения
на K и K  1 множеств образуют иерархию,
если разбиение наименее компактного
множества на два  k и  K 1 немедленно
даст несмещенное разбиение на 1 ,...  K 1
подмножеств. Такое разбиение на K множеств назовем «стабильным». Будем использовать стабильные разбиения как подходящие для выбора числа кластеров
(групп) K. Смещенные разбиения в качестве
основы для такого неиерархического алгоритма дробят иерархические подпоследовательности, уменьшая число подходящих
значений K. Алгоритм дает столь же
наглядную дендрограмму и показывает, где
результат разбиения лучше по сравнению с
иерархией.
Заключение
В отличие от задачи шкалирования и факторного анализа, здесь не требуется восстановления исходного неизвестного пространства признаков. Такие модификации
актуальны для обработки результатов пар-
ных сравнений (экспертные мнения, белковые последовательности, подписи и т.д.).
Алгоритмы протестированы на данных
Фишера [10], Холзингера [11] и др.
Список литературы
1. Tou J.T., Gonzalez R.C. Pattern Recognition Principles. Addison-Wesley, 1981.
2. Zagoruiko N.G. Applied Methods of Data and
Knowledge Analysis. Novosibirsk, Institute of Mathematics, 1999 (in Russian).
3. Schlesinger M. About spontaneous recognition of
patterns// Reading Automations. - 1965, Kiev. - P.38 –
45 (in Russian).
4. Young G., Householder A.S. Discussion of a set of
points in terms of their mutual distances// Psychometrika. – 1938. Vol. 3. - P.19–22.
5. Torgenson W.S. Theory and Methods of Scaling.
N.Y., J. Wiley, 1958.
6. Braverman E.M. Methods of extreme grouping of
parameters and a problem to find essential factors//
Avtomatika i telemehanika. - 1970. No.1. - P.123–132
(in Russian).
7. Sneath P. The application of computers to taxonomy// J. of General Microbiology.–1957. Vol.17 P. 201–226.
8. Ward J. Hierarchical grouping to optimize an objective function// J. of the ASA.–1963.Vol.58.- P. 236-244.
9. Dvoenko S.D. Restoration of spaces in data by the
method of nonhierarchical decompositions// Automation
and Remote Control. 2001. Vol. 62, No. 3. -P. 467–473.
10. Fisher R.A. The use of multiple measurements in
taxonomic problems// Ann. Eugenics. – 1936. - Vol.7.
P.179-188.
11. Harman H.H. Modern Factor Analysis. Chicago,
Univ. Chicago Press, 1976.
Download