Двоенко С.

16 КЛАСТЕРИЗАЦИЯ МНОЖЕСТВА ПО РАССТОЯНИЯМ И БЛИЗОСТЯМ МЕЖДУ ЕГО ЭЛЕМЕНТАМИ1 С. Двоенко2 2 Тульский государственный университет, 300600, Россия, Тула, пр. Ленина, 92, dsd@uic.tula.ru Рассмотрены модификации некоторых известных алгоритмов кластер-анализа, порождающие несмещенные кластеризации, когда доступна только матрица расстояний или близостей. Показана связь предложенных алгоритмов с алгоритмами экстремальной группировки признаков. Показано, что метод неиерархических разбиений позволяет улучшить качество иерархических разбиений. Введение ωi   , кластер-анализе объекты i  1,... N рассматриваются как векторы x i  ( xi1 ,... xin ) в n-мерном евклидовом пространстве и представлены матрицей данных X ( N , n) . Предполагается, что они сконцентрированы в K кластеров (классы, таксоны). Хорошо известные алгоритмы кластер-анализа (K-средних, Isodata [1], семейство Forel [2]) основаны на идее несмещенного разбиения [3]. В соответствии с ней, каждый кластер  k , k  1,... K предxk , а ставлен своим «представителем» ~ центр кластера представлен «средним» x k . Кластеризация является несмещенной, если xk  x k , для всех кластеров справедливо ~ иначе кластеризация является смещенной. Тогда нужно назначить «средний» объект «центром» и пересчитать «средние», распределив объекты по кластерам на основе минимума расстояния до соответствующего «представителя». Но в случае отсутствия признаков «средний» объект ω(x k ) не представлен в матрице евклидовых расстояний D( N , N ) как центр кластера. Поэтому обычно как центр кластера выбирается наиболее близкий к остальным в кластере объект ωk . Но в ~  ω быть получена общем случае при ω k k смещенная кластеризация, т.к. центр x(ωk ) не будет «средним» объектом x k в неизВ вестном признаковом пространстве. По теореме косинусов скалярное произведение пары объектов ωi , ω j относительно некоторого объекта k   как начала координат с расстоянием d ij  d (i ,  j ) может cij  (d ki2  d kj2 вычислено как 2 где cii  d ki при  d ij2 ) / 2 , i  j . В итоге, элементы главных диагоналей матриц Cl ( N , N ) , l  1,...N являются квадратами расстояний от начала координат ωl   до остальных объектов. В задаче многомерного шкалирования нужно восстановить неизвестное пространство, предполагая, что положительно полуопределенная матрица Cl ( N  1, N  1) с рангом n  N может быть представлена разложением Cl  XX T с X ( N  1, n) [4]. В методе главных проекций Торгенсона [5] начало координат признакового пространства восстанавливается как центр тяжести объектов i  , i  1,... N . 1. Несмещенная кластеризация по расстояниям Согласно методу главных проекций центр кластера ωk представлен своими расстояниями до остальных объектов ωi  , i  1,... N без необходимости восстанавливать исходное пространство, где N k - число объектов в  k : _____________________________________________________________________ Работа поддержана грантами INTAS 04-77-7347, РФФИ 05-01-00679 1 быть 17 d 2 (ωi , ωk )  1 Nk Nk  dip2  p 1 1 2 N k2 sij  (d ki2  d kj2  d ij2 ) / 2 , p 1q 1 d ij2  sii  s jj  2sij . Поэтому можно не-  d pq2 ; и дисперсия кластера определяется как: σ k2  1 Nk Nk Nk Nk 1  d 2 (ωi , ωk )  2 N 2  d pq2 ; i 1 k p 1q 1 ωi , ω p , ωq  k . Алгоритм K-средних имеет вид: Шаг 0. Взять K наиболее далеких предста~ 0 , k  1,... K . вителей ω k Шаг s. 1. Распределить объекты ωi   ks , j  k , если ~s )  d (ωi , ω k ~ s ), d (ωi , ω j j  1,...K . 2. Пересчитать центры ωks , k  1,... K по расстояниям d (ωi , ωks ), i  1,... N . ~ s  ω s , k  1,... K , иначе 3. Стоп, если ω k k ~ s 1  ω s , s  s  1 . ω k k Алгоритм Forel имеет вид: Шаг 0. Определить порог r и  0   . Шаг k. Шаг 0. Взять объект ωi   k как пред- ~ 0 кластера  0 . ставителя ω k k Шаг s. 1. Перераспределить объекты ωi   ks , ~s )  r . если d (ωi , ω k 2. Пересчитать центр  3. s k ям d (ωi , ωks ), ωi   k . ~ s  ω s , то ω Если k k sii  d ki2 , Nk Nk по расстояни- ~ s 1  ω s , ω k k s  s  1 , иначе  k 1   k \  ks . 4. Стоп, если  k 1   , иначе k  k 1. 2. Несмещенная кластеризация по близостям Положительно полуопределенная матрица близостей S ( N , N ) , где sij  s(ωi , ω j )  0 может быть использована как матрица скалярных произведений в пространстве размерности не выше N. Расстояния определяются на основе близостей относительωk   , где но начала координат как медленно применить алгоритмы K-средних и Forel (как 1-средний) для расстояний и получить несмещенную кластеризацию. Здесь центр кластера ωk представлен его близостями к объектам ωi  , i  1,... N , где N k - число объектов в  k : s(ωi , ωk )  1 Nk Nk  sip ; ωp  k , p 1 и «компактность» кластера выражается средней близостью его центра к остальным объектам в кластере: 1 Nk Nk  s(ωi , ωk )  N 2   sip ; i 1 k i 1 p 1 ωi , ω p   k . 1 δk  Nk Nk Алгоритм K-средних имеет вид: Шаг 0. Взять K наименее близких предста- ~ 0 , k  1,... K . вителей ω k Шаг s. 1. Распределить объекты ωi   ks , j  k , ~ s )  s(ω , ω ~ s ), j  1,...K . если s(ωi , ω k i j 2. Пересчитать центры ωks , k  1,... K по близостям s(ωi , ωks ), i  1,... N . ~ s  ω s , k  1,... K , иначе 3. Стоп, если ω k k ~ s 1  ω s , s  s  1 . ω k k Алгоритм Forel имеет вид: Шаг 0. Определить порог ρ и  0   . Шаг k. Шаг 0. Взять объект ωi   k как ~ 0 кластера  0 . представителя ω k k Шаг s. 1. Перераспределить объекты ωi   ks , ~s )  ρ . если s(ωi , ω k 2. пересчитать центр  ks на основе близостей s(ωi , ωks ), ωi   k . ~ s  ω s , то ω ~ s 1  ω s , s  s  1 , 3. Если ω k k k k иначе  k 1   k \  ks . 4. Стоп, если  k 1   , иначе k  k  1 . 18 3. Несмещенная кластеризация признаков «главных» π k и «центроидных» μk факторов ( ωi   k ): Несмещенная кластеризация минимизирует дисперсию кластера σ k2 и максимизирует его «компактность» δk : J1   r 2 (ωi , π k ) ,  k2 1  Nk  Nk Nk 1  d ij2  2 N k2 i 1 j 1 Nk Nk Nk  sii  i 1 1 N k2   sij . i 1 j 1 После нормализации sij  sij / sii s jj : σ k2 1 Nk Nk  1  2  sij  1  δk . N k i 1 j 1 Рассмотрим признаки, т.е. столбцы в матрице данных X ( N , n)  ( X 1 ,... X n ) . Похожесть признаков рассматривается как коррелированность, выраженная взвешенными скалярными произведениями, образующими матрицу R(n, n) . Группировка признаков, представленных квадратами или модулями корреляций, может быть выполнена как их кластеризация по близостям или расстояниям. Алгоритмы K-средних и Forel дают несмещенную кластеризацию, максимизируя компактность ( ωi , ω p   k , nk - число признаков в  k ): δk  1 nk nk  r 2 (ωi , ωk )  i 1 1 nk nk 2   rip , nk2 i 1 p 1 1 nk nk | r |; 2   ip n i 1 k i 1 p 1 и максимизируя функционалы ( ωi   k ): δk  1 nk nk | r (ωi , ωk ) |  K K nk k 1 K k 1 i 1 K nk k 1 k 1i 1 I1   nk δk   r 2 (ωi , ωk ) , I2   nk δk  | r (ωi , ωk ) | . 4. Экстремальная группировка как кластеризация Известные алгоритмы экстремальной группировки признаков [6] «квадрат» и «модуль» максимизируют функционалы для K nk k 1 i 1 K nk J 2   | r (ωi , μk ) | . k 1 i 1 Пусть матрица близостей S (n, n) состоит из квадратов sij  rij2 или модулей sij | rij | корреляций между признаками ωi   из матрицы R(n, n) . Можно показать, что для группы  k ее центр ωk , главный π k и центроидный μk факторы представлены их близостями до остальных признаков ωi   :  1 nk  s (i ,  k )   sij , nk j 1   nk  s (  ,  )     kj sij  k  kj , i k j 1  nk   s (i ,  k )   sij ,  j 1 где α k  (1k ,... nk ) - 1 собств. вектор. k В итоге, несмещенная группировка по «модулю» является несмещенной кластеризацией, но несмещенная группировка по «квадрату» является смещенной кластеризацией. Алгоритмы кластеризации Kсредних по расстояниям и близостям для признаков аналогичны алгоритму «модуль» для их группировки. Различие результатов экстремальной группировки алгоритмами «модуль» и «квадрат» может быть объяснено различием между смещенной и несмещенной кластеризациями. 5. Проблема выбора числа K Проблема выбора числа кластеров хорошо известна. Один из практических ответов имеет вид: определить подходящее число K кластеров (групп), а потом выполнить кластеризацию (группировку). По этой схеме построены алгоритмы K-средних, Forel, «квадрат», «модуль». Второй ответ: 19 найти подходящую кластеризацию (группировку), а она определит число K. По этой схеме построены алгоритмы Isodata, Forel, иерархической кластеризации [7, 8], неиерархической кластеризации [9]. Неиерархический дивизимный алгоритм кластеризации имеет вид: начиная с K  1 , возьмем наименее компактное подмножество  k . Найдем пару наименее похожих объектов и будем считать их представителями, чтобы построить разбиение  k на два подмножества  k и  K 1 некоторым алгоритмом кластеризации. Для K  1 подмножеств возьмем два новых предста~ и ω ~ , а также K  1 ранее вителя ω k K 1 ~ ,... ω ~ ,ω ~ ,... ω ~ предопределенных ω 1 k 1 k 1 K ставителей. Построим снова разбиение всех N объектов на K  1 кластеров. Алгоритм остановится, когда K  N . Результатом является последовательность разбиений, начиная с 1   и заканчивая одноэлементными множествами 1 ,...  N . Некоторые разбиения в этой последовательности образуют иерархически вложенные подпоследовательности. Два разбиения на K и K  1 множеств образуют иерархию, если разбиение наименее компактного множества на два  k и  K 1 немедленно даст несмещенное разбиение на 1 ,...  K 1 подмножеств. Такое разбиение на K множеств назовем «стабильным». Будем использовать стабильные разбиения как подходящие для выбора числа кластеров (групп) K. Смещенные разбиения в качестве основы для такого неиерархического алгоритма дробят иерархические подпоследовательности, уменьшая число подходящих значений K. Алгоритм дает столь же наглядную дендрограмму и показывает, где результат разбиения лучше по сравнению с иерархией. Заключение В отличие от задачи шкалирования и факторного анализа, здесь не требуется восстановления исходного неизвестного пространства признаков. Такие модификации актуальны для обработки результатов пар- ных сравнений (экспертные мнения, белковые последовательности, подписи и т.д.). Алгоритмы протестированы на данных Фишера [10], Холзингера [11] и др. Список литературы 1. Tou J.T., Gonzalez R.C. Pattern Recognition Principles. Addison-Wesley, 1981. 2. Zagoruiko N.G. Applied Methods of Data and Knowledge Analysis. Novosibirsk, Institute of Mathematics, 1999 (in Russian). 3. Schlesinger M. About spontaneous recognition of patterns// Reading Automations. - 1965, Kiev. - P.38 – 45 (in Russian). 4. Young G., Householder A.S. Discussion of a set of points in terms of their mutual distances// Psychometrika. – 1938. Vol. 3. - P.19–22. 5. Torgenson W.S. Theory and Methods of Scaling. N.Y., J. Wiley, 1958. 6. Braverman E.M. Methods of extreme grouping of parameters and a problem to find essential factors// Avtomatika i telemehanika. - 1970. No.1. - P.123–132 (in Russian). 7. Sneath P. The application of computers to taxonomy// J. of General Microbiology.–1957. Vol.17 P. 201–226. 8. Ward J. Hierarchical grouping to optimize an objective function// J. of the ASA.–1963.Vol.58.- P. 236-244. 9. Dvoenko S.D. Restoration of spaces in data by the method of nonhierarchical decompositions// Automation and Remote Control. 2001. Vol. 62, No. 3. -P. 467–473. 10. Fisher R.A. The use of multiple measurements in taxonomic problems// Ann. Eugenics. – 1936. - Vol.7. P.179-188. 11. Harman H.H. Modern Factor Analysis. Chicago, Univ. Chicago Press, 1976.

Двоенко С.

Related documents

Products

Support

Двоенко С.

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib