16 КЛАСТЕРИЗАЦИЯ МНОЖЕСТВА ПО РАССТОЯНИЯМ И БЛИЗОСТЯМ МЕЖДУ ЕГО ЭЛЕМЕНТАМИ1 С. Двоенко2 2 Тульский государственный университет, 300600, Россия, Тула, пр. Ленина, 92, dsd@uic.tula.ru Рассмотрены модификации некоторых известных алгоритмов кластер-анализа, порождающие несмещенные кластеризации, когда доступна только матрица расстояний или близостей. Показана связь предложенных алгоритмов с алгоритмами экстремальной группировки признаков. Показано, что метод неиерархических разбиений позволяет улучшить качество иерархических разбиений. Введение ωi , кластер-анализе объекты i 1,... N рассматриваются как векторы x i ( xi1 ,... xin ) в n-мерном евклидовом пространстве и представлены матрицей данных X ( N , n) . Предполагается, что они сконцентрированы в K кластеров (классы, таксоны). Хорошо известные алгоритмы кластер-анализа (K-средних, Isodata [1], семейство Forel [2]) основаны на идее несмещенного разбиения [3]. В соответствии с ней, каждый кластер k , k 1,... K предxk , а ставлен своим «представителем» ~ центр кластера представлен «средним» x k . Кластеризация является несмещенной, если xk x k , для всех кластеров справедливо ~ иначе кластеризация является смещенной. Тогда нужно назначить «средний» объект «центром» и пересчитать «средние», распределив объекты по кластерам на основе минимума расстояния до соответствующего «представителя». Но в случае отсутствия признаков «средний» объект ω(x k ) не представлен в матрице евклидовых расстояний D( N , N ) как центр кластера. Поэтому обычно как центр кластера выбирается наиболее близкий к остальным в кластере объект ωk . Но в ~ ω быть получена общем случае при ω k k смещенная кластеризация, т.к. центр x(ωk ) не будет «средним» объектом x k в неизВ вестном признаковом пространстве. По теореме косинусов скалярное произведение пары объектов ωi , ω j относительно некоторого объекта k как начала координат с расстоянием d ij d (i , j ) может cij (d ki2 d kj2 вычислено как 2 где cii d ki при d ij2 ) / 2 , i j . В итоге, элементы главных диагоналей матриц Cl ( N , N ) , l 1,...N являются квадратами расстояний от начала координат ωl до остальных объектов. В задаче многомерного шкалирования нужно восстановить неизвестное пространство, предполагая, что положительно полуопределенная матрица Cl ( N 1, N 1) с рангом n N может быть представлена разложением Cl XX T с X ( N 1, n) [4]. В методе главных проекций Торгенсона [5] начало координат признакового пространства восстанавливается как центр тяжести объектов i , i 1,... N . 1. Несмещенная кластеризация по расстояниям Согласно методу главных проекций центр кластера ωk представлен своими расстояниями до остальных объектов ωi , i 1,... N без необходимости восстанавливать исходное пространство, где N k - число объектов в k : _____________________________________________________________________ Работа поддержана грантами INTAS 04-77-7347, РФФИ 05-01-00679 1 быть 17 d 2 (ωi , ωk ) 1 Nk Nk dip2 p 1 1 2 N k2 sij (d ki2 d kj2 d ij2 ) / 2 , p 1q 1 d ij2 sii s jj 2sij . Поэтому можно не- d pq2 ; и дисперсия кластера определяется как: σ k2 1 Nk Nk Nk Nk 1 d 2 (ωi , ωk ) 2 N 2 d pq2 ; i 1 k p 1q 1 ωi , ω p , ωq k . Алгоритм K-средних имеет вид: Шаг 0. Взять K наиболее далеких предста~ 0 , k 1,... K . вителей ω k Шаг s. 1. Распределить объекты ωi ks , j k , если ~s ) d (ωi , ω k ~ s ), d (ωi , ω j j 1,...K . 2. Пересчитать центры ωks , k 1,... K по расстояниям d (ωi , ωks ), i 1,... N . ~ s ω s , k 1,... K , иначе 3. Стоп, если ω k k ~ s 1 ω s , s s 1 . ω k k Алгоритм Forel имеет вид: Шаг 0. Определить порог r и 0 . Шаг k. Шаг 0. Взять объект ωi k как пред- ~ 0 кластера 0 . ставителя ω k k Шаг s. 1. Перераспределить объекты ωi ks , ~s ) r . если d (ωi , ω k 2. Пересчитать центр 3. s k ям d (ωi , ωks ), ωi k . ~ s ω s , то ω Если k k sii d ki2 , Nk Nk по расстояни- ~ s 1 ω s , ω k k s s 1 , иначе k 1 k \ ks . 4. Стоп, если k 1 , иначе k k 1. 2. Несмещенная кластеризация по близостям Положительно полуопределенная матрица близостей S ( N , N ) , где sij s(ωi , ω j ) 0 может быть использована как матрица скалярных произведений в пространстве размерности не выше N. Расстояния определяются на основе близостей относительωk , где но начала координат как медленно применить алгоритмы K-средних и Forel (как 1-средний) для расстояний и получить несмещенную кластеризацию. Здесь центр кластера ωk представлен его близостями к объектам ωi , i 1,... N , где N k - число объектов в k : s(ωi , ωk ) 1 Nk Nk sip ; ωp k , p 1 и «компактность» кластера выражается средней близостью его центра к остальным объектам в кластере: 1 Nk Nk s(ωi , ωk ) N 2 sip ; i 1 k i 1 p 1 ωi , ω p k . 1 δk Nk Nk Алгоритм K-средних имеет вид: Шаг 0. Взять K наименее близких предста- ~ 0 , k 1,... K . вителей ω k Шаг s. 1. Распределить объекты ωi ks , j k , ~ s ) s(ω , ω ~ s ), j 1,...K . если s(ωi , ω k i j 2. Пересчитать центры ωks , k 1,... K по близостям s(ωi , ωks ), i 1,... N . ~ s ω s , k 1,... K , иначе 3. Стоп, если ω k k ~ s 1 ω s , s s 1 . ω k k Алгоритм Forel имеет вид: Шаг 0. Определить порог ρ и 0 . Шаг k. Шаг 0. Взять объект ωi k как ~ 0 кластера 0 . представителя ω k k Шаг s. 1. Перераспределить объекты ωi ks , ~s ) ρ . если s(ωi , ω k 2. пересчитать центр ks на основе близостей s(ωi , ωks ), ωi k . ~ s ω s , то ω ~ s 1 ω s , s s 1 , 3. Если ω k k k k иначе k 1 k \ ks . 4. Стоп, если k 1 , иначе k k 1 . 18 3. Несмещенная кластеризация признаков «главных» π k и «центроидных» μk факторов ( ωi k ): Несмещенная кластеризация минимизирует дисперсию кластера σ k2 и максимизирует его «компактность» δk : J1 r 2 (ωi , π k ) , k2 1 Nk Nk Nk 1 d ij2 2 N k2 i 1 j 1 Nk Nk Nk sii i 1 1 N k2 sij . i 1 j 1 После нормализации sij sij / sii s jj : σ k2 1 Nk Nk 1 2 sij 1 δk . N k i 1 j 1 Рассмотрим признаки, т.е. столбцы в матрице данных X ( N , n) ( X 1 ,... X n ) . Похожесть признаков рассматривается как коррелированность, выраженная взвешенными скалярными произведениями, образующими матрицу R(n, n) . Группировка признаков, представленных квадратами или модулями корреляций, может быть выполнена как их кластеризация по близостям или расстояниям. Алгоритмы K-средних и Forel дают несмещенную кластеризацию, максимизируя компактность ( ωi , ω p k , nk - число признаков в k ): δk 1 nk nk r 2 (ωi , ωk ) i 1 1 nk nk 2 rip , nk2 i 1 p 1 1 nk nk | r |; 2 ip n i 1 k i 1 p 1 и максимизируя функционалы ( ωi k ): δk 1 nk nk | r (ωi , ωk ) | K K nk k 1 K k 1 i 1 K nk k 1 k 1i 1 I1 nk δk r 2 (ωi , ωk ) , I2 nk δk | r (ωi , ωk ) | . 4. Экстремальная группировка как кластеризация Известные алгоритмы экстремальной группировки признаков [6] «квадрат» и «модуль» максимизируют функционалы для K nk k 1 i 1 K nk J 2 | r (ωi , μk ) | . k 1 i 1 Пусть матрица близостей S (n, n) состоит из квадратов sij rij2 или модулей sij | rij | корреляций между признаками ωi из матрицы R(n, n) . Можно показать, что для группы k ее центр ωk , главный π k и центроидный μk факторы представлены их близостями до остальных признаков ωi : 1 nk s (i , k ) sij , nk j 1 nk s ( , ) kj sij k kj , i k j 1 nk s (i , k ) sij , j 1 где α k (1k ,... nk ) - 1 собств. вектор. k В итоге, несмещенная группировка по «модулю» является несмещенной кластеризацией, но несмещенная группировка по «квадрату» является смещенной кластеризацией. Алгоритмы кластеризации Kсредних по расстояниям и близостям для признаков аналогичны алгоритму «модуль» для их группировки. Различие результатов экстремальной группировки алгоритмами «модуль» и «квадрат» может быть объяснено различием между смещенной и несмещенной кластеризациями. 5. Проблема выбора числа K Проблема выбора числа кластеров хорошо известна. Один из практических ответов имеет вид: определить подходящее число K кластеров (групп), а потом выполнить кластеризацию (группировку). По этой схеме построены алгоритмы K-средних, Forel, «квадрат», «модуль». Второй ответ: 19 найти подходящую кластеризацию (группировку), а она определит число K. По этой схеме построены алгоритмы Isodata, Forel, иерархической кластеризации [7, 8], неиерархической кластеризации [9]. Неиерархический дивизимный алгоритм кластеризации имеет вид: начиная с K 1 , возьмем наименее компактное подмножество k . Найдем пару наименее похожих объектов и будем считать их представителями, чтобы построить разбиение k на два подмножества k и K 1 некоторым алгоритмом кластеризации. Для K 1 подмножеств возьмем два новых предста~ и ω ~ , а также K 1 ранее вителя ω k K 1 ~ ,... ω ~ ,ω ~ ,... ω ~ предопределенных ω 1 k 1 k 1 K ставителей. Построим снова разбиение всех N объектов на K 1 кластеров. Алгоритм остановится, когда K N . Результатом является последовательность разбиений, начиная с 1 и заканчивая одноэлементными множествами 1 ,... N . Некоторые разбиения в этой последовательности образуют иерархически вложенные подпоследовательности. Два разбиения на K и K 1 множеств образуют иерархию, если разбиение наименее компактного множества на два k и K 1 немедленно даст несмещенное разбиение на 1 ,... K 1 подмножеств. Такое разбиение на K множеств назовем «стабильным». Будем использовать стабильные разбиения как подходящие для выбора числа кластеров (групп) K. Смещенные разбиения в качестве основы для такого неиерархического алгоритма дробят иерархические подпоследовательности, уменьшая число подходящих значений K. Алгоритм дает столь же наглядную дендрограмму и показывает, где результат разбиения лучше по сравнению с иерархией. Заключение В отличие от задачи шкалирования и факторного анализа, здесь не требуется восстановления исходного неизвестного пространства признаков. Такие модификации актуальны для обработки результатов пар- ных сравнений (экспертные мнения, белковые последовательности, подписи и т.д.). Алгоритмы протестированы на данных Фишера [10], Холзингера [11] и др. Список литературы 1. Tou J.T., Gonzalez R.C. Pattern Recognition Principles. Addison-Wesley, 1981. 2. Zagoruiko N.G. Applied Methods of Data and Knowledge Analysis. Novosibirsk, Institute of Mathematics, 1999 (in Russian). 3. Schlesinger M. About spontaneous recognition of patterns// Reading Automations. - 1965, Kiev. - P.38 – 45 (in Russian). 4. Young G., Householder A.S. Discussion of a set of points in terms of their mutual distances// Psychometrika. – 1938. Vol. 3. - P.19–22. 5. Torgenson W.S. Theory and Methods of Scaling. N.Y., J. Wiley, 1958. 6. Braverman E.M. Methods of extreme grouping of parameters and a problem to find essential factors// Avtomatika i telemehanika. - 1970. No.1. - P.123–132 (in Russian). 7. Sneath P. The application of computers to taxonomy// J. of General Microbiology.–1957. Vol.17 P. 201–226. 8. Ward J. Hierarchical grouping to optimize an objective function// J. of the ASA.–1963.Vol.58.- P. 236-244. 9. Dvoenko S.D. Restoration of spaces in data by the method of nonhierarchical decompositions// Automation and Remote Control. 2001. Vol. 62, No. 3. -P. 467–473. 10. Fisher R.A. The use of multiple measurements in taxonomic problems// Ann. Eugenics. – 1936. - Vol.7. P.179-188. 11. Harman H.H. Modern Factor Analysis. Chicago, Univ. Chicago Press, 1976.