Введение

advertisement
О РЕШЕНИИ ЗАДАЧИ КЛАСТЕРНОГО АНАЛИЗА НА БАЗЕ
СКЛЕИВАНИЯ РЕШЕНИЙ ПО ПРИЗНАКОВЫМ
ПОДПРОСТРАНСТВАМ
В.В.Рязанов1
The approach for clustering that based on partial solutions combining is
proposed. Partial solutions are calculated by given sample for each feature as
restorations of parametrical density distributions for clusters. The cases of
normal and uniform distributions are considered and some optimization
methods are elaborated
Введение
Задача кластерного анализа (классификации, самообучения, обучения без
учителя, группировки, таксономии) по прежнему остается одной из важнейших в
анализе данных [1-3]. Следует признать, что в настоящее время не существует
универсальных методов кластеризации. Каждый отдельный метод кластеризации
использует "свое подмножество" из множества общеизвестных метрик, функций
близости, критериев оптимальности, методов оптимизации, способов выбора
начальных приближений, способов работы с разнотипными признаками, и т.п. При
этом каждый подход имеет свои достоинства и недостатки. Более того, используя
некоторый конкретный метод мы можем получить заведомо плохое или
бесполезное решение. Например, выделяется несколько выбросов, а остальные
объекты объединяются в один большой кластер. При этом объективно кластеры
существуют, но мы их не смогли найти.
В [4] и последующих работах автора был предложен подход идейно близкий к
алгебраическому для решения задачи распознавания [5]. Действительно, пусть
имеется набор "проверенных и надежных" n алгоритмов. После их независимого
применения для кластеризации некоторой выборки объектов будет получено n
различных решений (разбиений или покрытий). Заложенная в исходных данных
объективная реальность будет отражена в полученных решениях. При этом,
возможно, некоторые решения будут сильно отличаться от других. Остается найти
оптимальное коллективное решение задачи кластерного анализа на базе данных n
решений. Последняя задача состояла в решении специальной задачи
целочисленного программирования на перестановках. Возникает вопрос: "Какие n
алгоритмов (или решений) нам следует взять в качестве "базисных"? В работе [6] в
качестве исходных n решений использовались экспертные решения, построенные
по проекциям данных на плоскости различных пар признаков.
В настоящей работе предложен другой подход к формированию коллектива
исходных кластеризаций как набора из n покрытий. Рассматриваются проекции
(тени) выборки n - мерных объектов на каждую из осей признаков. Для множества
1
Вычислительный Центр РАН, 117967, Москва, ГСП-1, Вавилова 40, (095)135-62-31, rvv@ccas.ru
значений каждого признака (по данным выборки) находится его покрытие
системой интервалов. Выбор покрытия обусловлен распределением значений
признака и гипотезой о виде распределения значений признака внутри каждого
кластера. Рассматривались два вида распределений значений произвольного
признака по кластерам: равномерное и нормальное. В результате, для каждого
признака на основе заданной выборки требуется решить задачу восстановления
распределений по их смеси. Предложен оптимизационный подход к решению
задачи поиска неизвестных параметров плотностей распределений, который
приводит к задаче целочисленного программирования для равномерного
распределения и к задаче нелинейного программирования - для нормального.
Практические методы оптимизации и некоторые результаты экспериментов
описаны в работе [7].
1. Функции плотности кластера и смеси
В статистической теории классификации задача кластерного анализа
формулируется как задача восстановления плотностей распределений кластеров по
их смеси, которая задана выборкой {S} из m объектов [1]. Рассмотрим случай
скалярной случайной величины . Пусть Pi(x,i) , iDi- плотность ее
распределения для кластера Ki , где i - вектор параметров плотности. Обозначим
через pi - априорную вероятность кластера Ki . Тогда плотность смеси P(x) задается
l
формулой: P( x)   p i Pi ( x,  i ), где l - число кластеров, которое предполагается
i 1
известным. В [1] описано применение метода максимального правдоподобия и
байесовского подхода для оценивания параметров i по данным выборки длины m.
В настоящей работе рассматривается оптимизационный подход, при котором
неизвестные значения параметров находятся из условия максимальной близости
P(x) к соответствующей эмпирической функции плотности.
2. Оптимизационный подход для восстановления функций плотности
кластеров по их смеси
Пусть отрезок [a, b] - оценка области изменения  по данным {S}. Разобьем
[a,b] на N отрезков [zi, zi+1] , i=1,2,…,N, z1,=a, zN+1=b, равной длины. Обозначим
через Pˆ ( x ) эмпирическую функцию плотности смеси, как ступенчатую функцию
b
частот попадания значений элементов выборки в различные отрезки,
 Pˆ ( x)dx  1.
a
Задача . Найти минимум функции
l
F ( p1 , p 2 ,..., pl , 1 , 2 ,..., l )   ( P, Pˆ ),  pi  1, pi  0, i  Di ,
i 1
где  - некоторая метрика в пространстве функций P , Pˆ .
3. Модели кластеров с равномерной и нормальной плотностями
В настоящем разделе рассматриваются случаи двух различных гипотез об
устройстве l кластеров, информация о которых дана выборкой чисел x1 , x2 ,…, xm .
Гипотеза Р. Объекты кластера Ki принадлежат некоторому отрезку [ai ,bi]
и покрывают его равномерно. Плотность объектов внутри отрезка постоянна.
Гипотеза Н. Объекты кластера Ki принадлежат некоторому отрезку [ai ,bi]
и покрывают его неравномерно. Плотность объектов максимальна в центре
отрезка и уменьшается при движении от центра к краям.
В случае гипотезы Р описания кластеров будем искать на базе
использования функций равномерных распределений, а для гипотезы Н нормальных.
В численных методах восстановления функций плотностей классов функции
ˆ
P, P заменим их приближенными представлениями - совокупностями значений
(b  a )
1
(i  ) , i=1,2,…,N. Будем рассматривать аналог
функций в точках y i  a 
N
2
ˆ
Ẑ задачи , где P, P представлены в виде векторов P  ( P( y1 ), P( y2 ), , P( y N )) ,
Pˆ  ( Pˆ ( y ), Pˆ ( y ), , Pˆ ( y )) , а в качестве метрики используется эвклидова метрика
1
2
N
для упорядоченных групп из N действительных чисел в случае нормальных
N
распределений и метрика  (P, Pˆ )   P( yi )  Pˆ ( yi ) - для равномерных.
i 1
Задача Ẑ . Найти минимум функции
l
Fˆ ( p1 , p2 ,..., pl , 1 ,  2 ,...,  l )   (P, Pˆ ),  pi  1, pi  0, i  Di .
i 1
3.1. Равномерная плотность
Пусть функция плотности кластера Ki является равномерной, т.е.
c , a i  x  bi
Pi ( x)   i
иначе.
 0,
Ẑ
причем bi  a i ci  1. Задача
формулировку.
ˆ ( P) . Найти минимум функции
Задача Z
примет
следующую
(1)
конкретную
N
F p ( p1 , p 2 ,..., pl , a1 , a 2 ,..., al , b1 , b2 ,..., bl , c1 , c 2 ,..., cl )   P( y i )  Pˆ ( y i ) , при
i 1
ограничениях
N
p
i 1
i
 1, pi  0,a  ai  bi  b,(bi  ai )ci  1,0  ci ,
вычисляются согласно (1).
где
выражения
Pi(yi)
3.2. Нормальная плотность
Пусть функция плотности кластера Ki является нормальной со средним
значением i и дисперсией  i2 , т.е.
 1 x  i 2 
exp  (
) .
2

2  i
i


Задача Ẑ примет следующую конкретную формулировку.
ˆ ( H ) . Найти минимум функции
Задача Z
1
Pi ( x) 
(2)
N
Fn ( p1 , p 2 ,..., pl , 1 ,  2 ,...,  l ,  1 ,  2 ,...,  l )   ( P( y i )  Pˆ ( y i )) 2 , при ограничениях
i 1
N
p
i 1
i
 1, p i  0,a   i  b,0   i .
Выражения Pi(yi) вычисляются согласно (2).
4. Восстановление плотностей кластеров.
ˆ ( P) , Z
ˆ ( H ) и возможные методы их
Рассмотрим оптимизационные задачи Z
решения. В настоящей работе не будут рассматриваться общие теоретические
проблемы данных задач, например, условия единственности оптимальных
решений, или проблема идентифицируемости плотностей [1] (для равномерной
плотности легко привести примеры неидентифицируемых плотностей). Кроме
того, в любом случае о единственности решений можно говорить с точностью до
перестановок нумерации кластеров. Рассмотрим принципиальные подходы для
ˆ ( P) , Z
ˆ ( H ) , которые представляются наиболее перспективными.
решения задач Z
Более подробно с описанием предварительных экспериментов данные задачи
рассматриваются в [7].
ˆ ( H ) кажется на первый взгляд проще чем Z
ˆ ( P) . Действительно, здесь
Задача Z
оптимизируемая функция обладает хорошими свойствами гладкости, а область
оптимизации является одной из простейших. Отметим, что на дисперсии сразу же
можно наложить нижние и верхние ограничения на основе данных выборки {S}.
Однако,
данная
оптимизационная
задача
является
"существенно"
многоэкстремальной.
Отсюда
следуют
типичные
проблемы-следствия
многоэкстремальности. Градиентные методы позволяют с высокой точностью
найти минимум функции, если начальное приближение находится в его
"окрестности". Наша же основная задача с позиций кластерного анализа состоит не
в поиске точного экстремума, а нахождении решения пусть весьма приближенного,
но приближенного к глобальному минимуму.
ˆ ( P) не позволяет использовать классические методы нелинейного
Задача Z
программирования для ее решения. Однако, в данном случае могут быть
эффективно использованы методы дискретной оптимизации в сочетании с
разумными эвристиками. Рассмотрим кратко основную идею ее решения и схему
оптимизации.
l
Функция плотности смеси P ( x)   p i Pi ( x,  i ) является ступенчатой функцией.
i 1
Будем предполагать, что ai  bj , i,j=1,2,…,l. Точки, в которых она делает скачок
вверх (вниз), являются точками ai (bi , соответственно). Исследуя эмпирическую
функцию Pˆ ( x ) можно выделить наборы точек  = {1 ,2 ,…,u } и  = {1 , 2 ,…,
v } "кандидатов" для ai и bj . Тогда выбор множества допустимых значений {ai ,bi,
pi}, i=1,2,…,l, (при условии ai  , bi,, а pi оцениваются по скачкам функции
Pˆ ( x ) в точках bi и сi ) является выбором некоторой функции плотности смеси,
ˆ ( P) . Алгоритм поиска
качество которой оценивается согласно функции задачи Z
ˆ ( P) с помощью перебора допустимых вариантов по всему
решения задачи Z
множеству допустимых {ai ,bi,, pi}, i=1,2,…,l, практически реализуем лишь для
небольшого числа кластеров. Однако, в данном случае может быть предложен
ˆ ( P) сводится к задаче
удобный эвристический подход, при котором задача Z
поиска в специальном двудольном графе взвешенного парасочетания.
Заключение
После вычисления параметров плотностей распределений непосредственно
вычисляются решения одномерной кластеризации в виде покрытия. В случае
равномерного распределения таким покрытием будет совокупность объектов из
отрезков [ai ,bi], i=1,2,…, l. В случае нормальных распределений можно взять
отрезки [i -3i, i +3i]. Данные покрытия являются исходной информацией при
поиске коллективных решений [4]. Отметим, что допускается случай неполных
покрытий.
Настоящая работа выполнена при поддержке Российского Фонда
фундаментальных исследований, проекты №99-01-00433, 99-07-90120, 00-01-00650,
99-07-90390, и ИНТАС № 96-952.
Список литературы
1. Р.Дуда, П.Харт, Распознавание образов и анализ сцен. Издательство "Мир", Москва, 1976, 511 с.
2. Э.Дидэ, Методы анализа данных, Москва, "Финансы и статистика" , 1985, 357 с.
3. Н.Г.Загоруйко, Прикладные методы анализа данных и знаний, Новосибирск: Изд-во Ин-та
математики, 1999, 270 с.
4. В.В.Рязанов, Комитетный синтез алгоритмов распознавания и классификации, Ж. вычисл. матем.
и матем. физики., 1981. Том 21, №6. С.1533-1543.
5. Ю.И.Журавлев, Об алгебраическом подходе к решению задач распознавания или классификации
//Проблемы кибернетики. М.: Наука, 1978. Вып.33. С.5-68.
6. В.А.Ворончихин , В.В.Рязанов , О видео-логическом подходе к решению проблем таксономии.
Труды 8-й Всероссийской конференции “Математические методы распознавания”, Москва,
Сентябрь, 1997.
7. А.С. Бирюков, А.П. Виноградов, В.В.Рязанов, И.В.Рязанов, О восстановлении некоторых
плотностей кластеров по эмпирическим плотностям смеси, (Настоящий сборник)
Download