А.А. РАСКИН Научный руководитель – П.И. РУДАКОВ, к.т.н., доцент

advertisement
А.А. РАСКИН
Научный руководитель – П.И. РУДАКОВ, к.т.н., доцент
Московский инженерно-физический институт (государственный университет)
СРАВНЕНИЕ МЕР БЛИЗОСТИ, ИСПОЛЬЗУЕМЫХ
ДЛЯ РЕШЕНИЯ ЗАДАЧ КЛАСТЕРИЗАЦИИ
ЦЕПОЧЕК-ГРАФОВ
Рассматриваются меры близости, основанные на: поиске максимального общего подграфа, поиске кратчайшего пути в графе, использовании вероятностей достижения вершин графа. Приводятся результаты работы этих методов.
Один из распространенных в настоящее время подходов к предварительному анализу больших объемов данных состоит в разделении их на
группы по введенным критериям близости. Виды используемых критериев зависят от специфики предметной области. В ряде областей, таких, как
медицина, социология и т.д., данные, характеризующие объект интереса,
обладают внутренней структурой, идентификация которой и может быть
использована для оценки близости.
Целью работы являлось исследование возможности применения мер
близости, основанных на графовых моделях [1,2,4], для выделения типичных последовательностей оказанных пациентам медицинских услуг. Для
анализа были отобраны меры, основанные на поиске кратчайшего пути в
графе, поиске максимального общего подграфа (MCS-мера) и вычислении
вероятностей достижения вершин графа (частотная мера), расчет которых
не требует значительных временных затрат.
После проведения кластеризации цепочек услуг методом k-means [3]
было оценено качество кластеризации с помощью индекса Данна (Dunnindex) [5] и индекса, вычисляемого методом оценки контуров [6].
Индекс Данна определяется как D 
d min
, где dmin – минимальное
d max
расстояние между двумя объектами, принадлежащими различным кластерам, dmax – наибольшее расстоянием между двумя объектами, находящимися в одном кластере.
При использовании метода оценки контуров (Silhouette Validation
Method) индекс, определяющий качество кластеризации, вычисляется как
D
b(i)  a(i) , где a(i) –среднее расстояние от i-го объекта до всех
max a(i), b(i)
объектов того же кластера; b(i) – минимальное среди всех средних расстояний от объекта до элементов ближайшего кластера.
В результате оценки качества кластеризации 149 цепочек медицинских услуг были получены результаты, представленные в таблице 1.
Таблица 1. Результаты оценки качества кластеризации цепочек
медицинских услуг
Мера близости
MCS-мера
Частотная мера
Мера, основанная на поиске
кратчайшего пути
Метод оценки контуров
-0,98
0,45
0,37
Индекс Данна
0,00001
0,01612
0,00073
Основываясь на данных значениях, можно полагать, что использование частотной меры близости является более предпочтительным, чем
использование меры, основанной на поиске кратчайшего пути, т.к. значения обоих индексов для частотной меры выше, чем для меры, основанной
на поиске кратчайшего пути. В свою очередь, использование MCS-меры
является совершенно неприемлемым, т.к. значения обоих коэффициентов
в этом случае близки к минимальным.
Список литературы
1.
Богатырев М.Ю., Латов В.Е., Столбовская И.А. Применение концептуальных графов в системах поддержки электронных библиотек // Труды 9-ой Всероссийской научной
конференции «Электронные библиотеки: перспективные методы и технологии, электронные
коллекции» - RCDL’2007, Переславль-Залесский, Россия, 2007.
2.
Кохов В.А. Методы анализа сходства графов и сходства расположения цепных
фрагментов в графе. Тезисы докладов научной сессии МИФИ-2004. Т.3. М. МИФИ. с.178.
179.
3.
Мандель И.Д. Кластерный анализ / И.Д. Мандель. М.: Финансы и статистика,
1988.
4.
Bunke H. A graph distance metric based on the maximal common subgraph./ H. Bunke,
K. Shearer// Pattern Recognition Letters – 1998 – №19 – p.255–259
5.
Dunn J.C. Well separated clusters and optimal fuzzy partitions./ J.C. Dunn // Journal of
Cybernetics. - 1974 - №4 - p.95-104.
6.
Rousseeuw P.J. Silhouettes: a graphical aid to the interpretation and validation of cluster
analysis./ P.J. Rousseeuw // Journal of Computational and Applied Mathematics. 1987. №20
p.53-65.
Download