ïÔÞÅÔ 7 - Томский политехнический университет

advertisement
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Государственное образовательное учреждение высшего
профессионального образования
ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Институт Кибернетики
Направление
Кафедра
Прикладная математика и информатика
Прикладной математики
Отчет по лабораторной работе №7
по дисциплине Прикладная математическая статистика
«Проведение кластерного анализа в пакете STATGRAPHICS Plus»
Выполнил:
студент гр. 8БМ21
Рожновская А.И.
Проверил:
проф., д.т.н.
Берестнева О. Г.
Томск 2013
Постановка задачи
Изучить возможности статистического пакета StatGraphics в области проведения
кластерного анализа. С помощью пакета провести кластерный анализ на основании
экспертных оценок показателей студентов.
Теоретические положения
Кластерный анализ (англ. cluster analysis) — задача разбиения заданной выборки
объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый
кластер состоял из схожих объектов, а объекты разных кластеров существенно
отличались. Задача кластеризации относится к статистической обработке, а также к
широкому классу задач обучения без учителя.
Кластерный анализ — это многомерная статистическая процедура, выполняющая
сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая
объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника,
собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим
свойством, главная цель кластерного анализа — нахождение групп схожих объектов в
выборке.
Типы входных данных



Признаковое описание объектов. Каждый объект описывается набором своих
характеристик, называемых признаками. Признаки могут быть числовыми или
нечисловыми.
Матрица расстояний между объектами. Каждый объект описывается
расстояниями до всех остальных объектов метрического пространства.
Матрица сходства между объектами. Учитывается степень сходства объекта с
другими объектами выборки в метрическом пространстве. Сходство здесь
дополняет расстояние (различие) между объектами до 1.
В современной науке применяется несколько алгоритмов обработки входных
данных. Анализ путём сравнения объектов, исходя из признаков, (наиболее
распространённый в биологических науках) называется Q-типом анализа, а в случае
сравнения признаков, на основе объектов — R-типом анализа. Существуют попытки
использования гибридных типов анализа (например, RQ-анализ), но данная методология
ещё должным образом не разработана.
Цели кластеризации



Понимание данных путём выявления кластерной структуры. Разбиение выборки на
группы схожих объектов позволяет упростить дальнейшую обработку данных и
принятия решений, применяя к каждому кластеру свой метод анализа (стратегия
«разделяй и властвуй»).
Сжатие данных. Если исходная выборка избыточно большая, то можно сократить
её, оставив по одному наиболее типичному представителю от каждого кластера.
Обнаружение новизны (англ. novelty detection). Выделяются нетипичные объекты,
которые не удаётся присоединить ни к одному из кластеров.
В первом случае число кластеров стараются сделать поменьше. Во втором случае
важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а
кластеров может быть сколько угодно. В третьем случае наибольший интерес
представляют отдельные объекты, не вписывающиеся ни в один из кластеров.
Во всех этих случаях может применяться иерархическая кластеризация, когда
крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче,
и т. д. Такие задачи называются задачами таксономии. Результатом таксономии является
древообразная иерархическая структура. При этом каждый объект характеризуется
перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.
Формальная постановка задачи кластеризации
Пусть X — множество объектов, Y — множество номеров (имён, меток) кластеров.
Задана функция расстояния между объектами
. Имеется конечная обучающая
выборка объектов X m  {x1 ,..., xm }  X . Требуется разбить выборку на непересекающиеся
подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов,
близких по метрике ρ, а объекты разных кластеров существенно отличались. При этом
каждому объекту
приписывается номер кластера .
Алгоритм кластеризации — это функция
, которая любому объекту
ставит в соответствие номер кластера
. Множество в некоторых случаях
известно заранее, однако чаще ставится задача определить оптимальное число кластеров,
с точки зрения того или иного критерия качества кластеризации.
Кластеризация (обучение без учителя) отличается от классификации (обучения
с учителем) тем, что метки исходных объектов изначально не заданы, и даже может
быть неизвестно само множество .
Решение задачи кластеризации принципиально неоднозначно, и тому есть
несколько причин (как считает ряд авторов):



не существует однозначно наилучшего критерия качества кластеризации. Известен
целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко
выраженного критерия, но осуществляющих достаточно разумную кластеризацию
«по построению». Все они могут давать разные результаты. Следовательно, для
определения качества кластеризации требуется эксперт предметной области,
который бы мог оценить осмысленность выделения кластеров.
число кластеров, как правило, неизвестно заранее и устанавливается
в соответствии с некоторым субъективным критерием. Это справедливо только для
методов дискриминации, так как в методах кластеризации выделение кластеров
идёт за счёт формализованного подхода на основе мер близости.
результат кластеризации существенно зависит от метрики, выбор которой, как
правило, также субъективен и определяется экспертом. Но стоит отметить, что есть
ряд рекомендаций к выбору мер близости для различных задач.
Ход работы
Для проведения кластерного анализа выбран метод кластеризации Уорда, метрика
– квадратичная евклидова.
Визуально определим, на сколько кластеров можно разбить выборку.
Рис. 1. Дендрограмма результатов проведения кластерного анализа (задан 1 кластер по
умолчанию)
Визуально количество кластеров – 4.
Кластер
1
2
3
4
Таблица 1
Общие результаты проведения кластерного анализа
Число элементов
Процентное отношение
15
39,47
6
15,79
14
36,84
3
7,89
Таблица 2
Центроиды кластеров
Таблица 3
Распределение элементов по кластерам (метод кластеризации Уорда, метрика –
евклидова).
Рис. 2. Дендрограмма результатов проведения кластерного анализа (4 кластера)
Рис. 3. Представление результатов проведения кластерного анализа
Вывод
В ходе данной работы были изучены возможности статистического пакета
StatGraphics в области проведения кластерного анализа, с помощью пакета проведен
кластерный анализ показателей студентов.
Download