Определение числа кластеров в задаче кластеризации объектов

advertisement
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
Е.В. ПОРХУН
Киевский национальный университет им. Тараса Шевченко, Украина
elena_porkhun@mail.ru
ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ В ЗАДАЧЕ КЛАСТЕРИЗАЦИИ ОБЪЕКТОВ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ КОХОНЕНА
Ключевые слова: автоматическая кластеризация текстов, нейронная сеть
Кохонена, эвристический алгоритм
При решении задач кластеризации объектов с помощью нейронной сети Кохонена из-за инициализации весов сети случайными значениями
неизвестно число кластеров, на которые необходимо разбить выборку
объектов. Число кластеров разбиения может варьироваться при каждом
запуске нейронной сети. Предложен подход, который позволяет автоматически определить число кластеров для заданной выборки объектов.
Предполагается, что верное разбиение на кластеры – это разбиение с
наибольшей частотой ответов нейронной сети Кохонена при кластеризации. Преимуществом является наглядное представление всех решений
задачи с указыванием их оценок, исходя из которых было выбрано данное
решение. Предлагается проводить процесс кластеризации, начиная с максимального числа кластеров, последовательно опускаясь к минимальному.
Пусть для n объектов проведена серия разбиений на m кластеров,
m  n, 2 . Для каждого разбиения на m кластеров было реализовано k попыток и получено k решений. Для каждого m построим матрицу Am , где
строкам матрицы отвечает множество объектов P, а столбцам – кластеры
разбиений Ql , l  1, k . Каждой матрице Am поставим в соответствие
полный граф Gm . Для каждого ребра e графа Gm укажем его оценку c(e),
как силу связи i-й вершины с j-й. Оценки рёбер графа соответствуют силам связей объектов выборки.
Для взвешивания результатов, полученных с помощью нейронной сети
Кохонена и после оптимизации графа, предлагается воспользоваться методом идеальной точки.
Алгоритм определения числа кластеров, с помощью которого можно получить оптимальное разбиение выборки, формируется следующим образом:
1. Для каждого разбиения, полученного нейронной сетью Кохонена,
строится граф с указанием оценок всех его рёбер, и с помощью его анализа находится решение.
УДК 004.032.26(06) Нейронные сети
52
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
2. К каждому полученному решению на шаге 1 применяется критерий
максимума целевой функции.
3. Находится идеальная точка, координаты которой равны суммарной
силе связей оптимального графа и оптимальному значению критерия.
4. Для каждой точки из пространства оценок вычисляется расстояние
до идеальной точки.
5. Применяется правило выбора для нахождения оптимального разбиения.
С применением нейронной сети Кохонена и предложенного алгоритма
определения числа кластеров разработана автоматическая система кластеризации текстов на естественном языке – Clasterizator. Система предназначена для решения задач кластеризации документов массива по выбранному профилю – тематике текста или стилю его написания (стилистическими признаками). По определенному пользователем набору характеристик система автоматической кластеризации позволяет разбить текстовую выборку на кластеры похожих между собой текстов.
При кластеризации текстовой выборки по стилистическим признакам
векторы признаков могут формироваться из данных частотных словарей
текстов, статистики служебных слов и др.
На вход сети поступает вектор признаков, размерность которого задает
количество входных нейронов. Согласно эвристическому алгоритму, число нейронов выходного слоя сети Кохонена определяется после каждого
предыдущего результата разбиения на кластеры. На первом шаге алгоритма размерность выходного слоя нейронов равна количеству всех текстов выборки. После получения очередного разбиения количество выходных нейронов уменьшается до числа полученных кластеров в разбиении.
Проведен ряд экспериментов по применению разработанной системы
для кластеризации выборки текстов ряда художественных произведений
по стилистическим признакам. Достигнута точность кластеризации выше
70 %.
УДК 004.032.26(06) Нейронные сети
53
Download