Метод кластеризации текстов, основанный на

advertisement
Метод кластеризации
текстов, основанный на
попарной близости термов,
характеризующих тексты, и
его сравнение с
метрическими методами
кластеризации
Михаил Киселев
Megaputer Intelligence Ltd
Автоматическая кластеризация
текстов - актуальная и до сих пор не
имеющая хорошего универсального
решения проблема.
Основные трудности:
• Неоднозначность определения смысловой
близости текстов.
• Часто - необходимость работать с очень высоко
размерными пространствами.
• Требования интерпретируемости - смысловая
пометка кластеров, объяснение отнесения
текста к кластеру.
Наиболее распространенный
подход - метрический
пространство
признаков
тексты
кластеры
Идеи предлагаемого альтернативного
подхода:
• Каждый текст представляется как множество его
ключевых термов (а не как точка в пространстве
признаков – с одним и тем же набором
признаков для всех термов)
• Близость текстов вычисляется на основе
попарной близости их ключевых термов
• Оценка близости термов производится на
основе иерархического тезауруса (онтологии)
Статистический подход к
построению множества ключевых
термов
• Критерий – существенное
превышение частоты терма в тексте
над средней частотой
• Дополнительное условие – никакие
два ключевых терма не должны
быть связаны отношением
гипернимии
Мера значимости превышения
частоты терма над средней:
f(t) – средняя частота терма t
n(t) – число термов t в тексте
n – общее число термов в тексте
p(t) - вероятность того, что, сделав n
испытаний с априорной вероятностью
успеха f(t), мы получим n(t) или более
успехов
Критерий включения терма в
множество ключевых термов
0.03
p(d , t ) 
Nn(d )
Средняя частота терма
Частота терма в большом текстовом
корпусе (по возможности –
относящемся к той же тематике, что и
кластеризуемый корпус), из текстов
которого исключены все ключевые
термы
Близость 2 термов
Величина, обратная расстоянию
между этими термами в графе,
представляющем онтологию, + 1
Близость 2 текстов
P (d1 , d 2 )  P (d 2 , d1 )
P(d 1, d 2 ) 
n(d1 )  n(d 2 )
где
P (d1, d2 ) 

tK ( d1 )
n(d1, t ) max P(t , s)
sK ( d 2 )
Автоматическое построение
иерархического тезауруса
Теоретические основы:
• Распределительная гипотеза.
Семантически подобные термы
встречаются, как правило, в похожем
лингвистическом контексте.
• Частотная гипотеза. Частота
встречаемости гипернимов в текстах
больше, чем у любого их гипонима.
Автоматическое построение
иерархического тезауруса
Исходные данные:
Матрица совместной встречаемости лексем,
рассчитанная на большом текстовом
корпусе.
Ее элементы – вероятности, что два терма
будут обнаружены в N или более текстов
одновременно при предположении об их
независимом распределении в корпусе.
Здесь N – наблюдаемое число документов,
включающих оба этих терма.
Автоматическое построение
иерархического тезауруса
Алгоритм:
Бинарная аггломеративная
кластеризация термов с мерой
расстояния между термами,
задаваемой матрицей совместной
встречаемости лексем
Пометка кластеров – узлов
образующегося дерева 3мя наиболее
частыми лексемами
Пример – фрагмент
получившегося иерархического
тезауруса
собака
порода
щенок
собака
порода
щенок
собака
щенок
щенок
овчарка
овчарка
терьер
спаниель
порода
овчарка
терьер
спаниель
ретривер
собака
овчарка
терьер
спаниель
мастиф
терьер
спаниель
мастиф
Метрические методы
кластеризации,
использованные для целей
сравнения
• MSEL – отбор размерностей,
соответствующих лексемам с
максимальной суммой tfidf по
кластеризуемому корпусу
• MLSA – отбор размерностей на
основе латентного семантического
анализа
Критерии сравнительной
оценки
• Точность кластеризации – насколько
найденные кластеры соответствуют
заранее заданному разбиению
корпуса на смысловые категории
• Интерпретируемость кластеризации
– насколько понятна и адекватна
смысловая пометка найденных
кластеров
Точность кластеризации – мера
взаимной информации Шеннона
между идентификатором
кластера и смысловой категорией
IG 
 q(i, j) log q(i, j)   q (i) log q (i) 
1
i

j
1
i
 q ( j) log q ( j)
2
2
j
m(i, j )
q(i, j ) 
, q1 (i )   q(i, j ), q2 ( j )   q(i, j )
N
j
i
m(i,j) - количество текстов из смыслового класса
I, отнесенных к кластеру j
Текстовые корпуса,
использованные для сравнения
•
Корпус Wl. Случайная выборка 965 веб-сраниц русского Интернета общим
объемом 4.2 MB. 36 классов.
•
Корпус Wh. Та же выборка, 59 классов.
•
Корпус Ql. Набор страниц из выборки русского Интернета, предоставленной
Яндексом, которые содержат фамилию Столыпин. 56 текстов общим
объемом 1.7МВ. 7 классов.
•
Корпус Qh. Тот же корпус, 12 классов.
•
Корпус N. Выборка текстов новостей, из архива, предоставленного
компанией Яндекс («обычная неделя»). 430kB в 295 текстах. 16 классов.
•
Корпус H. Заголовки новостей из того же самого архива. Общий объем –
135kB. Количество текстов – 2020. 431 класс.
•
Корпус Cl. Статьи уголовного кодекса РФ, посвященные отдельным видам
преступлений. 276 текстов, 270kB. В качестве смысловых классов служат 6
разделов этой части УК.
•
Корпус Ch. Статьи УК, но классифицированные по 19 его главам.
Результаты по точности
кластеризации
Пример сравнения пометки
кластеров
Выводы
• Результаты сравнения подтверждают предположение о
том, что предлагаемый метод должен иметь
преимущество в случае сильного тематического
разнообразия анализируемого корпуса либо малого
размера отдельных текстов.
• Предлагаемый метод приводит к гораздо более
понятной и точной смысловой пометке найденных
кластеров.
• Дополнительный результат - разработан метод
автоматического создания напоминающей
иерархический тезаурус структуры на базе матрицы
совместной встречаемости лексем, построенной на
большом текстовом корпусе.
Download