ПРедставление деятельности

advertisement
Представление направлений
деятельности организации в
структуре предметной области:
метод "кластер-лифт"
Б.Г. Миркин, ОПМИ ВШЭ Москва и
ДИИС Биркбек Лондонский университет Лондон
Совместная работа с T. Fenner (ДИИС
Биркбек), S. Nascimento и L.M. Pereira (Новый
университет, Лиссабон, Португалия),
Поддержано грантом PTDC/EIA/69988/2006
Португальского фонда науки и техники (2007-2010)
Поддержано грантом 09-01-0071 “Анализ связи между
спектральным и аппроксимационным подходами к кластеранализу» clustering” Научного фонда ВШЭ (2009-2010)1
Cодержание
1. Постановка проблемы
2. Сущность метода «кластер-лифт»
3. Иллюстрация результатов
4. Заключение
5. Приложение: Описание метода
5.1. Сбор данных об индивидуальных работах
5.2. Кластеры сходства таксономических единиц
5.3. Подъём кластеров в ACM-CSS Taxonomy
2
Визуализация для оперативного
контроля энергосети (Манхаттэн)
3
Возможна ли подобная визуализация для
целей стратегического анализа и
управления?
• Карта местности?
• Энергетическая подстанция?
• Ее представление?
4
Визуализация для стратегического
анализа и управления:
• Карта местности?
–Таксономия предметной области
• Энергетическая подстанция?
–Кластер таксономических единиц
• Способ представления?
–Верхние уровни таксономической
иерархии
5
Визуализация деятельности
исследовательской организации
• Организация?
– A Computer Science Department
• Карта местности?
– ACM Classification of Computer
Subjects
• Энергетическая подстанция?
– Кластер таксономических единиц
разрабатываемых в департаменте
• Представление?
– Верхние уровни таксономической
иерархии
6
ACM-CCS Taxonomy – Верхний
уровень, 11 категорий
•
•
•
•
•
•
A. General Literature
•
B. Hardware
•
C. Comp. Sys. Organization•
D. Software
•
E. Data
•
F. Theory of Computation
A
B
G. Maths of Computing
H. Information Systems
I. Computing Methodologies
J. Computer Applications
K. Computing Milieux
E
C
F
D
CS
G
H
I
J
K
7
ACM-CCS Taxonomy - Уровень 2,
9 категорий
• I. Computing Methodologies
–
–
–
–
–
I.0 GENERAL
I.1 SYMBOLIC AND ALGEBRAIC MANIPULATION
I.2 ARTIFICIAL INTELLIGENCE
I.3 COMPUTER GRAPHICS
I.4 IMAGE PROCESSING AND COMPUTER VISION
– I.5 PATTERN RECOGNITION
– I.6 SIMULATION AND MODELING (G.3)
– I.7 DOCUMENT AND TEXT PROCESSING (H.4, H.5)
– I.m MISCELLANEOUS
8
ACM-CCS Taxonomy - Уровень 3,
7 категорий
I.5 PATTERN RECOGNITION
o I.5.0 General
o I.5.1 Models
o I.5.2 Design Methodology
o I.5.3 Clustering
o I.5.4 Applications
o I.5.5 Implementation (C.3) - горизонтальная ссылка
o I.5.m Miscellaneous
9
ПРОБЛЕМА
ПРЕДСТАВИТЬ:
• Исследовательскую деятельность
департамента или центра Информатики
ВЕРХНИМИ УРОВНЯМИ
• ACM Классификации Информатики
(ACM-CCS)
10
ЗАЧЕМ? Объективный целостный
портрет организации:
•
•
•
•
•
Позиционирование организации в ACMCCS таксономии
Анализ структуры тематики организации
Обозрение проблемных узлов, не
вписывающихся в структуру таксономии
Обзор регионального развития (с
количественными характеристиками
эффективности и недо- и/или переоснащенности)
Планирование реорганизации и развития
11
Иллюстрация: Центр СЕНТРИА
(Новый университет Лиссабона) в
терминах среднего уровня ACM-CCS
Таксономии:
Разрабатывается
26 ACM-CCS тем из общего числа 81
12
Традиционный подход - пометить темы в
таксономии: темы есть, системы нет
E1 E2 E£ E4 E5
A
G1 G2 G3 G4
E
G
B
K1 K2 K3 K4 K5 K6 K7 K8
J
K
I
CS
I1 I2 I3 I4
C
D
F
I5 I6 I7
H
13
Добиться системности I:
Объединить темы ACM-CCS в кластеры
по общности разрабатывающих их групп
Для этого:
– Собрать данные о тематике каждого
индивидуального проекта
– Оценить сходство между темами по сходству
разработчиков
– Сформировать тематические (нечеткие)
кластеры
14
Добиться системности II:
Тематические кластеры представить в
ACM-CCS более общими категориями в
зависимости от нестыковок (лифт)
Головная тема
Пробел
Выброс
Тема из кластера
Минимизировать:
HГолТем + GПробел + OВыброс
15
C. Computer Systems Organization
D. Software and H. Information Systems
F. Theory of Computation
D. Software
H. Information Systems
I. Computing Methodologies
E1 E2 E£ E4 E5
A
G1 G2 G3 G4
E
B
G
K1 K2 K3 K4 K5 K6 K7 K8
J
K
Head subject
I
Subject’s offshoot
CS
Gap
C
I1 I2 I3 I4
D
F
I5 I6 I7
H
16
Центр СЕНТРИА (Новый
университет Лиссабона)
– Структура: Шесть перекрывающихся
кластеров
- Позиционирование: пять Головных тем
(с соответствующими выбросами и
пробелами)
– Проблемный узел: Кластер с двумя
Головными темами – возникновение
Software Engineering, не отраженное в
ACM-CCS Taxonomy
17
Заключение: метод кластер-лифт
• Систематическое представление структуры
деятельности головными темами, пробелами и
выбросами на соответствующей таксономии
• Инструмент анализа и планирования
– Профиль организации
– Интегральное представление региональной
структуры деятельности
• Необходима организация сбора данных
– Через опрос
– Через анализ документов – проектов, статей, и пр.,
включая Интернет (языковый барьер) – предстоит
• Работа по организации приложений
18
Appendix: Technical aspects
•
•
•
•
E-survey tool over ACM-CCS topics
Similarity between topics
Additive, crisp or fuzzy, clustering
Lifting of thematic clusters in ACM-CCS
Taxonomy
19
Generic e-survey output: Fuzzy
membership
20
Similarity between ACM-CCS
topics
• Contribution by an individual member:
– (f(i)) – membership vector over all subjects i in 3d
layer of ACM-CCS from the survey
– A(i,j)=f(i)*f(j), the product, for all ACM-CCS 3d layer
subjects i and j
• Matrices A(i,j) summed up over all individuals
weighted according to their span ranges
21
1
Similarity between ACMC subjects: example
ACMC subjects: i, ii, iii, iv, v, vi
Chosen subject memberships for four members
i
.6
.2
ii
.4
.2
.2
iii
.2
.4
.2
iv
.3
.4
.2
v
.5
.2
vi
2/5 3/5
3/5
5/5 – member weights
weight = number_of_subjects / max_number_of_subjects
22
Similarity between ACMC subjects: example 2
i
.36 .24 0 0 0
ii
.24 .16 0 0 0
iii 0.4 0 0 0 0 0
iv
0 0 0 0 0
v
0 0 0 0 0
1st member’s
i
ii
iii
iv
v
0.184
0.136
0.040
0.040
0.040
0.136
0.128
0.088
0.088
0.040
+0.6
0.040
0.088
0.160
0.172
0.100
0
0
0
0
0
0 0 0 0
0 0 0 0
0 .04 .06 .10
0 .06 .09 .15
0 .10 .15 .25
2d member’s
+0.6 .... =
0.040 0.040
0.088 0.040
0.172 0.100
0.190 0.130
0.130 0.190
not_diagonal_mean =0.0874
23
Clustering with no user-defined
parameters
• Additive clustering with ADDI-S (Mirkin
1976, 1987, 2005)
• Additive spectral fuzzy clustering with
ADDI-SF (Mirkin and Nascimento 2009)
24
Additive fuzzy clustering
Observed:
– Similarity B=(bij), i,jI
To be found:
– Cluster membership u=(ui)
– Intensity  > 0 
Fuzzy cluster similarity A=  uu
2
T
25
Additive fuzzy clustering
• Model: Similarity B summarizes:
– Background cluster g (all entities)
– K fuzzy clusters (K unknown)
– residuals E
B = Ag + A1 +A2+… +AK + E
E to be least-squares minimized
over unknown clusters
26
Method: One cluster at a time
• Minu, ξ t,t∈T (wtt− ξutut)2

• Equivalent to Rayleigh quotient
Max
uWuT/(uTu)
• Spectral approach: find max eigenvalue
and its vector, adjust the latter to fuzzy
membership
27
Natural stop-criteria
1. Negative eigenvalue ξ
2. Contributions
T(B) = ξ12 + ξ22 +…+ ξK2+ L2 (●)
having reached pre-specified proportions
28
Generalising thematic clusters over
ACM-CCS: good and bad cases
• Navy cluster is tight, all topics are in one ACMCCS category (good to generalise)
• Red cluster is dispersed over many ACM-CCS
categories (bad: difficult to generalise)
CS
29
Lifting with criterion of parsimony:
Minimize the total penalty
•
– Head subject
– Gap
– Offshoot
• Total penalty:
#
Penalty
1
1
2
3
1
0.5
5 = 1*H + 1G + 2O
30
Cluster lifting algorithm : Bottom-up
recursion
PARENT Gap Head Offsh
Not HS
HS
Gn
Gh
Hn
Hh
On
Oh
CHILD 1 Gap Head Offsh
CHILD 2 Gap Head Offsh
CHILD 3 Gap Head Offsh
Not HS
HS
Oh1
Not HS Gn2
HS
Gh2
Not HS
HS
Gn1
Gh1
Hn1
Hh1
On1
Hn2
Hh2
On2
Oh2
Gn3
Gh3
Hn3
Hh3
On3
Oh3
31
Download