Оценивание сходства пользователей и ресурсов путем

advertisement
Московский ФизикоФизико-Технический Институт
Вычислительный Центр РАН
Оценивание сходства пользователей и
ресурсов путем выявления скрытых
тематических профилей
Лексин В.А.
Воронцов К.В.
vleksin@mail.ru
voron@ccas.ru
Задача АКС (анализа клиентских сред)
Дано:
– множество пользователей U
– множество ресурсов R
l
– выборка посещений {ui , ri }i=
i =1 ∈ U × R
Требуется построить функции сходства:
– пользователей ρ U (u , u ' )
– ресурсов ρ R (r , r ' )
Конечная цель АКС
Решение целого спектра прикладных задач:
–
–
–
–
–
поиск схожих ресурсов и схожих пользователей
персонализация контента
сегментация клиентской базы
каталогизация ресурсов
визуализация карт сходства
Основная идея АКС: ρ U и ρ R должны быть
взаимосогласованными:
–
–
клиенты схожи, если они пользуются схожим набором
ресурсов
ресурсы схожи, если ими пользуются схожие клиенты
Вероятностная постановка задачи, понятие
профиля
У каждого пользователя u ∈ U имеется некоторое
множество интересов или потребностей (тем).
Множество всех тем обозначим через T .
.
Профиль ресурса
r — вектор вероятностей
.
,
q tr = q ( t | r ), t = 1,..., | T |,
∑q
tr
= 1.
t ∈T
,
Профиль пользователя
u — вектор вероятностей
p tu = p (t | u ), t = 1,..., | T |, ∑ p tu = 1.
t ∈T
Задача восстановления тематических
профилей
p-формула: p (u, r ) = ∑ p(u ) ptu q(r | t , u )
t
По Байесу:
qtr q (r )
q(r | t ) =
∑s∈R qts q(s)
q-формула: p (u , r ) = ∑ q (r )qtr p (u | t , r )
t
По Байесу:
ptu p (u )
p (u | t ) =
∑s∈U pts p(s)
Выборка посещений: D = {ui , ri }li =1
Принцип максимума правдоподобия:
l
L( D;{ ptu }, {qtr }) = ln ∏ p(ui ri ) → max
i =1
{ ptu , qtr }
Схема алгоритма двухуровневая
Повторять, пока не сойдется:
Оптимизировать
• E-шаг: H tr (u ) =
ptu при фиксированных qtr
ptu q (r | t )
-скрытые переменные
∑ psu q(r | s)
s
∑ H (u )
∑1
tr
• M-шаг: p tu =
r :( u , r )∈D
-профили пользователей
r :( u , r )∈ D
Оптимизировать
qtr при фиксированном
• E-шаг: найти скрытые компоненты
• M-шаг: найти профили ресурсов
ptu
Алгоритмы вычисления метрики
По профилям:
|T |
ρ R (r , r ') = ρ ( ptr , ptr ' ) =
2
(
p
−
p
)
∑ tr tr ' , r ∈ R, r ' ∈ R,
t =1
Вычисление корреляции:
 ni + n j − 2nij
ρ (ri , rj ) = 
 ni + n j − nij




ni
ri
α
Точный тест Фишера:
Гипергеометрическое распределение:
nij
rj
nj
ri , rj ∈ R
U
ρ(ri , rj ) = P{nij = x} =
x
ni
n j −x
|U|−ni
nj
|U|
CC
C
Методика оценивания качества метрики
Данные поисковой машины Яндекс:
–
–
–
–
объем лога 4Гб
14 606 пользователей
1 972 636 ресурсов (из них 129 600 были выбраны)
интервал времени: 1 неделя работы поисковой системы
Классифицированные экспертом ресурсы:
– 396 сайтов
– 8 классов
Критерий качества построенной метрики:
– количество ошибок при попытке классифицировать точки
методом kNN, используя частичную классификацию ресурсов
Настройка параметров алгоритма на данных
поисковой машины
Оптимизация количества тем
0.50
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0.40
0.30
Q
Q
Оптимизация числа соседей k
0.20
0.10
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0.00
4
5
6
7
8
k
9
10
11
12
8
9
T
Оптимизация числа внутренних
циклов
Оптимизация числа внешних циклов
0.25
0.50
0.20
0.40
0.15
0.30
Q
Q
0.30
0.20
0.10
0.10
0.05
0.00
0.00
2
3
4
5
6
mc
7
8
9
2
3
4
5
6
ic
7
Сравнение алгоритмов и оптимизация
параметра метода kNN
1.0
0.9
0.8
0.7
Q
0.6
0.5
0.4
0.3
0.2
0.1
0.0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
K
EM
Тест Фишера
Корреляция
17
18
19
20
21
Карта сходства ресурсов по профилям
Выводы
Улучшается качество метрик
Восстанавливаются профили поддающиеся
содержательной интерпретации
Уменьшается объем хранимых данных,
повышается скорость обработки
Легко учитывается априорная информация
Решается проблема «холодного старта»
Широкий спектр применений
Список литературы
[2] К. В. Воронцов, В. А. Лексин, Анализ клиентских сред:
выявление скрытых профилей и оценивание сходства
клиентов и ресурсов, тезисы ММРО-13, 2007
[1] К. В. Воронцов, К. В. Рудаков, В. А. Лексин, А. Н. Ефимов,
Выявление и визуализация метрических структур на
множествах пользователей и ресурсов Интернет, 2006
[3] Resnik et al., Statistical collaborative filtering, 1994
[5] Jun Wang et al., A User-Item Relevance Model for Log-based
Collaborative Filtering, 2006
[4] Schein et al., Generative Models for Cold Start
Recommendations, 2002
Download