Информационный поиск План Векторная модель Ранжирование

advertisement
Информационный поиск
План
• Векторная модель
• Ранжирование документов на основе весов,
метаданных
• Определение весов на основе машинного
обучения
Модель векторного пространства
Идея:
-представление документа и запроса в виде векторов
-нахождение пространственно-близких векторов
word1
q
d1
d2
word2
Косинусная мера сходства
,
word1
q
d1
d2
word2
Взвешивание термина
«The information retrieval»
Нам надо:
1. Уменьшить вес слова, если оно встречается в большом
количестве документов (Например, слово “The”)
2. Сделать вес максимальным, если слово встречается часто
только в некоторых документах
3. Сделать вес поменьше, если слово встречается реже, чем
во 2 пункте
Взвешивание термина
1. Частота термина:
tf – количество вхождений термина в документ
2. Документная частота:
df – количество документов, содержащих термин
3. Обратная документная частота
Решение:
t -> tf × idf
Ранжирование
Необходимо определить 10 лучших результатов
Как это сделать?
Ранжирование
CosineScore(q)
float Scores[N]=0
Инициализация Length[N]
for each термина запроса
do вычисляем wt, q
for each пары (d, tft, d)
do Scores[d]+=wft, d × wt, q
for each d
do Scores[d] = Scores[d] / Length[d]
return 10 лучших
Проблема
Некоторые документы имеют метаданные либо
разбиты на части (заголовок, автор, …)
Как учесть эти данные при ранжировании?
Параметрические и зонные индексы
Дата создания
поля
метаданных
зоны
метаданных
Формат
документа
Название
документа
Аннотация
Индексирование полей
Для каждого поля – один параметрический индекс
Для такого индексирования используются B-деревья
Индексирование зон
Для каждой зоны можно создать
инвертированный список документов,
встречается это слово
стандартный
в которых
Но зоны можно представлять в виде словопозиций
«Найти документы, в которых слово William встречается в
названии документа и в списке авторов»
Взвешенное зонное ранжирование
«Information»
Всего 3 зоны: author, title, body.
вес
ВЗР определяется как
соответствие между q
и k-ой зоной
Если «Information» входит только в title и body, то
релевантность документа равна
Вычисление весов на основе машинного
обучения
1. Имеем множество обучающих примеров, состоящий из
a) qj
b) dj
c) r(qj,dj)
Каждому документу
дается значение
релевантности вручную(r)
Вычисление весов на основе машинного
обучения
2. Веса определяются на основе обучение на этих примерах
Вводим функцию
Цель: найти g на основе машинного обучения
Все ошибки суммируются. Так что теперь задача состоит в
том, чтобы минимизировать эту ошибку путем выбора g.
Заключение
- Модель векторного пространства
- Методы ранжирования
- Определение весов на основе
обучения
машинного
Download