Information retrieval and the Semantic Web Докладчик: Кийко

advertisement
Information retrieval and the Semantic
Web
Докладчик: Кийко Александр
План доклада
• Ранжирование в информационном поиске
• Основные подходы к обработке
семантических документов
• Прототипы
• Заключение
1. Схема работы поисковой машины
(ПМ)
Коллекция
документов
Индексирование
ПМ
ПМ
Поисковый запрос
Функция ранжирования
Документ 1
Документ 2
Документ 3
…
Документ R
Ранжирование в информационном
поиске (абстрактно)
• Запрос: «Получение свидетельства
пенсионного страхования»
• Документ 1: «… Вчера получил пенсионное
свидетельство на работе…»
• Документ 2: «… Пенсионное страхование будет
осуществляться частными компаниями…»
• Документ 3: «Свидетельство пенсионного
страхования… помощь в получении
водительских прав…отставка Лужкова»
Векторная модель
Абажур
… Свидетельств
… Страхован
… Ярмарка
0.0
0.0
0.1
… 0.5
… 0.3
… 0.1
… 0.9
… 0.6
… 0.1
… 0.0
… 0.0
… 0.1
• Мера близости – косинус угла между
векторами запроса и документа
• Терминам назначаются веса
Принципы назначения весов
терминам
• Меньший вес присваивается терминам, которые
встречаются во многих документах;
• Больший вес присваивается терминам, которые
много раз встречаются в одном документе;
• Меньший вес присваивается документам,
содержащим много различных терминов.
Ранжирование в информационном поиске
(формально)
fd,t – частота встречаемости термина
в документе
ft – число документов в которых
встречается термин
2. Технологии Semantic Web
Документ
Документ
Документ
Документ
Документ
Документ
Документ
Документ
Документ
Семантическая
Семантическая
разметка
разметка
Метаданные
Метаданные
Google
?
?
Языки разметки
• RDF (Resource Description Framework)
• OWL (Web Ontology Language)
• DAML+OIL
Пример RDF файла
<foaf:knows>
<foaf:Person>
<foaf:nick>Cal</foaf:nick>
<foaf:name>Cal Henderson</foaf:name>
<rdfs:seeAlso
rdf:resource="http://www.iamcal.com/foaf.x
ml"/>
</foaf:Person>
</foaf:knows>
RDF - триплеты
Subject
Predicate
Object
genid:ARP40722
http://www.w3.org/1999/02/
22-rdf-syntax-ns#type
http://xmlns.com/foaf
/0.1/Person
genid:ARP40722
http://xmlns.com/foaf/0.1/nic
"Cal"
k
genid:ARP40722
http://xmlns.com/foaf/0.1/na
me
"Cal Henderson"
genid:ARP40722
http://www.w3.org/2000/01/
rdf-schema#seeAlso
http://www.iamcal.co
m/foaf.xml
genid:me
http://xmlns.com/foaf/0.1/kn
ows
genid:ARP40722
RDF – триплеты (2)
• Каждый RDF-триплет состоит из subject,
predicate, object.
• Каждый RDF-триплет описывает
уникальный факт
Компоненты системы
Метаданные в
формате RDF
Система обработки
RDF-файлов
(включая построение
логического вывода)
Поисковая
машина
?
Задачи
•
•
•
•
Кодирование и декодирование RDF
Индексирование
Ранжирование
Использование семантики
Использование поисковых систем для поиска по
семантическим документам (Semantic web
document)
Тестовые системы
• OWLIR
• Swangler
Swangler
• Осуществляет преобразование документа в
формате RDF в документ с аннотациями,
который может быть индексирован
поисковой машиной
• Предоставляет интерфейс поиска, запросы
должны иметь специальный формат
Область применения
• Существует большое количество RDF и OWL
документов, то есть большое количество
семантических сетей
• Стандарт HTML не позволяет добавить
разметку к тексту
• Поисковые машины могут на самом деле
индексировать такие документы, но делать
это некорректно
Пример работы
RDF - триплет
(http://www.xfront.com/owl/ontologies/camera/#Digital
http://www.w3.org/2000/01/rdf-schema#subClassOf
http://www.xfront.com/owl/ontologies/camera/#PurchaseableItem)
-> (7 различных комбинаций, в которых отдельные параметры
заменяются на значение «любой», результат хэшируется)
BE52HVKU5GD5DHRA7JYEKRBFVQ
WS4KYRWMO3OR3A6TUAR7IIIDWA
2THFC7GHXLRMISEOZV4VEM7XEQ
HO2H3FOPAEM53AQIZ6YVPFQ2XI
6P3WFGOWYL2DJZFTSY4NYUTI7I
N656WNTZ36KQ5PX6RFUGVKQ63A
IIVQRXOAYRH6GGRZDFXKEEB4PY
OWLIR
• Система поиска по документам,
содержащим текст и семантическую
разметку (RDF, DAML+OIL или OWL)
• Работает с разными поисковыми
машинами, тестировалась на двух: twoHAIRCUT и WONDIR
• Создана для фильтрации университетских
событий (спортивные матчи, открытые
лекции и т.д.)
Описание OWLIR: события
Система построения логических выводов
• Используется Java Expert System Shell
Пример вывода:
->Событие: фильм “Очень страшное кино”
можно сделать вывод о жанре, используя
IMDB
->Жанр: “комедия”
->Будет сгенерировано несколько терминов и
добавлено к документу перед
индексированием
Схема работы OWLIR
Запрос к системе
• Запрос отображается в документ,
содержащий RDF – триплеты и текст
<DOC>
<TEXT>'UMBC Blood Drive!!
Office of Student Life launches its annual Blood Drive for the Red Cross
on Mon, Nov 20 in the UC Ballroom from 10am - 4pm.
</TEXT>
<TRIPLE>triple(charity_001)(
‘http://gentoo.cs.umbc.edu/howlir/announcements/charity#charity
_001_place',
‘http://gentoo.cs.umbc.edu/ontologies/event_ont#Building',
'University Center').
</TRIPLE>
</DOC>
Интеграция
• Логические системы дают хорошие
результаты, но очень плохо
масштабируются
• Во время операции поиска находятся
документы, содержащие термины из
запроса
• Логическая система применяется к
небольшому набору данных для поиска
подходящего решения
Ранжирование
• Каждый RDF-триплет отображается в 1 терм
• Релевантность определяется по тем же
формулам, что и в классическом поиске
• Sim(q, d) – косинус угла между векторами
запроса и документа, но размерность
вектора равна N + M
– N – количество терминов в документах
– M – количество RDF-триплетов
Результаты
3.Swangling
• Как осуществлять преобразование
семантических элементов в обычные термы
(swangling)?
• Когда применять логические выводы?
– Применять к документу перед
индексированием
– Применять к запросу во время поиска
• Какова должны быть глубина вывода?
Использование поисковых машин
• Crowlers
• Ограничения
– Индексируемые символы
– Длина запроса
Заключение
• Рассмотрены подходы, с помощью которых
семантические документы могут быть
индексированы и запрошены из
традиционных поисковых машин
• Рассмотрены демонстрационные системы:
OWLIR, Swangler.
Download