Поиск документов в разнородных источниках на основе системы

advertisement
УДК 004.4(06) Технологии разработки программных систем
П.А. ШАПКИН
Московский инженерно-физический институт (государственный университет)
ПОИСК ДОКУМЕНТОВ В РАЗНОРОДНЫХ ИСТОЧНИКАХ
НА ОСНОВЕ СИСТЕМЫ КЛАССИФИКАЦИОННЫХ СХЕМ
Рассматривается служба, позволяющая проводить поиск на обобщенном
пространстве документальных баз данных, организованных с использованием
различных классификационных схем. Для решения задачи семантической
интероперабельности предлагается использовать систему взаимных отображений
классификаторов и сервис формирования запросов к документальным ресурсам на
языке их классификационных индексов.
Интернет объединяет множество источников информации, которые
сильно различаются по назначению, составу данных, методам поиска,
качеству [1]. Особое место занимают документальные базы данных,
производимые крупными информационными центрами. Для специалистов
эти ресурсы являются одним из важнейших источников информации.
Отличительной особенностью документальных баз данных является
наличие строгих классификационных схем (КС), применяемых при
индексировании
документов
[2].
Грамотное
использование
классификационных индексов является залогом успешного поиска.
Национальные
и
международные
информационные
центры
используют как универсальные КС, так и собственные классификаторы,
которые разрабатываются в соответствии с потребностями конкретной
области знания и с учетом специфики обрабатываемого потока. В
качестве примеров можно привести Универсальную десятичную
классификацию,
Международную
патентную
классификацию,
Государственный рубрикатор научно-технической информации России,
Dewey Decimal Classification, Mathematics Subject Classification и т. п.
Конечный пользователь хочет в ответ на свой запрос получить по
возможности наиболее полные сведения из разных источников, не
заботясь об устройстве конкретных баз данных. Таким образом, в
поисковой системе, охватывающей разные источники информации, среди
других инструментов значительную роль может играть общедоступный
ресурс, позволяющий переводить индексы одних КС в другие.
Веб-служба, позволяющая отображать понятия одной КС на другую,
разрабатывается в ВИНИТИ. В её основе лежит система из более чем 20
КС. Отображения между КС основываются на работе экспертов по
сопоставлению КС. Рассматриваемая служба основана на технологии
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11
119
УДК 004.4(06) Технологии разработки программных систем
Microsoft ASP.NET 2.0, данные хранятся в базе данных под управлением
MS SQL Server. Существует как HTML-интерфейс, предназначенный для
просмотра данных пользователем-человеком, так и интерфейс
программного доступа, основанный на XML.
В качестве формата представления данных, используемого в вебслужбе, использованы технологии семантического Интернета [3]: данные
представляются в формате RDF (Resource Description Framework),
позволяющем описывать сложные сетевые структуры: наборы связанных
сущностей. Для определения онтологии, т. е. иерархии типов сущностей,
или понятий, используемых в RDF-описаниях данных, применен язык
OWL (Ontology Web Language).
На основе описанной службы ведется разработка системы поиска
документов в различных источниках. Пользователь формирует свой
запрос в виде набора рубрик некоторой КС, который затем может быть
расширен с учетом отображений на другие классификации. Используя
этот расширенный набора рубрик, система подает запрос в различные
источники и возвращает пользователю объединенный результат поиска.
Таким образом, требованием, необходимым для того, чтобы некоторый
источник был включен в данную систему, является поддержка этим
источником одной из КС, известных системе.
В настоящий момент для вывода результатов поиска пользователю
предполагается использование собственных интерфейсов источников.
При этом появляются новые требования к источникам: они должны иметь
веб-интерфейс, который мог бы принимать поисковые запросы,
параметры которых передаются методами HTTP GET или POST. На
втором этапе возможно создание собственного интерфейса вывода
объединенных результатов поиска, но для этого необходимо, чтобы
источники документов предоставили некоторый программный интерфейс,
или API, для поиска документов.
Список литературы
1. Ландэ Д. В. Поиск знаний в Internet. Профессиональная работа: Пер. с англ. — М.:
Издательский дом «Вильямс», 2005. — 272 с.
2. Гиляревский Р. С. К проблеме совместимости информационно-поисковых языков
различных типов // НТИ. Сер. 2. – 1978. – № 1. – С. 11–13.
3. G. Antoniou. A Semantic Web Primer. — MIT Press, 2004. — 272 p.
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11
120
Download