В.В. КЛИМОВ, Д.Е. МЕШКОВ

advertisement
УДК 001(06) Инновационные проекты и молодежное предпринимательство…
В.В. КЛИМОВ, Д.Е. МЕШКОВ
Научный руководитель – Б.А. ЩУКИН, д.т.н., профессор
Национальный исследовательский ядерный университет «МИФИ»
СИСТЕМА ВАЛИДАЦИИ ОНТОЛОГИЙ
ДЛЯ SOA АРХИТЕКТУРЫ
В работе приводится обзор технологий семантического веб. Рассматривается вопрос о создании базы знаний, в рамках построения системы
основанной на сервис-ориентированной архитектуре (SOA). Показана
необходимость валидации в базах знаний большого масштаба.
В настоящий момент мировая общественность очень сильно проявляет интерес к технологиям и концепциям семантического веб (Semantic
Web). Самое главное преимущество этой технологии состоит в том, что
вся информация в базе знаний (база данных для семантических приложений) преобразуется к формату данных наиболее понятных для компьютеров и компьютерных агентов. В поддержку данной концепции были созданы спецификации различных языков разметки данных (RDF, RDF
Schema, OWL)[3]. Основные понятия, которыми оперируют языки семантической разметки данных следующие: «класс», «индивид», «свойство»,
«аксиома».
Наибольший интерес представляет применение этих технологий к
концепции SOA (Service-Oriented Architecture)[2].
Концепция SOA основана на том, что бизнес-приложение не является
целостной системой, а состоит из большого количества компонентов.
Каждый такой компонент представляет собой веб – сервис (Web Service),
являющийся определенным модулем системы SOA (например, модуль
авторизации пользователя в систему). Веб - сервис может быть атомарным и композитным. Атомарный веб – сервис подразумевает под собой
какую-то одну операцию (проверка номера кредитной карты), в то время
как композитный веб – сервис - это совокупность атомарных процессов,
соединённых в определенном порядке.
Для определения того, как сервисы должны быть интегрированы между собой, консорциумом W3C была создана спецификация стандарта
OWL-S[4].
При выполнении любого сервиса информация на входе у данного компонента может быть очень разной. Необходимо максимально снизить
УДК 001(06) Инновационные проекты и молодежное предпринимательство…
риск неправильной связи частей в композитном сервисе. Все сведения
OWL-S описания (Входы, Выходы, Предусловия, Эффекты и т.д.) находятся в других онтологиях, на которые ссылается OWL-S описание посредством глобального идентификатора URI.
При валидации данных происходит проверка на непротиворечивость и
выполняемость OWL-S описаний на всей базе знаний, которая может
насчитывать тысячи классов. Данные проверки позволяют избежать многих трудностей, связанных с интеграцией данных, и защитить от неверных выводов информации из онтологий.
Особенность системы заключается в том, что валидируются сущности
из онтологий, на которые ссылается OWL-S описание сервиса. При этом
фильтруются все части онтологии, кроме надклассов. Это позволило не
только серьезно сократить затраты времени на выполнение программы, но
и избежать появления большого количества интерпретаций объектов в
базе знаний. База знаний валидатора состоит из онтологии верхнего уровня SUMO[5] и присоединенных к ней валидированных сущностей. Эта
модель позволяет описать знания в очень удобной системе объектов и
действий. Кроме того для этой онтологии существует специальная связь с
лингвистическим тезаурусом WordNet, при помощи которой можно определять синонимы класса онтологии.
Данная система может быть использована в любой промышленной базе знаний. Она позволит эффективно бороться с противоречивой информацией и даже указывать об ошибках в спроектированных онтологиях.
Ценность данной работы состоит в том, что валидаторов такого класса не
существует и данная разработка поможет продвинуть вперед семантические технологии и расширить их применения в сфере бизнеса.
На основании описанных выше идей был создан прототип системы валидации, который позволяет проверять описания OWL-S сервисов на базе
онтологии верхнего уровня SUMO. В прототипе реализованы
инновационные идеи, суть которых заключается в следующем.
Во – первых, данная система позволила контролировать всю информацию в базе знаний, основываясь не на шаблонном сравнении или синтаксическом анализе, как это происходит в базах данных (XSD схемы, триггеры и т.д.), а на основании смысла понятий, учитывая их лингвистические связи WordNet.
Во – вторых, тип валидации по «смыслу» позволит свести к минимуму
ошибки, при вводе информации в базу знаний, исходя из аксиом и сущностей, содержащихся в ней.
УДК 001(06) Инновационные проекты и молодежное предпринимательство…
В – третьих, в прототипе реализован инновационный алгоритм проверки знаний. Его суть состоит в проверке не всех онтологий, включенных в валидируемый документ, а только отдельных цепочек сущностей.
Это позволяет снизить риск загрузки неверной информации в онтологии.
Помимо этого, в систему будет включен большой справочник ошибок
онтологий, на основании которого будут предоставятся рекомендации по
устранению проблем в онтологиях.
Валидация промышленных данных - это острая проблема в системах
ERP, CRM и т.д. Нередко пользователи системы допускают ошибки при
работе с ней. При этом большинство ошибок невозможно динамически
обнаружить вследствие достаточно сложных бизнес процессов. Данный
проект позволяет исключать ошибочные ситуации в базах знаний, тем
самым сокращая колоссальные издержки на поддержание целостности
базы данных. Для примера рассмотрим ситуацию, в которой применение
системы валидации является необходимостью. В большой розничной сети
существует огромное количество филиалов, для каждого из которых доступен определенный спектр услуг и продукции утверждающийся главным филиалом. Соответственно, в базе знаний указаны списки доступных
товаров для каждого филиала. Вся филиальная сеть работает в единой
информационной системе. При формировании заказа оператором, единицы товара проверяются в базе знаний на предмет доступности их в данном
филиале. Используя стандартные подходы к построению приложения,
пришлось бы создавать много таблиц с большим количеством атрибутов.
При этом пользователю, на основании базы знаний, будет дан четкий ответ, почему та или иная единица продукции не поставляется в филиал.
Так же, данная программа будет просто незаменима при системной
интеграции семантических приложений SOA, использующих различные
базы знаний. При семантическом подходе интеграции приложений большую роль играет непротиворечивость базы данных. Поэтому валидатор
является необходимым компонентом в системе семантической интеграции
бизнес приложений.
Список литературы
1.
Grigoris Antoniou, Frank van Harmelen . A Semantic Web Primer
2.
S. Weerawarana, F. Curbera. Web Services Platform Architecture. Prentice Hall PTR, 2005
УДК 001(06) Инновационные проекты и молодежное предпринимательство…
3.
4.
5.
Toby Segaran, Jamie Taylor, and Colin Evans. Programming the Semantic Web. O'Reilly. 2009
W3C OWL 2.0 , OWL-S 1.1, Specification , http://w3c.com 2004-2009
Б.В. Добров, В.В. Иванов, Н.В. Лукашевич, В.Д. Соловьев. Онтологии и тезаурусы: модели, инструменты, приложения. ИНТУИТ.
2007г.
Download