разработка метода интеграции информационных систем

advertisement
Исследование и разработка методов и программных средств
обеспечения структурной и семантической интероперабельности
информационных систем на основе метамоделей
Михайлов И.С. fr82@mail.ru
Московский энергетический институт
(Технический университет)
Информационные
системы
представляют
широкий
класс
программного
обеспечения, используемого различными предприятиями для автоматизации их работы.
Поскольку объём обрабатываемой информации огромен, сейчас уже в каждой
организации существует своя информационная система. Такая система является
комплексным программным продуктом, объединяющем в себе различные современные
технологии по доступу, накоплению, обработке данных, по работе в сети и многие другие.
В ходе развития или слияния фирм должно происходить масштабирование и интеграция
их информационных систем (ИС). Как известно, одну и ту же ИС можно построить поразному, так же как и одну задачу можно решить различными способами. В результате
интегрируемые хранилища данных могут быть несовместимы, даже если они решают
схожие задачи. Складывается ситуация, когда расширение требований или объединение
систем вызывает потребность их перепроектирования или создания заново.
В настоящее время для решения такого рода задач используются частные средства
компьютерной конвертации данных, которые разрабатываются для определённой узкой
задачи и не проводят анализ преобразуемой информации.
На
сегодняшний
день
возникает
необходимость
в
создании
метода,
обеспечивающего объединение информационных систем, а также программного средства,
осуществляющего данное объединение.
В данной статье рассматривается разработка универсального метода интеграции
информационных
систем,
функционирующих
в
одной
предметной
области,
с
использованием метаданных ИС и онтологии предметной области.
При интеграции информационных систем основополагающую роль играет
свойство интероперабельности ИС. Под интероперабельностью понимается способность
информационной системы взаимодействовать с другими ИС. Такое взаимодействие может
выражаться в виде обмена данными, распределенного выполнения поисковых запросов,
согласованного изменения баз данных (БД) и т.д. Необходимость обеспечения
интероперабельности
возникает
при
связывании
бизнес-процессов
предприятий-
партнеров, согласовании работы существующей ИС с принятыми стандартными
решениями.
Также свойство интероперабельности используется при интеграции нескольких
ИС, включении в создаваемую систему БД ранее использованных хранилищ данных,
разработке комплексных автоматизированных систем управления, построении сетей
информационных хранилищ, а также во многих других случаях. Проблема обеспечения
интероперабельности ИС имеет фундаментальный характер. Она актуальна как для
унаследованных систем, которые требуется связать с вновь создаваемыми (либо, как
минимум, получить возможность использования их БД), так и для проектируемых
хранилищ данных, в которых необходимо предусмотреть возможности реализации
взаимодействия с другими ИС в перспективе, при изменении требований к ним [1].
Выделяется два аспекта интероперабельности: структурный и семантический.
Структурный аспект интероперабельности систем означает способность к структурному
согласованию
сущностей
систем.
Семантический
аспект
означает
возможность
установления соответствия между смыслами единиц информационных систем.
Существующие методы достижения интероперабельности, главным образом,
касаются ее синтаксических (структурных) аспектов, т.е. направлены на согласование и
преобразование структур данных за счет стандартизации их форматов и использования
расширяемых метаязыков. Универсальные подходы к обеспечению интероперабельности
ИС на семантическом уровне в настоящее время отсутствуют. Решения соответствующих
задач являются частными, относящимися к конкретным хранилищам данных, и
предусматривают ручное построение отображений между их сущностями, реализуемое в
средствах преобразования данных.
В данном исследовании предлагается общее решение задачи интероперабельности,
путём описания метаданных ИС в рамках разработанной методологии, и осуществления
отображения сущностей и связей информационных систем друг в друга в терминах
общего информационного поля, задаваемого онтологией предметной области.
Поскольку знания, хранящиеся в информационных системах, в достаточной мере
структурированы, представляется возможным автоматизированное построение моделей и
метамоделей этих знаний.
Концептуальные модели информационных систем создаются в соответствии со
стандартами схем XML и RDF. Технология XML используется для формализации
структуры и отношений в ИС. А RDF – для выделения и формализации семантических
единиц в конкретных предметных областях использования данных ИС. Построенные
таким образом концептуальные модели информационных систем могут использоваться
для создания общей метамодели, объединяющей в себе представления сущностей двух и
более хранилищ данных. Также определяются правила преобразования сущностей и их
связей одной ИС в интерпретации сущностей и их связей другой ИС.
Наиболее важной заслугой технологии XML видится то, что программы различных
производителей получили возможность взаимодействовать на одном языке. Взамен
многочисленных
разрозненных
способов
представления
данных
появился
один
универсальный синтаксис, который лег в основу передачи информации между
программами, работающими в различных точках Интернета. Важным качеством
указанного стандарта является его открытость и независимость от конкретных сфер
применения и разделов знания. Его задача состоит в том, чтобы предоставить
возможность пользователям и программам общаться между собой и друг с другом, не
ограничиваясь какой-то конкретной предметной областью [2]. В свою очередь указанный
универсализм
привел
дополнительных
к
созданию
технологий,
а
стандартных
также
к
средств
появлению
поддержки
стандартных
XML
и
программных
интерфейсов для взаимодействия с ними. Использование технологии XML позволяет
наглядно представить систему связей, иерархию концептов предметной области, в
которой функционируют интегрируемые информационные системы.
Однако при всех своих достоинствах XML не в состоянии стать подходящим
средством выражения семантики размеченных данных. Позволяя закодировать любую
информацию
и
давая
разработчику возможность
без
особого
труда
получить
синтаксический анализатор и средства манипулирования данными, XML удовлетворяет
потребностям программистов иметь универсальное средство разметки, обладающее
синтаксической интероперабельностью (способностью быть средством взаимодействия
между различными программами). Но при этом он не в состоянии адекватно справиться с
задачей семантической интероперабельности.
На пути к осуществлению поставленной задачи обеспечения семантической
интероперабельности можно выделить несколько трудностей. С одной стороны
программы должны понимать язык соответствующей предметной области, с другой –
должны уметь сопоставлять связанные термины различных предметных областей. Это
требование является существенным, поскольку в противном случае программы смогли бы
работать
лишь
с
отдельными
сферами
знаний,
описанными,
например,
специализированными XML-языками. Целью же семантической интероперабельности
является создание непрерывного информационного поля.
Здесь можно привести следующий пример. Предположим, что в одной
информационной системе размещены данные о какой-либо компании и её сотрудниках, в
другой системе – информация о людях, в третьей – об адресах. Очевидно, что компании,
люди и адреса принадлежат к отдельным, относительно независимым областям знаний. С
другой стороны в непрерывном информационном поле программа должна без особого
труда суметь сопоставить сотрудников и людей, адреса этих людей и предметную область
адресов как таковых.
Итак,
если
синтаксическая
интероперабельность
неразрывно
связана
с
синтаксическим анализом данных, то семантическая требует анализа самой информации,
её внутренней связности, установления соответствия терминов и словарей одной
предметной области элементам другой.
XML не может стать средством, обеспечивающим связь различных данных по ряду
причин. Основное его ограничение состоит в том, что XML лишь описывает грамматику.
Выделить семантическую единицу в конкретной предметной области нельзя, поскольку
этот язык ориентирован на структуру документа и не предполагает общей интерпретации
данных, содержащихся в нем. XML оказывается слишком гибким средством описания
данных и позволяет одну и ту же информацию разметить различными способами.
Подводя
итог
интероперабельных
автоматически
сказанному,
информационных
анализировать
следует
отметить,
систем,
в
содержание ресурсов,
что
которых
для
семантически
программы
смогут
необходимо новое средство
выражения семантики данных, а не только их записи.
Указанные проблемы могут быть решены, если для определения метаданных и
правил преобразования данных при переходе от одной интегрируемой ИС к другой ИС
использовать XML вместе с другой моделью данных, например, моделью семантической
сети. Формально семантическую сеть можно определить при помощи модели RDF.
Технология описания ресурсов – Resource Description Framework (RDF) была разработана
для решения задач, связанных с описанием семантики. Основополагающим для RDF
является понятие модели данных. Это есть набор фактов и семантических связей между
ними. Базовый строительный блок модели данных – утверждение, представляющее собой
тройку: ресурс, именованное свойство и его значение. В терминологии RDF эти три части
утверждения называются соответственно: субъект, предикат и объект. Ресурсом является
все, что описывается средствами RDF, например, отдельная таблица или какая-то ее часть.
Под свойством следует понимать некий аспект, характеристику, атрибут или
отношение, используемое для описания ресурса. Каждое свойство имеет свой
специфический смысл, допустимые значения, тип ресурсов, к которым оно может быть
применено, а также отношения с другими свойствами. Разработанные производителями
нотации RDF основаны на XML.
Для более точного понимания связи RDF с XML и другими языками сериализации
можно привести следующую аналогию. Знание, присутствующее в голове человека, ни
коим образом не зависит от способа его передачи другим людям. Например, его можно
было бы выразить при помощи английского языка, а можно и по-русски. В этой
абстракции RDF-модель данных эквивалентна знанию, а XML – английскому языку,
который, хотя и является всего лишь одним из возможных способов представления, но
имеет статус международного средства общения. Две существующие XML-нотации в
этом случае можно сравнить с различными диалектами одного языка.
В модели RDF имена концептов выбираются из определённого словаря концептов
и определённого пространства имён, поэтому их представление более унифицировано, в
отличие от XML разметки. Так же в предлагаемой модели одному концепту предметной
области соответствует множество понятий-синонимов предметной области. Это помогает
избежать различия представления их связей без потери полноты представления.
Таким образом, совместное использование с технологией XML модели RDF
позволит отразить семантику концептуальных моделей информационных систем, а также
избежать изложенных ограничений XML.
Механизмом для создания непрерывного информационного поля является
онтология. Онтология включает в себя совокупность терминов и правила, согласно
которым эти термины могут быть скомбинированы для построения достоверных
утверждений о состоянии рассматриваемой системы в некоторый момент времени. Кроме
того, на основе этих утверждений, могут быть сделаны соответствующие выводы,
позволяющие вносить изменения в систему, для повышения эффективности её
функционирования [3].
В любой системе существует две основные категории предметов восприятия, такие
как сами объекты, составляющие систему (физические и интеллектуальные) и
взаимосвязи между этими объектами, характеризующие состояние системы. В терминах
онтологии, понятие взаимосвязи однозначно описывает зависимости между объектами
системы в реальном мире, а термины, соответственно, описывают сами реальные объекты.
Онтологическая модель представляет наиболее важные утверждения в предметной
области. Дополнительно, эта модель помогает описывать поведение объектов и
соответствующее изменение взаимосвязей между ними; то есть поведение системы. Таким
образом, онтология представляет собой словарь данных, включающий в себя и
терминологию, и модель поведения системы. Поскольку каждая концептуальная модель
предметной
области
является
подмножеством
онтологии,
задача
интеграции
информационных систем сводится к задаче объединения метамоделей информационных
систем, то есть построения отображений между этими метамоделями, в терминах
онтологии.
В данной задаче онтология служит для построения соответствий между
концептами информационных систем. Онтология также помогает установить связи между
семантическими единицами внутри каждой концептуальной модели предметной области
интегрируемых ИС при определении метаданных. Описание онтологии, как и метаданных
ИС, осуществляется на основе технологии XML и модели RDF. Разработка онтологии
проводилась в соответствии со стандартом IDEF5. После определения метаданных
информационных систем и построения общей метамодели хранилищ данных становится
возможным интерпретировать информацию из одной ИС средствами другой ИС.
Таким
образом,
обеспечивается
интероперабельность,
а,
следовательно,
необходимый уровень интеграции информационных систем.
Разработанный алгоритм интеграции информационных систем
состоит из
следующих основных шагов:
1. Анализ сущностей баз данных, их атрибутов и отношений между ними. На
данном этапе приложением осуществляется построение схем данных.
2. Анализ семантических значений сущностей и атрибутов. На данном этапе
строятся концептуальные модели информационных систем. Для получения и анализа
семантических значений используется онтология предметной области.
3. Уточнение семантических соответствий. С помощью онтологии определяются
недостающие связи между концептами.
4. Построение единой метамодели. Данная метамодель строится как объединение
двух концептуальных моделей информационных систем. На данном этапе онтология
используется для разрешения возможных противоречий.
5. Вывод результирующих отображений между сущностями и атрибутами
информационных систем.
На данной схеме (рис. 1) рассматривается интеграция ИС-А и ИС-В. Задачей
интеграции является обеспечение взаимодействия между ИС. Для этого необходимо
определить соответствия сущностей ИС-А сущностям ИС-В и правила их преобразования.
С этой целью вначале из информационных систем извлекаются их схемы данных. При
помощи анализа схем данных в отдельности, возможно установление лишь структурной
интероперабельности, то есть правил преобразования типов полей и сущностей
информационных
систем
друг
интероперабельности, требуется
в
друга.
понимание
Для
обеспечения
назначения элементов
семантической
ИС.
Поэтому
необходимо использовать вторую составляющую часть метаданных – концептуальную
модель предметной области (ПО). Она является надстройкой над схемой данных и задаёт
систему связей между концептами предметной области, установленную в данной ИС.
Построение данной модели осуществляется при помощи онтологии предметной области.
Онтология содержит словарь концептов ПО и хранит общую сеть связей между этими
концептами. То есть каждая концептуальная модель является подмножеством онтологии
ПО. Использование онтологии позволяет определять концептуальные модели в одних
терминах и анализировать связи между их концептами.
Рис. 1. Схема алгоритма интеграции двух информационных систем.
Далее на базе концептуальных моделей ИС-А и ИС-В осуществляется построение
метамодели предметной области интегрируемых ИС. Данная метамодель объединяет и
согласует в себе обе концептуальные модели. На этапе её построения также используется
онтология. Метамодель определяет соответствия сущностей ИС-А сущностям ИС-В и
правила их преобразования, что позволяет установить взаимодействие между указанными
информационными системами.
Разработанные концепции были практически применены при решении задачи
интеграции базы данных системы измерений параметров нефте-водо-газовой смеси
“Ультрафлоу” (VarPro) и информационной системы нефтяного месторождения АДКУ
2000 ООО “Лукоил-Пермь”. Для определения расходов и дебитов нефти на каждом
месторождении устанавливается измерительный комплекс, в состав которого входит ИС.
В данную ИС по радиоканалам собирается информация о текущих параметрах нефтяных
скважин
со
всех
кустов
месторождения.
После
обработки
эта
информация
предоставляется операторам. Хранилища данных такого типа, как правило, достаточно
велики и содержат порядка 200 базовых сущностей, с этим связана большая трудоёмкость
их анализа и обработки. Интеграция базы данных нового измерительного прибора в
данную систему произведённая вручную вызвала бы необходимость ручного определения
отображений сущностей ИС; то есть установления подмножества сущностей АДКУ 2000,
которому соответствуют сущности ИС VarPro. Самым сложным этапом является
определение отображения связей сущностей АДКУ 2000 на связи сущностей ИС VarPro.
Более того, установка прибора на другом месторождении, с другой штатной ИС, вызвала
бы повторное ручное построение таких отображений, без использования накопленного
опыта. Ручное построение данных отображений осуществляется без применения строгого
стандартного
алгоритма
в
силу
субъективности
точек
зрения
операторов
на
функционирование ИС.
Перечисленными выше факторами была обусловлена необходимость создания в
составе информационного комплекса VarPro программного средства, осуществляющего
построение отображения системы связанных сущностей ИС VarPro в систему связанных
сущностей другой ИС.
Таким образом, данное программное средство обеспечивает интерпретацию ИС
VarPro другими ИС, а значит интероперабельность ИС VarPro. Интеграция указанных
информационных систем была проведена с использованием изложенных концепций. Для
этой цели была создана программа Var Pro Integrator, которая вначале позволяет
пользователю определить метаданные для хранилищ данных с использованием онтологии
предметной области, а затем на их основе устанавливает структурные и семантические
отображения информационных систем.
В результате данного исследования была разработана методология обеспечения
интероперабельности информационных систем. После выполнения данной процедуры ИС
включается в единое информационное поле, задаваемое онтологией, и получает
возможность взаимодействовать с другими ИС из данной предметной области.
Разработанная
интеграцию
методология
информационных
позволяет
систем.
значительно
Также
эволюционирование ИС в ходе развития предприятий.
ЛИТЕРАТУРА
она
ускорить
и
упростить
обеспечивает
успешное
1. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии:
Учеб. Пособие. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. – 304 с.
2. Когаловский М.Р. “Перспективные технологии информационных систем”, Москва ИТЭкономика, 2003. 288 с.
3. W3C
Recommendation
http://www.w3.org/
10
February
2004,
RDF/XML
Syntax
Specification,
Download