МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ INTERNATIONAL BANKING INSTITUTE

advertisement
МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ
INTERNATIONAL BANKING INSTITUTE
"ERwin настолько прост, что нового специалиста можно обучить ему за день-другой, и
настолько многофункционален, что соответствует нашим самым взыскательным потребностям".
Л. Хенден, Pricewaterhouse Coopers
ERwin на службе у банков
Источник: http://www.interface.ru/rtcs/cs023-12.htm
Проектирование хранилищ данных
В Древней Греции тогдашние банкиры давали отчет на площади в присутствии всех граждан,
а затем цифры выбивались на камне. Представьте себе, сколько камней потребовалось бы для
ведения записей современным банкам! Сегодня для хранения и обработки информации в
банковском бизнесе применяются передовые достижения в области IT-технологий - хранилища
данных, OLAP, B2B. В этой статье мы рассмотрим процесс создания и использования хранилищ
данных с помощью средства ERwin компании Computer Associates.
Что такое Data Warehouse?
Хранилище данных (Data Warehouse) - это отдельная база данных, в которой аккумулируется
вся самая разнообразная информация, необходимая менеджерам банка для подготовки
управленческих решений: о клиентах банка, операционных днях филиалов, кредитах,
процентных ставках, курсах валют и т. д. При этом хранилище оснащено инструментами для
быстрой и несложной настройки на новые виды данных, то есть оно может непрерывно
развиваться.
В целях экономии времени руководителей любая запрошенная информация предоставляется
очень быстро. Для этого в хранилище содержатся заранее вычисленные показатели, например
обороты балансовых счетов за день, квартал, год.
Огромные объемы данных хранилища легко использовать за счет того, что в хранилище
изначально встроены удобные инструменты поиска информации, средства оперативного
анализа (OLAP) и генераторы отчетов. Хранилище снабжено мощной системой загрузки данных
из разных источников, при этом в процессе загрузки происходит автоматическое согласование и
очистка данных от ошибок.
Из опыта создания хранилищ данных
К необходимости создания хранилищ данных российские банки пришли уже давно. Как
правило, хранилища данных оперируют с огромными объемами информации, что предъявляет к
их проектированию и реализации повышенные требования. Выбор в качестве платформы
хранилища данных такой высокопроизводительной РСУБД позволяет существенно повысить
общую эффективность создаваемой информационной системы. Для этих целей используются
мощные инструменты графического проектирования информационных систем - так называемые
CASEсредства (CASE расшифровывается как Computer Aided System Engineering), например
ERwin компании Computer Associates.
В создании хранилищ данных ERwin становится незаменимым инструментом, поскольку, с
одной стороны, эффективно поддерживает на физическом уровне проектирование объектов
РСУБД, с другой стороны, имеет специализированные средства моделирования хранилищ
данных. Ниже рассматриваются основные возможности ERwin по проектированию хранилищ
данных.
К проектированию хранилищ данных обычно предъявляются следующие требования:


Структура данных хранилища должна быть понятна пользователям.
Должны быть выделены статистические данные, которые регулярно модифицируются:
ежедневно, еженедельно, ежеквартально.
 Требования к запросам должны быть упрощены с целью исключения запросов, которые
могли бы требовать множественных утверждений SQL в традиционных реляционных СУБД.
1
МЕЖДУНАРОДНЫЙ БАНКОВСКИЙ ИНСТИТУТ
INTERNATIONAL BANKING INSTITUTE
 Должна быть обеспечена поддержка сложных запросов SQL, которые требуют
последовательной обработки тысяч или миллионов записей.
Именно выполнение этих требований отличает структуру хранилищ данных от структуры
реляционных СУБД и хранилищ данных. Нормализация данных в реляционных СУБД приводит к
созданию множества связанных между собой таблиц. В результате выполнение сложных
запросов неизбежно влечет за собой объединение многих таблиц, что существенно увеличивает
время
отклика.
Проектирование
хранилища
данных
подразумевает
создание
денормализованной структуры данных (допускается избыточность данных и возможность
возникновения аномалий при манипулировании данными), ориентированной в первую очередь
на высокую производительность при выполнении аналитических запросов. Нормализация
делает модель хранилища слишком сложной, затрудняет ее понимание и ухудшает
эффективность выполнения запроса.
Как работает ERwin?
Размерная (Dimensional) модель
Для эффективного проектирования хранилищ данных ERwin использует размерную модель.
Размерная модель - это методология проектирования, специально предназначенная для
разработки хранилищ данных. Наиболее простой способ перейти к нотации размерной модели
при создании новой модели (меню File/New) в диалоге ERwin Teamplate Selection - выбрать из
списка предлагаемых шаблонов DIMENSION. В шаблоне DIMENSION сделаны все необходимые
для поддержки нотации размерного моделирования настройки, которые, впрочем, можно
установить вручную.
Моделирование Dimensional сходно с моделированием связей и сущностей для реляционной
модели, но отличается целями. Реляционная модель акцентируется на целостности и
эффективности ввода данных. Размерная модель ориентирована в первую очередь на
выполнение сложных запросов к БД.
Роль таблицы в схеме (Dimensional Modeling Role)
По умолчанию ERwin автомати чески определяет роль таблицы на основании созданных
связей. Таблица без связей определяется как таблица размерности, таблица факта не может
быть родительской в связи, таблица размерности может быть родительской по отношению к
таблице факта, консольная таблица может быть родительской по отношению к таблице
размерности.
Правила хранения данных (Data Warehouse Rules)
Для каждой таблицы можно задать шесть типов правил работы с данными: обновление
(Refresh), дополнение (Append), резервное копирование (Backup), восстановление (Recovery),
архивирование (Archiving) и очистка (Purge). Для задания правила следует выбрать имя
правила из соответствующего списка выбора. Каждое правило должно быть предварительно
описано в диалоге Data Warehouse Rule Editor. Для каждого правила должно быть задано имя,
тип, определение. Например, определение правила дополнения данных может включать частоту
и время дополнения (ежедневно, в конце рабочего дня), продолжительность операции и т. д.
Связать правила с определенной таблицей можно с помощью диалога Table Editor.
При проектировании хранилища данных важно определить источник данных (для каждой
колонки), метод, которым исходные данные извлекаются, преобразовываются и фильтруются,
прежде чем они импортируются в хранилище данных. Хранилище данных может объединять
информацию из текстовых файлов и многих баз данных, как реляционных (в том числе других
БД на платформе Informix), так и нереляционных, в единую систему поддержки принятия
решений. Чтобы поддерживать регулярные обновления и проверки качества данных,
необходимо знать источник для каждой колонки в хранилище данных. Для документирования
информации об источниках данных используется редактор Data Warehouse Source Editor.
Итог
Как мы видим, ERwin является действительно простым, а также надежным и гибким
средством проектирования хранилищ данных для банковской деятельности.
2
Download