Требования к хранилищам данных

advertisement
ТЕМА 5.
Стадия проектирования
и реализации ИС.
Лекция 21.
Способы организации
информационной базы.
1
Информационная база
Информационная
база (ИБ) — это
Комплекс
обеспечивающих
совокупность
подсистем
данных,
организованная
определенным
способом и хранимая
в памяти
вычислительной
системы в виде
Комплекс
функциональных
файлов, с помощью
подсистем
которых
удовлетворяются
информационные
потребности
аппарата управления
и функциональных
подсистем ИС.
Внешняя среда
Автоматизированная информационная
технология
Формирование
результирующей
информации
Накопле
ние и
хранение
данных
Обработка
данных
Передача
данных
Аппарат
управления
Подготовка
информационных
массивов
Сбор и
регистрация
данных
Объект
управления
2
Классификация файлов ИБ






По смысловому содержанию
По этапам обработки
По роли в машинной обработке и
технологии использования
По назначению (по типу функциональных
подсистем)
По типу носителя
По типу логической организации
(линейная, иерархическая, реляционная
структура записи)
3
Массивы
данных
По этапу обработки
Входные
Внутренние
(базовые)
Постоянные
Выходные
(результатные)
По технологии использования
Переменные
(оперативные)
Основные
Вспомогательные
(рабочие)
Промежуточные
Архивные
Служебные
4
Виды массивов по этапам обработки
Вид массивов
Назначение и содержание
Входные
Содержат исходные и текущие данные, запросы
на решение задач и выполнение процессов.
Предназначены для ввода данных или
обновления базовых файлов.
Выходные
Содержат совокупность показателей,
(результатные) необходимых для формирования отчетности и
принятия решений в последующий период.
Внутренние
(базовые)
Содержат справочную, нормативную,
служебную информацию.
Предназначены для переработки информации
из входных массивов и формирования
выходных массивов.
5
Виды массивов по технологии
использования
Вид
массивов
Назначение и характеристики.
Постоянные
Формируются до начала функционирования ИС.
Содержат директивные, нормативные, справочные и другие, редко
меняющиеся, данные.
Переменные
Формируются из первичных документов. Содержат текущую
(оперативные) информацию о состоянии объекта управления.
Вспомогатель
ные (рабочие)
Являются результатом логических преобразований постоянных
массивов. Создаются для решения конкретных задач с целью
сокращения времени обработки информации.
Промежуточн
ые
Содержат информацию, возникающую на стыке различных задач. Не
имеют самостоятельного значения для целей управления объектом.
Архивные
Формируются на основе выходных массивов. Предназначены для
хранения информации, необходимой для обработки в будущих
отчетных периодах, для решения аналитических, прогнозных задач.
Служебные
Содержат информацию, необходимую для обработки всех выше
упомянутых массивов. Предназначены для ускорения поиска
информации в основных файлах.
6
Требования к внутримашинному ИО







Полнота, целостность, согласованность и
непротиворечивость хранимой
информации.
Минимизация времени выборки данных
при решении задач управления.
Независимость структуры массивов от
программных средств их организации.
Динамичность структуры ИБ.
Релевантность ИБ.
Удобство языкового интерфейса.
Разграничение прав доступа пользователей.
7
Способы организации
информационной базы
Информационная база
Совокупность
локальных файлов
Поддерживается
функциональными
пакетами прикладных
программ
Интегрированная
база данных
Основывается на
использовании универсальных
программных средств
загрузки, хранения, поиска и
ведения данных (СУБД).
8
Особенности пофайловой
организации ИО



Специализация структуры данных под
решаемые задачи
высокая скорость
обработки данных.
Не предусматривается установления связи
между файлами, исключается работа в
диалоге.
Применяется при решении
узкоспециализированных задач с
небольшим объемом данных, хранящихся в
обособленных файлах.
9
Стандартные операции с файлами
Файл представляет собой линейную
последовательность записей, над которой можно
выполнить следующие стандартные операции:
 создать файл (требуемого типа и размера);
 открыть ранее созданный файл;
 прочитать из файла некоторую запись (текущую,
следующую, предыдущую);
 записать в файл на место текущей записи новую
запись;
 добавить новую запись в конец файла.
10
Недостатки пофайловой организации
внутримашинного ИО
Зависимость программ от данных (структура записи
файла известна только программе, которая с ним
работает)
Сложность авторизации (принят
децентрализованный принцип управления
доступом, когда администрирование режимом
доступа к каждому файлу осуществляется его
владельцем)
Сложность реализации многопользовательского
доступа (эффективный многопользовательский
доступ возможен только в режиме чтения файлов)
11
Организация ИО в виде БД


База данных – это интегрированная совокупность
файлов, обеспечивающая хранение информационных
ресурсов, удобное взаимодействие между ними и
быстрый доступ к данным.
Преимущества:





обеспечение совместимости данных;
уменьшение синтаксической и семантической
избыточности;
соответствие данных реальному состоянию объекта
управления;
обеспечение многопользовательского доступа к данным.
Проблемы:



необходимость усиления контроля ввода данных;
необходимость разграничения прав доступа пользователей;
необходимость обеспечения защиты данных.
12
Виды БД
1. По используемой модели данных:




Иерархические;
Сетевые;
Реляционные;
Объектно-ориентированные.
2. По организации хранения данных и
технологии их обработки:


Централизованные;
Распределенные.
13
Критерий выбора способа
организации ИБ
Достижение минимальных трудовых и
стоимостных затрат на:
 проектирование структуры ИБ,
 проектирование программного обеспечения
системы ведения файлов,
 перепроектирование ИБ при возникновении
новых задач.
14
Требования к организации БД








логическая и физическая независимость данных;
контролируемая избыточность данных;
стандартизация данных за счет использования
классификаторов;
наличие словаря данных;
специализация интерфейса для администратора БД
и пользователей системы;
контроль целостности данных;
защита данных от несанкционированного доступа;
наличие вспомогательных программных средств
(утилит) проектирования и эксплуатации БД.
15
Виды БД по технологии хранения и
обработки данных
Централизованные БД
Распределенные БД
Расположение: один компьютер
Назначение: организация более
простого и дешевого способа
информационного обслуживания
пользователей;
Объемы данных: небольшие
Задачи: несложные
Надежность: более высокая за
счет организационной
независимости
Расположение: несколько
компьютеров, объединенных в
единую вычислительную систему с
помощью вычислительных сетей;
Назначение: предоставление более
гибких форм обслуживания
множеству удаленных пользователей
Объемы данных: значительные
Задачи: сложные
Надежность обеспечивается за
счет средств резервирования.
16
Принципы организации
централизованной БД







обеспечение логической организации данных с помощью
построения глобальной модели данных;
представление информационных потребностей для
каждой задачи в виде подмоделей данных;
выделение специального языка описания данных для
получения схем и подсхем;
описание процедур обработки данных с использованием
языка манипулирования данными;
разделение доступа к полям данных;
защита данных через пароль;
обеспечение доступности данных одновременно для
нескольких пользователей.
17
Принципы организации
распределенной БД








учет территориального расположения подразделений ЭИС;
обеспечение независимости данных от их территориального
расположения;
оптимальное размещение БД между клиентами и серверами;
сокращение стоимости информационного обслуживания
клиентов;
обеспечение решения сложных межведомственных задач;
надежность хранения обработки данных;
использование СУБД, ориентированных на работу в сети;
возможность параллельного обращения к данным из
различных узлов обработки данных.
18
Условия централизации и
децентрализации данных

Данные централизуются, если:





данные непрерывно обновляются, а территориально
разобщенные пользователи должны получать всякий раз
последнее состояние данных;
поиск производится во всей совокупности данных;
над данными осуществляются операции со вторичными
ключами.
Данные могут быть децентрализованными, если они
используются локально в точке их происхождения.
При низкой скорости обновления допустимо
хранение нескольких копий данных.
19
Схемы
распределения
данных
Распределенные
данные
Централизованные
данные
Централизованная
обработка
Распределенная
обработка
Централизованная
обработка
Распределенная
обработка
Классификация систем
по способам
распределения и
обработки данных
Иерархические
данные
Неиерархические
данные
Иерархия
зависимых
данных
Разделенные
данные
Иерархия
независимых
данных
Расщепленные
данные
Распределенная
обработка
Реплицированные
20
данные
Централизованные данные
Централизованные данные,
централизованная обработка
Централизованные данные,
распределенная обработка
Computer
Computer
Server
Server
Server
Computer
Computer
Computer
Computer
21
Иерархические данные
Зависимые данные
Независимые данные
Основные сведения
о клиентах
Эталонная
копия данных
АСУП
Server
Server
Computer
Server
Server
Server
Server
Computer
Computer
Computer
Детальная информация о клиентах
Подсистема
приема заказов
Server
Подсистема
управления складом
Server
Computer
Подсистема контроля за
выпуском продукции
22
Расщепленные данные
Данные
района А
Данные
района В
Сеть
Server
Server
Данные
района Б
Server
Структура данных и программы их обработки в
подсистемах одни и те же. Содержание различно.
23
Разделенные данные
Бухгалтерия
Снабжение
Сеть
Server
Server
Производство
Server
Структура данных, их содержание и программы
обработки в подсистемах различны.
24
Реплицированные данные
XYZ
XYZ
Сеть
Server
Server
XYZ
Server
Копии одних и тех же данных. Структура
данных и программы обработки идентичны.
25
Комбинированные
формы распределения
данных
АСУП
Разделенные
данные
Бухгалтерия Склад
Производство
Расщепленные
данные
Отдел 1
Отдел 2
Иерархия независимых данных
Централизованные
данные
Отдел 3
Иерархия
зависимых данных
Системы сбора данных
26
Концепция информационных
хранилищ
Информация

Знания
Информационное
хранилище позволяет
обеспечить:


хранение разнородных
данных из различных
источников в течение
больших периодов
времени;
быстрый доступ к данным
и поиск релевантной
запросу информации.
Данные
27
Причины появления
информационных хранилищ




Осознание руководством предприятий того, что в
данных содержатся скрытые закономерности
(знания), характеризующие процесс управления в
целом, способные повысить его эффективность;
снижение стоимости средств хранения информации,
дающее возможность хранить данные, накопленные
за длительные интервалы времени;
снижение стоимости элементной базы сложных
архитектур;
переход от массового обслуживания к
индивидуальному (учет разнообразных требований
заказчика).
28
Проблемы интеграции данных
1. Источники могут использовать различные
модели данных и предоставлять различные
интерфейсы для доступа к своим данным.
2. Данные источника могут быть
неструктурированными.
3. Источники могут быть автономными.
29
Решение задачи интеграции данных
Информационные хранилища
Хранилища
данных
данные из различных
источников поступают в
хранилище, все запросы
к системе интеграции
обрабатываются с
использованием этих
данных.
Виртуальные
хранилища
данные хранятся в источниках, а
запросы к системе интеграции
транслируются в запросы или
операции, понятные источнику.
Данные, полученные в ответ на
эти запросы к источникам,
объединяются и
предоставляются пользователю.
30




Хранилище данных — это «предметно-ориентированная,
интегрированная, содержащая исторические данные,
неразрушаемая совокупность данных, предназначенная для
поддержки принятия управленческих решений» (Уильям
Инмон, 1992).
Хранилище данных (Content Repository) – программная
подсистема ИС, сочетающая в себе функции системы
управления версиями, поисковой машины и СУБД.
Хранилище данных (Data Warehouse) – очень большая
предметно-ориентированная корпоративная база данных,
специально разработанная и предназначенная для подготовки
отчетов, анализа бизнес-процессов с целью поддержки
принятия решений в организации.
Хранилище данных – это автоматизированная
информационно-технологическая система организации,
которая собирает данные из существующих баз и внешних
источников, формирует, хранит и эксплуатирует информацию
в виде наборов данных.
31
Структура хранилища данных
32
Концепция хранилищ данных
1. Интеграция ранее разъединенных
детализированных данных в едином хранилище.
2. Тематическое и временное структурирование,
согласование и предварительная обработка.
3. Разделение хранящихся данных по их
назначению – для операционной обработки и для
использования в задачах анализа.
Цель использования ХД – подготовка данных к
последующему анализу.
OLTP (On-line Transaction Processing) – задачи
оперативной обработки данных;
OLAP (On-line Analytical Processing) – задачи
аналитической обработки данных
33
Свойства данных




Предметная ориентированность
Интегрированность
Неизменяемость и целостность
Хронологическая структурированность
34
Категории данных
Данные Хранилища
Предназначение
Метаданные
описывают способы извлечения
информации из различных
источников, методы их
преобразования из различных
структур и форматов и доставки
в хранилище
Репозиторий
Фактические данные
отражают состояние
предметной области
в конкретные
моменты времени
Транзакционные
системы
Суммарные данные
получены в
результате расчетов,
используются для
принятия
управленческих
решений
Аналитические
системы
Местонахождение
35
Операции над данными
1. Сбор данных (пополнение хранилища данных)





очистка – устранение ненужной информации;
агрегирование – вычисление сумм, средних;
трансформация – преобразование типов данных,
реорганизация структур хранения;
объединение из внешних и внутренних источников –
приведение к единым форматам;
синхронизация – соответствие одному моменту
времени.
2. Поддержка целостности и
непротиворечивости данных


использование репозитория (словаря-справочника)
проверка данных на соответствие их структуре и
назначению
3. Организация доступа к данным
36
Требования к хранилищам данных
Высокая скорость загрузки данных.
1.

Обеспечение полнофункциональной технологии загрузки
2.







преобразование данных
фильтрация данных
переформатирование данных
проверка целостности данных
организация физического хранения данных
индексирование данных
обновление метаданных
Высокое качество хранилища данных
3.

4.
производительность процесса загрузки не должна накладывать
ограничения на размер хранилища
Мера качества хранилища – объективность исходных данных и
степень разнообразия возможных запросов
Поддержка различных видов данных
37
Требования к хранилищам данных
5. Высокая скорость обработки запросов

зависит от сложности запроса, а не от объема хранилища
6. Масштабируемость.



поддержка СУБД параллельной обработки запросов
сохранение работоспособности в случае локальных
аварий
обслуживание любого числа пользователей без потери
производительности
7. Широкие возможности администрирования




контроль за приближением к ресурсным ограничениям
анализ затрат ресурсов
установка приоритетов для различных категорий
пользователей и операций
осуществление настройки системы на максимальную
производительность.
38
Транзакционные и аналитические
системы
Транзакционные системы ориентированы на
операционную, или транзакционную
обработку данных (автоматизированные
информационные системы, осуществляющие
учет и хранение оперативной информации по
бизнес-процессам предприятия);
Аналитические системы ориентированы на
анализ данных (системы поддержки
принятия решений DSS - Decision Support
System).
39
Признак
Транзакционная
система
Аналитическая система
Цель
Учет, хранение и
оперативная
обработка непрерывно
поступающих данных.
Получение и хранение обобщенных
данных об объекте управления,
предоставление информации для
принятия решений.
Вид данных
Детализированные
данные
Обобщенные данные
Частота
обновления
данных
Непрерывно,
небольшими
порциями
Редко
Представление
результатов
работы
Составление
Получение большого числа
определенного набора разнообразных отчетов в удобном
отчетных форм
для понимания виде
40
Характер использования системы
Транзакционная Аналитическая система
система
Автоматизация
бизнес-процессов
на уровне цехов,
отделов, бюро.
Получение
на основе хранящихся данных
показателей, определяющих закономерности
развития предприятия и эффективность его
работы.
Предоставление средств и инструментов для
обработки показателей с использованием
различных методик анализа.
Взаимодействие с различными программными
пакетами, осуществляющими
специализированную обработку данных
(статистическими методами, с помощью
нейронных сетей или нечеткой логики).
41
OLTP – Online Transaction
Processing
OLAP – Online Analytical
Processing
ETL – Extract, Transformation
and Load (система
извлечения, преобразования
и загрузки данных )
Взаимное сочетание транзакционной, аналитической систем
и хранилища данных зависит от специфики деятельности
организации, количества и характера информации.
42
Варианты использования ХД
Вариант 1
Независимые источники данных
ТС 1
ТС 2
ТС 3
ХД
АС
АС – аналитическая система
ТС – транзакционная система
ХД – хранилище данных
43
Варианты использования ХД
Вариант 1
Вариант 2
Независимые источники данных
ТС 1
ТС 2
Источник
данных
ТС 3
ТС
ХД
ХД
АС
АС
АС – аналитическая система
ТС – транзакционная система
ХД – хранилище данных
44
Варианты использования ХД
Вариант 1
Вариант 2
Независимые источники данных
ТС 1
ТС 2
Вариант 3
Источник
данных
Источник
данных
ТС 3
ТС
ТС
ХД
ХД
АС
Архивные БД
ХД
АС
АС – аналитическая система
ТС – транзакционная система
ХД – хранилище данных
АС
45
Витрины данных
Витрина данных (Data Mart) – это
тематическая база данных, содержащая
информацию, относящуюся к отдельным
аспектам деятельности организации.
Витрина данных является частью
хранилища данных, специфицированной
для использования конкретным
подразделением или определенной группой
пользователей.
46
Независимые витрины данных
47
Преимущества витрин
данных
Недостатки витрин
данных
1. Простота и невысокая
стоимость
реализации
2. Экономия
технических ресурсов
3. Более высокий
уровень безопасности
данных
4. Высокая
производительность
1. Дублирование данных
2. Необходимость
синхронизации
данных
3. Трудности расширения
и объединения витрин
4. Ограниченность
использования
48
Многоуровневое решение ХД
Аналитический инструментарий
III уровень
АРМ
АРМ
АРМ
Многомерная СУБД
Агрегированные
данные
Агрегированные
данные
Агрегированные
данные
БД
БД
БД
II уровень
Подразделение
I уровень
Детализированные
данные
Подразделение
Подразделение
Общекорпоративная БД
Реляционная
СУБД
ПРЕДПРИЯТИЕ
49
Концептуальная модель информационного
хранилища
Корпоративная информационная система управления предприятием
Системы интеллектуального
анализа данных, экспертные
системы
Детализированные
данные о
деятельности
предприятия
Многомерные БД
Генераторы
запросов, ИПС,
системы
построения
отчетов
Реляционные БД
Витрины данных
Информационное хранилище
данных предприятия
Агрегированные
показатели
экономического
состояния предприятия
Системы
аналитической
обработки
корпоративных
данных
Средства загрузки данных из внутренних и внешних источников в информационное хранилище
Органы
государственной
власти и
управления
Внутренние источники данных
Взаимодействующие
организации
Вышестоящие
органы
управления
Внешние источники данных
50
Шесть уровней архитектуры
хранилища данных
ETL –
Extract
Transformation
Load
SRD Sample
Restructure
Deliver
51
Рекомендуемая структура
корпоративного хранилища данных
52
Виртуальные хранилища
При использовании виртуальных хранилищ данные хранятся в
удаленных источниках. Запрос к источнику транслируется через
систему интеграции.
53
Виртуальные хранилища
Достоинства
Недостатки
Всегда
Сложность
обновленные
(«свежие») данные
Простота и малая
стоимость реализации
Единая платформа с
источником
информации
Отсутствие сетевых
соединений между
источником
информации и
хранилищем данных.
оптимизации запросов
Дополнительные расходы на
конвертацию данных во время
выполнения запроса
Более низкая производительность
Сложность интеграции данных с
другими источниками
Отсутствие истории чистоты
данных
Зависимость от доступности и
структуры основной базы данных.
54
Логический уровень виртуального
хранилища




Логический уровень определяется выбором
модели данных и языка запросов для этой модели.
Модель используется для представления данных,
извлекаемых из всех источников.
Модель данных должна обеспечить прозрачность
доступа к внешним источникам.
Пользователь получает возможность
унифицированного доступа ко всем
интегрируемым данным, т.е. видит внешние
данные как локальные в выбранной модели и не
заботится об управлении доступом к источнику.
55
Физический уровень виртуального
хранилища
Запрос
Запрос
Ответ
Система
интеграции
Запрос
Ответ
Посредник
(mediator)
Ответ
Посредник
(mediator)
Обертка
(wrapper)
Обертка
(wrapper)
Источник
данных
Источник
данных
Обертка (wrapper) используется для хранения информации о
внешнем источнике и организации к нему доступа.
Посредник (mediator) осуществляет интеграцию данных из
различных источников
56
Облачное хранилище данных
(cloud storage)

Модель онлайн-хранилища, в котором
данные хранятся на многочисленных
распределённых в сети серверах,
предоставляемых в пользование клиентам,
в основном, третьей стороной.
57
Достоинства
Недостатки
Клиент
Безопасность
платит только за то
место в хранилище, которое
фактически использует, но не за
аренду сервера, все ресурсы
которого он может и не
использовать.
Отсутствие затрат на
приобретение, поддержку и
обслуживание собственной
инфраструктуры по хранению
данных.
Все процедуры по
резервированию и сохранению
целостности данных
производятся провайдером
облачного центра.
при хранении
и пересылке данных
Возможное снижение
производительности по
сравнению с работой в
условиях собственного
хранилища
Надежность и
своевременность получения и
доступности данных в облаке
очень сильно зависит от
многих промежуточных
параметров.
58
Download