3. Реализация предложенного подхода

advertisement
Титульник
ТЗ
2
Аннотация
3
Оглавление
Список сокращений, используемых в работе....................................................... 6
Введение ................................................................................................................... 7
1. Аналитический обзор .......................................................................................... 9
1.1 Оперативный анализ данных (OLAP) ......................................................... 9
1.1.1 Подходы к построению OLAP-систем ............................................... 14
1.1.2 Хранилища данных, используемые в OLAP-системах .................... 14
1.1.3 Многомерная модель данных в OLAP-анализе ................................ 18
1.1.4 Подходы к реализации многомерной модели данных ..................... 18
1.1.5 Классификация OLAP-систем по способу хранения данных .......... 18
1.2 Системы поддержки принятия решений .................................................. 18
1.2.1 Применение многомерного анализа данных в СППР ...................... 18
1.2.2 Особенности СППР, учитывающих риски предприятий ................. 18
1.2.3 Недостатки существующих подходов к построению подсистем
многомерного анализа данных в
СППР, учитывающих риски
предприятий ................................................................................................... 18
1.3 Выводы ......................................................................................................... 18
2. Описание предложенного подхода.................................................................. 19
2.1 Предлагаемый подход к построению подсистемы многомерного
анализа данных в СППР, учитывающих особенности изменяемых во
времени факторов .............................................................................................. 19
2.2 Архитектура подхода .................................................................................. 19
2.3 Достоинства подхода .................................................................................. 19
2.4 Выводы ......................................................................................................... 19
4
3. Реализация предложенного подхода ............................................................... 19
3.1 Выбор хранилища данных.......................................................................... 19
3.2 Выбор модуля преобразования и загрузки данных ................................. 19
3.3 Выбор OLAP-сервера .................................................................................. 19
3.3.1 Сравнительный анализ существующих OLAP-серверов ................. 19
3.4 Выбор OLAP-клиента ................................................................................. 19
3.4.1 Сравнительный анализ существующих OLAP-клиентов................. 19
3.5 Выводы ......................................................................................................... 19
4. Апробация предложенного подхода ............................................................... 19
4.1 Обзор СППР для департамента РЭП Минпромторга .............................. 19
4.2 Реализация подсистемы многомерного анализа данных в СППР для
департамента РЭП Минпромторга .................................................................. 20
4.2.1 Разработка хранилища данных и многомерных OLAP-кубов......... 20
4.2.2 Настройка OLAP-сервера .................................................................... 20
4.2.3 Подключение OLAP-клиента .............................................................. 20
4.3 Выбор критериев качества для предложенного подхода ........................ 20
4.4 Анализ качества и рекомендации по его улучшению ............................. 20
4.5 Выводы ......................................................................................................... 20
Заключение ............................................................................................................ 20
Список литературы ............................................................................................... 20
Приложения ........................................................................................................... 20
5
Список сокращений, используемых в работе
6
Введение
Современные
условия
ведения
бизнеса,
характеризующиеся
возрастающей жесткой конкуренцией и нестабильностью экономических
условий, предъявляют повышенные требования к оперативности и качеству
принимаемых решений на всех уровнях управления предприятием или
организацией. При этом объем информации, которую необходимо учитывать
для формирования оптимальных обоснованных решений, неуклонно растет.
Это приводит к ситуации, когда становится невозможно эффективно
управлять
компанией
без
использования
современных
средств
информационного обеспечения.
За последние 20 лет информационно-аналитические системы меняли
свои названия и содержание, пройдя путь от информационных систем
руководителя (executive information systems, EIS) до систем поддержки
принятия решений (СППР).
Современные СППР строятся на основе технологий, позволяющих
пользователю-непрограммисту легко и оперативно извлекать информацию из
различных источников, формировать собственные настраиваемые отчеты или
графические представления, проводить многомерный анализ данных.
Разнообразие этих технологий принято объединять термином «бизнесаналитика» или Business Intelligence (BI). Развитие систем бизнес-аналитики
прошло путь от «толстых» клиентов до Web-приложений, в которых
пользователь ведет исследование с помощью браузера и может работать
удаленно.
Цель технологий BI - своевременно принимать решения, основываясь
на корректных данных. Сегодня создание и внедрение BI технологий
сформировалось в самостоятельное динамично развивающееся направление
индустрии информационных технологий.
7
Целью выпускной квалификационной работы является выбор подхода
построения
подсистем
многомерного
анализа
данных
для
СППР,
учитывающих риски предприятий, и его применение в СППР для
департамента
радиоэлектронной
промышленности
Министерства
промышленности и торговли РФ.
Для достижения поставленной цели необходимо сформулировать и
решить следующие задачи:
1. Исследовать существующие подходы к построению подсистем
многомерного анализа данных.
2. Разработать архитектуру подсистем многомерного анализа данных
для СППР, учитывающих риски предприятий.
3. Реализовать подсистему многомерного анализа данных в СППР для
департамента радиоэлектронной промышленности Минпромторга.
Объектом
исследования
является
класс
СППР,
учитывающих
изменяемые с течением времени факторы (оценки, риски, вероятности и др.)
для формирования оптимальных обоснованных решений.
Предметом
исследования
является
технология
оперативного
многомерного анализа данных (OLAP), применяемая в СППР.
Новизна работы состоит в предложении нового подхода для
построения подсистем многомерного анализа данных в СППР, учитывающих
изменяемые с течением времени факторы.
Практическая
значимость
работы
заключается
в
реализации
предложенного подхода в СППР для департамента радиоэлектронной
промышленности Министерства промышленности и торговли РФ.
8
1. Аналитический обзор
1.1 Оперативный анализ данных (OLAP)
OLAP (Online Analytical Processing) — это совокупность концепций,
принципов и требований, лежащих в основе программных продуктов,
обеспечивающих сбор, хранение, манипулирование и анализ многомерных
данных.
Термин OLAP был предложен доктором Е.Ф. Коддом, его супругой
С.Б. Кодд и их коллегой С.Т. Солли в исследовательской статье "OLAP для
пользователей-аналитиков: информационно-технологический мандат". Эта
статья была опубликована в начале 1993 года и спонсировалась корпорацией
Arbor Software, создателем и распространителем первого OLAP-продукта
Essbase. Статья определяет OLAP как «имя, данное динамическому анализу
предприятия, необходимому для создания, манипулирования, оживления и
синтезирования информации на базе "моделей информации о предприятии"
("Enterprise Data Models")».
Основная цель оперативного анализа данных — проверка аналитиками
возникающих
гипотез.
Аналитики являются особыми
потребителями
корпоративной информации, задача которых находить закономерности в
больших массивах данных и делать выводы о текущем состоянии бизнеса.
Данные, которые требуются аналитику для работы, обязательно содержат
числовые значения, что обусловлено самой сущностью его деятельности.
Оперативность в современном бизнесе — один из факторов успеха.
Аналитику нужен такой инструмент, который позволил бы визуализировать
данные быстро, просто и удобно. В качестве такого инструмента и выступает
OLAP.
9
В 1993 году Кодд сформулировал «12 принципов аналитической
обработки в реальном времени» [8] (см. табл. 1.1):
Таблица 1.1
Принципы аналитической обработки в реальном времени
№
Принцип
1 Многомерное
представление Средства
данных
Описание
должны поддерживать
многомерный на концептуальном
уровне взгляд на данные.
2
Прозрачность
Пользователь не должен знать о
том, какие конкретные средства
используются
обработки
для
хранения
данных,
как
и
данные
организованы и откуда они берутся.
3
Доступность
Средства должны сами выбирать и
связываться
с
наилучшим
для
формирования ответа на данный
запрос
источником
Средства
должны
автоматическое
данных.
обеспечивать
отображение
их
собственной логической схемы в
различные гетерогенные источники
данных.
4
Согласованная
Производительность практически не
производительность
должна
зависеть
от
количества
Измерений в запросе.
5
6
Поддержка архитектуры клиент- Средства
должны
работать
в
сервер
архитектуре клиент-сервер.
Равноправность всех измерений
Ни одно из измерений не должно
10
быть базовым, все они должны быть
равноправными (симметричными).
7
Динамическая
обработка Неопределенные значения должны
разреженных матриц
храниться
и
обрабатываться
наиболее эффективным способом.
8
Поддержка
Средства
многопользовательского
обеспечивать
режима возможность работать более чем
работы с данными
9
должны
одному пользователю.
Поддержка операций на основе Все
различных измерений
многомерные
(например,
операции
агрегация)
единообразно
и
должны
согласованно
применяться к любому числу любых
измерений.
10 Простота
манипулирования Средства
данными
должны
иметь
максимально
естественный
удобный,
и
комфортный
пользовательский интерфейс.
11 Развитые средства представления Средства
данных
должны
поддерживать
различные способы визуализации
(представления) данных.
12 Неограниченное число измерений Не должно быть ограничений на
и уровней агрегации данных
число поддерживаемых измерений.
В 1995 году на основе принципов, изложенных Коддом, был
сформулирован так называемый тест FASMI (Fast Analysis of Shared
Multidimensional Information — быстрый анализ разделяемой многомерной
информации),
включающий
следующие
оперативного анализа данных [2]:
11
требования
к
приложениям
 предоставление пользователю результатов анализа за приемлемое
время (обычно не более 5 с), пусть даже ценой менее детального
анализа;
 возможность
осуществления
любого
логического
и
статистического анализа, характерного для данного приложения,
и его сохранения в доступном для конечного пользователя виде;
 многопользовательский
соответствующих
доступ
механизмов
к
данным
с
блокировок
поддержкой
и
средств
авторизованного доступа;
 многомерное концептуальное представление данных, включая
полную поддержку для иерархий и множественных иерархий (это
— ключевое требование OLAP);
 возможность
обращаться
к
любой
нужной
информации
независимо от ее объема и места хранения.
Большинство из существующих OLAP-средств удовлетворяют всем
этим требованиям. Однако в реализации подобных приложений возникает
ряд проблем, прежде всего связанных с увеличением объёма данных,
которые необходимо хранить.
В настоящее время встречаются следующие применения OLAP:
 Анализ данных. Задача, для которой изначально использовались и
до сих пор остаются самыми популярными OLAP-средства.
Многомерная
модель
данных,
возможность
анализировать
значительные объёмы данных и быстрый отклик на запросы
делают подобные системы незаменимыми для анализа продаж,
маркетинговых мероприятий, дистрибуции и других задач с
большим объёмом исходных данных. Примеры продуктов:
Microsoft Excel Pivot Tables, Microsoft Analysis Services, SAP BW,
12
Oracle Essbase, Oracle OLAP, Cognos PowerPlay, MicroStrategy,
Business Objects.
 Финансовое
планирование\бюджетирование.
Многомерная
модель позволяет одновременно вводить данные и легко
анализировать их (например, план-факт анализ). Поэтому ряд
современных продуктов класса CPM (Corporate Performance
Management) используют OLAP-модели. Важная задача –
многомерный обратный расчёт (back-solve, breakback, writeback),
позволяющий рассчитать требуемые изменения детальных ячеек
при изменении агрегированного значения. Это инструмент для
анализа «что-если» (what-if), т.е. для проигрывания различных
вариантов событий при планировании. Примеры продуктов:
Microsoft PerformancePint, Oracle EPB, Oracle OFA, Oracle
Hyperion Planning, SAP SEM, Cognos Enterprise Planning, Geac.
 Финансовая консолидация. Консолидация данных согласно
международным стандартам учёта, принимая во внимание доли
владения, различные валюты и внутренние обороты – актуальная
задача в связи с ужесточающимися требованиями проверяющих
органов (SOX, Basel II) и выходом компаний на IPO (Initial Public
Offering — первая публичная продажа акций частной компании).
OLAP-технологии
позволяют
ускорить
расчёт
консолидированных отчётов и повысить прозрачность всего
процесса. Примеры продуктов: Oracle FCH, Oracle Hyperion FM,
Cognos Controller.
13
1.1.1 Подходы к построению OLAP-систем
По аналогии с подходами построения клиент-серверных систем
выделяют два подхода к построению OLAP-систем:
1. Подход, основанный на двухзвенной архитектуре (рис. 1.1).
2. Подход, основанный на трёхзвенной архитектуре (рис. 1.2).
Рис. 1.1 Двухзвенная архитектура построения OLAP-систем
Рис. 1.2 Трёхзвенная архитектура построения OLAP-систем
OLAP-система, построенная на двухзвенной архитектуре, состоит из
хранилища данных, настольной OLAP-системы и сетью передачи данных
между ними. Хранилище данных является источником входных данных для
анализа.
Структуры
данных
хранилища
специальным
образом
оптимизированы (см. подразд. 1.1.2) для уменьшения времени обработки
запросов, посылаемых настольной OLAP-системой. Настольная OLAPсистема вычисляет и отображает анализируемые данные.
OLAP-система, построенная на трёхзвенной архитектуре, состоит из
хранилищ данных, OLAP-клиента, OLAP-сервера и сетью передачи данных
14
между ними. Хранилище данных играет туже роль, что и в двухзвенной
архитектуре. В отличие от предыдущего подхода, выделяются OLAP-сервер,
отвечающий за вычисления анализируемых данных, и OLAP-клиент,
отображающий анализируемые данные.
Исходные данные для анализа, находящиеся в хранилище, могут
поступать из различных источников данных, таких как оперативные БД,
таблицы Microsoft Excel, XML-документы и др. Эти данные обновляются
периодически, а не в реальном времени, поэтому на момент анализа могут
быть не актуальными. С одной стороны, это не является проблемой, когда
аналитик просматривает данные, за прошедший период времени, т.к.
аналитик не обращает внимания на отдельно взятые факты — ему
необходима суммарная информация о сотнях и тысячах событий. Но с другой
стороны, это может вызывать проблему при планировании, т.к. выбор того
или иного решения зависит от текущей ситуации, которая может изменяться
несколько раз в течение одного дня (см. подразд. 1.2.2).
Сравним данные подходы по эксплуатационным и стоимостным
показателям:
1. Объем
обрабатываемых
данных.
Объем
данных
определяется
предметной областью анализируемых данных, а также количеством
записей в хранилище данных. Как и настольная OLAP-система, так и
OLAP-сервер, вынуждены кешировать данные в оперативной памяти
для уменьшения количества запросов к хранилищу данных. Таким
образом, объем данных, обрабатываемых настольной OLAP-системой и
OLAP-сервером,
находится
в
прямой
зависимости
от
объема
оперативной памяти. У серверов объём оперативной памяти больше,
чем
у
пользовательских
ПК,
поэтому
OLAP-сервер
может
обрабатывать большие объемы данных, чем настольная OLAP-система.
15
2. Производительность системы. Эта характеристика определяется
следующими
факторами:
объемом
обрабатываемых
данных
и
мощностью компьютеров. При возрастании количества измерений
производительность
всех
OLAP-средств
снижается
за
счет
значительного увеличения количества агрегатов, но при этом темпы
снижения разные. Продемонстрируем эту зависимость на графике (рис.
1.10):
Рис. 1.10 Зависимость времени отклика OLAP-средства от объема
обрабатываемых данных
Скоростные характеристики OLAP-сервера менее чувствительны к
росту объема данных. Это объясняется различными технологиями
обработки запросов пользователей OLAP-сервером и OLAP-клиентом.
Например, при операции детализации OLAP-сервер обращается к
хранимым данным и "вытягивает" данные этой "ветки", в то время как
OLAP-клиент вычисляет весь набор агрегатов в момент загрузки.
3. Сетевой трафик. При использовании OLAP-сервера по сети на ПК
клиента передаются только данные для отображения, в то время как
OLAP-клиент получает весь объем данных первичной выборки.
Поэтому там, где применяется OLAP-клиент, сетевой трафик будет
16
выше. Но, при применении OLAP-сервера операции пользователя,
например детализация, порождают новые запросы к многомерной базе,
а, значит, новую передачу данных. Выполнение же OLAP-операций
OLAP-клиентом
производится
в
оперативной
памяти
и,
соответственно, не вызывает новых потоков данных в сети. Также
необходимо
отметить,
что
современное
сетевое
оборудование
обеспечивает высокий уровень пропускной способности.
4. Затраты на внедрение и сопровождение. Стоимость OLAP-сервера
достаточно высока. Дополнительно следует учитывать стоимость
выделенного сервера и постоянные затраты на администрирование
многомерной базы. Кроме того, внедрение и сопровождение OLAPсервера требует от персонала достаточно высокой квалификации.
Стоимость OLAP-клиента на порядок ниже стоимости OLAP-сервера.
Администрирования и дополнительного технического оборудования
под OLAP-клиент не требуется. К квалификации персонала при
внедрении OLAP-клиента высоких требований не предъявляется.
OLAP-клиент может быть внедрен значительно быстрее OLAP-сервера.
17
1.1.2 Хранилища данных, используемые в OLAP-системах
1.1.3 Многомерная модель данных в OLAP-анализе
1.1.4 Подходы к реализации многомерной модели данных
1.1.5 Классификация OLAP-систем по способу хранения данных
1.2 Системы поддержки принятия решений
1.2.1 Применение многомерного анализа данных в СППР
1.2.2 Особенности СППР, учитывающих риски предприятий
1.2.3 Недостатки существующих подходов к построению подсистем
многомерного анализа данных в
СППР, учитывающих риски
предприятий
1.3 Выводы
Таким
образом,
OLAP
–
актуальная
и
востребованная
тема
исследований, её практические результаты имеют широкое применение.
Несмотря на достаточно долгую историю исследований, до сих не
существует единых терминологических стандартов, стандартов передачи
данных, языка запросов и формирования кубов. Растущие объёмы
корпоративных данных повышают значимость средств анализа, большая
часть которых построена на OLAP-принципах, в связи с чем, актуальны
проблемы выбора оптимальных схем хранения и обработки OLAP-кубов.
Задачи
бюджетирования,
требующие
совмещения
скорости
ввода
транзакционных систем и аналитических возможностей OLAP, представляют
собой особый класс систем, алгоритмическая база которых только создается.
18
2. Описание предложенного подхода
2.1
Предлагаемый
многомерного
подход
анализа
к
данных
построению
в
СППР,
подсистемы
учитывающих
особенности изменяемых во времени факторов
2.2 Архитектура подхода
2.3 Достоинства подхода
2.4 Выводы
3. Реализация предложенного подхода
3.1 Выбор хранилища данных
3.2 Выбор модуля преобразования и загрузки данных
3.3 Выбор OLAP-сервера
3.3.1 Сравнительный анализ существующих OLAP-серверов
3.4 Выбор OLAP-клиента
3.4.1 Сравнительный анализ существующих OLAP-клиентов
3.5 Выводы
4. Апробация предложенного подхода
4.1 Обзор СППР для департамента РЭП Минпромторга
19
4.2 Реализация подсистемы многомерного анализа данных в
СППР для департамента РЭП Минпромторга
4.2.1 Разработка хранилища данных и многомерных OLAP-кубов
4.2.2 Настройка OLAP-сервера
4.2.3 Подключение OLAP-клиента
4.3 Выбор критериев качества для предложенного подхода
4.4 Анализ качества и рекомендации по его улучшению
4.5 Выводы
Заключение
Список литературы
Приложения
20
Download