Information Management Template

advertisement
Технологическая платформа IBM
для создания аналитических
хранилищ данных
Сергей Лихарев (SLikharev@ru.ibm.com)
IBM Information Management Software
24 апреля 2009
© 2009 IBM Corporation
IBM Software Group | Information Management
Information On Demand
Полный спектр возможностей по управлению информацией
Анализ финансовых
рисков
Прибыльность продуктов
и клиентов
Оптимизация
операций
Оптимизация
бизнеса
Решения IBM
Эффективность
маркетинга
Industry Models, Blueprints
& Frameworks
IBM Cognos 8 BI
IBM Cognos Financial
Performance Management
IBM InfoSphere Warehouse
IBM InfoSphere MDM Server
IBM Information Server
Flexible Architecture for Leveraging Existing Investments
DB2, IMS, Informix
IBM Content Manager,
IBM FileNet
Other Information
& Application Sources
© 2009 IBM Corporation
IBM Software Group | Information Management
IBM InfoSphere Warehouse 9.5
Universal Access
Advanced
Capability
Portals & Web Apps
Reporting Solutions
SQL/MDX
Web Services
MS Office / Share-point
MDX
Analytical Acceleration
No Copy
Analytics
Advanced Design &
Management
Extreme Performance
Text Analytics
Design Studio
Workload
Management
Data Mining
Embedded Data
Movement
Data Compression
On-line Analytical
Processing (OLAP)
Remote Data
Access
Data Retention
DB2 Data Server
Platform
© 2009 IBM Corporation
C-Class
D-Class
E-Class
Linux/
Windows
AIX/SUN/
HP
IBM Software Group | Information Management
IBM InfoSphere Balanced Warehouse – классы решений
The IBM Balanced Warehouse может быть разделен на 3 разных класса для
разных целевых сегментов.
Сложность
нагрузки
E7100 большие
объемы и
сложные нагрузки
E-Class
Modular for flexible
Scale out
D-Class
D5100 – высокая
доступность
D5000 – цена/качество
Modular for flexible
Scale out
C4000 – IBM/BP - до 4TB
C3000 – BP - до 1.5TB
C1000 - BP - до 500GB
C-Class
Business Partner / IBM
C1000 C3000 C4000
1
3
10
Данные, Tb
© 2009 IBM Corporation
4
30
100
IBM Software Group | Information Management
DB2 в сердце InfoSphere Warehouse
 DB2 предоставляет уникальные, запатентованные и
лидирующие в индустрии возможности
–Продвинутый оптимизатор запросов
–Гибкие возможности партицирования данных
–Запатентованная технология Multi-dimensional
Clustering (MDC)
–Materialized Query Tables (MQT)
–Возможности автономной работы
–Лидирующие в отрасли технологии компрессии
–Управление рабочей нагрузкой
–…
© 2009 IBM Corporation
IBM Software Group | Information Management
Оптимизатор – автоматическая параллелизация
 Оценка стоимости (cost) каждого
шага
– No Hints
 Параллелизм автоматический
 Параллелизм безусловный
 Нет операций, выполняемых в один
поток
– Scans, Joins, Index access,
Aggregation, Sort, Insert, Update,
Delete
 Визуальное пояснение плана
запроса
© 2009 IBM Corporation
DB2
“Условный
параллелизм”
“безусловный
параллелизм”
Query Starts
Query Optimization
Scan
Join
IBM Software Group | Information Management
Обработка параллельных запросов
select
sum(x) from table_a,table_b where a = b
connect
46
Sum
Optimize
Coord
Get
statistics
Join
Read A
sum(…)Catalog
Read B
sum=10
Agent
Part1
sum=12
Agent
A
sum=13
sum=11
Agent
Agent
Sum
Sum
Sum
Join
Join
Join
B
table_a
table_b
© 2009 IBM Corporation
Part2
A
B
Part3
A
Sum
Join
B
PartN
A
B
IBM Software Group | Information Management
Параллельный ввод/вывод
select … from table
Table
(logical)
FCM network
Partition 1
I/O
I/O
hdisk1
Array 1
hdisk2
Array 2
Partition 2
I/O
hdisk1
Array 1
I/O
hdisk2
Array 2
Partition 3
I/O
hdisk1
Array 1
I/O
hdisk2
Array 2
Partition 4
I/O
hdisk1
Array 1
I/O
Server(s)
hdisk2
Array 2
Storage
DB2 Database
© 2009 IBM Corporation
IBM Software Group | Information Management
DB2 MPP архитектура Shared-Nothing для максимальной
масштабируемости
Users network
IBM Balanced
WarehouseTM
DB2 Coordinator
Partition
SMP server
Private network (FCM)
DB2
Partition
DB2
Partition
DB2
Partition
SMP server
SMP server
I/O Channels
Storage server
© 2009 IBM Corporation
DB2
Partition
IBM Software Group | Information Management
Пакеты и масштабируемость – пример D5100 (System x)
Аналогичный рост для System p
2U
x3650
2U
DS3400
2U
DS3400
SAN switch
SAN switch
Admin BCU
SAN switch
SAN switch
Data BCU
Hot Spare BCU
2U
x3650
2U
DS3400
2U
Data BCU
Data BCU
Data BCU
Data BCU
Data BCU
Hot Spare BCU
Management switch
FCM switch
FCM switch
Console
Data BCU
DS3400
Admin
x3650
Management node
DS3400
x3650
x3650
x3650
DS3400
DS3400
DS3400
DS3400
DS3400
Data 1
Data 2
© 2009 IBM Corporation
Data BCU
…
Data BCU
Data BCU
Admin BCU
Data BCU
Cluster e1350 – rack 1
Cluster e1350 – rack 2
DS3400
Data n
IBM Software Group | Information Management
IBM InfoSphere™ Balanced Warehouse и далее
Прозрачная модульная архитектура
Выбирайте способ создания аналитического приложения. Начните с
базового модуля и добавляйте остальные по мере необходимости.
Foundation
Structure
Add-On Modules
+
Foundation
Module
1 Module
+
Data
Module
User
Module
1 to x Modules
0 to y Modules
Failover
Module
0 or (x/4 to x/6) Modules
Application
Module
Need to extend end to end!
Шаг 1:
Шаг 2:
Шаг 3:
Начните с одного базового
модуля, общий этап для
любого Balanced Warehouse
(Примечание: минимум 1 Data
Module также требуется
Balanced Warehouse)
Если необходимы дополнительные модули для
обработки данных, дополнительных
пользователей или отказоустойчивости, добавьте
узлы из соответствующей группы.
Когда структурные модули выбраны, при
необходимости могут быть добавлены
дополнительные модули.
Ie: Application Module,
© 2009 IBM Corporation
IBM Software Group | Information Management
IBM InfoSphere Balanced Warehouse и далее
Направление развития – новые дополнительные модули
Не тратьте время на интеграцию внешних компонентов с хранилищем.
С Balanced Warehouse просто выберите из набора преднастроенных
модулей для интеграции приложений.
Add-On Modules
Application
Module
Information Server
Module
+
© 2009 IBM Corporation
Cognos 8 BI
Module
+
Optim Module
Information
Server
=
3rd Party
Modules
IBM Software Group | Information Management
No Copy Analytics
Преобразование данных внутри БД в ценную бизнес информацию.
Подход No Copy имеет ряд преимуществ
• Малая задержка при анализе данных
• Более гибкая и быстрая реакция на изменения
• Сокращение затрат на разработку и управление
• Гибкость в добавлении и изменении аналитических приложений
Лучшие результаты в следующих областях
• Выявление и анализ тенденций
• Обнаружение мошенничества
• Предсказание ухода клиентов
• Принятие решений на основании событий
© 2009 IBM Corporation
13
IBM Software Group | Information Management
InfoSphere Warehouse Cubing Services
 Преимущества
– Масштабируемый OLAP с малым
временем ожидания
Office
3rd Party
Universal Access
– Очень большие измерения на очень
больших объемах данных
– Оптимизирован для InfoSphere
Warehouse
– Интегрированное проектирование и
поддержка
Cubing Services
– Универсальный доступ к аналитике
InfoSphere Warehouse
© 2009 IBM Corporation
14
IBM Software Group | Information Management
OLAP приложение в InfoSphere Warehouse
75% of Applications
Dashboards
Mainstream R/O
5-10%
10-15%
Advanced
Financials
Planning /
Budgeting
 Цель: Панели управления и аналитика в режиме чтения
– Многомерные расчеты, агрегаты и анализ временных рядов
 Объемы данных и задержка
– Кубы до 1TB фактических данных
– Ежедневное обновление
 Поддержка клиентов
– Cognos (XMLA)
– Excel, Cubeware (ODBO)
– Alphablox
© 2009 IBM Corporation
15
Data: Multiple TBs
Cubes: 1TB of Fact
IBM Software Group | Information Management
Универсальный доступ
Доставка информации бизнес пользователям
Порталы, Web приложений, Панели управления, интерактивные отчеты,
произвольные отчеты, настольные пакеты
IBM Cognos 8 BI
Microsoft Excel
IBM DataQuant
& DB2 QMF
Universal Cube Access
(MDX, ODBO, XMLA)
InfoSphere Warehouse
© 2009 IBM Corporation
16
IBM Software Group | Information Management
Методы Data Mining в InfoSphere Warehouse
 Обнаружение… поиск шаблонов и
взаимосвязей
– Кластеризация
– Как группируются мои данные?
– Ассоциации
– Какова степень родства данных?
– Последовательности
– Какие есть шаблоны
последовательностей?
 Предсказание… предсказание
результатов
– Классификация
– К какой группе отнести данные?
– Регрессия
– Как предсказать значение
данных?
© 2009 IBM Corporation
17
+=
Tenure > 2.5 (yrs)
no
yes
STAY
Services < 3
yes
LEAVE
no
STAY
IBM Software Group | Information Management
Анализ неструктурированной информации
InfoSphere Warehouse Framework
Structured Data
Text
Basic
linguistic
analysis
Annotated
Structured Data
Расширение
структурированной аналитики
(e.g., cubing и data mining) с
помощью прежде
недоступной текстовой
информации.
 Полностью интегрированный инструмент в InfoSphere Warehouse для
созданий и внедрений проверки и сопоставления по словарям.
 Бизнес преимущества
– Приложение будет работать с информацией, которая была спрятана в тексте
– Повышение отдачи от инвестиций в приложение
 Примеры
– Лучшая категоризация продуктов
– Профилирование клиентов
– Анализ дефектов в продукции
© 2009 IBM Corporation
18
IBM Software Group | Information Management
Как работает no-copy analytics?
Microsoft Office
Cubeware and 3rd Party
Universal Access
Data Mining
InfoSphere Warehouse
Cubing
Text
Unstructured Text
Annotation
 Нет извлечения данных
 Данные всегда в
хранилище
© 2009 IBM Corporation
19
 Полный (универсальный) доступ ко всей
информации
 Быстрое обновление при добавлении данных
IBM Software Group | Information Management
InfoSphere Design Studio и Admin Console
Разработчик
приложения
Разработчик
БД
Deploy
Develop
•
•
•
•
•
Администратор
БД
Coding
Debugging
Teaming
Testing
Integrating
•
•
•
•
Eclipse
Data Modeling
OLAP
ELT Modeling
Data Mining
Design
Shared
IBM
Govern
Аналитик
© 2009 IBM Corporation
Архитек
тор BI
• Packaging / versioning
• Application Merging
• Change Management
Web
Manage
• Security
• Auditing
• Logging
Администратор
приложения
20
IBM Software Group | Information Management
InfoSphere Warehouse Design Studio Modeling
Интеграция со средствами моделирования данных
Использует и расширяет RDA:
– Проектирование и изменение физических схем (schema & storage design, etc)
– Проектирование и создание объектов OLAP
– Проектирование и создание потоков преобразования и добычи данных
Ключевые возможности:
Проектирование или обратное
проектирование БД (RDA)
–
Просмотр/изменение схемы
–
Сравнение/синхронизация объектов
DB
–
Анализ проекта (зависимости),
проверка
–
DB2 Storage Modeling: Table Space,
Buffer Pool, Partition
Генерация скриптов: модели данных
Анализа влияния: модели данных и
потоков данных
© 2009 IBM Corporation
21
IBM Software Group | Information Management
Встроенная технология перемещения и
преобразования данных
SQL Warehousing Tool (SQW)
Преимущества
Легкость использования
–
Графический построитель преобразований в DB2
–
Контроль потоков работ и расписаний
Интеграция
–
Автоматизация потоков связанных с анализом текста
и Data Mining
–
Возможность получать данные не из СУБД DB2
–
Возможность интеграции с IBM Information Server /DataStage
Контроль
–
Управление версиями
–
Мониторинг выполнения заданий
© 2009 IBM Corporation
22
IBM Software Group | Information Management
Полный цикл управления жизненным циклом
данных
 Оптимизация хранения
– Повышение емкости
хранилища
Оптимизация
хранения
Управление
производительностью
 Управление нагрузкой
– Оптимизация потоков
запросов и приоритетов
 Управление
производительностью
– Выявление сценариев
использования и тенденций
 Сохранение данных
– Создание политик сохранения
данных на основе сценариев
использования и стратегии
управления данными
© 2009 IBM Corporation
Управление
нагрузкой
Сохранени
е данных
23
IBM Software Group | Information Management
InfoSphere Warehouse Performance Suite
Performance
Monitoring
Feature (Appfluent)
Performance
Optimization
Feature
 Мониторинг запросов
 Аналитика и отчетность
 Системный мониторинг
 Managed Query Environment
 Всестороннее решение для управления BI/ DW
 Мониторинг запросов, БД и системы
 Анализ и отчетность
 Managed Query Environment
 В чем польза?
 Связь ИТ сервисов с бизнес активностью
 Рационализация инвестиций и оправдание бюджетов
 Поддержка роста хранилища
© 2009 IBM Corporation
24
IBM Software Group | Information Management
Performance Management Process
Create
Customer Record
Address
Validation
USERS
Customer
Scoring
External
Score Service
PROCESSES
Interfaces
Workload Activity
•
•
•
•
•
•
•
100% of SQL
Users/Apps
Tables/Columns
Functions/Operations
Data Stage jobs Metrics
Cost
Execution Metrics
DB2
Database Snapshots
System Snapshots
Balanced Warehouse
© 2009 IBM Corporation
•
•
•
•
Config
CPU
Memory
Storage
•
•
•
•
•
•
Config
Apps
Buffers
Storage
Locks
SQL
Analysis & Alerts
DB2
Analyzer
DB2 DW Performance
Management Repository
IBM Software Group | Information Management
DB2 Warehouse Performance Management Suite
Create
Customer Record
Address
Validation
Customer
Scoring
Полный цикл мониторинга
External
Score Service
ETL
PROCESSES
USERS
Job Name
PX_ID
DB2NODE
Application User ID
Client Host ID
Client User ID
Read operations
Write operations
Lookup operations
Application ID
Document Object ID
Report ID
Information Server
Functions/Operations Used
Tables /Columns Accessed
Applications
Functions/Operations Used
Tables /Columns Accessed
Query Frequency
Rows Returned / IUD
Elapsed Time
Query Frequency
Rows Returned
Elapsed Time
Data
DB Systems. Engine, OS
CPU, IO, Buffers, Locks
Partitioning, Sorts, Alerts
© 2009 IBM Corporation
Активность пользователей/ETL
Активность запросов и метрики
производительности; Операции
над данными
Метрики движка БД, системы и
операционной системы
IBM Software Group | Information Management
DB2 Warehouse Performance Management Suite
 Определение использования ресурсов
• Определение затрат и плана для ресурсов
на основе метрик использования (по
пользователям/группам/подразделениям)
• Измерение по использованным данным,
объемам запросов и использованию времени
сервера
 Измерение использования данных
• Оценка того, как данные используются
бизнесом – какие наиболее часто и как это
влияет на производительность?
• Идентификация неиспользуемых данных для
оптимизации инфраструктуры (ETL,
Хранение.)
© 2009 IBM Corporation
IBM Software Group | Information Management
DB2 Warehouse Performance Management Suite
 Оценка качества сервиса
• Измерение активностей, нарушающих
сервисное соглашение, анализ причин,
тенденций и влияния
• Определение кандидатов на оптимизацию и
дополнительную настройку
 Сокращение сложности
• Выявление повторяющихся операций над
данными, которые вызывают проблемы
• Анализ Joins, Functions, Operations,
Aggregations on Tables and Columns
© 2009 IBM Corporation
IBM Software Group | Information Management
DB2 Warehouse Performance Management Suite
 Оптимизация системы
• Соотношение между потоками запросов и
системными метриками I/O,CPU, Memory.
• Анализ влияния и оптимизация системных
параметров для оптимальной
производительности
 Выделение ресурсов в соответствии с
нагрузкой
• Оценка и подтверждение нагрузки, которая
захватывает системные ресурсы
• Использование оптимальных «классов»
нагрузки и распределение системных
ресурсов для оптимизации
производительности
© 2009 IBM Corporation
IBM Software Group | Information Management
Управление нагрузкой
Позволяет выполнять требования по качеству
обслуживания для разных приложений и пользователей
 Позволяет консолидацию приложений в одном
хранилище
– Управление нагрузкой на основании
пользовательских приоритетов
User Database
Requests
M:1
N:1
Superclass 1
Workload A
– Предотвращение неконтролируемого
роста количества витрин
Workload B
Work
Action
Set
Subclass1.1
Subclass1.2
Workload C
– Отсечение «вечных» запросов
Subclass1.3
Workload D
 Обеспечивает конвергенцию OLTP и BI
нагрузок в рамках одной платформы
– Анализ в реальном времени
– Operational Data Stores
 Мониторинг в реальном времени
© 2009 IBM Corporation
Default User
Class
Default workload
System Database
Requests
Default System
Class
IBM Software Group | Information Management
Optim Data Retention
Эффективное хранение
Текущее
Production
Production
Data Warehouse
Database
История/
отчетность
Online
архив
SAN /
NAS
Archive
Database
Flat Files
Время
Off-Line
архив
Dispose
Tape
Files
Открытый доступ к текущим и архивным данным
Application
© 2009 IBM Corporation
31
ODBC / JDBC
XML
Report Writer
IBM Software Group | Information Management
Синергия семейства InfoSphere с InfoSphere Warehouse
Совместно еиспользования схем данных
IBM Information Server
Source Systems
Master Data Management
SOA Business Services
Batch Data Integration
InfoSphere
Warehouse
Data Stewardship
Reverse Engineer
Data Marts
Party
Account
Product
Location
Physical Schema
OLAP Cubes
Design Studio
Data Mining and
Text Analytics
Database design
and optimization
© 2009 IBM Corporation
Design Studio
Использование схем из
InfoSphere Warehouse для
создания и управления
аналитических структур
данных.
32
IBM Software Group | Information Management
Взаимодействие компонентов в проекте
Models
Cleansing
+
ETL
+
Q: Кто инвестирует
в интеграцию?
+
© 2009 IBM Corporation
+
A: IBM
+
Data
Warehouse
MDM
+
+
A: Вы
+
+ +
+ +
BI
IBM Software Group | Information Management
Решение на компонентах разных вендоров
Риски заставить вместе работать все компоненты лежат на заказчике
Models
Cleansing
+
ETL
+
MDM
+
Data Warehouse
+
BI
+
 Реализация - медленно
A: Вы
– Сложные внедрения, разные продукты и
технологии
 Планирование затрат – туманно?
– Разные ценовые стратегии, оценки, затраты на
интеграцию
 Риски интеграции
– Вы принимаете на себя всю ответственность за
совместную работу компонентов.
 Поддержка
– Разные команды, разные проблемы, нет одной
точки воздействия
© 2009 IBM Corporation
IBM Software Group | Information Management
Синергия компонентов от IBM
Мы заботимся о платформе чтобы вы заботились о решении
 Быстрая реализация!
– Получение результатов и отдачи быстрее
 Планирование затрат
– Один вендор, одна оценка цены, одна точка
переговоров
 Все преимущества лидеров в своем классе
– Стратегия приобретения лучших компонентов
 Нет рисков интеграции
– IBM несет ответственность за интеграцию лучших в
своем классе компонентов
 Внимание не отвлекается на интеграцию
систем
A: IBM
– IBM отвечает за платформу, вы можете
сфокусироваться на решении
+
Models
© 2009 IBM Corporation
+
Cleansing
+
ETL
+ +
MDM
+ +
Data Warehouse
BI
IBM Software Group | Information Management
Преимущество InfoSphere Warehouse
Лидер в каждом элементе цепочки…
Data Quality
Warehousing
Customer Hubs
© 2009 IBM Corporation
ETL
CDI
Data Integration
PIM
IBM Software Group | Information Management
Лучшее с обеих сторон
Единая интегрированная среда из лучших технологий
Models
Cleansing
+
ETL
+
MDM
+
Data Warehouse
BI
+
+
Преимущества интеграции:
A: Вы
Сокращение риска
Повышение вовлечения бизнеса
Ускорение получения результата
Сокращение потребности в
персонале на проекте
A: IBM
53%
83%
75%
90%
Global CEO Study
+
Models
© 2009 IBM Corporation
+
Cleansing
+
ETL
+ +
MDM
+ +
Data Warehouse
BI
IBM Software Group | Information Management
© 2009 IBM Corporation
38
Download