Технологическая платформа IBM для создания аналитических хранилищ данных Сергей Лихарев (SLikharev@ru.ibm.com) IBM Information Management Software 24 апреля 2009 © 2009 IBM Corporation IBM Software Group | Information Management Information On Demand Полный спектр возможностей по управлению информацией Анализ финансовых рисков Прибыльность продуктов и клиентов Оптимизация операций Оптимизация бизнеса Решения IBM Эффективность маркетинга Industry Models, Blueprints & Frameworks IBM Cognos 8 BI IBM Cognos Financial Performance Management IBM InfoSphere Warehouse IBM InfoSphere MDM Server IBM Information Server Flexible Architecture for Leveraging Existing Investments DB2, IMS, Informix IBM Content Manager, IBM FileNet Other Information & Application Sources © 2009 IBM Corporation IBM Software Group | Information Management IBM InfoSphere Warehouse 9.5 Universal Access Advanced Capability Portals & Web Apps Reporting Solutions SQL/MDX Web Services MS Office / Share-point MDX Analytical Acceleration No Copy Analytics Advanced Design & Management Extreme Performance Text Analytics Design Studio Workload Management Data Mining Embedded Data Movement Data Compression On-line Analytical Processing (OLAP) Remote Data Access Data Retention DB2 Data Server Platform © 2009 IBM Corporation C-Class D-Class E-Class Linux/ Windows AIX/SUN/ HP IBM Software Group | Information Management IBM InfoSphere Balanced Warehouse – классы решений The IBM Balanced Warehouse может быть разделен на 3 разных класса для разных целевых сегментов. Сложность нагрузки E7100 большие объемы и сложные нагрузки E-Class Modular for flexible Scale out D-Class D5100 – высокая доступность D5000 – цена/качество Modular for flexible Scale out C4000 – IBM/BP - до 4TB C3000 – BP - до 1.5TB C1000 - BP - до 500GB C-Class Business Partner / IBM C1000 C3000 C4000 1 3 10 Данные, Tb © 2009 IBM Corporation 4 30 100 IBM Software Group | Information Management DB2 в сердце InfoSphere Warehouse DB2 предоставляет уникальные, запатентованные и лидирующие в индустрии возможности –Продвинутый оптимизатор запросов –Гибкие возможности партицирования данных –Запатентованная технология Multi-dimensional Clustering (MDC) –Materialized Query Tables (MQT) –Возможности автономной работы –Лидирующие в отрасли технологии компрессии –Управление рабочей нагрузкой –… © 2009 IBM Corporation IBM Software Group | Information Management Оптимизатор – автоматическая параллелизация Оценка стоимости (cost) каждого шага – No Hints Параллелизм автоматический Параллелизм безусловный Нет операций, выполняемых в один поток – Scans, Joins, Index access, Aggregation, Sort, Insert, Update, Delete Визуальное пояснение плана запроса © 2009 IBM Corporation DB2 “Условный параллелизм” “безусловный параллелизм” Query Starts Query Optimization Scan Join IBM Software Group | Information Management Обработка параллельных запросов select sum(x) from table_a,table_b where a = b connect 46 Sum Optimize Coord Get statistics Join Read A sum(…)Catalog Read B sum=10 Agent Part1 sum=12 Agent A sum=13 sum=11 Agent Agent Sum Sum Sum Join Join Join B table_a table_b © 2009 IBM Corporation Part2 A B Part3 A Sum Join B PartN A B IBM Software Group | Information Management Параллельный ввод/вывод select … from table Table (logical) FCM network Partition 1 I/O I/O hdisk1 Array 1 hdisk2 Array 2 Partition 2 I/O hdisk1 Array 1 I/O hdisk2 Array 2 Partition 3 I/O hdisk1 Array 1 I/O hdisk2 Array 2 Partition 4 I/O hdisk1 Array 1 I/O Server(s) hdisk2 Array 2 Storage DB2 Database © 2009 IBM Corporation IBM Software Group | Information Management DB2 MPP архитектура Shared-Nothing для максимальной масштабируемости Users network IBM Balanced WarehouseTM DB2 Coordinator Partition SMP server Private network (FCM) DB2 Partition DB2 Partition DB2 Partition SMP server SMP server I/O Channels Storage server © 2009 IBM Corporation DB2 Partition IBM Software Group | Information Management Пакеты и масштабируемость – пример D5100 (System x) Аналогичный рост для System p 2U x3650 2U DS3400 2U DS3400 SAN switch SAN switch Admin BCU SAN switch SAN switch Data BCU Hot Spare BCU 2U x3650 2U DS3400 2U Data BCU Data BCU Data BCU Data BCU Data BCU Hot Spare BCU Management switch FCM switch FCM switch Console Data BCU DS3400 Admin x3650 Management node DS3400 x3650 x3650 x3650 DS3400 DS3400 DS3400 DS3400 DS3400 Data 1 Data 2 © 2009 IBM Corporation Data BCU … Data BCU Data BCU Admin BCU Data BCU Cluster e1350 – rack 1 Cluster e1350 – rack 2 DS3400 Data n IBM Software Group | Information Management IBM InfoSphere™ Balanced Warehouse и далее Прозрачная модульная архитектура Выбирайте способ создания аналитического приложения. Начните с базового модуля и добавляйте остальные по мере необходимости. Foundation Structure Add-On Modules + Foundation Module 1 Module + Data Module User Module 1 to x Modules 0 to y Modules Failover Module 0 or (x/4 to x/6) Modules Application Module Need to extend end to end! Шаг 1: Шаг 2: Шаг 3: Начните с одного базового модуля, общий этап для любого Balanced Warehouse (Примечание: минимум 1 Data Module также требуется Balanced Warehouse) Если необходимы дополнительные модули для обработки данных, дополнительных пользователей или отказоустойчивости, добавьте узлы из соответствующей группы. Когда структурные модули выбраны, при необходимости могут быть добавлены дополнительные модули. Ie: Application Module, © 2009 IBM Corporation IBM Software Group | Information Management IBM InfoSphere Balanced Warehouse и далее Направление развития – новые дополнительные модули Не тратьте время на интеграцию внешних компонентов с хранилищем. С Balanced Warehouse просто выберите из набора преднастроенных модулей для интеграции приложений. Add-On Modules Application Module Information Server Module + © 2009 IBM Corporation Cognos 8 BI Module + Optim Module Information Server = 3rd Party Modules IBM Software Group | Information Management No Copy Analytics Преобразование данных внутри БД в ценную бизнес информацию. Подход No Copy имеет ряд преимуществ • Малая задержка при анализе данных • Более гибкая и быстрая реакция на изменения • Сокращение затрат на разработку и управление • Гибкость в добавлении и изменении аналитических приложений Лучшие результаты в следующих областях • Выявление и анализ тенденций • Обнаружение мошенничества • Предсказание ухода клиентов • Принятие решений на основании событий © 2009 IBM Corporation 13 IBM Software Group | Information Management InfoSphere Warehouse Cubing Services Преимущества – Масштабируемый OLAP с малым временем ожидания Office 3rd Party Universal Access – Очень большие измерения на очень больших объемах данных – Оптимизирован для InfoSphere Warehouse – Интегрированное проектирование и поддержка Cubing Services – Универсальный доступ к аналитике InfoSphere Warehouse © 2009 IBM Corporation 14 IBM Software Group | Information Management OLAP приложение в InfoSphere Warehouse 75% of Applications Dashboards Mainstream R/O 5-10% 10-15% Advanced Financials Planning / Budgeting Цель: Панели управления и аналитика в режиме чтения – Многомерные расчеты, агрегаты и анализ временных рядов Объемы данных и задержка – Кубы до 1TB фактических данных – Ежедневное обновление Поддержка клиентов – Cognos (XMLA) – Excel, Cubeware (ODBO) – Alphablox © 2009 IBM Corporation 15 Data: Multiple TBs Cubes: 1TB of Fact IBM Software Group | Information Management Универсальный доступ Доставка информации бизнес пользователям Порталы, Web приложений, Панели управления, интерактивные отчеты, произвольные отчеты, настольные пакеты IBM Cognos 8 BI Microsoft Excel IBM DataQuant & DB2 QMF Universal Cube Access (MDX, ODBO, XMLA) InfoSphere Warehouse © 2009 IBM Corporation 16 IBM Software Group | Information Management Методы Data Mining в InfoSphere Warehouse Обнаружение… поиск шаблонов и взаимосвязей – Кластеризация – Как группируются мои данные? – Ассоциации – Какова степень родства данных? – Последовательности – Какие есть шаблоны последовательностей? Предсказание… предсказание результатов – Классификация – К какой группе отнести данные? – Регрессия – Как предсказать значение данных? © 2009 IBM Corporation 17 += Tenure > 2.5 (yrs) no yes STAY Services < 3 yes LEAVE no STAY IBM Software Group | Information Management Анализ неструктурированной информации InfoSphere Warehouse Framework Structured Data Text Basic linguistic analysis Annotated Structured Data Расширение структурированной аналитики (e.g., cubing и data mining) с помощью прежде недоступной текстовой информации. Полностью интегрированный инструмент в InfoSphere Warehouse для созданий и внедрений проверки и сопоставления по словарям. Бизнес преимущества – Приложение будет работать с информацией, которая была спрятана в тексте – Повышение отдачи от инвестиций в приложение Примеры – Лучшая категоризация продуктов – Профилирование клиентов – Анализ дефектов в продукции © 2009 IBM Corporation 18 IBM Software Group | Information Management Как работает no-copy analytics? Microsoft Office Cubeware and 3rd Party Universal Access Data Mining InfoSphere Warehouse Cubing Text Unstructured Text Annotation Нет извлечения данных Данные всегда в хранилище © 2009 IBM Corporation 19 Полный (универсальный) доступ ко всей информации Быстрое обновление при добавлении данных IBM Software Group | Information Management InfoSphere Design Studio и Admin Console Разработчик приложения Разработчик БД Deploy Develop • • • • • Администратор БД Coding Debugging Teaming Testing Integrating • • • • Eclipse Data Modeling OLAP ELT Modeling Data Mining Design Shared IBM Govern Аналитик © 2009 IBM Corporation Архитек тор BI • Packaging / versioning • Application Merging • Change Management Web Manage • Security • Auditing • Logging Администратор приложения 20 IBM Software Group | Information Management InfoSphere Warehouse Design Studio Modeling Интеграция со средствами моделирования данных Использует и расширяет RDA: – Проектирование и изменение физических схем (schema & storage design, etc) – Проектирование и создание объектов OLAP – Проектирование и создание потоков преобразования и добычи данных Ключевые возможности: Проектирование или обратное проектирование БД (RDA) – Просмотр/изменение схемы – Сравнение/синхронизация объектов DB – Анализ проекта (зависимости), проверка – DB2 Storage Modeling: Table Space, Buffer Pool, Partition Генерация скриптов: модели данных Анализа влияния: модели данных и потоков данных © 2009 IBM Corporation 21 IBM Software Group | Information Management Встроенная технология перемещения и преобразования данных SQL Warehousing Tool (SQW) Преимущества Легкость использования – Графический построитель преобразований в DB2 – Контроль потоков работ и расписаний Интеграция – Автоматизация потоков связанных с анализом текста и Data Mining – Возможность получать данные не из СУБД DB2 – Возможность интеграции с IBM Information Server /DataStage Контроль – Управление версиями – Мониторинг выполнения заданий © 2009 IBM Corporation 22 IBM Software Group | Information Management Полный цикл управления жизненным циклом данных Оптимизация хранения – Повышение емкости хранилища Оптимизация хранения Управление производительностью Управление нагрузкой – Оптимизация потоков запросов и приоритетов Управление производительностью – Выявление сценариев использования и тенденций Сохранение данных – Создание политик сохранения данных на основе сценариев использования и стратегии управления данными © 2009 IBM Corporation Управление нагрузкой Сохранени е данных 23 IBM Software Group | Information Management InfoSphere Warehouse Performance Suite Performance Monitoring Feature (Appfluent) Performance Optimization Feature Мониторинг запросов Аналитика и отчетность Системный мониторинг Managed Query Environment Всестороннее решение для управления BI/ DW Мониторинг запросов, БД и системы Анализ и отчетность Managed Query Environment В чем польза? Связь ИТ сервисов с бизнес активностью Рационализация инвестиций и оправдание бюджетов Поддержка роста хранилища © 2009 IBM Corporation 24 IBM Software Group | Information Management Performance Management Process Create Customer Record Address Validation USERS Customer Scoring External Score Service PROCESSES Interfaces Workload Activity • • • • • • • 100% of SQL Users/Apps Tables/Columns Functions/Operations Data Stage jobs Metrics Cost Execution Metrics DB2 Database Snapshots System Snapshots Balanced Warehouse © 2009 IBM Corporation • • • • Config CPU Memory Storage • • • • • • Config Apps Buffers Storage Locks SQL Analysis & Alerts DB2 Analyzer DB2 DW Performance Management Repository IBM Software Group | Information Management DB2 Warehouse Performance Management Suite Create Customer Record Address Validation Customer Scoring Полный цикл мониторинга External Score Service ETL PROCESSES USERS Job Name PX_ID DB2NODE Application User ID Client Host ID Client User ID Read operations Write operations Lookup operations Application ID Document Object ID Report ID Information Server Functions/Operations Used Tables /Columns Accessed Applications Functions/Operations Used Tables /Columns Accessed Query Frequency Rows Returned / IUD Elapsed Time Query Frequency Rows Returned Elapsed Time Data DB Systems. Engine, OS CPU, IO, Buffers, Locks Partitioning, Sorts, Alerts © 2009 IBM Corporation Активность пользователей/ETL Активность запросов и метрики производительности; Операции над данными Метрики движка БД, системы и операционной системы IBM Software Group | Information Management DB2 Warehouse Performance Management Suite Определение использования ресурсов • Определение затрат и плана для ресурсов на основе метрик использования (по пользователям/группам/подразделениям) • Измерение по использованным данным, объемам запросов и использованию времени сервера Измерение использования данных • Оценка того, как данные используются бизнесом – какие наиболее часто и как это влияет на производительность? • Идентификация неиспользуемых данных для оптимизации инфраструктуры (ETL, Хранение.) © 2009 IBM Corporation IBM Software Group | Information Management DB2 Warehouse Performance Management Suite Оценка качества сервиса • Измерение активностей, нарушающих сервисное соглашение, анализ причин, тенденций и влияния • Определение кандидатов на оптимизацию и дополнительную настройку Сокращение сложности • Выявление повторяющихся операций над данными, которые вызывают проблемы • Анализ Joins, Functions, Operations, Aggregations on Tables and Columns © 2009 IBM Corporation IBM Software Group | Information Management DB2 Warehouse Performance Management Suite Оптимизация системы • Соотношение между потоками запросов и системными метриками I/O,CPU, Memory. • Анализ влияния и оптимизация системных параметров для оптимальной производительности Выделение ресурсов в соответствии с нагрузкой • Оценка и подтверждение нагрузки, которая захватывает системные ресурсы • Использование оптимальных «классов» нагрузки и распределение системных ресурсов для оптимизации производительности © 2009 IBM Corporation IBM Software Group | Information Management Управление нагрузкой Позволяет выполнять требования по качеству обслуживания для разных приложений и пользователей Позволяет консолидацию приложений в одном хранилище – Управление нагрузкой на основании пользовательских приоритетов User Database Requests M:1 N:1 Superclass 1 Workload A – Предотвращение неконтролируемого роста количества витрин Workload B Work Action Set Subclass1.1 Subclass1.2 Workload C – Отсечение «вечных» запросов Subclass1.3 Workload D Обеспечивает конвергенцию OLTP и BI нагрузок в рамках одной платформы – Анализ в реальном времени – Operational Data Stores Мониторинг в реальном времени © 2009 IBM Corporation Default User Class Default workload System Database Requests Default System Class IBM Software Group | Information Management Optim Data Retention Эффективное хранение Текущее Production Production Data Warehouse Database История/ отчетность Online архив SAN / NAS Archive Database Flat Files Время Off-Line архив Dispose Tape Files Открытый доступ к текущим и архивным данным Application © 2009 IBM Corporation 31 ODBC / JDBC XML Report Writer IBM Software Group | Information Management Синергия семейства InfoSphere с InfoSphere Warehouse Совместно еиспользования схем данных IBM Information Server Source Systems Master Data Management SOA Business Services Batch Data Integration InfoSphere Warehouse Data Stewardship Reverse Engineer Data Marts Party Account Product Location Physical Schema OLAP Cubes Design Studio Data Mining and Text Analytics Database design and optimization © 2009 IBM Corporation Design Studio Использование схем из InfoSphere Warehouse для создания и управления аналитических структур данных. 32 IBM Software Group | Information Management Взаимодействие компонентов в проекте Models Cleansing + ETL + Q: Кто инвестирует в интеграцию? + © 2009 IBM Corporation + A: IBM + Data Warehouse MDM + + A: Вы + + + + + BI IBM Software Group | Information Management Решение на компонентах разных вендоров Риски заставить вместе работать все компоненты лежат на заказчике Models Cleansing + ETL + MDM + Data Warehouse + BI + Реализация - медленно A: Вы – Сложные внедрения, разные продукты и технологии Планирование затрат – туманно? – Разные ценовые стратегии, оценки, затраты на интеграцию Риски интеграции – Вы принимаете на себя всю ответственность за совместную работу компонентов. Поддержка – Разные команды, разные проблемы, нет одной точки воздействия © 2009 IBM Corporation IBM Software Group | Information Management Синергия компонентов от IBM Мы заботимся о платформе чтобы вы заботились о решении Быстрая реализация! – Получение результатов и отдачи быстрее Планирование затрат – Один вендор, одна оценка цены, одна точка переговоров Все преимущества лидеров в своем классе – Стратегия приобретения лучших компонентов Нет рисков интеграции – IBM несет ответственность за интеграцию лучших в своем классе компонентов Внимание не отвлекается на интеграцию систем A: IBM – IBM отвечает за платформу, вы можете сфокусироваться на решении + Models © 2009 IBM Corporation + Cleansing + ETL + + MDM + + Data Warehouse BI IBM Software Group | Information Management Преимущество InfoSphere Warehouse Лидер в каждом элементе цепочки… Data Quality Warehousing Customer Hubs © 2009 IBM Corporation ETL CDI Data Integration PIM IBM Software Group | Information Management Лучшее с обеих сторон Единая интегрированная среда из лучших технологий Models Cleansing + ETL + MDM + Data Warehouse BI + + Преимущества интеграции: A: Вы Сокращение риска Повышение вовлечения бизнеса Ускорение получения результата Сокращение потребности в персонале на проекте A: IBM 53% 83% 75% 90% Global CEO Study + Models © 2009 IBM Corporation + Cleansing + ETL + + MDM + + Data Warehouse BI IBM Software Group | Information Management © 2009 IBM Corporation 38