на загрузку данных

advertisement
HP Vertica
Гиоев Артур
Технический директор HP Software по России и Странам
СНГ
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Введение в
vertica
Big Data, Data Analytics ... Simply Fast
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Мы живем в мире аналитики
Все больше данных, и они
постоянно прибывают
Больше не тратить ночи на
загрузки данных
Смешивать загрузку данных и
доступ разнообразных
пользователей
Необходимость сохранять
исторические данные для
последующего анализа
Создавая новые возможности!
3
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Вы готовы к анализу данных? 100%
Каждый
нуждается в информации,
а не только аналитики
Нужно
анализировать
и адаптировать
РАЗНЬЕ
данные и
связи между ними
4
Объем информации
растет;
IDC предсказывает
рост
в
44 раза
в следующем
десятилетии
Аналитические платформы
активно
внедряются, происходит
смещение
на специализитрат рованные
системы
4
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
компаний
из списка
Fortune
2000
анализируют
данные
ROI
«Return on Information»
- сколько денег
можно получить за
информацию?
Новая метрика.
*IDC report 2009
Зачем нужна бизнес-аналитика
в Реальном Времени?
Снижение рисков в быстроменяющемся мире
Изучение и прогнозирование поведения клиентов, поставщиков и
регуляторов
Оптимизация взаимодействия с вышеперечисленными
Уменьшение и оптимизация операционных
расходов, контроль ключевых KPI
Фрод-мониторинг: отслеживание подозрительных сделок
Оценка общественных и экономических тенденций
Упреждающая реакция на изменения настроений заказчиков и рынка
Повышение адекватности и качества принимаемых решений!
5
5
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Большие Данные это сколько?
Размер и классификация хранилища данных, сегодня
<500ГБ – Маленькое
500ГБ > 20ТБ – Типовое
20ТБ > 50ТБ – Большое
>50ТБ – очень Большое
Несколько лет назад хранилище
размером больше нескольких ТБ
было редкостью
6
6
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Пример Больших Данных
Даже очень больших
40 млн. игроков
регистрируется каждый клик
3ТБ данных в день
200 машин в кластере
анализ в реальном времени
и мгновенное
предоставление
информации в виде
рекомендаций
- непрерывная работа
24х7х365 – никаких «окон» на
-
7
7
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
The Vertica Аналитическая платформа Реального времени
Интегрированное решение разработанное для ответа аналитическим
задачам сегодня и завтра
Аналитика “точно вовремя”
в 50–1000 раз быстрее среднее время обработки запросов чем в
традиционных построчных системах
До 10x прирост скорости загрузки данных
Простота установки/использования
Высокая масштабируемость
и полный параллелизм
Индустриально стандартная
платформа x86
Гибридная in-memory/on-disk архитектура
Хранение данных близко к процессору
Большие
масштабы, широкие возможности
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
9
Обзор технологии
Vertica
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Технический обзор Vertica
Основной функционал Vertica
•
Колоночное хранение
•
Продвинутое сжатие
•
Обработка данных с массовым
параллелизмом(MPP)
•
•
• Повышение производительности в
10 – 100 раз
• Высокая масштабируемость от TB к
PB
• Простая интеграция с
существующими решениями ETL и
Автоматизированный Дизайнер
BI
БД
• Высочайшая производительность
Встроенная поддержка
на доступной аппаратной
высокой доступности
платформе
Стандартный SQL интерфейс
12
Vertica позволяет
• Высокая гибкость развертывания
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Колоночное хранение
Vertica интелектуально организует данные на диске для каждой колонки
•
Читаются только колонки участвующие в запросе, а не каждая как в случае с построчным
хранением
•
Чтение и Запись блоков очень большого размера
•
Идеально для интенсивной работы в режиме ЗАГРУЗКА/ЧТЕНИЕ с серьезным сокращением
операций ввода/вывода
Колоночное хранение – читаются 3 колонки
SELECT
avg(price)
FROM
tickstore
WHERE
symbol = ‘AAPL’
AND
date = ‘5/06/09’;
13
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
AAPL
AAPL
BBY
BBY
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
143.74
143.75
37.03
37.13
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
Строчное хранение - читаются все
колонки
AAPL
AAPL
BBY
BBY
NYASE
NYAASE
NYSE
NYASE
NGGYSE
NYGGGSE
NYSE
NYSE
NYSE
NYASE
NYAASE
NYSE
NYASE
NGGYSE
NYGGGSE
NYSE
NYSE
NYSE
NYASE
NYAASE
NYSE
NYASE
NGGYSE
NYGGGSE
NYSE
NYSE
NYSE
NYASE
NYAASE
NYSE
NYASE
NGGYSE
NYGGGSE
NYSE
NYSE
NYSE
143.74
143.74
37.03
37.13
NYSE
NYSE
NYSE
NYSE
NYSE
NYSE
NYSE
NYSE
NYSE
NYSE
NYSE
NYSE
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
5/05/09
5/06/09
5/05/09
5/06/09
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
5/05/09
5/06/09
5/05/09
5/06/09
Продвинутое сжатие
Vertica заменяет медленные операции ввода/вывода быстрыми циклами процессора
через агрессивное сжатие
Используют свойства данных такие как сортировка
Может работать без первичного раскодирования
можно позднее
Работает на больших объемах чисел и строк
Интеллектуальное раскодирование как
Механизм раскодирования
Transaction Date
Customer ID
Trade
5/05/2009,
5/05/200916
0000001
0000001
0
0000001
2
0000003
2
0000003
4
0000005
10
10
0000011
19
0000011
25
0000020
49
0000026
0000050
0000051
0000052
100.25
.25
1
100.50
2
100.75
3
1
100.25
3
100.75
4
101.00
5
3
101.25
5
100.75
3
101.25
100.75
100.00
100.50
5/05/2009
5/05/2009
5/05/2009
5/05/2009
5/05/2009
5/05/2009
5/05/2009
5/05/2009
Несколько
значений
Отсортировано
RLE
14
Много значений
Целое
Может быть
отсортировано
DeltaVal
Множество
других…
Раскодирование на лету
Диск:
Кодирование
+ Сжатие
100
Буфер:
Только
распаковка
Engine:
Раскодиров
ание блоков
Много
значений
Отсортирован
о
Раскодированны
й результат
Просто во время
GCD
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Сырые
Сжатые данные
Сеть:
Раскодированны
е блоки
+ возможно
использование
LZO
Кластеризация (MPP)
15
Кластерная сеть
Внешняя сеть
Горизонтальное масштабирование, массовая параллельная обработка
100% пиринговая сеть – нет
блокировок
Нет специализированных узлов
Загрузка данных и запросы на любом
узле
Линейная масштабируемость
Больше кластер = больше места для
данных + выше производительность
Автоматическая репликация и
восстановление после сбоев
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Автоматизированный дизайн и
Vertica
Database Designer рекомендован для наилучшей оптимизации дизайна БД
Администрирование
Оптимизация для потребностей пользовательских запросов
Минимизация усилий администраторов БД затрачиваемых на физический дизайн БД
Запуск и работа дизайнера БД в режиме ONLINE без влияния на текущую обработку
Администраторы
БД
>
Логическую схему
 Создание таблиц
>
“Тестовый набор”
 Типичные
запросы
 Примеры данных
БД дизайнер создает
>
Физическую схему для:
 Выполнения запросов в тестовом наборе
быстро
 Подходит для плавной загрузки требований
 Уверенность в том, что все SQL запросы могут
быть отвечены
A
B
C
Уровень защиты
от сбоев
(A B C | A)

k-safety
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
B
A
C
>
16
(B A C | B A)
Native High Availability
Функциональность как у RAID внутри БД
Проекции распределены по по ячейкам для отказоустойчивости
Нет нужны в ручном восстановлении на основе логов
Vertica продолжает загрузку данных и исполнение запросов даже когда один из узлов не
доступен
Пропавшие данные восстанавливаются с оставшихся узлов кластера
Vertica Кластер из трех
узлов
Узел 2
Узел 1
17
Узел 3
B2
A2
C2
B1
A1
C1
B3
A3
C3
A3
B3
C3
A2
B2
C2
A1
B1
C1
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Стандартный интерфейс на основе SQL
Vertica поддерживает ANSI SQL-99 plus Analytics для минимизации интеграционных затрат
существующими инструментами BI и ETL
ANSI SQL-99 +Analytics
Простая интеграция
Vertica’s Hadoop
Connector
Массовая и
поточная
загрузка
SQL, ODBC,
JDBC
Коннекторы БД для
JDBC
ETL, Replication, Data Quality
ODBC
ADO.NET
18
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
1 HP Confidential
Analytics, Reporting
Платформа Vertica
•Процессоры
x86-64 (Intel/AMD)
•Хранилище: SAS, SATA, SAN и SSD
•Gigabit Ethernet Backbone
•Linux
–
–
–
–
Red Hat Enterprise Linux
SUSE
Debian
CentOS
Пример HP/Vertica
> HP c7000
> Загрузка и запросы в реальном
времени
> 100-250x (ср.) быстрее запросы
> Масштабируемо (просто
добавьте лезвие)
> Строенная высокая доступность
> Прямо из коробки интеграция с
ETL и сервисами отчетности
•Не
требуется дополнительных затрат на
лицензии при увеличении аппаратной
платформы
20
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
2 HP Confidential
Заказчики
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
360+ Заказчиков и продолжает расти
24
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
2 HP Confidential
Спасибо
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Download