BIG DATA и HPC

advertisement
Направления стратегического развития ТПлатформ в облачных технологиях инженерных
вычислений
Наталья Железных
Коммерческий директор ОАО «Т-Платформы»
4-е октября 2013 года
Соответствие направлений вычислений и
конверсия подходов обработки данных
HPC
Сложная система
дифференциальных уравнений
BigData
store and analyze
(«хранить и анализировать»)
 Большие объемы СХД
Операции с разреженными
матрицами
Межузловая пространственная
декомпозиция неоднородных данных
 Неструктурированная информация
 Масштабные операции с RAM
analyze and store
(«анализировать и хранить»)
 Сложные алгоритмы
 Работа в реальном времени
Исчезновение scratch-данных из
алгоритмов
 Нагрузка обработки на
Интерконнект и RAM
BIG DATA и HPC
• Big Data не является альтернативой HPC
• Метод решения задач, связанных с обработкой больших массивов
неструктурированных данных, сводится к вычленению полезной
информации из объема уже имеющейся (в т.ч., полученной на стадии
HPC)
• BIG DATA (вариация DIC, Data Intensive Computing) отличается
задачами, алгоритмами, и вытекающими из них требованиями к
программно-аппаратной части
• Big Data тоже требуются серьезные высокопроизводительные ресурсы,
в том числе и спроектированные с учетом специфики задач
• Основным фактором, который препятствует массовому внедрению в
Big Data суперкомпьютерных комплексов является необходимость
создания и оптимизации алгоритмов параллельной обработки больших
неструктурированных массивов данных
ИНЖЕНЕРНОЕ ОБЛАКО
• Глобального перехода "в инженерные облака" в ближайшие
несколько лет ожидать не стоит
• Применение облачного распределения вычислительных узлов
сегодня не имеет конкурентного преимущества перед
параллельными кластерами:
– для большинства традиционных вычислительных задач разработано мало
новых алгоритмов, позволяющих их решать с помощью облачных
вычислений
– Работать эффективно сегодня может та часть алгоритмов, которые не
требуют быстрого интерконнекта между вычислительными процессами
– Существуют различия в аппаратной реализации традиционных и облачных
высокопроизводительных систем
• Требуется обеспечение безопасности обрабатываемых данных
и каналов связи для передачи данных при работе "в облаке"
Коллективные HPC-центры как частные
инженерные облака
• Покупатели объединяются для приобретения мощных кластеров
совместного использования
• Отраслевые вычислительные центры, в которых
консолидируются вычислительные ресурсы, можно считать
неким аналогом частного “облака”
• Подобные центры предоставляют:
– Централизованную экспертизу, решая проблему кадрового голода для широкого
числа предприятий
– Будущую площадку с защищенным доступом для «настоящих» инженерных облаков,
с интеллектуальной балансировкой нагрузки, автоматическим резервированием
мощностей внутри облака и т.д.
• Часть инженерных вычислений может позднее уйти в «облака»
– В т.ч. за счет интеграция сетевых интерфейсов в процессор и уменьшения
архитектурных различий между различными классами систем
Инженерное облако – комплексное
Решение, а потому не возможно без «облачной»
визуализации результатов облачных вычислений
Что мешает виртуализировать и «доставлять» пользователю
качественное трехмерное изображение моделей:
• Традиционный протокол терминальной доставки
–
–
–
–
Реальный графический адаптер не доступен в сессии
Виртуальный графический адаптер без поддержки 3D
Некоторые объекты обрабатываются, не поступая на GPU
Рендеринг происходит на CPU
• Виртуальные машины
– Реальный графический адаптер не доступен виртуальной
машине
СЕМЕЙСТВО V-CLASS
масштабируемая модульная система.
Адаптирована под облачные вычисления
и построения систем визуализации
 Модульная система 5U вычислительного типа,
с воздушным охлаждением



Предназначена для высокопроизводительных
(HPC) вычислений, облачных вычислений и
сред WEB2.0
Поддерживает 10 стандартных узлов (S), 5
узлов с GPU (F/F2) или их комбинацию:



Без активной коммутации узлов (за исключением
коммутатора управления)
Узлы V200S/V200F2 на базе Intel® Xeon® E5 2600
Узлы V205S/V205F на базе AMD Opteron™ 6100/6200
Основная система компании Т-Платформы для
массового рынка
СЕМЕЙСТВО V-CLASS
УСПЕШНАЯ ЭКСПЛУАТАЦИЯ
Университет Stony Brook, США, 2012 г
Научный центр CSC, Финляндия, 2012 г
Научный центр Юлих, Германия, 2013 г
Более 20 проектов в России, 2012-13 гг
Подготовка стойки с
холодной дверью
для центра Юлих,
Германия
Система удаленной
визуализации
Кластер (HPC сегмент)
ЦОД или СХД (CAD сегмент)
Менеджер рабочих
столов
Рабочее место
пользователя
Интернет или
внутренняя сеть
по HTTP
Авторизация и получение
списка доступных ресурсов
К УУ или СХД
1-2 уровня
Серверы визуализации в составе:
1. Профессиональные видеокарты
2. Вычислительные ядра
3. Объем RAM
4. ПО удаленной визуализации
Периметр безопасности
На основе тестов и пожеланий
потенциальных клиентов выдвигаются
осредненные требования к системе удаленной
визуализации «Т-Платформы»
Для CAE
Для CAD
•
•
•
•
•
•
Система управляется ОС Windows;
Не менее 2 вычислительных ядер на одну
видеокарту;
Качественная обработка графических
данных (прямые, сплайны, замкнутые
линии) – использование
профессиональных видеокарт;
Не менее 48 ГБ RAM на одно рабочее
место продвинутого пользователя;
Не менее 24 ГБ RAM на одно рабочее место
среднего пользователя;
Не менее 16 ГБ RAM на одно рабочее место
обычного пользователя;
•
Система управляется любой ОС;
•
Не менее 4 вычислительных ядер на одну
видеокарту;
•
Требования к обработке графических данных
повышены по отношению к CAD;
•
Не менее 64 ГБ RAM на одно рабочее место
продвинутого пользователя
•
Не менее 48 ГБ RAM на одно рабочее место
среднего пользователя;
•
Не менее 24 ГБ RAM на одно рабочее место
обычного пользователя
Преимущества использования системы
удаленной визуализации
• Возможность работы не только в локальной сети, но и в сети
интернет по защищенному каналу
• Динамическое выделение вычислительных ресурсов
пользователю для обработки и визуализации результатов
расчетов
• Визуализация промежуточных результатов в ходе расчетов без
копирования данных на рабочую станцию пользователя (CAE)
• Визуализация больших объемов данных без копирования на
рабочую станцию пользователя за счет подключения сервера
удаленной визуализации по высокоскоростной сети к файловому
хранилищу вычислительной системы (CAE)
Пример использования системы
удаленной визуализации
• Доступ к CAD инструментам из
Японии и Австралии к ПО CATIA в
Скандинавии
• Общая задержка – 220 ms, хорошая
производительность при работе с
моделями более 1500+ частей;
полоса пропускания редко достигает
2.5 Mbps
Примеры использования систем
удаленной визуализации
 Подобные решения имеют практически все крупные мировые
суперкомпьютерные центры коллективного пользования,
например все центры DOE, DOD и NSF
BOEING использует подобную систему для организации
удаленных инженерных рабочих мест с 2006 г.
Система хранения данных – важная
Универсальное решение
для:
1. HPC (идея);
2. Облачный инжиниринг
(развитие);
3. BigData (новый рынок)
T-Store SA1360
Объем рынка в млрд. $
составляющая Облачных вычислений и BigData
Система хранения данных T-Store –
оптимизирована для инженерных
вычислений в облаках
Производительность:
Интенсивные методы (алгоритмы и параллельные команды) ->
• Сделать больше за меньшее или тоже время
• Уменьшить разрыв в производительности между вычислением
и хранением
Надежность:
 Быстрое время восстановления -> Минимизация простоев
 RAID 6 и 7, борьба с скрытыми ошибками - > Обеспечение
целостности и доступности к данным
Концептуальный состав T-Store
Программный специфический RAID на Linux платформе с
поддержкой различных интерфейсов и типов дисков (30 - 60 шт. в
одном шасси)
Разработанный
алгоритм
 Fibre Channel – 8/16 Гб/сек
 InfiniBand – 40/56 Гб/сек
 iSCSI – 1/10Гб/сек
 SATA – 150 МБ/сек
 SAS – 200 MБ/сек
 SSD – 250 MБ/сек
Перенос технологий и подходов
 Компания Т-Платформы разрабатывает свои продукты практически с нуля,
включая ряд базовых элементов.
Это позволяет входить на новые рынки с глубокой фундаментальной базой знаний на
всех уровнях, а потому имеет возможность переносить их на новый уровень, создавая
опережающие технологии;
 Основа HPC – операции над данными или потоком данных.
Масштабируемость HPC – умение эффективно управлять данными.
Компания Т-Платформы создает и поставляет настроенные и
оптимизированные под задачи заказчика программно-аппаратные комплексы.
Это позволяет умело переносить технологии HPC на программный и аппаратный
уровень BigData и облачных вычислений c соответствующей модификацией;
 Входящие в холдинг компании полноценно занимаются разносторонним
инжинирингом (CAD\CAE) и переноса кодов на различные архитектуры, а так
же оказывают услуги в этой области.
Это позволяет холдингу создавать разносторонние интерфейсы, программы и
алгоритмы для облачных сервисов. Создавать полностью отечественный SaaS.
СПАСИБО!
Download