Введение в ГРИД

advertisement
Что такое ГРИД?
Олешко С.Б.
Петербургский институт ядерной физики
г.Гатчина
Немного истории
• 1964 год – фирма IBM создаёт семейство машин IBM360
(System 360). Это первые компьютеры третьего поколения (на
интегральных микросхемах)
• В СССР IBM/360 была клонирована под названием ЕС ЭВМ.
Они были программно совместимы со своими американскими
прообразами
• Считается, что семейство System 360 является первым
мейнфреймом. Мейнфрейм - это главный компьютер
вычислительного центра с большим объемом внутренней и
внешней памяти
• До 80-х годов развитие мейнфреймов определяло общее
развитие вычислительной техники
2
IBM360 (System 360).
3
Суперкомпьютеры
• В общем случае, суперкомпьютер — это компьютер
значительно более мощный, чем доступные для
большинства пользователей машины
• Появление термина “суперкомпьютер” принято
связывать с компьютерными системами Сеймура
Крея (CDC 6600, CDC 7600, Cray-1, Cray-2)
• Переход от скалярных процессоров к векторным
процессорам, затем к параллельной работе
нескольких векторных процессоров
4
Cray-2
5
Микропроцессоры и ПК
• В конце 70-х - начале 80-х годов прогресс в
развитии микропроцессоров привёл к появлению
персональных компьютеров.
• Это же привело к смене магистрального
направления развития суперкомпьютеров от
векторно-конвейерной обработки к большому и
сверхбольшому числу параллельно соединённых
скалярных процессоров.
• Сейчас массивно-параллельные системы могут
объединять в себе сотни и даже тысячи отдельных
процессорных элементов
6
Мировой рейтинг Top500
• Первое место - суперкомпьютер IBM Roadrunner,
установленный в американской Национальной
лаборатории в Лос-Аламосе, насчитывающий
129600 ядер. Его мощность составила 1105
терафлоп (флоп - число операций с плавающей
запятой в секунду). Программа работ полностью
засекречена.
7
IBM Roadrunner
8
Мировой рейтинг Top500
• Второй - суперкомпьютер Cray XT5 (Jaguar),
установленный в Окридже (США), 150152 ядер.
Мощность - 1059 терафлоп в секунду
9
Cray XT5 (Jaguar)
10
Кластеры
• Кластер – это система, в которых серийные
процессорные модули объединены
высокоскоростными коммутационно-связными
средствами локальных сетей
• Преимущества:
–
–
–
–
меньшая стоимость
надёжность
можно наращивать вычислительную мощность
стандартизация программного обеспечения
11
Суперкомпьютеры в России
• СК "МВС-100K" - HP Cluster Platform на базе 4-ядерных
процессоров Xeon 5400 (7920 процессорных ядер ).
Расположен в Межведомственном суперкомпьютерном центре
в Москве. Мощность – 71,28 терафлоп.
12
Суперкомпьютеры в России
Кластер T-Platforms T60, расположенный в МГУ им Ломоносова
(5000 ядер). Мощность – 47 терафлоп.
13
Кластер Беовульф (Beowulf)
• Беовульф – это мультикомпьютерная архитектура, которая
может использоваться для параллельных вычислений.
• Это система, обычно состоящая из одного серверного узла и
одного или более клиентских узлов, соединенных при помощи
некоторой сети.
• Это система, построенная из готовых промышленных
компонент, например ПК, на которых может работать ОС Linux
• Она не содержит специфических аппаратных компонентов и
легко воспроизводима
• Серверный узел управляет всем кластером и является файлсервером для клиентских узлов. Он также является консолью
кластера и шлюзом во внешнюю сеть.
14
Кластер ПИЯФ
15
Кластер ПИЯФ
16
Кластер ПИЯФ
17
Сетевые технологии
• Развитие технологий локальных сетей
• Появление глобальных компьютерных сетей,
прежде всего – Интернет
–
–
–
–
–
технологии (программы и аппаратура)
инфраструктура (каналы передачи данных)
распределённые ресурсы
стандарты
пользователи
18
Грид и распределённые вычисления
Распределённые вычислительные инфраструктуры
существовали и до Грид, но ….
–обычно они представляют собой локальные или
специализированные системы
 созданные для одной определённой цели или для отдельной
группы пользователей
 обычно количество пользователей ограничено
 не допускается совместное использование ресурсов других
организаций
19
Грид и распределённые вычисления
Грид идёт дальше и предполагает:
–Различные типы ресурсов
 не всегда одинаковые аппаратная часть, данные, приложения
и политика администрирования
–Различные способы взаимодействия
 различные группы приложений хотят взаимодействовать с
Грид различными способами
–Доступ к ресурсам через границы административных доменов
для неограниченного количества не локальных пользователей
–Динамическая природа ресурсов
 Ресурсы часто добавляются/удаляются/изменяются
–Масштабируемость до всемирных размеров
20
Для чего это нужно?
Физика высоких энергий
симуляция, реконструкция, анализ, …
Медицина / Здравоохранение
отображение, диагностика и лечение
Биоинформатика
геном человека, поиск новых лекарств, …
Нанотехнологии
разработка новых материалов на молекулярном уровнe
Инженерия
авиационная безопасность, проектирование…
Природные ресурсы и Окружающая среда
прогноз погоды, прогнозирование наводнений, …
Термоядерный синтез
проект ITER
Материаловедение
21
Предпосылки Грид
•Стремительное развитие сетевой транспортной среды и технологий
высокоскоростной передачи данных.
– скорости сетей удваиваются каждые 9 месяцев
 1986 – 2000 : x 340 000
Производительность на
затраченный доллар
 2001 – 2010 : x 4000
0
9 12
1
•
Волоконнооптическая
связь
18
(бит/сек)
Кристаллы
памяти
(бит/кв.
дюйм)
Кристаллы
процессоров
(число
транзисторов)
2
3
Количество лет
4
Наличие во многих организациях
высокопроизводительных
вычислительных ресурсов (часто
кластеров)
– вычислительные скорости удваиваются
каждые 18 месяцев
 1986 – 2000 : x 500
 2001 – 2010 : x 60
•
5
•
Развитие традиционных Интернеттехнологий
Необходимость решения сложных
научных, инженерных и бизнес-задач
22
Что такое Грид
Термин ГРИД был выбран по аналогии с
энергетическими сетями
(electric power grid)
подобно тому, как при использовании
энергосистем мы не интересуемся – какой
конкретный электрогенератор выработал
ток, который мы потребляем,
при использовании компьютерного грида
мы можем не заботиться о том - какой
конкретно компьютер (или устройство
хранения/передачи данных) в грид-системе
выполнил нашу задачу
23
Что такое Грид
Грид – это множество компьютеров
•
(суперкомпьютеры, кластеры, персональные
компьютеры, …), средств хранения данных,
специальных устройств, служб, которые могут
динамически входить и покидать Грид-систему.
•
Они гетерогенны во всех аспектах
•
Они могут быть географически распределены
и соединены скоростными сетями передачи
данных
•
Они могут быть доступны по запросу для
некоторого множества пользователей
Интернет
24
Что такое Грид
Грид призван обеспечить
возможность делать
компьютерные вычисления
«по требованию»
просто подключившись
к «решетке»
вычислительных ресурсов.
25
Что такое Грид„
Опять аналогия
В энергосетях определяющую роль играют:
технологии передачи и (пере)распределения
электроэнергии на большие большие расстояния;
инфраструктура - аппаратные средства
(повышающие/понижающие подстанции, линии
электропередач, другое электрооборудование,
позволяющее электростанциям предоставлять энергию
потребителям) и соответствующие службы (ремонта,
контроля и т.д.);
стандарты – параметры электрического тока
(напряжение в сети, частота), типы и размеры
вилок/розеток, позволяющие без проблем подключать
любой электроприбор к единой сети.
26
Что такое Грид
Также как и электрические сети,
грид это соединение
 технологии,
 инфраструктуры
 стандартов.
27
Что такое Грид
Технология
это специальное программное обеспечение,
которое позволяет организациям или частным
лицам предоставлять ресурсы
(компьютеры, хранилища данных, сети и другие)
в общее пользование, а потребителям –
использовать их, когда необходимо.
28
Что такое Грид
Инфраструктура
состоит из


аппаратных средств и
служб
(на основе людских и программных ресурсов),
которые должны быть организованы, и постоянно
поддерживаться для того, чтобы ресурсы могли
совместно использоваться.
29
Что такое Грид
Стандарты
должны определять


формат и
протоколы обмена сообщениями,
как между службами, так и между службами и
пользователями, а также правила работы грида.
30
История
1985–1995 Программа Национального Научного Фонда США «National Science
Foundation (NSF) Supercomputer Centers».
Октябрь 1997 NSF инициировал новую программу развития информационных
технологий – Partnerships for Advanced Computational Infrastructure (PACI).
1998
Создан (и успешно развивается) инструментальный пакет Globus
Toolkit.
1999 Сформировалось (и активно действует) международное научное
Грид-сообщество – Global Grid Forum (GGF)
2002 GGF и IBM была представлена новая системная разработка – Open Grid
Service Architecture (OGSA).
2003 Создано объединение Enterprise Grid Alliance (EGA)
2006 GGF и EGA объявили о слиянии и образовании Open Grid Forum
(OGF)
31
Что такое Грид
Отдельный компьютер (РС)
Прикладное ПО
Операционная система РС
Ресурсы РС
Диски, процессор, память …
32
Что такое Грид
Отдельный компьютер
Прикладное ПО
Операционная система
Ресурсы РС
Локальная сеть
Прикладное ПО
Промежуточное ПО для соединения с другими узлами
(компьютеры, серверы, …)
Операционная система каждого узла
Ресурсы узла
33
Что такое Грид
Отдельный компьютер
Локальная сеть
Прикладное ПО
Прикладное ПО
Промежуточное ПО для соединения с другими узлами
Операционная система
Операционная система каждого узла
Ресурсы РС
Ресурсы узла
Следующий шаг - Грид
Прикладное ПО
Промежуточное ПО для соединения с другими локальными сетями…
Промежуточное ПО для соединения с другими узлами
(компьютеры, серверы, …)
Операционная система каждого узла
Ресурсы узла
34
WWW и Грид
World Wide Web обеспечивает доступ к
информации, которая находится в
миллионах различных серверов,
географически распределённых по всему
миру
В отличии от WWW: ГРИД – это новая
вычислительная инфраструктура, которая
обеспечивает бесперебойный доступ к
вычислительным мощностям и
ресурсам хранения данных,
распределённых по всему миру
35
ППО Грид (middleware)
”Прозрачное” взаимодействие между гетерогенными ресурсами
(принадлежащих различным, географически распределённым
организациям), приложениями и пользователями возможно только
при помощи…
– использования специализированного программного обеспечения,
называемого middleware
Middleware “скрывает” технические детали Грид-инфраструктуры
и обеспечивает безопасную интеграцию/распределение ресурсов
интернет-протоколы не обеспечивают безопасный механизм
доступа к разделяемым ресурсам
36
ППО Грид (middleware)
Мобильный
доступ
G
R
I
D
Рабочие
станции
M
I
D
D
L
E
W
A
R
E
Суперкомпьютера, PC-кластеры
Хранилища данных, эксперименты, …
Визуализация
Internet, сети
37
Использование Грид
• Организация эффективного использования ресурсов для
небольших задач, с утилизаций временно простаивающих
компьютерных ресурсов
• Распределенные супервычисления, решение очень крупных
задач, требующих огромных процессорных ресурсов, памяти
и т.д.
• Вычисления с привлечением больших объемов
географически распределенных данных, например, в
метеорологии, астрономии, физике высоких энергий
• Коллективные вычисления, в которых одновременно
принимают участие пользователи из различных организаций
38
Проект SETI@home
• Поиск следов внеземных
цивилизаций
• Обработка данных, полученных
радиотелескопом Аресибо
• Около 5 млн. участников
• 1200 CPU лет в день
• Постоянная вычислительная
мощность ~34 TF (примерно
такая, какая достигнута в
Симуляторе Земли в Японии)
• Высокая степень гетерогенности
ресурсов - >77 различных типов
процессоров
39
Проект GIMPS
• http://www.mersenne.org/
• Поиск простых чисел Мерсенна. Числа Мерсенна имеют вид Mp
= 2p – 1, где p-простое
• Самое большое известное на данный момент простое число
M43112609 = 243112609 − 1 было найдено в рамках проекта GIMPS в
августе 2008 года. Оно состоит из 12,978,189 цифр!!
• Ресурсы (на 10.06.2009):
–
–
–
–
команд – 216
участников – 20888
CPUs – 115601
мощность - 38.497 терафлоп
40
Проект WISDOM
• Приложение Drug Discovery,
позволяющее вычислять вероятность
прямого контакта между
потенциальным лекарством и белкоммишенью
• Первый в истории биомедицины сеанс
массовой обработки данных (малярия)
Исследовано 46 миллионов посадочных
лиганд
Получено более 1 Тб данных
Использованы ~1000 компьютеров из 15
стран, что составляет ~ 80 машино/лет
Средний фактор ускорения – 600
Domain distribution of Flexx run jobs
bg; 597
com; 1072
cy; 383
de; 715
uk; 8106
es; 5122
tw; 827
ru; 218
ro; 337
pl; 1877
fr; 7580
nl; 3356
it; 3687
il; 263 gr; 2004
• Второй сеанс (птичий грипп)
Использованы ~5000 компьютеров из 27
стран, что составляет ~ 420 машино/лет
Получено более 2 Тб данных
Средний фактор ускорения – 2000
41
О ЦЕРНе (CERN)
• Расположен на границе Щвейцарии-Франции. Крупнейший в
мире исследовательский центр по ФВЭ
• Работают представители ~500 университетов и институтов
(штат~2500чел., 6500 визитеров из ~40 стран)
• Сделано много открытий и разработано много новых
технологии, включая WWW.
• Большинство Нобелевских лауреатов по физике последних
лет так или иначе связаны с ЦЕРН.
42
Большой адронный коллайдер (LHC)
Длина окружности ускорителя – 27 км.
Запуск перенесён на 2009 год
43
Что такое БАК?
• Энергия столкновения пучков
протонов – 14 TeV
• Используя новейшие
сверхпроводящие технологии
он будет работать при
температуре –271°C, т.е.
немного выше абсолютного
нуля
• С общей длиной в 27 км
ускоритель будет самой
большой сверхпроводящей
установкой в мире
44
Эксперименты на БАК
45
Место для детектора ATLAS
46
Детектор ATLAS
47
Детектор ATLAS
48
Как будет работать БАК
49
Результаты
Начиная с такого набора событий:
Необходимо найти такое:
Селективность (степень отбора) ~ 1 из 1013, что примерно
соответствует поиску иголки в 20 миллионах стогах
сена!!!
50
Данные БАК
•
40 000 000 столкновений в секунду
•
После фильтрации, остаётся только
100 событий в секунду
•
Объём оцифрованных данных для
одного события ~ 1Мб
•
За год необходимо записать 1010
событий = 10 Петабайт данных в год
CMS
LHCb
1 Мегабайт (1MB)
Цифровая фотография
1 Гигабайт (1GB) = 1000MB
DVD фильм
1 Терабайт (1TB) = 1000GB
Объём всех книг, изданных
за год в мире
1 Петабайт (1PB) = 1000TB
Производит за год один
эксперимент БАК
1 Экзобайт (1EB) = 1000 PB
Объём информации,
которую производит за год
всё человечество
ATLAS
ALICE
51
Необходимость ГРИД для БАК
• Объём получаемых данных БАК соответствует
20 миллионам записанных CD дисков в год. Где
их хранить?
• Анализ данных LHC потребует вычислительных
мощностей, эквивалентных мощности 100000
самых современных процессоров. Где их
взять?
• Ресурсы ЦЕРН уже сейчас составляют более
4000 процессоров (ядер) и 8 Пб памяти на
дисках и на лентах. Но этого мало!!!
Воздушный
шар
(30 Км)
Стопка CD
дисков с
данными БАК
за 1 год (~ 20
Км)
Конкорд
(15 Км)
Выход – объединение вычислительных
ресурсов физиков всего мира
Монблан
(4.8 Км)
52
Всемирный компьютинг для БАК
• Проекты EGEE и OSG являются основой для проекта
Worldwide LHC Computing Grid ( WLCG)
53
Хранение данных в БАК
54
Название проекта
EGEE- Enabling Grids for E-sciencE
Развертывание инфраструктуры
Грид для науки
55
Сроки выполнения проекта
56
Ресурсы EGEE-III сейчас
• 267 центров в 54 странах
• ~ 114 000 CPU
• ~ 20 PB дисковой памяти, +
ленточные MSS
• распределённое управление
• >200 ВО из различных
областей науки
No. Cores
Apr-08
Jan-08
Oct-07
Jul-07
Apr-07
Jan-07
Oct-06
Jul-06
Apr-06
Jan-06
Oct-05
Jul-05
Apr-05
Jan-05
Oct-04
Jul-04
Apr-04
80000
60000
40000
20000
0
No. Sites
Apr-08
Jan-08
Jul-07
Oct-07
Apr-07
Jan-07
Oct-06
Jul-06
Apr-06
Jan-06
Oct-05
Jul-05
Apr-05
Jan-05
Oct-04
Jul-04
Apr-04
>150тыс. заданий/день
>16000 пользователей
300
200
100
0
57
Партнёры EGEE
58
Управление ГРИД EGEE
Операционный центр
управления (OMС)
- ЦЕРН - общая координация
Центры базовой
инфраструктуры (CIC) - 5
центров (Великобритания,
Франция, ЦЕРН, Италия, Россия)
- обеспечение постоянной (24x7)
работы базовых грид-служб,
мониторинг системы;
- реализация и контроль за
выполнением правил,
выработанных OMS
- обеспечение поддержки узлов 2-го
уровня
Региональные операционные
центры (ROC) ~ 11 центров
- поддержка пользователей и
администраторов ресурсов
- координация региональных
ресурсов
59
Мониторинг узлов EGEE
60
Участие России в проекте EGEE
В целях обеспечения полномасштабного
участия России в этом проекте был
образован консорциум РДИГ
(Российский ГРИД для интенсивных
операций с данными – Russian Data
Intensive GRID, RDIG) для
эффективного выполнения работ по
проекту и развитию в России
инфраструктуры EGEE, с
вовлечением на следующих этапах
проекта других организаций из
различных областей науки,
образования и промышленности.
Консорциум РДИГ, согласно принятой в
проекте EGEE структуре, входит в
проект в качестве региональной
федерации “Россия” (“Russia).
Сейчас в РДИГ (http://www.egee-rdig.ru) входят 15 институтов
(в 2004 году - 8)
61
Распределение время/регион
62
Распределение задания/регион
63
Распределение по России
64
Полезные ссылки
•
•
•
•
•
http://www.eu-egee.org - проект EGEE-III
http://www.egee-rdig.ru/ - RDIG консорциум
http://egee.pnpi.nw.ru/ - ПИЯФ РАН
http://rocmon.jinr.ru:8080/accounting/ - мониторинг RDIG
http://www.gridclub.ru/ - GRIDCLUB.RU :: Интернет-портал по
грид-технологиям
• http://egee.sinp.msu.ru - НИИЯФ МГУ
65
Спасибо за внимание
66
Download