job - Indico

advertisement
Enabling Grids for E-sciencE
WMS (Workload Management
System)
Бережная А.Я.
Институт физики высоких энергий
г.Протвино
www.eu-egee.org
EGEE-II INFSO-RI-031688
Использование заданий для запуска
приложений
Enabling Grids for E-sciencE
• Задание (job) – это средство для запуска приложений в Грид
• Информация, которая должна быть определена, когда задание
должно быть запущено в Грид
– Характеристики задания
– Требования задания и условия на вычислительные ресурсы
 Включая требования на программное обеспечение
– Требования к данным
• Эта информация определяется при помощи Job Description
Language (JDL)
– Основан на CLASSified ADvertisement language (ClassAd) из
проекта Condor
 ClassAd – последовательность атрибутов, разделённых (;)
EGEE-II INFSO-RI-031688
Protvino, Introduction to Grid Computing, 27.06.2007
2
Как это работает? Основные компоненты.
Enabling Grids for E-sciencE
User Interface (UI):
Место, откуда пользователь вошёл в Грид
Resource Broker (RB): Сопоставляет пользовательские требования
и доступные ресурсы Грид
Computing Element (CE): Очередь на выполнение заданий на том
кластере, где будет выполняться задание
Storage Element (SE): Сервер хранения данных, где сохраняются
Грид файлы (чтение/запись/копирование) или их реплики.
Information System: Характеристики и статус для CE иSE
(Используя “GLUE schema”)
EGEE-II INFSO-RI-031688
Protvino, Introduction to Grid Computing, 27.06.2007
3
EGEE/LCG Workload Management System
Enabling Grids for E-sciencE
• Пользователь управляет заданиями через подсистему
управления загрузкой (Workload Management System - WMS);
• Основная задача WMS - планирование и управление
распределенными ресурсами в системе Grid;
• Что может пользователь?
– Посылать задачи на выполнение;
– Выполнять задачи на наиболее подходящих для этого ресурсах (WMS
автоматически оптимизирует использование ресурсов);
– Получать информацию о состоянии задач;
– Получать результаты выполнения задач.
EGEE-II INFSO-RI-031688
Protvino, Introduction to Grid Computing, 27.06.2007
4
Сервисы и запуск заданий
Enabling Grids for E-sciencE
“User
interface”
Input “sandbox”
Output “sandbox”
DataSets info
Replica
Catalogue
Information
Service
Resource
Broker
Logging &
Book-keeping
EGEE-II INFSO-RI-031688
Publish
Job Query
Job Submit Event
Author.
&Authen.
Storage
Element
Job Status
Computing
Element
Protvino, Introduction to Grid Computing, 27.06.2007
5
Выполнение задания
Enabling Grids for E-sciencE
SUBMITTED - задание послано
пользователем, но пока не
обработано Network Server
WAITING - задание принято Network
Server, но ещё не обработано
Workload Manager
READY - заданию назначен Computing
Element, но оно туда ещё не передано
SCHEDULED - задание ожидает в
очереди на Computing Element
RUNNING - задание выполняется
DONE - задание завершилось
ABORTED - задание снято WMS (т.к.
слишком долгое, срок действия
сертификата истёк, и т.п.)
CANCELLED - задание снято
пользователем
CLEARED - Output Sandbox передан
на User Interface
EGEE-II INFSO-RI-031688
Protvino, Introduction to Grid Computing, 27.06.2007
6
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Information
Service
Workload
Manager
Job Contr.
CondorC
Характеристики.
и статус CE
Computing
Element
EGEE-II INFSO-RI-031688
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
7
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
submitted
Information
Service
Workload
Manager
UI: позволяет
пользователям получить
доступ к
функциональности WMS
(CLI, GUI,
C++ и Java APIs)
Computing
Element
EGEE-II INFSO-RI-031688
Job
Status
Job Contr.
CondorC
Характеристики.
и статус CE
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
8
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
submitted
Information
Service
Workload
Manager
edg-job-submit myjob.jdl
Job Description Language
(JDL) определяет
характеристики и
требования задания
myjob.jdl
JobType = “Normal”;
Job Contr.
Executable = "$(CMS)/exe/sum.exe";
InputSandbox = {"/home/user/WP1testC","/home/file*”,
"/home/user/DATA/*"};
OutputSandbox = {“sim.err”, CondorG
“test.out”, “sim.log"};
Requirements = other. GlueHostOperatingSystemName == “linux" &&
Характеристики.
other.GlueCEPolicyMaxWallClockTime > 10000;
и статус CE
Rank = other.GlueCEStateFreeCPUs;
Computing
Element
EGEE-II INFSO-RI-031688
Job
Status
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
9
Запуск задания
Enabling Grids for E-sciencE
UI
NS: сетевой сервис,
ответственный за прием
входных запросов
Задание
Network
Server
RLS
RB узел
Job
Status
submitted
waiting
Файлы из
Input Sandbox RB
storage
Information
Service
Workload
Manager
Job Contr.
CondorC
Характеристики.
и статус CE
Computing
Element
EGEE-II INFSO-RI-031688
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
10
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
WM: ответственен за Job Contr.
выполнение действий
для удовлетворения CondorC
запроса
Computing
Element
EGEE-II INFSO-RI-031688
Information
Service
Workload
Manager
Характеристики.
и статус CE
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
11
Запуск задания
Enabling Grids for E-sciencE
Job
Status
RLS
UI
Network
Server
RB
storage
Workload
Manager
RB узел
submitted
MatchMaker/
Broker
waiting
Information
Где должно выполняться
Service
это задание ?
Job Contr.
CondorC
Характеристики.
и статус CE
Computing
Element
EGEE-II INFSO-RI-031688
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
12
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB
storage
Workload
Manager
Job Contr.
CondorC
RB узел
submitted
MatchMaker/
Broker
waiting
Information
Service
Matchmaker: отвечает
за
поиск “лучшего” CE, где
будет выполняться
задание
Характеристики.
и статус CE
Computing
Element
EGEE-II INFSO-RI-031688
Job
Status
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
13
Запуск задания
Enabling Grids for E-sciencE
Где (на каком SE),
необходимые
данные?
UI
Network
Server
RB
storage
RB узел
submitted
MatchMaker/
Broker
waiting
Information
Service
Workload
Manager
Какой статус у
Грид-ресурсов
Job Contr.
CondorC
Характеристики.
и статус CE
Computing
Element
EGEE-II INFSO-RI-031688
Job
Status
RLS
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
14
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB
storage
Workload
Manager
RB узел
Job
Status
submitted
MatchMaker/
Broker
waiting
Information
Service
Выбор CE
Job Contr.
CondorC
Характеристики.
и статус CE
Computing
Element
EGEE-II INFSO-RI-031688
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
15
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
Workload
Manager
Information
Service
Job
Adapter
Job Contr.
CondorG
Computing
Element
EGEE-II INFSO-RI-031688
JA: ответственен за окончательную
Характеристики. Характеристики
“доводку” задания
перед
и статус SE
и статус
CE
процедурой запуска (напр. создание
wrapper скрипта, и т.п.)
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
16
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
Information
Service
Workload
Manager
ready
Job Contr.
CondorC
JC: ответственен за
операции управления
заданием (через
Computing
CondorC)
Element
EGEE-II INFSO-RI-031688
Характеристики.
и статус CE
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
17
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
CE получает
запрос и посылает
задание на
выполнение LRMS
Файлы из
Input Sandbox
Computing
Element
EGEE-II INFSO-RI-031688
Information
Service
Workload
Manager
Job Contr.
CondorC
Задание
ready
scheduled
Характеристики.
и статус CE
Характеристики
и статус SE
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
18
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
Information
Service
Workload
Manager
Job Contr.
CondorC
LRMS управляет
выполнением
задания
ready
scheduled
running
Доступ к данным
“через Грид”
Computing
Element
EGEE-II INFSO-RI-031688
Storage
Element
Protvino, Introduction to Grid Computing, 27.06.2007
19
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
Файлы из
Output Sandbox
Information
Service
Workload
Manager
Job Contr.
CondorC
ready
scheduled
running
Computing
Element
EGEE-II INFSO-RI-031688
Storage
Element
done
Protvino, Introduction to Grid Computing, 27.06.2007
20
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
Information
Service
Workload
Manager
edg-job-get-output <job-id>
Job Contr.
ready
scheduled
CondorC
running
Computing
Element
EGEE-II INFSO-RI-031688
Storage
Element
done
Protvino, Introduction to Grid Computing, 27.06.2007
21
Запуск задания
Enabling Grids for E-sciencE
RLS
UI
Файлы из
Output Sandbox
Network
Server
RB узел
Job
Status
submitted
waiting
RB
storage
Information
Service
Workload
Manager
Job Contr.
CondorC
ready
scheduled
running
Computing
Element
Storage
Element
done
cleared
EGEE-II INFSO-RI-031688
Protvino, Introduction to Grid Computing, 27.06.2007
22
Download