Применение распределенных вычислительных систем при

advertisement
Применение распределенных
вычислительных систем при
определении параметров
сейсмической анизотропии коры и
верхней мантии
к.т.н. Мишин Дмитрий Юрьевич
Геофизический центр РАН,
Институт космических исследований РАН
Современные проблемы хранения
и доступа к геофизическим данным
• Повторяющиеся задачи создания (сверхбольших) баз
данных для новых геофизических продуктов
• Необходимость обеспечения скорости доступа,
достаточной для интерактивного анализа любой выборки
из массива геофизических данных
• Данные не должны удаляться или перезаписываться.
Флаги: происхождение и история изменения,
аккредитация, качество, тип
• Многоуровневые распределенные хранилища метаданных
(предметный каталог, пространственно-временное
распределение, автоматический заказ и обработка)
• Функционально насыщенные сервисы данных,
поддерживающие выборку, обработку и поиск данных,
расположенные близко к хранилищу данных
Современные проблемы хранения и
доступа к геофизическим данным (2)
• Обобщенные семантически модель данных и отвечающий
ей язык запросов для разнородных наборов геофизических
данных (классы данных: наблюденные и модельные
данные на станциях, на координатных сетках, траекториях;
электронные карты, изображения и данные
дистанционного зондирования)
• Распределенные алгоритмы для балансировки загрузки
сети/баз данных
• Сценарий обработки геофизических данных: экспорт –
моделирование – визуализация – сохранение. Опорные
веб-сервисы базовых сертифицированных наборов
геофизических данных и моделей
• Интеграция с сервисами электронных карт MS Virtual Earth,
Google Maps, WMS и научными визуализационными
библиотеками
Развитие компьютерного хранения
и обработки данных
Грид:
«Грид (Grid) - это согласованная, открытая и
стандартизованная среда, которая обеспечивает гибкое,
безопасное, скоординированное разделение ресурсов в
рамках виртуальной организации.» (Я. Фостер, К.
Кессельман)
• Инфраструктура: каналы связи, вычислительные центры и
центры данных
• Промежуточное программное обеспечение: виртуальная
среда для запуска задач, компоненты мониторинга,
хранилища данных, компоненты передачи данных, система
безопасности с поддержкой виртуальных организаций
• Набор соглашений между научными центрами о
распределении ресурсов
Участие в EGEE III
(Enabling Grids for E-sciencE)
• В настоящее время в проекте EGEE участвуют 90 ведущих
организаций из 32 стран, включая российский сегмент RDIG
• Российская национальная виртуальная организация для Наук о
Земле – eEarth, в которую входят ГЦ РАН, ИФЗ РАН, ИКИ РАН
• Совместные работы с европейской виртуальной организацией
по наукам о Земле ESR (Earth Science Research), в которую
входят ведущие геофизические и климатологические научные
центры
• Перенос сейсмологических моделей на промежуточное
программное обеспечение Грид gLite
• Разработка приложений для добычи данных об окружающей
среде, основанных на среде OGSA-DAI, распределенном CDM
хранилище ActiveStorage для временных рядов и ESSEпоисковике событий в терминах нечеткой логики
Сервисы информационных
моделей и потоков данных в Грид
REST и SOAP
Шаблоны запросов
Метаданные.
Виртуальная
обсерватория
OGSA-DAI
Грид-сервисы и
анализ данных
JDBC,
Файлы,
сервисы
Активное хранилище
и другие источники
NetCDF и
NcML
WMS, WCS
 Virtual Earth
Google Earth
Nasa World Wind
KML и
tile серверы
Сейсмические,
погодные,
космические
модели
Интеграция источников данных по
окружающей среде в Грид
Мировые центры данных:

SPIDR (Space Physics Interactive Data Archive)
С 1815 года по н.в.
~120 параметров, ~0.5 TB

Космическая
погода
NOAA CLASS (Comprehensive Large Array-data Stewardship System)

Спутниковые снимки, ~1.2 PB, растет ~0.5 PB в год



С 1992 года по н.в.
Спутниковые снимки ~100 спектральных каналов
Дистанционное
зондирование
Спутниковая телеметрия
NOAA и ECMWF

NCEP/NCAR реанализ погоды, ~1 TB
С 1950 года по н.в. Погодные параметры на регулярном гриде, шаг 2.5 градуса


ERA40 реанализ погоды, ~2 TB
С 1957 года по н.в. Погодные параметры на регулярном гриде, шаг 1 градус


NWS прогноз погоды
Климатические
данные
Погодные параметры на регулярном гриде, шаг 1 градус


NCDC Метеорологические наблюдения
С 1901 года по н.в. , 122 GB база данных, 400 GB файлов
30 миллионов сенсоров, 1.7 миллиарда наблюдений, 20000 станций

Мировые центры данных:

Электронные карты
Геология и разломы, сейсмические каталоги, топография и батиметрия
Сотни слоев, ~0.5 TB

Твердая Земля
Виртуальная Обсерватория –
информационный метаресурс
View Data
Data
Source
Data
Source
Data
Source
Meta DB
<XM>
Search Metadata
Search
Result
User
Virtual Observatory
Data
Source
Виртуальная обсерватория – приложение
для научных информационных метаресурсов, объединяющее в себе
метаданные о существующих данных,
Интернет-ресурсах и программных
средствах, используемых в одной
предметной области
Пользователь ВО может получить
представление о происходящем в
предметной области, о новостях,
разрабатываемом программном
обеспечении, о новых и архивных данных,
об открывшихся и давно существующих
ресурсах, произвести сквозной текстовый
поиск, или поиск по координатам или
времени, получив информацию даже о
самых малоизвестных ресурсах,
удовлетворяющих условиям поиска
Виртуальная обсерватория система работы с XML метаданными
• VxOware – ПО с открытым исходным кодом
(src@sourceforge)
• Ключевые компоненты:
1) Web-приложение;
2) REST сервисы;
3) native XML база данных;
4) Хранилище индексированных объектов (документы,
изображения, …)
• XML: поддержка catalog-level схем метаданных: FGDC,
ECHO, SPASE, NGDC, Ordering Extensions
• Распределенный поиск метаданных в федерации ВО через
REST сервисы
• Web 2.0 функции для совместной работы: вебредактирование, отношения, tagging, ranking,
пользовательские комментарии, и т.д.
Проблема хранения пространственновременных геофизических данных
Общая модель данных (Common Data
Model) – это структура для хранения
значений параметра в различные
моменты времени на регулярном гриде,
в указанных координатах (точки или
станции) или пространственновременных траекториях.
Взрыв
индексного
пространства
t
lon
lat
A)
MySQL
базы
данных,
19982007
B)
Активное хранилище для
Common Data Model, MS SQL
Server 2 TB климатических
данных, 2008-2009
Преимущества CDM
Модель данных в виде многомерного массива, чаще используемая в
геофизике, чем связанные реляционные таблицы
Обобщает разнообразие схем реляционных баз данных для хранения
массивов
Поддерживает стандартные конвенции и форматы хранения данных
Легкость трансформации в бинарный формат (NetCDF), XML (NcML) и
обратно
Совместимость с API, библиотеками и программами для чтения и
визуализации NetCDF
Предоставляет язык запроса и обработки многомерных данных,
сравнимый с SQL
Скорость доступа к данным с
использованием Грид-сервиса при
различной геометрии запроса
air (4D array)
1,8
1,6
1,4
Time, s
1,2
SINGLE
1
MULTI
0,8
NCEP_G
0,6
NCEP_FULL
0,4
0,2
0
1
2
3
4
5
Query
< Space | Tim e >
6
7
Архитектура Грид-сервисов геофизических
данных
Определение анизотропных сейсмических
свойств литосферы и верхней мантии на основе
инверсии волновых форм поперечных волн.
Анизотропные параметры определяются по
двум группам данных: волновым формам SKS
и обменных волн. Среда под станцией
моделируется пачкой плоских слоёв на
полупространстве.
Моделирование проводилось на
синтетических примерах и реальных данных
(Тянь-Шань).
CRF (m) 
1
t 2  t1
(i )
N RF t 2
  (
i 1 t ( i )
1
obs
(t , i )   syn (t , i ; m)) 2 dt ,
(i )
1
CSKS (m) 
t 2  t1
N SKS t 2

2
(
T
(
t
,

)

T
(
t
,

;
m
)
)
dt.
 obs i syn i
i 1 t ( i )
1
Целевые функции обменных волн (RF) и волн SKS определяются как
среднеквадратичное отклонение наблюдений (obs) от
соответствующих расчетов (syn) для вектора модели m.
Определение анизотропных сейсмических
свойств литосферы и верхней мантии на основе
инверсии волновых форм поперечных волн.
Благодаря использованию Грид, решена обратная
геофизическая задача путем исследования всего
пространства параметров многомерной целевой функции.
Была реализована процедура нахождения и исследования
глобального экстремума целевой функции, проведен
анализ согласованности различных групп данных и
проведена геофизическая интерпретация результатов
моделирования.
Функции распределения
по азимутам для станций
Запуск параллельных сейсмических задач в
среде Condor
Использование среды управления параллельными вычислениями
Condor позволяет использовать преимущества Грид-среды на
стандартных клиентских компьютерах под управлением MS Windows
J o b in p u t
file s
W o rk n o d e 1
C lie n t
J o b in p u t file s
+ c o n tro l file
W o rk n o d e 2
C o n d o r jo b
m anager
Tasks
...
J o b re s u lts
W o rk n o d e n
Download