Сервисно-ориентированная астрономия

advertisement
Сервисно ориентированная наука:
SOS или СОН
Общество
стало другим
Общество стало другим
• Информационное общество
– главные продукты производства — это
информация и знание
– Основа капитализация компании — это
знание. Основной вопрос — как накопить
знание и обмениваться знанием
– CEO, СTO, CIO — senior information officer
– NSF-Knowledge management
– Цифровое поколение
– NSF- CDI, изучение базовых элементов
инфраструктуры киберобщества.
Наука стала
другой
Наука стала другой
• eScience — составная часть
информационного общества - синтез
науки и информатики
– роль информации и ее обработка
становится доминирующей
• Переход на e-стадию — реальная
ситуация, которая затронула много наук,
оперирующих громадными объемами
информации
– физика (эл. частицы и высоких энергий,
науки о земле, погода, астрономия,
социология, медицина, биология
Наука стала другой
• eScience — глобальная коллаборация
• Коллаборация людей и ресурсов,
необходимых для решения новых задач
науки и промышленности
• Это технология, инфраструктура
– физика — Grid (Open Grid)
– астрономия — VO (Virtual Observatory)
– биология — биоинформатика
Наука стала другой
• Другой «шаблон» работы в науке:
коллективность, узкая специализация …
• Административная и финансовая
научная политика:
«Early Science» — «Быстрая наука»
• Очень много информации/данных
(распределенной)
Новый «шаблон» работы в науке
• Коллективность
• Узкая специализация
• Ограниченный кругозор
Например,
Другой
Следствие
программисты:
предыдущего:
— ученые:
Выписка
из пример
правил
оценки
научных
• обработка
Системныесырых
администраторы
данных (человек - прибор)
ИТЭФ:…)систем);
60 •лет
(стандартное
создатели
назад достижений
—приборов
читали
железо
все
(установок
и поддержка
вышедшие
статьи;
40 •лет
Программирование
экспериментаторы
назад — все статьи
устройств;
по теме + абстр. РЖ
Категории
статей:
Программирование
специалисты
статистики
интерфейсов;
20 •18.5.
лет
назад
—повсе
абстр.
по теме + нек. статьи;
1 категорияпо
— статистике
до БД;
100 авторов;
• специалисты
Программирование
2написанию
категория
—
от 100
300далее
авторов;
• по
Численные
методы;
статей
… до
и так
А
что
и
как
читают
сегодня?
3 категория
— от 300 до 500 авторов;
• Научное
моделирование;
4 категория
— от 500
• Обработка
данных;
… иавторов.
так далее
Административная и финансовая политика
«Early Science»
ПИАР2
ПИАР!
Добиться
принятия
проекта
Предложить
идею
Кто будет
наблюдать?
ПИАР
Изучить
данные
Успеть
опубликовать!!
!
Обработка
данных
«Сырые
» данные
Что наблюдать?
Провести
наблюдения
«Запуск»
Очень много
информации!
(на примере астрономии)
Астрономия стала всеволновой
Дипольные антенны
Не электроПараболические антенны
магнитное
излучение
Нейтринные телескопы:
(Солнце,
SN 1987A)
Электро-
Болометры
магнитное
Гравитационные
антенны
излучение
(начинают работать)
Телескопы-рефлекторы
Космические лучи
Зеркала косого падения
Кодирующие маски
Атмосферные
черенковские телескопы,
Широкие атмосферные
ливни
Астрономия стала всеволновой
Астрономия стала всеволновой
Астрономия обзавелась историей
Ряды наблюдений:
• двойной пульсар PSR1913+16
(“Нобелевский лауреат”) — 33 года
• некоторые переменные звезды —
до 150 лет (фототека ГАИШ — первые с
1872, регулярные — с 1895)
• остальные — неоднородные ряды
в 10-15-20 лет в разных диапазонах
Астрономия стала широкопольной
(много данных с одного снимка)
Стало очень много данных !
Hubble Space Telescope
•
•
•
•
15 years of operation
700,000 pictures ~ 20.000 objects
15Gb of data per night
Storage – 25 Tb ~ 2 library of Congress
\
First light schedule: Spring, 2014
Primary mirror diameter: 8.40 m
Pixel count: 3.2 Gpixels
Whole sky survey: 3 nights
• Nightly data generation rate
– Raw pixel data: 15 Tbytes (16 bit)
– Image through pipelines: 30 Tbytes raw science
(32 bits) + 108 TB (32 bit) intermediate images
– Archived images + metadata: 15 + 1 Tbytes
(32 bits compressed to 16 bits)
– Catalogs (transient phenomena): 1 Tbyte
(32 bits compressed to 16 bits)
Science Missions:
• Yearly data archive rate (average)
Dark energy
– Images: 6.5 Pbytes
Solar system survey
– Catalogs: 6.5 Pbyte
Optical transients
Galactic map
– Metadata: 0.5 Pbytes
Size of Databases
• Tycho Brahe's notebooks
– (1570-1601) ~ 500Kb
• Palomar Observatory Sky Survey
– 1950 – 10 Gb
• Sloan Digital Sky Survey
– 2007 – 3 Tb (метаданные)
• Large Synoptic Survey Telescope
– 2014 – 6.5 Pb per year (метаданные)
Стало очень много данных
(Научная политика)
Данные всех астрономических
экспериментов NASA, ESA и (частично) ESO
и становятся полностью открытыми через
1 год (максимум через 2) после их получения
Аналогичная политика для данных больших
наземных оптических телескопов
России проводится КТБТ (бывший КТШТ).
Данные становятся распределенными
•
•
•
•
Причины:
Нельзя всё хранить в одном месте
(слишком большой объем)
Резервирование
Скорость доступа
«Физические» причины
Данные становятся распределенными
«Физические» причины: SNAP
SN Ia 2006X in M100
Expansion of Universe
More distant SN Ia, better
accuracy !!!
2000 SN Ia/yr, z=2
Данные становятся распределенными
«Физические» причины: SNAP
Параметры:
1. Поле зрения ~7.5 градусов
2. Размер матрицы — 600 мегапикселей
3. Нет обработки на борту
4. Прямая передача данных на Землю
(мало памяти на борту)
Следствие:
Данные сбрасываются в несколько мест.
Что делать ?
• Старый подход «скачать все к себе на
компьютер и обработать» не работает !
– трудно собрать (много разных архивов)
– трудно хранить (много места, сохранность
данных)
– трудно обработать (разные форматы ,
производительность)
– трудно актуализировать (данные меняются)
– Очень дорого (трафик, стоимость
носителей)
Ограничения
со стороны
компьютеров
и интернет
Ограничения со стороны компьютеров
Законы «Мура»
Ограничения видны!
•
Число транзисторов в микросхемах:
удваивается за 2 года (~30 раз за 10 лет)
•
Нет ограничений
Объемы памяти (RАМ):
удваиваются за 2 года (~30 раз за 10 лет)
•
Объемы дисков (HDD):
удваиваются за 1.5 года (~100 за 10 лет)
•
Скорость передачи данных:
удваиваются за 2 года (~30 раз за 10 лет)
Ограничения далеко
Ограничения со стороны компьютеров
Законы «Мура»
•
Число транзисторов в микросхемах:
удваивается за 2 года (~30 раз за 10 лет)
•
Объемы памяти (RАМ):
удваиваются за 2 года (~30 раз за 10 лет)
Выходы:
• Объемы дисков (HDD):
1. Квантовый
Когда
размер
удваиваются за 1.5 годакомпьютер;
(~100 за 10 лет)
=
2. Параллелизм:
• размеру
Скорость
передачи данных:
атома
• «монолитный»
удваиваются за 2 года (~30
раз за 10 лет)
• Grid
Архитектура программ
• Монолитные программы,
Многопользовательские программы
• Клиент-Сервер
• Распределенные системы
– RPC (Unix) — удаленный вызов процедур
– RMI (Java, SUN) — удаленный вызов
методов
– COM/DCOM (Windows, Microsoft)
– CORBA — (OMG)
• Проблемы со стандартизацией
интерфейсов !
Общение и обмен данными —
70-е годы прошлого века
Email:@address, text, smtp
Общение и обмен данными —
90-е годы прошлого века
WWW
URI,HTML,HTTP
TEXT
•URI - Universal
Resource Identifier
•HTML - Hypertext
Markup Language
•HTTP — Hypertext
Transfer Protocol
Email:@address, text, smtp
Общение и обмен данными —
начало 21 века
•RDF — Resource
Description Framework
•RDF(s) — RDF Schema
•OWL — Web Ontology
Language
WWW
Semantic Web
URI,HTML,HTTP
TEXT
RDF,RDF(s),OWL
ДАННЫЕ
Email:@address, text, smtp
Общение и обработка данных
— начало 21 века
Web Services
UDDI, WSDL,SOAP
ПРОГРАММЫ
•UDDI -Universal
Description, Discovery
and Intergration
•WSDL — WS
Description Language
•SOAP — Simple Object
Access Protocol
WWW
Semantic Web
URI,HTML,HTTP
TEXT
RDF,RDF(s),OWL
ДАННЫЕ
Email:@address, text, smtp
Web Services
•
•
•
•
Это программа, приложение
Запускается через интернет
Его описание доступно через интернет
Как ее запускать описывается в WSDL
файле, внутреннее устройство скрыто
• Результаты доступны как SOAP
сообщение
• Обеспечивает межмашинное взаимодействие
через сеть
Web Services
• Веб-сервисы можно рассматривать как
подпрограммы. Отличия:
– веб-сервис— исполняемый код
– веб-сервис — распределенный код
– унифированный интерфейс
– унифицированные протоколы
• Веб-сервисы - «кубики лего» для
создания сложных веб-сервисов
SOA
• SOA (service-oriented architecture):
сеть слабосвязанных взаимодействующих
сервисов, например, web-сервисов.
• Макро-взгляд на компьютерные вычисления создание новых систем используя старые
системы.
Web Services Architecture
WS composition
WS
WS
Collaboration
Process Flow
WS
WS
ORCHESTRATION
BPEL4WS
WS
WS
CHOREOGRAPHY
WSCI
Использование WS
Человек нужен для постановки задачи и принятия
решения использовать сервис. Счастье наступит
когда программа сама сможет это сделать. Нужна
семантика !
WEB - unversal medium for data,
information, and knowledge exchange.
Счастье !
Web Services
ПРОГРАММЫ
ДАННЫЕ
UDDI, WSDL,SOAP
ПРОГРАММЫ
WWW
Semantic Web
URI,HTML,HTTP
TEXT
RDF,RDF(s),OWL
ДАННЫЕ
Email:@address, text, smtp
Virtual Observatory
Счастье для астронома
• Технология, которая призвана доставить
астроному любые данные, независимо
от их расположения и методов хранения
• Базируется на SOA + астрономические
стандарты и соглашения
• Позволяет автоматизировать рутинные
процедуры — от технологии «клик» к
взаимодействию программных агентов
• WWT — Word Wide Telescope, телескоп,
который не зависит от погоды !
Виртуальная Обсерватория
проблемы и потребности
• Где и какие серверы есть?
• Создание сложных сервисов
• Создание сложных запросов
(заданий)
• Учет особенностей и
потребностей астрономии
• Описание ресурсов
(каталогов, содержания БД)
• Авторские права
• Платные ресурсы
• Политика доступа
• Real-time web-сервисы
• Мультиверсионность
Нужен реестр
Библиотеки сервисов
Язык заданий: BPEL
(Business Process Execution Lang.)
Стандарты
UCD (Unified Content
Descriptors)
Ещё не решенные
проблемы
.
.
.
Виртуальная Обсерватория: UCD
Зачем нужен UCD?
μ (собственное движение)
Сколько у него
различных
обозначений?
более 300
В каких единицах
измеряют расстояние?
• сантиметры
• метры
• километры
• мили
• километры в секунду
• А.Е.
• световые секунды
• световые годы
• парсеки
• килопарсеки
• мегапарсеки
•...
Архитектура Виртуальной Обсерватории
Обучение VO
Какие ресурсы доступны в VO ?
Практически все крупные архивы данных
АСТРОНЕТ.RU
Астронет в картинках
Астронет в картинках
SAI CAS Catalogs
• vo.astronet.ru/cas
• ConeSearch Service (VOTable, CSV):
– USNO B1 – 1 миллиард
– 2MASS xsc - 1.6 миллионов
– 2MASS psc - 250 миллионов
– Tycho2
- 2.5 миллионов
– UCAC2
- 50 миллионов
– NOMAD
- 1.2 миллиарда
– DENIS
~ 100 миллионов
– others ...........
• SDSS DR5 - 300 миллионов (2Tb)
Linux 2.6.15 SMP, HP rx1620, Dual Itanium 2 1.6 GHz, 8Gb RAM,
SmartArray 64XX HP controller, MSA 20, SATA-I 6 Tb,
Астронет в картинках
Астронет в картинках
Астронет в картинках
●
Астронет
в
цифрах
Всего в базе данных зарегистрировано
(июль 2007 года)
–
54211 документов (включая версии)

●
новости, статьи, книги, энциклопедии, обзоры,
обсуждения, атласы
–
621692 индексируемых фрагментов
–
поиск по 4,629,798 документов/1026 сайтов
–
>4,000,000,000 объектов (6 Тб)
–
>1Tb - DSS архив
Доступ к данным
–
HTTP – веб-интерфейс
–
SOAP – веб-сервисы
Астронет в цифрах
●
Всего компьютеров и рабочих станций
–
●
Процессоры
–
●
26/25 Ггц
Память (RAM)
–
●
18
30 Гб
Дисковое пространство
–
77/21 Тб
Астронет в цифрах
●
●
Посещаемость (http://www.astronet.ru/stat)
–
все роботы исключены
–
181,000 уникальных IP адресов (май 2007)
–
300,000 визитов в месяц
–
2,000,000 страниц в месяц (картинки не
считаются)
Внешние оценки
–
Индекс интернет-цитируемости – 3700
–
Место в каталоге Яндекс
в разделе Наука – 17 из 3425
 в общем – 381 из 79573

Заключение
• Узкое место - доступ к данным
• не качество каналов связи
• не доступность архивов
• а совместимость информационной
инфраструктуры российской науки и
международного сообщества
• Сервисно-ориентированная архитектура
дает возможность интеграции
Что делать?
• Поддерживать и пропагандировать
исследования по SOA.
• Поддерживать практические разработки.
• Разрабатывать удобные инструменты
работы в SOA системах.
• Планировать архитектуру будущих
проектов, не забывать старые данные
• Обучать студентов !!!
Спасибо за
Внимание !
Download