Приближая ночное небо: открытия в шквале данных

advertisement
ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА
[7] A. D. Chave, B. St. Arnaud, M. Abbott, J. R. Delaney, R. Johnson, E. Lazowska, A. R.
Maffei, J. A. Orcutt, and L. Smarr, «A management concept for ocean observatories
based on web services», Proc. Oceans’04/Techno-Ocean’04, Kobe, Japan, Nov. 2004,
p. 7, doi: 10.1109/ OCEANS.2004.1406486.
Приближая ночное небо:
открытия в шквале данных
АЛИСА А.
ГУДМАН (ALYSSA
A. GOODMAN)
Harvard University
КЕРТИС Г. ВОНГ
(CURTIS G .
WONG)
Microsoft Research
А
строномы привыкли к информации, которая падает с
неба. Теперь возможность сохранения данных о небе
«в облаках» предлагает вдохновляющие новые методы доступа распределения, использования и анализа
данных, как в исследованиях, так и в образовании. Здесь мы
рассматриваем три взаимосвязанных вопроса: (1) Какие тенденции мы видели и вскоре увидим благодаря растущим объемам данных и изображений с телескопов? (2) Как мы будем
решать задачу поиска пресловутой иголки в стоге сена этих
данных для продвижения научных открытий? (3) Какие возможности визуализации и анализа нас ожидают в будущем?
ТЕНДЕНЦИИ РОСТА ДАННЫХ
Астрономия имеет историю сбора данных, уходящую корнями как минимум до эпохи Стоунхенджа — а это более трех
тысяч лет назад. Со временем формат информации, которая
регистрировалась астрономами, изменился с резьбы по камню до письменных записей и ручных набросков, а затем до
фотографий и цифровых носителей.
Хотя телескоп (изобретенный в 1600 г.) и открытие электромагнитного спектра за пределами длин волн, видимых
глазу человека (в 1940 г.) привели к качественным изменениям
природы астрономических исследований, они не увеличили
объема собираемых данных в такой мере, как это произошло
в цифровую эру.
Приборы с зарядовой связью (charge-coupled devices,
CCD), получившие широкое распространение в 1980-х гг., и
аналогичные датчики неоптических длин волн стали более
эффективными, чем традиционные аналоговые средства (на-
38
ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА
ЧЕТВЕРТАЯ ПАРАДИГМА
39
пример, фотографические пластинки). Это привело к продолжающемуся (и,
возможно, бесконечно ускоряющемуся) увеличению объема данных, доступных
астрономам. Растущие возможности и падающие цены на цифровые устройства, используемые в обработке сигналов, анализе данных и их хранении, в комбинации с расширением Интернета, сделали астрономию из наблюдательной
науки цифровой и компьютерной.
Например, Большой обзорный телескоп (Large Synoptic Survey Telescope,
LSST), строительство которого будет завершено в этом десятилетии, даст в первый год своей работы данных намного больше данных — 1,28 петабайт — чем
любой другой телескоп за всю историю существования телескопов. LSST достигнет этого за счет очень чувствительного CCD с огромным количеством точек
на относительно большом телескопе с очень быстрой оптикой (f/1,234) и широким полем обзора (9,6 квадратных градусов), а также за счет выполнения серии снимков с более короткой экспозицией (в сравнении с традиционными, с
более длинной экспозицией), которые могут использоваться для изучения поведения астрономических источников во времени. И в то время как LSST, решетка
астрономических телескопов Pan-STARRS и другие будущие астрономические
мега-проекты — многие из которых работают в неоптической длине волны —
будут создавать огромные наборы данных, охватывающих все небо, другие
группы и отдельные специалисты будут добавлять к ним свои меньшие, но потенциально более целевые наборы данных.
В следующей части этой статьи мы предположим, что задача управления
этим взрывоподобным ростом данных будет решена (скорее всего, за счет разумного использования «облачного» хранилища и новых структур данных), и
сфокусируемся на вопросе, как предлагать лучшие инструменты и новую техническую и социальную аналитику, которые позволят узнать нам больше о нашей
Вселенной.
Множество возникающих тенденций, включая краудсорсинг, демократизацию доступа при помощи новых браузерных технологий и растущую вычислительную мощность, может помочь нам искать «иглы в стогах сена» данных,
доступных в Интернете.
КРАУДСОРСИНГ
Слоуновский цифровой обзор неба (Sloan Digital Sky Survey) выполнялся для
получения снимков и измерения спектров миллионов галактик. Так как снимки
галактик автоматически исключались из широкоугольных изображений, обрезанных в автоматическом процессе, большую часть из них мы никогда не видели. Чтобы проверить заявление, что большая часть галактик вращается против
часовой стрелки, а не наоборот, команда Слоуна использовала пользовательский код для создания веб-страницы, которая предоставляла снимки галактик
желающим поиграть в онлайн-игру Galaxy Zoo, основной задачей которой является классификация направлений вращения галактик. В этой игре продуманные
40
ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА
алгоритмы показывают одну и ту же галактику различным пользователям как в
качестве справочного образца, так и чтобы проверить точность игроков.
Результаты сводной классификации галактик широким сообществом за первый год работы были такими же точными, как и проводимые астрономами. За
первый год пользователи провели более 50 млн классификаций для миллиона
галактик, и заявление о преобладании право- или левостороннего вращения
было наконец опровергнуто. При этом Ханни Ван Аркель (Hanny Van Arkel),
школьный учитель из Голландии, обнаружил галактику, которая сейчас считается самой синей во Вселенной. Она была тщательно исследована основными
телескопами, включая радиотелескоп с очень большой антенной решеткой (Very
Large Array, VLA) и вскоре будет исследоваться Космическим телескопом Хаббла (Hubble Space Telescope).
ДЕМОКРАТИЗАЦИЯ ДОСТУПА ПРИ ПОМОЩИ НОВЫХ БРАУЗЕРНЫХ ТЕХНОЛОГИЙ
Время, необходимое для получения данных от любого астрономического объекта, пропорционально как минимум квадрату расстояния до этого объекта.
Поэтому любой сервис, который может накапливать пользовательские коллекции уже полученных изображений и данных, эффективно приближает ночное
небо. Использование архивных онлайн-данных, сохраненных в «облаке данных» упрощается при помощи новых программных инструментов, таких как
Microsoft WorldWide Telescope (WWT), который предоставляет интуитивно понятный доступ к снимкам ночного неба, полученным астрономами с использованием многих тысяч часов работы телескопов.
При помощи WWT (рисунок 1) любой желающий может перемещаться по
небу на длинах волн от рентгеновского излучения до радиочастот, а также рассматривать трехмерную модель Вселенной, созданную на основе реальных наблюдений, просто ради интереса. Любой пользователь может отметить необычное соответствие аспектов на разных длинах волны в одной и той же точке неба,
при помощи щелчка мыши увидеть все опубликованные статьи в журналах и
обсудить эту часть неба. Каждый желающий может подключить телескоп к компьютеру с установленным WWT и накладывать реальные, новые изображения
поверх онлайн-изображений этого же участка неба практически на любой длине волны. В своих исследованиях можно воспользоваться «маршрутами», составленными пользователями WWT. С появлением все большего количества таких
«маршрутов» WWT становится настоящим «небесным браузером». Исследователи будут перемещаться путями, которые соединяют объекты общего интереса,
объединяя идеи и людей. Переход от маршрута к маршруту будет подобен переходу между веб-страницами.
Но мощность WWT выходит далеко за пределы этой отдельной способности.
Он становится частью экосистемы онлайн-астрономии, которая ускорит прогресс «гражданской» и «профессиональной» науки в ближайшие годы.
ЧЕТВЕРТАЯ ПАРАДИГМА
41
лы и другие астрономы спрашивают в Интернете. Возможности сотрудничества
и образования действительно безграничны.
Роль WWT и подобных инструментов в сообществе профессиональной
астрономии продолжает расширяться. В частности, WWT уже стал лучшим из
методов доступа к обзорам неба в сравнении с любыми существующими профессиональными инструментами. WWT как часть действий по международной
«виртуальной обсерватории» бесшовно подключается к инструментам оценки
и исследований, к которым привыкли астрономы, чтобы дать красивый и контекстный обзор для информации, которая обычно подавалась частями. И он
уже начал восстанавливать целостный обзор данных, который использовался
астрономами до того, как цифровая эра разбила небо на огромное количество
мелких частей в несовместимых форматах.
РАСТУЩАЯ ВЫЧИСЛИТЕЛЬНАЯ МОЩНОСТЬ
РИСУНОК 1.
WorldWide Telescope показывает район туманности Тарантул вблизи Большого Магелланова Облака.
Изображение предоставлено Национальной оптической астрономической обсерваторией (National Optical
Astronomy Observatory)/Национальный научный фонд.
Компания Microsoft посредством WWT и Google посредством Google Sky создали среды интерфейса прикладного программирования (API), которые позволяют работать программному обеспечению просмотра неба внутри веб-страницы. Эти API упрощают создание всего, что угодно — от образовательной среды
для детей до сайтов «гражданской науки» и распределения данных для профессиональных научных исследований.
Благодаря API теперь легко внедрять такие инструменты, как Galaxy Zoo.
Поэтому теперь астрономические и образовательные сообщества отвечают за
повышение желания общества помогать в исследовании растущего притока данных. Студенты высших учебных заведений для совершения реальных открытий
о Вселенной сегодня могут использовать спутниковые данные, которые еще никто не анализировал, а не просто двигать блоки по наклонной плоскости на занятиях по физике. Астрономы-любители могут собирать данные по требованию
для заполнения информационных пробелов, о которых студенты, профессиона-
42
ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА
В течение 10 лет многоядерные процессоры увеличат массовую вычислительную мощность по сравнению с сегодняшней на два-три порядка. Как вся эта
компьютерная мощь поможет справиться со шквалом данных? Более быстрые
компьютеры, увеличенные хранилища и полоса пропускания безусловно позволят использовать современные методы для охвата более крупных наборов
данных. Кроме того, станут доступны совершенно новые методы обработки и
анализа данных. Например, техники компьютерного зрения уже используются
в бытовых цифровых фотоаппаратах с обнаружением и распознаванием лица в
качестве базовой функции.
Большая вычислительная мощность позволит нам сортировать и идентифицировать уникальные предметы, события и посторонние данные сразу при
их обнаружении и направлять их в гражданско-научные сети для подтверждения. За счет более качественных интерфейсов, которые смогут из работы сделать игру, может быть оптимизировано привлечение гражданских ученых к
сети оповещения для этой последней составляющей обнаружения. Интерфейсы
потенциально могут объединить подтверждение предметов человеком с глобальными сетями игр и симуляторов, где данные реального времени широко
распространены и встроены в обширные игры в реальном времени с большим
количеством игроков, которые бесшовно интегрируют правильную идентификацию предметов в лестницу достижений в игре. Такие игры смогут дать детям
возможность повысить свой социальный престиж среди других игроков, при
этом делая ценный вклад в науку.
ВИЗУАЛИЗАЦИЯ И АНАЛИЗ ДЛЯ БУДУЩЕГО
WWT представляет краткий обзор будущего. С расширением разнообразия и
масштаба собранных данных, программное обеспечение должно стать более
сложным в отношении доступа к данным, при этом становясь более интуитивным, настраиваемым и совместимым.
ЧЕТВЕРТАЯ ПАРАДИГМА
43
ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА
Методы улучшения таких инструментов, как WWT, скорее всего, будут связаны с более масштабной задачей улучшения использования инструментов визуализации и анализа данных во всех сферах — а не только в астрономии.
Задачи визуализации и анализа в науке очень схожи. Представьте, например,
астронома и специалиста по климату, работающих вместе. Они оба хотят изучить свойства физических систем, наблюдаемых в сферической системе координат. Оба хотят бесшовно перемещаться, например, между наблюдениями линии
спектра отдельных источников в некоторых особых положениях на сфере (например, изучать состав звездной атмосферы или СО2 в атмосфере Земли), контекстом этих положений на сфере, а также статьями в журналах и онлайн-обсуждениями этих феноменов.
Сегодня, даже в пределах отдельной дисциплины, ученые часто сталкиваются с множеством возможностей выполнения одной и той же подзадачи анализа,
но ни один из пакетов не содержит всех необходимых им задач. Для ученых или
специалистов по данным, сотрудничающих с учеными, будущее имеет потенциал разработки собственного программного обеспечения путем соединения компонентов модульных приложений по необходимости. Так, например, астроном
и климатолог могут использовать какую-то обобщенную версию WWT как часть
отдельной, пользовательской системы, которая соединит их избранные пакеты,
относящиеся к конкретной дисциплине или ученому, для решения таких задач,
как анализ линии спектра.
ВЫВОД
Вопрос, которые соединяет все три рассмотренные темы — как мы можем создать новые инструменты для астрономии, которые упростят процесс открытий в шквале данных? Ответ, скорее всего, заключается в соединении различных
существующих ресурсов — включая гражданских ученых, желающих помогать
в анализе данных; доступные браузеры изображений, подобные WWT; и более
приспособленные для пользователя инструменты визуализации, собранные из
общих компонентов. Этот метод, направленный на более бесшовное соединение
(и повторное использование) различных компонентов, в ближайшем десятилетии, скорее всего, станет общим для многих отраслей науки — а не только для
астрономии.
ССЫЛКИ
[1] WorldWide Telescope
http://www.worldwidetelescope.org
http://research.microsoft.com/en-us/projects/wwt/
http://research.microsoft.com/en-us/research/toys/worldwide-telescope.aspx
http://www.microsoft.com/ru-ru/devcenter/MRTelescope.aspx (рус.)
44
ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА
Оснащение Земли
приборами: Сети датчиков
следующего поколения и
экология
П
овышенная озабоченность глобальным изменением
климата и растущие во всем мире экологические проблемы говорят об острой необходимости улучшения
методов решения задач экологии. Существующие системы мониторинга окружающей среды большого масштаба,
с их низким пространственно-временным разрешением, не
только дороги, но и неспособны выявлять сложные взаимодействия между компонентами атмосферы и земной поверхности с точностью, достаточной для получения точных моделей экосистемы.
В особенности это применимо к горным районам с очень
сложной поверхностью, которые являются мировым источником пресной воды и шаблонов погоды. Количество данных,
необходимых для понимания и моделирования этих взаимодействий, настолько огромно (терабайты, и продолжает
расти), что ни одно из стандартных решений не позволяет
ученым легко управлять ими и анализировать их. Это быстро
привело к растущему мировому взаимодействию ученых-экологов и компьютерных ученых для системного решения этих
проблем и разработки решений датчиков и баз данных, которые позволят экологам проводить эксперименты следующего
поколения.
МИХАЭЛЬ
ЛЕНИНГ,
НИКОЛАС
ДЕЙВС, МАТИАС
БЕВЕЙ (MICHAEL
LEHNING,
NICHOLAS
DAWES, MATHIAS
BAVAY)
WSL Institute for Snow
and Avalanche Research
SLF
МАРК ПАРЛАНЖ
(MARC
PARLANGE)
École Polytechnique
Fédérale de Lausanne
СУМАН НАТ,
ФЕНГ ДЖАО
(SUMAN NATH,
FENG ZHAO)
Microsoft Research
ЧЕТВЕРТАЯ ПАРАДИГМА
45
Download