УДК 004.75 ТЕХНОЛОГИИ РАСПАРАЛЛЕЛИВАНИЯ В CLOUD

advertisement
УДК 004.75
ТЕХНОЛОГИИ РАСПАРАЛЛЕЛИВАНИЯ В CLOUD COMPUTING
Глоба Л.С., д.т.н.; Алексеев Н.А., к.т.н., Ермакова Е.А., Кушнир В.В.
Институт телекоммуникационных систем,
Национальный технический университет Украины "КПИ",
Украина, Киев
e-mail: lgloba@hotmail.com
Paralleling technologies using in Cloud Computing
Modern technologies that are used for services provision within Cloud Computing concept are
considered in the article. Two mean approaches to large-scale data processing organization such as
MapReduce and Dryad are compared.
В последние годы интенсивно развивается концепция Cloud Computing
(«вычислительное облако»). Многие компании приступили к внедрению Cloud Computing,
создавая новые «облачные» сервисы. Данная концепция дает возможность масштабировать
физические ресурсы и предоставлять к ним доступ через Интернет; при этом обработка и
хранение рассматриваются как сервисы. Важнейший принцип, лежащий в основе Cloud
Computing, – это масштабируемость, а технологии виртуализации позволяют внедрить его в
жизнь. Разумеется, что технология Cloud Computing непосредственно связана с обработкой
больших объёмов данных. В докладе рассматриваются современные технологии, которые
используются для распараллеливания процессов обработки данных при предоставлении
услуг в технологии Cloud Computing.
Еще до недавнего времени для организации параллельных вычислений широко
использовались такие технологии как OpenMP, MPI. Для анализа эффективности данных
технологий ранее проведен эксперимент с использованием библиотеки OpenMP [1]. Для
сравнительной оценки использования двух библиотек: OpenMP и MPI, проведен
эксперимент по анализу времени выполнения параллельной программы вычисления числа
Пи. Результаты показали, что реализованная при помощи MPI программа выполняется в 1,38
раз быстрее чем с OpenMP.
В последнее время большое распространение получили новые модели
программирования и технологии, ориентированные на параллельную обработку больших
объемов данных в крупномасштабных кластерных системах. Основными являются модель
программирования MapReduce [2], разработанная в компании Google, и ее открытая
реализация Apache Hadoop [3]. В качестве другого подхода к описанию и реализации
процессов обработки данных выступает продукт Microsoft Dryad [4]. Именно эти технологии
используются такими компаниями как Google, Amazon и Microsoft, предоставляющими
услуги пользователям через Интернет. Анализ технологий MapReduce и Dryad показал ряд
преимуществ и недостатков данных подходов. Следует выделить основную заслугу этих
систем – выход на более крупные масштабы обрабатываемых данных. Планируется провести
ряд экспериментов с использованием модели MapReduce и технологии Apache Hadoop.
Литература
1. Алексеев Н.А., Ермакова Е.А., Кушнир В.В. Использование технологии параллельного
программирования для повышения производительности вычислительных систем. В кн.: 3
Международная научнотехническая конференция «Проблемы телекоммуникаций» (ПТ).
Киев, 2009, с.136.
2. Dean J., Ghemawat, S. MapReduce: Simplified data processing on large clusters. In Proceedings
of Operating Systems Design and Implementation (OSDI). San Francisco, 2004, рр. 137-150.
3. Apache Hadoop. http://hadoop.apache.org/
4. Michael Isard, Mihai Budiu, Yuan Yu, Andrew Birrell, Dennis Fetterly. Dryad: Distributed DataParallel Programs from Sequential Building Blocks. European Conference on Computer Systems
(EuroSys), Lisbon, Portugal, 2007.
Download