вычислительная среда r как платформа для моделирования и

advertisement
ВЫЧИСЛИТЕЛЬНАЯ
СРЕДА
R
КАК
ПЛАТФОРМА
МОДЕЛИРОВАНИЯ И ОБУЧЕНИЯ ШКОЛЬНИКОВ И СТУДЕНТОВ
ДЛЯ
Синицын Вячеслав Юрьевич (fpmrggu@yandex.ru)
Институт информационных наук и технологий безопасности ФГБО г.
Москва
Аннотация
Рассматриваются возможности использования вычислительной среды R
для анализа данных, моделирования в различных предметных областях и
обучения школьников и студентов.
Традиционно в процессе обучения по дисциплинам, связанным с анализом
данных и моделированием, в российских учебных заведениях сейчас чаще
всего используются широко известные коммерческие программные
продукты SPSS, MATLAB, MathСad, которые предоставляют широкие
возможности
преподавателю
для
внедрения
современных
образовательных технологий в учебный процесс [1, 2]. Названные выше
программные пакеты весьма дороги, что существенно сужает сферу их
применения. Однако в настоящее время имеются качественные
бесплатные математические программные средства, которые, к
сожалению, пока редко применяются в России [3-5].
Система R [6] была создана в Новой Зеландии в середине девяностых
годов прошлого века, когда двое молодых ученых из Университета
Окленда Росс Айхэка (Ross Ihaka) и Роберт Джентлмен (Robert Gentleman)
решили разработать простой язык, который было бы удобно использовать
в учебном процессе. Язык R был задуман ими как свободный аналог
коммерческой реализации языка статистических расчетов S компании Bell
Labs. Текущая версия R 3.0.1 (от 16 мая 2013 года) распространяется под
лицензией GNU GPL для трех семейств операционных систем: Linux, Apple
Mac OS X и Microsoft Windows. В сетевых архивах CRAN [7] по состоянию
на 24 мая 2013 года доступны для свободной загрузки 4544 пакета
расширения, которые предназначены для решения различных задач
обработки данных и математического моделирования в социологии и
психологии, эконометрике и финансовом анализе, генетике и
молекулярной биологии, экологии и геологии, медицине и фармацевтике, в
лингвистике,
машинном
обучении,
планировании
эксперимента,
статистическом моделировании и многих других областях [8-12].
В США и Западной Европе R активно применяется сейчас для обработки
данных как в научной среде, так и в образовании. На английском,
французском, немецком и других языках имеется большое количество книг
и других публикаций, посвященных различным приложениям языка R [6].
Начиная с 1999 года, регулярно проводятся международные конференции
для разработчиков и пользователей системы R, а также издается
специальный журнал по этому языку программирования. За рубежом во
многих учебных заведениях за последние десять лет накоплен
значительный опыт использования языка программирования R для
обучения методам обработки данных и научно-исследовательской
деятельности [13-17]. На русском языке информации о среде R мало. Для
начального знакомства с вопросом можно рекомендовать книги [18-20] и
полезные интернет-ресурсы [21].
Быстро растет популярность системы R как инструмента моделирования в
различных предметных областях. Это связано с тем, что вычислительная
среда R бесплатная, универсальная, имеет простой встроенный язык и
активно развивается. Хотя язык R первоначально не предназначался для
целей моделирования, он очень удобен и для построения моделей любой
сложности, и для визуализации результатов моделирования. Известен
также положительный опыт применения системы R в качестве интерфейса
с готовыми моделями, написанными на Фортране и других языках
программирования. Такой подход позволяет в среде R тестировать
сторонние модели и выполнять анализ результатов моделирования.
Заслуживает особого внимания тот факт, что в печати выходит много книг,
которые посвящены использованию R для построения экологических
моделей [22-26]. Доступно большое число пакетов, которые реализуют
специальные методы, предназначенные для решения задач гидрологии,
океанографии, климатологии, почвоведения, динамики популяций и в
других областях. Свидетельством высокой популярности R для анализа
данных об окружающей среде и экологии явился вышедший в 2007 году
специальный том журнала Journal of Statistical Software [27].
Система R может служить объектно-ориентированным инструментом для
экологического моделирования и с помощью дополнительных пакетов,
например simecol, обеспечивает открытые технологии для реализации
имитационного
моделирования
и
совместного
исследования
экологических
моделей.
Обобщенная
объектно-ориентированная
архитектура построения моделей повышает их читабельность и
возможность повторного использования, а также делает модели свободно
расширяемыми и простыми для модификации. Многие пакеты расширения
реализованы с помощью S3 и S4 классов языка программирования R и
содержат в качестве примеров приложений готовые широко известные
модели «хищник — жертва», которые могут быть использованы как
отправная точка для собственных разработок.
Для начинающих осваивать область моделирования одновременное
изучение принципов математического моделирования и нового языка
программирования обычно вызывает значительные трудности. Таких
трудностей можно избежать, если заранее познакомить учащихся с
системой R во время школьных занятий по теории вероятностей и
статистике, а в дальнейшем активно использовать R при изучении
математических дисциплин и курсов, связанных с моделированием.
Интересный опыт обучения школьников обработке данных, полученных в
ходе учебно-исследовательской работы, представлен в [20].
Учитывая, что вычислительная среда R может служить платформой для
анализа данных, моделирования в различных предметных областях и
обучения, предлагается обсудить практическую возможность и
целесообразность интегрирования R в имеющиеся автоматизированные
информационные
системы
образования
для
предоставления
образовательных услуг в электронной форме.
Литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. — М.:
Форум, 2010.
2. Дьяконов В.П. VisSim + Mathcad + MATLAB. Визуальное
математическое моделирование. — М.: СОЛОН-Пресс, 2010.
3. Синицын В.Ю. Вычислительная среда R и её использование для
обучения методам статистического анализа данных // Материалы ХХ
Международной конференции «Информационные технологии в
образовании». Ч. IV. – М.: МИФИ, 2010. – C. 43 – 44.
4. Синицын В.Ю. Практикум по прикладной статистике в вычислительной
среде R. // Материалы XXIII Международной конференции
«Применение новых технологий в образовании». – Троицк, 2012. – C.
177 – 178.
5. Синицын В.Ю. Система SAGE и её использование для обучения по
математическим дисциплинам. // Материалы IV Международной
конференции «Инфо-Стратегия 2012: Общество. Государство.
Образование». – Самара, 2012. – C. 165 – 167.
6. Официальный сайт проекта R. http://www.r-project.org/
7. CRAN (The Comprehensive R Archive Network) http://cran.r-project.org/
8. Hrishikesh D. Vinod, editor. Advances in Social Science Research Using R.
Lecture Notes in Statistics. Springer, 2010.
9. Bernhard Pfaff. Financial Risk Modelling and Portfolio Optimisation with R.
Wiley, Chichester, UK, 2012.
10. Victor Bloomfield. Computer Simulation and Data Analysis in Molecular
Biology and Biophysics: An Introduction Using R. Springer, 2009.
11. Carlo Gaetan and Xavier Guyon. Spatial Statistics and Modeling. Springer
Series in Statistics. Springer, 2010.
12. Ewout W. Steyerberg. Clinical Prediction Models: A Practical Approach to
Development, Validation, and Updating. SBH/Statistics for Biology and
Health. Springer, 2009.
13. Michael J. Crawley. Statistics: An Introduction using R. Wiley, 2005.
14. Peter Dalgaard. Introductory Statistics with R. Springer, 2nd edition, 2008.
15. Brian Everitt and Torsten Hothorn. A Handbook of Statistical Analyses
Using R. Chapman & Hall/CRC, Boca Raton, FL, 2006.
16. John Maindonald and John Braun. Data Analysis and Graphics Using R.
Cambridge University Press, Cambridge, 2nd edition, 2007.
17. John Verzani. Using R for Introductory Statistics. Chapman & Hall/CRC,
Boca Raton, FL, 2005.
18. Статистический анализ данных в системе R. Учебное пособие /
А.Г.Буховец, П.В.Москалев, В.П.Богатова, Т.Я.Бирючинская; Под ред.
проф. Буховца А.Г. — Воронеж: ВГАУ, 2010.
19. Шипунов А.Б., Балдин E.М., Волкова П.А., Коробейников А.И.,
Назарова С.А., Петров С.В., Суфиянов В.Г. Наглядная статистика.
Используем R! — М.: ДМК Пресс, 2012.
20. Волкова П.А., Шипунов А.Б. Статистическая обработка данных в
учебно-исследовательских работах. — М.: Форум, 2012.
21. Язык и среда R http://r-statistics.livejournal.com/
22. Karline Soetaert and Peter M.J. Herman. A Practical Guide to Ecological
Modelling. Using R as a Simulation Platform. Springer, 2009.
23. M. Henry H. Stevens. A Primer of Ecology with R. Use R. Springer, 2009.
24. Alain Zuur, Elena N. Ieno, Neil Walker, Anatoly A. Saveiliev, and Graham
M. Smith. Mixed Effects Models and Extensions in Ecology with R.
Springer, New York, 2009.
25. Benjamin M. Bolker. Ecological Models and Data in R. Princeton University
Press, 2008.
26. Nhu D. Le and James V. Zidek. Statistical Analysis of Environmental
Space-Time Processes. Springer, 2006.
27. Journal of Statistical Software. Vol. 22. Special Volume: Ecology and
Ecological Modelling in R, Editors: Thomas Kneib, Thomas Petzoldt.
Download