информационная и телекоммуникационная среда для решения

advertisement
ИНФОРМАЦИОННАЯ И ТЕЛЕКОММУНИКАЦИОННАЯ СРЕДА ДЛЯ РЕШЕНИЯ ЗАДАЧ
ВЫЧИСЛИТЕЛЬНОЙ БИОЛОГИИ
А.Ю.Зайцев, В.В.Корнилов, В.Д.Лахно, М.Н.Устинин
Институт математических проблем биологии РАН, Пущинский научный центр РАН, Пущино
Московской обл.
Тел.: (0967) 73-24-08, (0967) 79-05-70, e-mail: lak@impb.psn.ru
В биологических исследованиях компьютеры и суперкомпьютеры становятся все более важным инструментом
познания и получения прикладных результатов. Причинами этого является как исключительно быстрое развитие самой
вычислительной техники, позволяющее использовать ее для решения весьма трудоемких задач компьютерной
биологии, в частности, появление суперкомпьютеров с параллельной архитектурой, так и рост ее применения в
биологии.
Необходимо широкое развёртывание работ по информационному и вычислительному обеспечению
фундаментальной и прикладной физико-химической биологии. Можно сказать, что развитие высокопроизводительных
вычислений в ближайшем будущем будет определять прогресс в молекулярной биологии.
Задачи, решаемые компьютерной биологией, предъявляют высокие требования к быстродействию и объему
памяти используемых вычислительных средств. В 2000 г. на базе Института математических проблем биологии РАН
был создан высокопроизводительный вычислительный кластер Пущинского научного центра РАН. Ведется работа по
созданию и отладке программного обеспечения для расчетов на компьютерах с параллельной архитектурой и по
обеспечению надежного высокопроизводительного доступа в Интернет, что является необходимым условием
проведения работ по вычислительной биологии и биоинформатике.
Кластер ПНЦ РАН состоит из 16 однопроцессорных узлов на базе микропроцессора Intel Pentium III. В качестве
сетевой среды выступает Fast Ethernet. Дополнительно установлен однопроцессорный компьютер, который
используется как файл-сервер и как головная машина для загрузки задач на кластер. Он оснащен двумя сетевыми
адаптерами Fast Ethernet, один из которых служит для доступа на кластер извне.
Аппаратное обеспечение кластера
Конфигурация узла:
Материнская плата ASUS P3B-F, чипсет BX, системная шина 133 МГц, процессор Pentium III-800EB, 256 Мбайт
оперативной памяти, жесткий диск IDE 10.2 Гбайт Seagate; видео-контроллер Matrox Millenium PCI 2M; Адаптер Fast
Ethernet 3Com 3C905TX (10/100)
Конфигурация головной машины:
Материнская плата ASUS P3B-F, чипсет BX, процессор Pentium III-800E, 256 Мбайт оперативной памяти, 2 жестких
диска SCSI 18 Гбайт IBM; 40-скоростной привод CD-ROM; Видео-контроллер Matrox Millenium G400; 2 адаптера Fast
Ethernet 3Com 3C905TX (10/100); монитор 17".
Сетевая инфраструктура:
24-портовый коммутатор Fast Ethernet – D-Link/DES 1024.
Дополнительная аппаратура: электронный переключатель для монитора/клавиатуры на 16 позиций; два
металлических шкафа для установки узлов; 3 источника бесперебойного питания Powercom.
Программное обеспечение
Программное обеспечение строится на базе свободно распространяемой OS Linux (GNU Debian) и интерфейса
передачи сообщений MPI как основного средства программной реализации параллельных вычислений.
В качестве основного программного средства организации параллельных вычислений используется LAM/MPI
версии 6.3.2 – реализация MPI и среда разработки MPI-программ для гетерогенных кластеров из UNIX-машин,
разработанная в Ohio Supercomputer Center.
Также доступны MPICH/MPI, PVM и некоторые специализированные библиотеки:
– ATLAS (Automatically Tuned Linear Algebra Software)
– PBLAS
– ScaLAPACK
– BLACS
– P4
– PVM
– ROMIO
Для тестирования общей производительности кластера использовались тесты NASA Benchmarks класса A. По
результатам тестирования можно сделать вывод о том, что производительность кластера ПНЦ сопоставима с
производительностью других параллельных машин.
Спектр задач, решаемых с использованием кластера, охватывает широкий круг проблем математической биологии
и биоинформатики. В настоящее время решаются следующие задачи:
– Изучение влияния гидратации на структуру двойной спирали ДНК. Выполнено большое число вычислительных
экспериментов с фрагментами ДНК различных нуклеотидных последовательностей и конформаций. В ходе
анализа полученных данных был выявлен целый ряд закономерностей в строении водной оболочки
двуспиральной ДНК.
– Моделирование различных биомолекулярных систем таких как фосфолипидные бислои различного состава,
белки (ферредоксин Thermotga Maritima и HiPIP Rhodocyclus tenuis), карбосилановые дендримеры и др. Были
рассчитаны различные структурные, механические и энергетические характеристики. Расчеты проводились с
использованием программ и методик, разработанных в Лаборатории молекулярной динамики ИМПБ РАН.
1
– Моделирование пространственной структуры молекул н-алканов в вакууме и в водном окружении. Выявлен
осциллирующий характер зависимости “диаметра” молекулярного клубка от количества мономерных звеньев,
образующих молекулу алкана.
– Реконструкция упругих свойств биологических тканей человека, определяющих степень патологии.
– Перенос заряда в многосайтовой нуклеотидной цепочке. Были найдены области параметров, в которых
возможен необратимый перенос заряда с первого сайта в конец цепи.
По результатам тестирования и решения конкретных задач можно сделать следующие выводы:
– Кластер показывает хорошую производительность на задачах, не требующих интенсивного межпроцессорного
обмена.
– Существующая сетевая инфраструктура существенно снижает производительность кластера при решении
хорошо распараллеленных задач, требующих большого числа пересылок коротких сообщений. Одна из причин
этого заключается в высокой латентности существующей сети.
Можно наметить следующие пути развития проекта:
– Покупка коммерческого программного обеспечения.
– Добавление новых узлов, объединенных высокоскоростной сетью.
– Увеличение количества узлов кластера.
В настоящее время ведется работа по увеличению количества узлов за счет подключения к кластеру восьми
компьютеров ИМПБ РАН в нерабочее время. Подключение производится посредством создания виртуальных туннелей,
обеспечивающих шифрование и защиту сетевого трафика. Таким образом, достигается динамическая конфигурация
кластера с переменным количеством узлов. Следует иметь в виду, что по причине загруженности внутренней
институтской сети такие динамические узлы нельзя рассматривать в качестве серьезных кандидатов на решение
параллельных задач. Однако наличие большого количества последовательных пользовательских программ делает
этот вариант вполне оправданным и позволяет надеяться, что его реализация существенно разгрузит кластер и даст
возможность сосредоточиться на решении основных задач.
Следует отметить, что уже на начальном этапе использования кластера ПНЦ РАН он, как правило, полностью
загружен. При этом потребность в вычислительных ресурсах для решения задач компьютерной биологии остается
очень высокой.
Наряду с повышением мощности кластера следует искать другие пути привлечения вычислительных ресурсов.
В настоящее время активно ведется работа по проведению расчетов на удаленных высокопроизводительных
компьютерах. Прежде всего, это ресурсы МСЦ, ИПМ РАН, НИВЦ МГУ, ИАПУ РАН и др. Однако, для решения многих
задач вычислительной биологии необходима передача большого объема данных, а также привлечение
распределенных информационных ресурсов (имеется свыше 500 баз данных по биоинформатике). Это предъявляет
серьезные требования как к каналам связи между Пущино и Москвой, так и к международным каналам выхода в
Интернет. Следует признать. что в настоящее время мощности этих каналов явно недостаточны. В рамках проекта
ФЦП "Интеграция" совместно с НИВЦ МГУ начата работа по метакомпьютингу – привлечению через Интернет большого
числа компьютеров к решению задач вычислительной биологии.
Работа выполняется при поддержке ФЦП “Интеграция“, проект В0018, и грантов РФФИ 01-07-90317, 00-01-05000,
01-01-00894.
2
Download