1. Сервис X

advertisement
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
имени М.В.ЛОМОНОСОВА
УТВЕРЖДАЮ
Директор НИВЦ МГУ, профессор
_______________А.В.Тихонравов
07.11.2008
СУПЕРКОМПЬЮТЕРНАЯ РАЗРАБОТКА ЛЕКАРСТВ
Научно-технический отчет
По Этапу 5 Договора № 72-07/14 от 30 июля 2007 г.
Руководитель работы
__________________В.Б.Сулимов
07.11.2008
Москва - 2008
1
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Итоги работы по проекту за 2008 г.
1. Сервис X-Com/СКИФ
В основу разработки базовых модулей сервиса X-Com/СКИФ, предназначенного
для
координации
доступных
вычислительных
ресурсов
в
рамках
единой
метакомпьютерной среды, была положена система метакомпьютинга X-Com. Система XCom
представляет
собой
инструментарий,
позволяющий
после
незначительной
переработки существующей прикладной программы (возможно, уже параллельной)
запускать ее распределенно, контролировать ход выполнения, балансировать нагрузку
между узлами и отображать результат. Важным аспектом системы X-Com является ее
работа через сеть Интернет, что позволяет потенциально использовать все ресурсы,
подключенные к ней. Другой важной особенностью является возможность использовать
узлы самой различной конфигурации - от кластеров до обычных рабочих станций,
работающих под управлением различных программно-аппаратных платформ.
Система X-Com реализована по принципам клиент-серверной архитектуры, в
которой можно выделить два основных компонента. Сервер X-Com - центральная часть
системы, содержащая серверную часть программы пользователя и отвечающая за
разделение исходной задачи на блоки, распределение заданий, координацию работ всех
узлов, контроль целостности результата и сбор результата расчета в единое целое.
Узел - любая вычислительная единица (рабочая станция, узел кластера,
виртуальная машина), на которой происходит основной расчет прикладной программы.
Отдельные блоки вычислительной задачи передаются от сервера на узлы, где происходит
расчет, результаты которого передаются обратно на сервер. Узлы отвечают за расчет
блоков прикладной задачи, запрос заданий для расчета от сервера и передачу результатов
расчета на сервер.
Все коммуникации между узлами и сервером в X-Com происходят через сеть
Интернет. При этом используется только стандартный протокол HTTP (HyperText Transfer
Protocol), что позволяет подключать к системе практически любые вычислительные
мощности, имеющие доступ в Интернет. Система не требует настройки для работы через
прокси-сервер, firewall и другие системы защиты. Данные, передаваемые системой,
аналогичны стандартному трафику Интернет.
2
НИВЦ МГУ
1.1.
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Координация простаивающих ресурсов в среде X-Com/СКИФ
Для реализации прототипа сервиса по использованию незадействованных
компьютерных
ресурсов
было
проведено
исследование
программных
средств,
позволяющих оценить занятость процессора на вычислительных узлах. Предполагалось,
что узлы отвечают следующим условиям: работа под ОС Linux, отсутствие прав
привилегированного
пользователя,
невозможность
установки
дополнительного
программного обеспечения, использование только системных средств. Эти условия
отвечают
одному
из
распространенных
вариантов
организации
распределенных
вычислений с использованием кластерных систем, когда имеется терминальный доступ на
каждый из узлов, но вычисления можно производить только на фоне штатной работы
кластера.
Использование протокола и инфраструктуры SNMP, а также пакета SAR оказалось
невозможным, поскольку это программное обеспечение не является стандартным и может
быть не установлено на узлы. Чтение и анализ данных из файловой системы /proc
позволил бы получить всю необходимую информацию, однако такой анализ ввиду
значительного объем данных был бы затруднен и сам оказался бы достаточно
ресурсоемким процессом. Был сделан вывод, что необходимо опираться на данные от
стандартных системных утилит, таких как ps, top, uptime.
Эксперименты с утилитой ps показали, что она не всегда корректно выдает
сведения о потребление процессорных ресурсов; более того, наблюдались случаи выдачи
явно ошибочных данных. Программа top, используемая для визуального наблюдения за
состоянием ресурсов компьютера, также оказалась непригодной – в начале запуска она
сама достаточно сильно загружает ОС, и кроме того, формат выдачи результатов запуска
команды сильно зависит от ее версии. Аналогичная ситуация сложилась и с программой
vmstat.
Самой "стандартной" программой оказалась команда uptime, которая выдаёт
значение loadaverage (среднее число процессов, ожидающих квант процессорного времени
в очереди) узла. Её вывод на большинстве UNIX-платформ практически единообразен и
приемлем для программного анализа. Экспериментально были установлены следующие
пороги, по достижению которых узел считается "занятым" или "свободным" (Ncpu –
общее число процессорных ядер узла, loadaverage – средняя загрузка узла за последнюю
минуту):

"свободен": loadaverage < Ncpu*0.25 (предполагаем, что 25% процессорного
времени может требоваться системным процессам);
3
НИВЦ МГУ

Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
"занят": loadaverage > Ncpu + 0.9 (запуская столько процессов прикладной задачи,
сколько в системе процессорных ядер, проверяем, не появился ли еще хотя бы один
активный процесс).
На
основе
описанного
способа
был
разработан
специальный
скрипт,
запускающийся на всех узлах каждую секунду с помощью средства
cron и
отслеживающий загрузку каждого узла.
1.2.
Реструктуризация базовых модулей X-Com/СКИФ
В рамках работ, направленных на дальнейшее развитие системы X-Com и более
плотной ее интеграции с программной средой суперкомпьютеров семейства СКИФ, была
проведена реструктуризация базовых модулей X-Com. Сформирована новая архитектура
системы метакомпьютинга (Рис. 1), в которую заложены следующие возможности,
отсутствующие у системы предыдущего поколения, в частности:

распределение
нагрузки
на
серверную
часть
системы
за
счет
явного
распараллеливания процессов сервера и возможности использования нескольких
физических серверов для выполнения этих процессов;

полноценные буферизирующие серверы;

уровень безопасности, включающий работу с доверенными узлами и доверенными
серверами, а также опциональное шифрование данных, передающихся между
вычислительными узлами и серверной частью;

поддержка дополнительных обменов между клиентами и серверной частью X-Com:
o управляющие команды, пересылаемые на клиентские узлы, позволяющие
оперативно перераспределять вычислительную нагрузку и организовать
одновременное выполнение нескольких различных задач в вычислительной
среде;
o запросы типа keep-alive, периодически пересылаемые серверу с клиентских
узлов, позволяющие получить актуальную информацию о статусе каждого
узла;

возможность работы клиентов X-Com с несколькими серверами X-Com;

поддержка многопроцессорных/многоядерных платформ на уровне клиента XCom;

механизмы синхронизации файлов, требуемых для работы вычислительным
модулем
прикладной
программы,
4
между
серверной
частью
X-Com
и
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
вычислительными узлами.
Рис. 1. Архитектура системы X-Com нового поколения
1.3.
Многопоточный метод распределения заданий (Результаты 5-го этапа)
В рамках работ по реализации базовых блоков сервиса X-Com/СКИФ был
разработан многопоточный метод распределения заданий на доступные вычислительные
ресурсы. Метод был реализован как часть подсистемы управления очередями заданий
XQSERV, работающей совместно с системой метакомпьютинга X-Com.
Идея многопоточного метода состоит в динамическом перераспределении
доступных ресурсов для решения тех задач, условиям которых они соответствуют.
Такими условиями могут быть минимальные/максимальные значения тактовой частоты
процессора, его тип, объемы оперативной и дисковой памяти, операционная система и др.
Для поддержки многопоточного метода сервер XQSERV должен вести учет данных обо
всех узлах и клиентах, составляющих распределенную среду. Требования прикладной
задачи должны указываться пользователями при постановке задания в очередь.
При работе в рамках многопоточного метода все клиенты X-Com в качестве адреса
сервера X-Com получают адрес (хост и порт) переадресации сервера XQSERV. Каждый
5
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
запрос от клиента X-Com содержит набор сведений о нем (в базовом варианте это код
платформы, операционная система и тактовая частота процессора), сервер XQSERV
интерпретирует этот запрос и на основе полученных данных формирует реестр всех
подключенных клиентов и их возможностей.
Если при появлении очередного узла сервер XQSERV уже запустил один или более
серверов X-Com, отвечающих прикладным заданиям, клиенту будет выдан адрес первого
из серверов X-Com, обслуживающего задачу, требованиям которой он удовлетворяет.
Клиент начинает работу с указанным сервером и возвращается к сервису переадресации
XQSERV после завершения расчета. Если же при появлении очередного узла серверы XCom не запущены, либо требования их задач не совпадают с возможностями узла, в
очереди ищется задание, условиям которой данный узел может удовлетворить. В случае
нахождения такого задания оно запускается на выполнение, т.е. запускается новый
экземпляр сервера X-Com, и клиенту выдается его адрес. При отсутствии заданий клиент
обращается к сервису переадресации XQSERV еще раз через определенный промежуток
времени.
Дальнейшим направлением развития многопоточного метода, в частности, может
быть разработка механизма, позволяющего клиентам и узлам, в свою очередь, задавать
требования на поступающие к ним задачи. Это позволит владельцам ресурсов более
жестко контролировать политику их использования.
1.4.
Исследование методов защиты клиентской части X-Com/СКИФ
В рамках работ по развитию функциональности сервиса X-Com/СКИФ было
проведено исследование методов защиты вычислительных узлов от возможных
неадекватных
действий
пользовательских
приложений,
запущенных
посредством
клиентской части X-Com. Запуск таких приложений, написанных некорректно или же
получивших некорректные входные данные, в некоторых случаях может привести,
например, к переполнению дисковой памяти узла, нежелательной сетевой активности, а
также к полному отключению узла от основного вычислительного поля СКИФ и
невозможности
воспользоваться
восстановления
его
средствами
работоспособности.
При
удаленного
разработке
администрирования
сервиса
для
X-Com/СКИФ
необходимо учитывать то, что одним из режимов его работы является режим разделения
ресурсов со штатными системами очередей суперкомпьютеров. Это накладывает
дополнительные обязательства по корректному использованию и освобождению ресурсов
вычислительных узлов.
6
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Существует большое разнообразие ПО, призванного выполнять задачу защиты
ресурсов различными методами. К такому ПО относятся, в частности, антивирусы,
Firewall’ы, различные мониторы активности пользователей и их приложений. У
большинства современных ОС имеются средства разграничения доступа к данным, сети,
установки
приоритетов
процессам.
Недостатки
таких
средств
заключаются
в
необходимости значительных затрат на установку и настройку, требовании регулярного
вмешательства
пользователя
с
правами
администратора,
потреблении
большого
количества вычислительных ресурсов. Поэтому обычно для запуска потенциально
опасного или ненадежного ПО используются средства, помогающие полностью
изолировать работу таких программ от ресурсов реальной машины – средства
платформенной виртуализации.
В ходе исследований был проведен анализ и сравнение следующих программных
продуктов, наиболее широко использующихся для платформенной виртуализации,
выбранных
с
учетом
особенностей
программно-аппаратной
организации
узлов
суперкомпьютеров семейства СКИФ (в частности, работа под управлением как ОС
семейства Linux, так и MS Windows):

User-mode Linux (http://user-mode-linux.sourceforge.net/)

Xen (http://www.xen.org/)

Cooperative Linux (http://www.colinux.org/)

Parallels Workstation (http://www.parallels.com/products/workstation/)

QEMU (http://bellard.org/qemu/)

Microsoft Virtual PC 2007
(http://www.microsoft.com/windows/products/winfamily/virtualpc/default.mspx)

VMware Workstation и VMware Player (http://vmware.com/)

Bochs (http://bochs.sourceforge.net/)
Учитывая важность такого фактора, как возможность оперативной установки и
настройки клиентской части X-Com на вычислительных узлах, перспективным выглядит
использование программных средств виртуализации VMware Player, QEMU(+kqemu) и
Virtual PC. Упомянутые продукты не сильно различаются эффективностью работы, для
работы каждого из них с клиентом достаточно предоставить образ файловой системы с
установленным клиентом X-Com и всем необходимым для его работы. Благодаря полной
виртуализации, данные пользователя и ресурсы целевой машины будут хорошо
защищены, а после настройки доступа к сети будут защищены и сетевые ресурсы.
7
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Важным достоинством также является возможность переносить виртуальные машины с
одной системы на другую, что позволяет подготовить образ с установленной ОС и всем
необходимым для клиента X-Com только один раз, а в дальнейшем загружать и изменять
только второстепенные настройки клиента и ОС на виртуальной машине.
Virtual PC, тем не менее, работает только под Windows и поддерживает в качестве
Guest-ОС лишь узкий круг операционных систем, включающий в себя ранние версии
Windows и лишь некоторые версии ОС семейства Linux/UNIX, из которых стабильно
работают лишь некоторые дистрибутивы на определенном аппаратном обеспечении.
Использование Bochs не желательно в силу низкой скорости работы этого ПО. С точки
зрения лицензионных ограничений, Parallels Workstation, при отсутствии серьезных
преимуществ над другими продуктами, является платным, что делает возможности его
использования ограниченными. Использование других продуктов (coLinux, UML)
подразумевает в некоторой степени сложный процесс установки и настройки средств
виртуализации, требующих привилегированные пользовательские права, а в случае с Xen
необходимо изменять и установленную ОС. Xen и UML не работают под Windows, а
coLinux не работает на UNIX/Linux-системах. Это также накладывает ограничения их
использования для изоляции клиентской части X-Com.
1.5.
Визуализация хода расчетов в распределенной среде X-Com/СКИФ
При проведении масштабных расчетов пользователям необходимо получать
актуальную информацию о состоянии распределенной вычислительной среды и процессов
в ней. В ходе работ по реализации сервиса X-Com/СКИФ была разработана модульная
подсистема визуализации, работающая совместно с системой X-Com. Одной из ключевых
задач при создании подсистемы визуализации была возможность отображения не только
общих данных о вычислительном эксперименте, но и демонстрация каких-либо
особенностей
расчета
и
вычислительной
среды,
например,
географической
распределенности, количественных характеристик, неоднородности конфигурации узлов,
интенсивности обмена данными. Механизм должен обладать гибкостью отображения
информации о расчете, обеспечивая представление данных в различных формах,
акцентирующих конкретные особенности вычислительной среды. Исходя из этих
требований была спроектирована схема модульной подсистемы визуализации.
Подсистема
визуализации
была
реализована
с
помощью
средства
программирования Adobe Flash. Она представляет собой набор программных модулей,
размещаемых на веб-сервере либо на локальной машине. Подсистема визуализации
8
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
постоянно считывает XML-данные от сервера X-Com по протоколу HTTP и в
соответствии со своими настройками, указанными в специальном конфигурационном
файле, отображает состояние распределенной среды и расчета в ней.
Для просмотра состояния расчета необходим только Интернет-браузер. Пример
отображения данных в браузере с помощью подсистемы визуализации при решении
задачи докинга SOL приведены на Рис. 2. Представленный на Рис. 2 модуль визуализации
предназначен для отображения информации по кластерам в целом. По каждому кластеру
выдается его административная принадлежность и групповая статистика. Данный модуль
в наглядной форме демонстрирует степень участия кластеров в распределенном расчете.
Каждый кластер представляется в виде "сосуда", причем размеры сосудов соответствуют
общему числу узлов в кластера. Заполненность сосудов соответствует процентному
соотношению узлов, подключенных к расчету в данный момент.
Рис. 2. Пример отображения информации о расчете в режиме показа кластеров
9
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
2. Оптимизация расчетных программ ПК Keenbase для сервиса X-Com/СКИФ
ПК Keenbase позволяет производить расчеты на суперкомпьютерах семейства
«СКИФ» с помощью распределенной системы X-Com. Распределенные вычисления
расчетной программы SOL осуществляются системой X-Com путем распараллеливания
потока входных данных. Данный метод распределения использовался в следствии
большого количества обрабатываемых входных данных и особенностями однопоточного
метода распределения заданий в первоначальной системе X-Com. В системе X-Com
нового поколения был реализован многопоточный метод распределения заданий в связи с
чем возникла возможность использования более детального распараллеливания расчетных
программ ПК Keenbase.
2.1.
Распараллеливание расчетной программы SOL ПК Keenbase
Структура
расчетной
программы
SOL
с
точки
зрения
возможностей
распараллеливания представлена на Рис. 3.
Рис. 3. Структура расчетной программы SOL
Распараллеливание производится по независимым запускам эволюции популяции и
по расчету энергии популяции на каждом шаге эволюции. Каждый из процессов может
работать в одном из трех состояний:

В
состоянии
управляющий
самого
главного
процесс
не
управляющего
занимается
10
процесса.
трудоемкими
Самый
расчетами,
главный
а
только
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
координирует действия других процессов, затем собирает результаты их расчетов.
Во всем комплексе этот процесс один, его rank равен 0.

В
состоянии
управляющего
процесса.
Этот
процесс
обсчитывает
один
независимый запуск эволюции популяции, распределяя подсчет энергии популяции
на каждом шаге эволюции между собой и подчиненными ему процессами.

В состоянии подчиненного процесса. Такие процессы ожидают поступления
популяции особей от своего управляющего процесса, рассчитывают энергию
особей, затем отсылают результат обратно.
Любой из процессов, кроме нулевого (то есть у которого rank=0) может быть как
управляющим, так и подчиненным, его состояние может меняться во время вычислений
согласно посылаемым командам от самого главного управляющего процесса. Самым
главным управляющим процессом является нулевой в течение всего времени работы
комплекса. У управляющего процесса может не быть подчиненных. В этом случае всю
работу он делает сам. На Рис. 4, Рис. 5 и Рис. 6 изображены структуры процессов с
указанием сообщений, которыми они обмениваются.
Рис. 4. Взаимодействие процессов при распараллеливании
11
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Рис. 5. Структура самого главного управляющего процесса (нулевого).
Рис. 6. Структуры управляющего и подчиненного процессов.
12
НИВЦ МГУ
2.2.
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Испытания параллельной версии программы SOL на суперкомпьютере
семейства «СКИФ» (Результаты 5-го этапа)
Испытания проводились на суперкомпьютере СКИФ МГУ. Каждый узел данного
суперкомпьютера состоит из двух четырехядерных процессоров Intel Xeon E5472 3.0 ГГц.
Всего было проведено 7 серий испытаний параллельной программы SOL на разном числе
процессоров с разными параметрами точности расчета. Время работы однопроцессорной
версии программы совпадает со временем работы параллельной версии программы на
двух процессорах в пределах 10 секунд.
Таб. 1. Ускорения расчета относительно однопроцессорной версии программы
N, штук*
K1, с
K2, с
K3, с
K4, с
K5, с
K6, с
K7, с
2
1
1
1
1
1
1
1
3
2
1,98
2,03
1,95
1,69
1,61
1,4
4
2,59
2,57
2,21
1,91
1,94
1,86
1,5
5
3,25
3,2
2,96
2,4
2,4
2,32
2,11
6
3,71
3,64
2,94
2,51
2,5
2,35
2,31
7
4
3,96
3,47
2,75
2,67
2,56
2,38
8
4,27
4,11
3,22
2,62
2,67
2,56
2,39
9
5,18
5,03
3,62
3,03
3
2,78
2,78
10
5,95
5,72
4,15
3,36
3,24
2,94
3,06
11
6,71
5,9
4,48
3,8
3,43
3,02
3,19
16
8,06
7,31
5,49
4,9
3,87
3,69
3,68
21
10,92
9,73
6,51
5,86
4,29
4,12
4,18
26
11,77
11,76
7,31
6,86
4,8
4,71
4,5
31
15,01
14,34
7,74
7,2
5
4,71
4,72
36
16,23
15,69
8,16
7,43
4,8
5,04
4,92
41
17,93
17,25
8,64
8,22
4,62
4,91
5,01
46
19,06
18,71
8,96
8,71
4,62
4,91
5,19
51
20,71
20,51
9,24
8,84
5
5,09
5,19
61
23,1
23,51
9,1
9,41
5,22
5,28
5,33
71
25,55
25,36
10,1
9,64
5
5,38
5,53
81
27,93
27,45
10,37
9,89
5,22
5,38
5,53
91
28,6
29,17
10,46
10,15
5,45
5,38
5,64
101
28,6
31,01
10,74
10,42
5,45
5,38
5,75
* Реальное количество считающих процессоров меньше на один
13
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Рис. 7. Аппроксимированные графики ускорения
Рис. 8. Графики ускорения при количестве процессоров от 2 до 11
14
НИВЦ МГУ
2.3.
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Результаты испытаний (Результаты 5-го этапа)
Распараллеливание осуществляется более эффективно по числу независимых
запусков, чем по размеру популяции (смотрите сравнение кривых K1 и K2 с кривыми K5,
K6 и K7 на Рис. 7). В дальнейшем предлагается усовершенствовать алгоритм
распараллеливания программы SOL по размерам популяции.
При переходе от 8 до 9 процессоров происходит заметное ускорение времени
расчета (смотрите Рис. 8). Это связано с увеличением количества используемых узлов
суперкомпьютера СКИФ МГУ (каждый узел способен производить расчеты используя от
1 до 8 процессов параллельной программы). В данный момент каждое ядро
суперкомпьютера является независимым расчетным узлом системы использующим
собственный поток обрабатываемых данных, что приводит к общему замедлению
расчетов при одновременном использовании всех восьми ядер на одном узле. Для
большего ускорения параллельной программы предлагается оптимизировать обработку
данных при использовании ядер с одного расчетного узла.
Ускорение расчетов параллельной версии программы SOL эффективно или при
необходимости ускорения расчета одного лиганда или при условии использования
количества процессоров на порядок большего количества обрабатываемых лигандов.
2.4.
Характеристики ПК Keenbase при расчетах на суперкомпьютерах семейства
«СКИФ» (Результаты 5-го этапа)
Использование параллельных версий расчетных программ ПК Keenbase
с
помощью распределенной системы X-Com эффективно для:

Программы построения сеток потенциалов SOLGRID.

Программы докинга SOL и скоринга DSCORE при условии использования
количества процессоров на порядок большего количества обрабатываемых
лигандов.
Основное расчетное время ПК Keenbase занято компьютерным перебором баз
данных молекул-лигандов (несколько тысяч лигандов). Результаты испытаний на
суперкомпьютере СКИФ МГУ (максимум пять тысяч ядер) показали не эффективность
применения параллельных версий расчетных программ SOL и DSCORE ПК Keenbase в
рамках распределенной системы X-Com. Использование параллельной версии программы
SOLGRID признанно эффективным при использование внешних вычислительных
суперкомпьютеров семейства «СКИФ» находящихся в сети Интернет и обладающих
ограничениями трафика для передачи сеток потенциалов размером до двухсот мегабайт.
15
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Создание многопоточного метода распределения заданий в системе X-Com нового
поколения позволяет использование многопользовательского режима запуска заданий в
системе ПК Keenbase.
Полноценные
буферизирующие
серверы
позволят
выполнять
полную
синхронизацию данных с основным сервером, включая используемые сетки, различные
бинарные файлы и другую необходимую информацию.
3. Поиск новых ингибиторов и его исследование
3.1.
Проект «Кинетохор»
Поиск веществ, блокирующих взаимодействие кинетохора с микротрубочками.
Такие вещества способны останавливать деление раковых клеток. Кинетохор: участок
хромосомы, играющий основную роль в её движении в процессе деления клетки – митоза.
Цель проекта состоит в создании новых химических соединений (ингибиторов),
блокирующих работу комплекса белков, называемого кинетохором и играющего главную
роль в расхождении хромосом и, следовательно, в делении клеток.
В ходе выполнения проекта «Кинетохор» был изучен процесс взаимодействия
микротрубочки
с
кинетохором.
Анализ
литературных
данных
по
связыванию
микротрубочек с кинетохором показал, что ингибирование данного взаимодействия
может происходить как при блокировании лигандом активного центра одного звена
тубулиновой микротрубочки, так и при связывании лиганда с активным центром в
комплексе NDC80, который составляет внешнюю часть кинетохора, обращенную к месту
прикрепления микротрубочек. Таким образом, для создания новых ингибиторов,
блокирующих
работу
этого
комплекса
белков
необходимо
иметь
как
модель
микротрубочки, так и модель комплекса NDC80.
На первом этапе проекта была построена модель внешней поверхности
тубулиновой микротрубочки, состоящая из двух димеров α и β – тубулина, объединенных
между
собой
таким
образом,
чтобы
воспроизвести
структуру
двух
соседних
протофиламентов. В построенной модели был выбран возможный активный центр
связывания, который располагается на поверхности димера тубулина и обращен в
пространство между двумя соседними протофиламентами.
Далее,
изучение
структуры
комплекса
NDC80
и
его
взаимодействия
с
микротрубочкой позволило определить, что именно димер белков Hec1/Nuf2 на конце
NDC80
осуществляет
прикрепление
комплекса
16
к
поверхности
тубулиновой
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
микротрубочки. В ходе работы была построена поверхность белка-мишени, состоящего из
димера Hec1/Nuf2, и в результате визуального осмотра было выбрано пять возможных
центров связывания. Три центра располагаются в месте взаимодействия двух белков, а
четвертый и пятый – на поверхности белка HEC1.
В качестве первого шага по поиску соединений, блокирующих работу кинетохора,
был проведен докинг во все 6 центров связывания (1 центр на тубулиновой
микротрубочке и 5 центров в белках комплекса NDC80) соединений из базы NCI Diversity
(1885 шт.). Эта база данных выбрана в качестве возможного источника готовых
соединений, которые можно заказать и проверить их свойства по связыванию с тем или
другим активным центром в экспериментах.
Другое направление работы по поиску ингибиторов взаимодействия комплекса
NDC80 с микротрубочкой было связано с созданием сфокусированной библиотеки
противораковых соединений-антимитотиков. Центры связывания были те же, что и
описаны выше, но соединения для докинга выбирались специальным образом, и поэтому
составленная из них библиотека (lib-i) названа сфокусированной. Эта сфокусированная
библиотека состоит из соединений, которые являются не только противораковыми
соединениями, но именно противораковыми соединениями, блокирующими митоз, т.е.
они являются соединениями-антимитотиками. Она была создана следующим образом.
Была проанализирована база данных NCI противораковых препаратов, которая
содержит информацию о спектре действия более чем 45000 соединений на нескольких
десятках разновидностях культур раковых клеток. С помощью созданной нами программы
MICOR из базы данных противораковых соединений отбирались соединения, сходные по
спектру действия с гризеофульвином, носкапином и метоксиэстрадиолом – соединениями,
противораковый механизм действия которых доказан экспериментально, и они являются
антимитотиками. В результате было отобрано 1155 индивидуальных химических
соединений, которые при помощи программы Corina были переведены в 3D формат с
учетом конформеров и стереоизомеров данных соединений. Общее количество структур в
сфокусированный библиотеке составило 5217.
На следующем этапе подготовленные модели центров связывания были
использованы для проведения процедуры докинга 5217 соединений-антимитотиков из
сфокусированной библиотеки lib-i.
Для докинга использовался суперкомпьютер СКИФ МГУ Чебышев. Первые
расчеты на этом суперкомпьютере были проведены 15 апреля 2008. В целом, за весь
период выполнения проекта, в ходе компьютерного эксперимента по тестированию
системы X-Com (более подробно см. отчет по этапу №4) и текущих расчетов в
17
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
многопроцессорном режиме на суперкомпьютере Скиф-МГУ Чебышев было проведено
42 612 процедуры докинга (соединений из библиотеки NCI Diversity и сфокусированной
библиотеки антимитотиков lib-i)
по шести выбранным активным центрам белков-
мишеней. Время расчета одного лиганда составило в среднем от 2.5 до 6.5 часов при
обоих вариантах запуска. Если бы все 5000 вычислительных ядер суперкомпьютера
Чебышев были бы доступны для нашей задачи докинга, то астрономическое время
вычислений всех 42 612 процедур докинга составило бы менее 2-х суток. В реальности изза загруженности суперкомпьютера другими задачами общее астрономическое время
счета всех соединений на кластере Скиф-МГУ составило по приблизительным оценкам 3
недели.
Полученные результаты были отранжированы по значению скоринг-функции,
оценивающей энергию связывания лигандов с соответствующими белками, т.е. вверх
списка выводились соединения, значения скоринг-функции для которых были наиболее
отрицательные. На начальной стадии обработки результатов был проведен анализ первых
двадцати лигандов с лучшими энергиями связывания по всем сайтам связывания.
Для базы данных NCI Diversity этот анализ проведен полностью, для библиотеки
соединений-антимитотиков анализ проведен для активного центра в димере тубулина и
для первого активного центра на поверхности белка HEC1. Таким образом, всего было
проанализировано 160 соединений. Интервал значений энергий связывания для лучших 20
лигандов по всем сайтам и базам данных составил -8.21 … -4.7 kcal/mol. Наиболее
отрицательные значения энергий связывания получены для лигандов из базы данных NCI
Diversity, ингибирующие активный центр в тубулине. Анализ структур лигандов,
попавших в топ-20 соединений показал, что большинство составляют соединения с
преобладающей
ароматичностью,
которые
либо
нейтральны,
либо
заряжены
положительно.
Анализ положения лигандов в активных центрах белков комплекса NDC80 показал,
что некоторое количество ингибиторов малых размеров не заполняли собой центры
связывания, а проваливались внутрь протеина. Кроме того, образовалась группа лигандов,
которые помещаются в одно и то же место белка, независимо от того, где находится центр
куба докинга в данном расчете, только лишь потому, что область докинга охватывает
одновременно два центра связывания. Также существует ряд лигандов, которые с
одинаковым успехом помещаются в центр связывания, расположенный на поверхности
белка HEC1, и в центры связывания, расположенные в месте соединения белков
Hec1/Nuf2.
18
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Для окончательной рекомендации определенных структур для экспериментальной
проверки необходимо закончить анализ положения всех рассчитанных лигандов из обеих
баз данных по всем активным сайтам и провести более тщательный анализ с целью
выявления характерных взаимодействий между лигандами и аминокислотными остатками
протеинов в активных центрах.
Результаты 5-го этапа.
Закончен анализ результатов докинга для базы данных NCI Diversity во все 6
активных центров кинетохора и микротрубочки. Для библиотеки lib-i соединений
антимитотиков был проведен анализ 20 лучших различных химических соединений для
активного центра в димере тубулина и для первого активного центра на поверхности
белка HEC1.
3.2.
Проект «Эпитоп»
Разработка программы докинга с ограничениями ASTRA. Эта программа нужна
для выявления олигопептидных эпитопов наиболее эффективно связывающихся с белками
главного комплекса гистосовместимости (MHC). Такие олигопептиды могут стать
основой нового класса синтетических вакцин.
В
основе
механизма
приобретённого
иммунитета
человека
лежит
высокоспецифичное взаимодействии лимфоцитов с антигенами. В процессе выработки
иммунного ответа организма на новый возбудитель иммунная система проходит ряд
стадий. На одной из стадий происходит процесс размножения и накопления Тлимфоцитов имеющих рецепторы специфичные к данному возбудителю. Лимфоциты
имеющую требуемую специфичность получают сигнал к размножению. Проявление
специфичности того или иного лимфоцита происходит с участием белков главного
комплекса гистосовместимости (MHC). Этот комплекс представляет собой белковую
молекулу располагающуюся на поверхности клетки. На поверхности этих белковых
молекул располагаются антигенные детерминанты - олигопептидные эпитопы, задающие
специфичность признака возбудителя. На первом этапе формирования иммунного ответа
специальные антигенпредставляющие клетки (АПК) производят обработку антигена и
презентуют его T-лимфоцитам (T-хелперам). Презентация антигена АПК – есть
встраивание в щель белка MHC антигенного детерминанта. Антигенный детерминант –
обычно
последовательность
аминокислот
характерная
для
данного
возбудителя.
Распознавание T-хелпером комплекса MHC+ антигенный детерминант (см. Рис. 9) ведёт к
указанию какому типу лимфоцитов (с каким рецептором) следует активно размножаться
19
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
для последующих специфических иммунных атак на повреждённые данным возбудителем
клетки.
Рис. 9. Распознавание T-хелпером комплекса MHC+
Один
из
методов
вакцинации
заключается
в
«оказании
помощи»
антигенпредставляющим клеткам, заключающийся во введении в организм уже готовых
олигопептидных фрагментов данного возбудителя, которые хорошо встраиваются в щель
белка MHC. Для того чтобы выявить хорошо связывающиеся с MHC олигопептидные
фрагменты необходимо уметь оценивать энергию межмолекулярного взаимодействия
белка и пептидной цепи.
Один из способов такой оценки - компьютерное моделирование процесса
межмолекулярного связывания лиганд-белок на основе программы докинга. В обычной
постановке задачи докинга низкомолекулярный лиганд имеет трансляционные и
вращательные степени свободы как целого, а также ряд внутренних вращательных
степеней свободы (обычно не более 10-15 внутренних вращательных степеней свободы).
В случае с белком MHC и встраиваемой олигопептидной цепи (8-12 аминокислотных
остатков) ситуация отличается тем что концы цепи сильно связаны с белком, а средняя её
часть может «свободно болтаться» за счёт внутренних степеней свободы. Таким образом,
20
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
возникает задача докинга олигопептидной цепи при наличии закреплённых концов. Такую
задачу мы назвали докингом с ограничениями.
Характерной
особенностью
задачи
докинга
с
ограничениями
является
необходимость проводить изменения геометрических конфигураций главной цепи
олигопептида так, чтобы концы цепи не меняли своего положения. При осуществлении
докинга
программа
осуществляет
множество
трансформаций
геометрической
конфигурации молекулы. Необходимость удерживать концы главной цепи неподвижными
накладывает дополнительные ограничения на возможные конфигурации. Для этого
процедуры генетического алгоритма, которые производят трансформации геометрических
конфигураций молекулы, не учитывающие требуемые ограничения, были дополнены
специальной процедурой, которая корректирует геометрию главной цепи так, чтобы
удовлетворить требованию о закреплённых концах цепи. Работа этой специальной
процедуры основана на решении системы нелинейных уравнений, которые описывают
набор условий накладываемых на все связи образующую главную цепь. Суть этих
условий: фиксирование длины каждой связи, фиксирование валентных углов между
каждой парой смежных связей и фиксирование координат начала и конца всей главной
цепи. При этом число уравнений меньше числа переменных, что приводит к бесконечному
числу решений указанной системы. Бесконечное число решений соответствует «гибкости»
главной цепи при закреплённых концах. Для решения этой нелинейной системы
уравнений применяется метод Ньютона, на каждой итерации которого решается система
линейных уравнений методом сопряжённых градиентов (методом QR разложения). В силу
того, что метод Ньютона есть итерационный метод, требующий некоторое стартовое
приближение, и того, что указанная система нелинейных уравнений имеет бесконечное
число решений различные стартовые приближения, вообще говоря, сходятся к различным
решениям.
Таким
генетического
образом,
алгоритма,
описанная
удерживая
процедура
концы
всех
корректирует
трансформации
конфигураций
главной
цепи
олигопептида закреплёнными в определенных положениях.
Разработана программа ASTRA, реализующая докинг с ограничениями с
использованием генетического алгоритма поиска глобального минимума энергии и
соответствующей ему конфигурации цепи. Программа докинга с закреплёнными концами
ASTRA представляет собой переработанную версию программы SOL докинга обычных
лигандов. Обе программы имеют похожие генетические алгоритмы поиска минимума,
отличие их заключено в методах определения новых конфигураций молекул. При этом
программа ASTRA может работать с лигандами имеющими более 50 внутренних
21
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
торсионных связей, в то время как возможности программы SOL ограничена лишь
докингом лигандов с числом торсионных связей не более 15-ти.
Выявлены оптимальные значения параметров генетического алгоритма, при
которых программа ASTRA работает максимально эффективно.
По алгоритму программы ASTRA сделан стендовый доклад на Ломоносовских
чтениях НИВЦ МГУ: Жабин С.Н., Романов А.Н., Конева А.Е., Сулимов В.Б «Программа
докинга лигандов с внутренними степенями свободы при наличии ограничений ASTRA».
Начата валидация программы ASTRA.
3.3.
Программа PECON «PEptides CONstructor» (Результаты 5-го этапа)
Разработана программа PECON. Эта программа предназначена для генерации
структуры олигопептидных эпитопов для их последующего докинга в белки главного
комплекса гистосовместимости с помощью программы ASTRA.
Алгоритм программы следующий. Пользователь задает последовательность
аминокислотных остатков в виде буквенного кода, например: ALAC, GLU, ARG, ASN,
ALA, HIS, ARG, GLUN. Программа считывает название каждого аминокислотного
остатка и ищет в заранее подготовленной базе данных декартовые координаты атомов, а
также матрицу связности, в которой для каждого атома указано число и тип химических
связей, которые он образует с ближайшим окружением. Далее, программа PECON
связывает аминокислотные остатки, образуя связи между концевыми атомами главной
цепи в соответствии с заданной буквенным кодом последовательности. Молекулу,
образованную таким образом,
необходимо оптимизировать, поскольку база данных
аминокислотных остатков принимает во внимание только внутреннюю структуру остатка,
а их взаимная ориентация при связывании остатков в олигопептид получается случайной.
При такой оптимизации потенциальная энергия взаимодействия между атомами
рассчитывается в рамках силового поля MMFF94[1]. Поскольку начальная геометрия
может быть достаточно плохой, для оптимизации используется метод градиентного
спуска, который не отличается высокой эффективностью, однако работает устойчиво.
При подготовке олигопептида для докинга необходимо учитывать, что атомы
главной цепи концевых аминокислотных остатков должны быть расположены в
определенных положениях, поскольку в ходе докинга их координаты не меняются.
Координаты этих положений должны содержаться в файле формате pdb, который
предоставляется пользователем. Пользователь
указывает
номера аминокислотных
остатков, атомы главной цепи которых должны оставаться фиксированными, программа
22
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
PECON считывает их. Далее, для правильного позиционирования сконструированного
олигопептида, в
потенциальную энергию молекулы вводится дополнительный
квадратичный потенциал с минимумами в тех точках, в которых должны находиться
фиксированные
атомы.
Этот
дополнительный
потенциал
действует
только
на
фиксированные атомы. В результате после оптимизации получается структура с
достаточно хорошей внутренней геометрией и
расположенная надлежащим образом.
Далее можно проводить докинг такой структуры в белки главного комплекса
гистосовместимости с помощью программы ASTRA.
Выявлены оптимальные значения параметров генетического алгоритма, при
которых программа ASTRA работает максимально эффективно.
1. Halgren, T.A. Merck molecular force field. I. Basis, form, scope, parameterization, and
performance of MMFF94. J. Comp. Chem. – 1996. – V. 5-6. P. 490-519
3.4.
Квантовая химия
Проводились пробные расчеты квантовохимическими программами PC GAMESS и
Priroda с целью исследовать эффективность использования суперкомпьютеров семейства
СКИФ для проведения таких расчетов различными методами и на различном числе
процессоров (вычислительных ядер). В качестве исследуемых систем были выбраны:
комплексы органических молекул с ионами Mg2+ - изучение процесса формирования
таких комплексов, центры висмута в кварцевом стекле, а также оптимизация геометрии и
расчет спектров поглощения некоторых органических красителей.
1. Проводились
расчеты
свободной
энергии
формирования
комплексов
органических молекул с ионом Mg2+ в воде. Расчеты проводились на суперкомпьютере
СКИФ-Cyberia. Использовались методы DFT (с функционалом B3LYP) с применением
модели
PCM.
Размеры
молекулярной
системы
вырьировались
(до
61
атома),
максимальное количество базисных функций 633. Расчеты проводились с помощью
квантово-химического пакета программ PC GAMESS в многопроцессорном режиме (до 32
процессоров
на
задачу).
Скалирование
носит
практически
линейный
характер.
Увеличение количества процессоров приводит к затруднениям при запуске нескольких
задач на счет.
2. Проводились
расчеты
по
оптимизации
геометрии
молекул-красителей
(см. Рис. 10) и расчеты энергии возбужденных состояний этих молекул с помощью
квантово-химической программы Природа на суперкомпьютере Чебышев.
23
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Рис. 10. Молекулы красители
Молекулы содержали до 23 атомов, количество базисных функций достигало 259.
Расчеты выполнялись методами DFT, MP2, CCSD (оптимизация геометрии) и методами
TDDFT, CIS(2), CIS(2’) и EOM-CCSD (расчет возбужденных состояний). Задачи
запускались в многопроцессорном режиме с использованием до 128 вычислительных
ядер. Скалирование при этом носит нелинейный характер и зависит как от
рассчитываемой молекулы, так и от метода расчета. При расчете методами CIS(2), CIS(2’)
(разновидности
метода
конфигурационного
взаимодействия
с
однократными
возбуждениями (CIS), CCSD (метод связанных кластеров с однократными и двукратными
возбуждениями) и EOM-CCSD (метод уравнений движения в методе связанных кластеров
для расчета возбуждений) оптимальное использование вычислительных мощностей
достигается при количестве процессоров, равном числу N валентных электронов в
молекуле, которое зависит только от структуры молекулы. При большем количестве
процессоров, используемом при таких расчетах, максимальная производительность
наблюдается на первых N процессорах, тогда как остальные используются в малой
степени. При расчете методами DFT, TDDFT, MP2 такой зависимости не наблюдается, все
процессоры используются в одинаковой степени, и скалирование монотонно зависит от
числа процессоров. Оптимизация геометрии резоруфина (23 атома, 4 шага) методом CCSD
с использованием 128 процессоров занимает 36 часов, оптимизация геометрии молекулы
DMABN (21 атом, 3 шага) с таким же количеством процессоров занимает 7 часов. Расчет
энергии 10 возбужденных состояний резоруфина методом CIS(2’) на 40 процессорах
занимает 10 минут. Расчет энергии 10 возбужденных состояний молекулы DMABN
методом CIS(2’) на 32 процессорах занимает 5 минут.
На Рис. 11 представлена относительная скорость расчета свойств молекулы
DMABN различными кантово-химическими методами, реализованными в программе
Природа, в зависимости от количества процессоров (за единицу принята скорость расчета
при использовании 16 процессоров, поскольку на одном процессоре расчеты не
проводились, а при расчетах методами CIS(2) и CIS(2’) на 8 процессорах не достаточно
памяти). Из рисунка видно, что замедление роста скорости расчетов с увеличением числа
процессоров для методов DFT и TDDFT начинается быстрее, чем для методов MP2 и CIS.
24
НИВЦ МГУ
Научно-технический отчет
Договор № 72-07/14 от 30.07.2007
Рис. 11. Зависимость относительной скорости расчетов от количества процессоров
Результаты 5-го этапа.
Проведено детальное исследование эффективности работы программы Природа в
многопроцессорном режиме на суперкомпьютере СКИФ МГУ Чебышев для различных
квантовохимических
методов.
Выявлено,
что
линейное
скалирование
скорости
вычислений с ростом числа процессоров наблюдается только в пределах ~20 процессоров.
Для ряда квантово-химических методов в программе Природа существует
ограничение на увеличение скорости расчета при увеличении количества процессоров при
достижении их числа, равного количеству валентных электронов рассматриваемой
системы, связанное с реализацией этих методов в программе Природа (методы CIS(2),
CIS(2’), CCSD, EOM-CCSD). Для других методов такого ограничения нет, однако при
количестве процессоров больше 128 увеличение скорости расчета очень незначительно, а
линейное скалирование наблюдается только в пределах ~20 процессоров. Методы DFT и
TDDFT с ростом числа процессоров скалируются хуже, чем методы учета электронных
корреляции MP2 и CIS.
25
Download