Грид — географически распределенная, согласованная, открытая и стандартизованная среда разделения вычислительных и информационных ресурсов1. В нашей стране существенный вклад в развитие и применение технологий Грид внесли работы В. А. Ильина, В. М. Котова, В. Г. Хорошевского, А. П. Афанасьева, Л. Б. Соколинского и др. В отличие от Грид-систем I поколения, акцентирующихся в первую очередь, на предоставлении доступа к вычислительным ресурсам, современная концепция Грид II поколения допускает гораздо более широкую интерпретацию. В частности, допустимо рассматривать Грид как специфическую («мягкую», soft) среду параллельных вычислений, наряду с более традиционными (па-пример, кластерными, гибридными) параллельными архитектурами. При этом проблема эффективной организации параллельных вычислений в среде Грид связана с необходимостью объединения и синхронизации большого количества вычислительных систем для решения одной задачи. Это обусловлено рядом специфических факторов, в общем случае отрицательно влияющих на параллельную производительность. К ним относятся неоднородность вычислительных ресурсов и сетевых каналов связи, а также стохастическая изменчивость параметров коммуникационных сетей и вычислительных систем за счет коммунального режима их использования. Как следствие, принципы проектирования эффективных параллельных вычислительных приложений в Грид существенно отличаются от традиционных подходов, характерных, например, для кластерных систем. «Ручной» процесс создания таких приложений является весьма трудоемким, требуя высокой квалификации разработчиков, что привело к развитию специализированного инструментария — интеллектуальных систем поддержки принятия решений разработчика приложений в среде Грид. Принцип работы таких систем основывается на интерпретации знаний о параллельной производительности компонентов распределенного приложения в Грид — прикладных Грид-сервисов, а их создание требует использования соответствующих методов инженерии знаний. Важные результаты в области интеллектуальных систем и инженерии знаний были получены Д. А. Поспеловым, Т. А. Гавриловой, Ю. И. Нечаевым, B.JI. Стефанюком, Г. С. Осиповым, L. Zadeh, P. Winston и др. Однако применительно к такой специфической области, как среда Грид, с большим и непрерывно растущим количеством размещаемых в ней прикладных сервисов, использование традиционной стратегии получения знаний путем взаимодействия инженера по знаниям с экспертами и специализированной литературой становится затруднительным. Для приобре.
1 Данное определение является обобщением частных определений, независимо сформулированных I. Foster н С. Kesselman, а также М. Livny. тения таких знаний в условиях неопределенности среды Грид необходимо применять косвенные методы, основанные на обработке данных экспериментальных измерений производительности, усвоении их в аналитических моделях, а также использовании индуктивных программ имитационного моделирования. Отсутствие общего подхода к решению этой задачи делает тему диссертации актуальной.
Предметом исследования данной работы являются косвенные методы формализации и приобретения знаний о параллельной производительности вычислительных сервисов в среде Грид на основе аналитических и имитационных моделей. Целью является решение задачи, играющей существенную роль в области распределенных вычислений, а именно — исследование и разработка методов формализации и приобретения знаний о параллельной производительности прикладных Грид-сервисов, используемых для наполнения базы знаний интеллектуальной системы поддержки процесса проектирования параллельных вычислительных приложений в Грид. В соответствии с целью работы были поставлены и решены следующие задачи:
• разработка и обоснование семейства аналитических моделей параллельной производительности приложений в среде Грид на основе формализма детерминированной функции случайного аргумента;
• разработка, обоснование и программная реализация метода имитационного моделирования работы параллельного приложения в Грид, позволяющего описывать среды, в которых пропускная способность каналов связи и производительность вычислительных узлов независимо меняются от запуска к запуску по заданным пользователем законам распределения;
• приобретение и формализация знаний о производительности приложений в неоднородных корпоративных Грид-средах с использованием аналитических и имитационных моделей;
• обоснование метода определения вероятностных характеристик параллельного ускорения с учетом стохастичности времени работы вычислительного приложения в среде Грид.
В ходе работы применялись различные методы исследования, включая аппарат теории вероятностей и математической статистики случайных величин и функций, методы имитационного моделирования, элементы анализа алгоритмов и программ, модели и методы инженерии знаний, методы вычислительной математики и инженерии программного обеспечения.
Научная новизна полученных результатов заключается в том, что был сформулирован метод приобретения знаний о производительности композитных вычислительных приложений в среде Грид, совокупно учитывающий алгоритмическую специфику Грид-сервисов, условия запуска приложения и изменчивость характеристик вычислительной инфраструктуры. Был обоснован метод расчета параллельного ускорения вычислительных приложений в среде Грид на основе нелинейного преобразования детерминированной функции случайного аргумента времени работы приложения на заданном количестве вычислителей. Предложено использование кортежа величин (заданного ускорения, оптимального количества вычислителей для его достижения, и соответствующей вероятности), позволяющего однозначно охарактеризовать производительность параллельного приложения в Грид.
4.4 Выводы к главе 4.
В этой главе была рассмотрена задача составления расписания выполнения потока задач для распределенных систем вычислений, к которым относится Грид. Рассмотрены различные современные подходы к созданию расписаний в зависимости от условий среды и характера взаимосвязанности задач. Подробно рассматривается, каким образом строятся статические каскадные расписания на основе адаптированных моделей производительности, полученных в главе 2. Далее рассматривается, каким образом процесс составления расписания, в том числе и на основе каскадных балансировок, может быть встроен в интеллектуальную систему поддержки процесса проектирования.
Рассматривается подход к определению ускорения параллельного приложения как детерминированной функции случайного аргумента, которая позволяет адекватно описывать ускорение в условиях стохастичности среды Грид.
Заключение
.
В ходе диссертационной работы были получены следующие результаты:
• получено семейство адаптированных моделей производительности параллельных алгоритмов для применения в условиях стохастичности среды Грид;
• разработана и реализована в виде автономного программного средства имитационная модель работы приложений в среде Грид, учитывающая специфику Грид-сервисов, условия запуска приложения и характеристики коммуникационных сетей;
• предложен метод расчета вероятностных характеристик параллельного ускорения в среде Грид на основе формализма детерминированной функции случайного аргумента;
• предложена характеристика параллельного ускорения приложения в Грид в виде кортежа трех величин — заданного ускорения, оптимального количества вычислителей для его достижения, и соответствующей вероятности.
Практическую ценность работы составляют:
• применение семейства аналитических моделей параллельной производительности в Грид для типовых классов приложений, необходимых для идентификации и валида-ции имитационной модели;
• использование программного средства имитационного моделирования работы параллельного приложения в Грид, позволяющего задавать параметрами среды произвольные сетевые топологии, производительность и загруженность для вычислительных узлов, пропускную способность и загруженность для сетевых каналовзаконы распределения колебания шумовой загруженности вычислительных узлов и сетевых каналов.
Результаты, полученные в ходе диссертационной работы, были использованы при выполнении НИР в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007;2012 годы»: «Разработка инструментальной оболочки проектирования высокопроизводительных приложений для Грид-архитектур в целях создания прикладных сервисов компьютерного моделирования и обработки данных» (2007;4−1.4−20−01−025) и «Высокопроизводительный программный комплекс моделирования и прогноза экстремальных гидрометеорологических явлений и расчета воздействий на морские объекты и сооружения» (2007;4−1.4−00−06−108). В процессе работы получено свидетельство о государственной регистрации программ для ЭВМ: «PEG2» (свидетельство № 2 008 614 623).
Изложенные в диссертации результаты обсуждались на 9 международных и российских научных конференциях, семинарах и совещаниях, включая ежегодные Международные научно-практические семинары «Высокопроизводительные параллельные вычисления на кластерных системах» (2006 г., Санкт-Петербург- 2007 г., Нижний Новгород- 2008 г., Казань), ежегодные Всероссийские научные конференции «Научный сервис в сети Интернет» (2007 и 2008 гг., Новороссийск), ежегодную Международную научную конференцию «Параллельные вычислительные технологии (ПаВТ 2008)», XV Всероссийскую научно-методическую конференцию «Телематика 2008», IV и V Межвузовские научные конференции молодых ученых (2007 и 2008 гг., Санкт-Петербург).