Методы и средства мониторинга сервисов передачи данных в глобальных распределенных инфраструктурах

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Методы и средства мониторинга сервисов передачи данных в глобальных распределенных инфраструктурах (реферат, курсовая, диплом, контрольная)

Содержание

Глава 1. Исследование структуры и принципов функционирования сервисов передачи файлов в глобальных распределенных инфраструктурах
- 1. 1. Исследование архитектуры сервисов передачи файлов
  - 1. 1. 1. Общие сведения о сервисе передачи файлов (FTS)
  - 1. 1. 2. FTS-каналы
  - 1. 1. 3. Схемы взаимодействия FTS с элементами сервиса управления данными
- 1. 2. Исследование методов и средств мониторинга информационных систем
  - 1. 2. 1. Вычислительные машины и мониторинг их состояния
  - 1. 2. 2. Становление информационных систем и новые задачи мониторинга
  - 1. 2. 3. Мониторинг баз данных и новые формы представления результатов
  - 1. 2. 4. Мониторинг распределенных систем
  - 1. 2. 5. Мониторинг компьютерных сетей
  - 1. 2. 6. Мониторинг с человеческим лицом
  - 1. 2. 7. Новое тысячелетие и технологии мониторинга
  - 1. 2. 8. Мониторинг грид
Глава 2. Методы и средства обработки и хранения информации о сбоях, возникающих при передаче данных в глобальных распределенных инфраструктурах
- 2. 1. Хранение данных об ошибках
- 2. 2. Прототип системы мониторинга
  - 2. 2. 1. Извлечения данных в прототипе системы мониторинга
  - 2. 2. 2. Хранение данных в прототипе системы мониторинга
  - 2. 2. 3. Представление данных в прототипе системы мониторинга
- 2. 3. Исследование сбоев, возникающих на каналах передачи данных
  - 2. 3. 1. Исследование сбоев в FTS версии
  - 2. 3. 2. Исследование сбоев в FTS версии
  - 2. 3. 3. Основные результаты исследования сбоев на каналах передачи данных
Глава 3. Разработка и реализация подхода к проектированию систем мониторинга сервисов передачи файлов
- 3. 1. Классификация ошибок, возникающих в распределенных системах передачи данных
- 3. 2. Подход к проектированию систем мониторинга сервисов передачи файлов в крупных распределенных грид-инфраструктурах
- 3. 3. Система мониторинга сервиса передачи файлов
- 3. 4. Отчеты в системе мониторинга
- 3. 5. Панель администратора в системе мониторинга
- 3. 6. Механизм оповещений в системе мониторинга
Глава 4. Автоматизация грид
- 4. 1. Автономные грид
  - 4. 1. 1. Архитектура грид
  - 4. 1. 2. Автономный компьютинг
  - 4. 1. 3. Автоматизация и адаптивность грид
  - 4. 1. 4. Сервис управления грид
- 4. 3. Применение ЭС для автоматизации сервиса передачи файлов

В 1960 году пионер программирования, получивший премию Тьюринга за работы в области искусственного интеллекта, Джон Маккарти пророчески говорил, что «вычислительная деятельность может быть со временем организована как общественная услуга» — и рассматривал, как это могло бы быть сделано. Более 30-ти лет потребовалось, чтобы технологии достигли такого уровня, что можно было бы задумываться о практической реализации этой идеи. Ян Фостер — признанный авторитет в вопросах распределенных вычислений, в своих предсказаниях видит схему предоставления вычислительных ресурсов схожей со схемой предоставления электричества, что, с учетом темпов и качества развития средств передачи данных, весьма вероятно. Основную роль в данном направлении играет, грид. — технология создания географически распределенных программно-аппаратных компьютерных инфраструктур, предназначенных для объединения вычислительных мощностей с целью повышения эффективности использования ресурсов и экономии затрат. Появившийся в конце 20-го века, грид смог не только успешно зарекомендовать себя в ряде некоммерческих проектов (TeraGrid (1), Open Science Grid (2), caBIG (3), EGEE (4), Earth System Grid (5) и т. д.), но и заставил обратить на себя внимание таких гигантов как компании Amazon, Google, Oracle и Microsoft.

Физика, химия, астрономия, медицина, науки о земле, это далеко не полный список областей, в которых грид-инфраструктуры используются для решения масштабных задач. Одна из важнейших функций грид — распределение и обработка огромных массивов данных, за что отвечают специализированные сервисы. В своей работе сервисы передачи данных взаимодействуют с множеством компонентов. Гридинфраструктуры могут состоять из сотен сайтов (региональных компьютерных центров), на которых установлены различные системы хранения файлов. Для взаимодействия с системами хранения используются различные сервисы. За передачу данных на физическом уровне отвечают различные протоколы. Сервисы передачи данных организуют работу всех элементов и сервисов управления данными, кроме того они должны обрабатывать информацию об ошибках на любом этапе передачи данных. Ежедневно подобными сервисами выполняются тысячи транспортных задач, пересылаются десятки тысяч файлов, общие объемы передаваемой информации составляют десятки терабайт в день! От надежности и корректности работы подобных сервисов напрямую зависит успех использующих их проектов. Например, проекта распределения и обработки данных с самого большого в мире ускорителя элементарных частиц — Большого Адронного Коллайдера (Large Hadron Collider, LHC) (6), < создаваемого в Женеве в Европейском Центре Ядерных Исследований (ЦЕРН). Основной задачей ускорителя является открытие новых фундаментальных частиц &bdquo-и выявление их свойств. Четыре эксперимента LHC ежегодно будут генерировать порядка 15 Пбайт данных. Создание отдельной инфраструктуры для хранения и обработки подобных объемов данных потребовало бы колоссальных организационных и финансовых затрат, вследствие чего было решено использовать для решения данной задачи грид-технологии. Грандиозный проект распределения данных с ускорителя по всему миру получил название LHC Computing GRID (LCG), в дальнейшем проект стал называться WLCG (Worldwide LHC Computing GRID) (7). В рамках проекта решаются вопросы построения распределенной иерархической архитектуры системы региональных центров, в которых и будет производиться хранение и обработка информации. Суть модели распределения состоит в том, что весь объем информации с детекторов LHC после обработки в реальном времени и первичной реконструкции должен направляться для дальнейшей обработки и анализа в крупные региональные центры (Ш2РЗ-Фрапция, PIC-Испания, RAL-CIIIA, SARA-Нидерланды и др.). Затем доступ к данным получат ученые из центров масштаба институтов и университетов.

Планируется, что доступ к экспериментальным данным получат более 5000 ученых из более чем 500 исследовательских институюв и университетов, распределенных по всему миру. Уже на этапе тестирования, общие объемы передаваемой с использованием сервисов передачи данных информации составляли десятки i ерабайт в день, при пропускной способности в сотни мегабит в секунду, а когда ускоритель будет запущен на полную мощность, объемы передач значительно возрастут. Невероятные массивы данных будут ежедневно распределяться между х различными центрами по всему миру.

Основой для построения любой грид-инфраструктуры является промежуточное программное обеспечение (ППО) — middleware. Middleware, используемое в WLCG, разрабатывается в рамках проекта EGEE (4) и называется gLite (8). Основной задачей EGEE является объединение мировых компьютерных ресурсов в единую однородную среду, которой ученые могли бы пользоваться совместно в мировом масштабе. Сейчас в EGEE входят порядка 290 сайтов из более чем 55 стран, и 200 виртуальных организаций используют его 144 000 процессоров для решения различного рода задач. Middleware Globus (9), разрабатываемое Globus Alienee (10), наравне с glite является весьма популярным и используется в множестве коммерческих и научных проектов.

Сервис передачи файлов в gLite называется FTS (File Transfer Service) (11), его аналог в Globus — RFT (Reliable File Transfer Service) (12). К концу 2006;го года набор средств мониторинга FTS и RFT был весьма скромен и состоял в основном из небольших скриптов, визуализирующих информацию, предоставляемую самими сервисами посредством интерфейса командной строки, или комплексов мониторинга широкого профиля, отражающими общую информацию по передачам данных. Ни одна из систем не предоставляла полную информацию о состоянии сервисов, истории их функционирования, а главное, с учетом количества потенциальных источников сбоев, об ошибках, возникающих в распределенных системах передачи данных.

Актуальной задачей является и решение проблемы адаптивности грид. Из-за сложности и разнородности грид-инфраструктур существует множество трудностей в их поддержании и управлении. Для их установки, конфигурирования и контроля требуется множество опытных специалистов, которых зачастую очень сложно найти, а тем более обучить. Современные грид-инфраструктуры не способны автоматически подстраиваться под изменения программно-аппаратной среды (отсутствует адаптивность), вследствие чего реакция на сбои и изменения в инфраструктуре происходит с большим запозданием. Автоматизация работы как отдельных, так и групп сервисов способно самым положительным образом сказаться на адаптивности, а значит и на эффективности работы грид-инфраструктур.

Поскольку надежность и корректность работы сервисов передачи файлов критически важна для использующих их проектов, цель диссертационной работы была определена следующим образом:

Разработка новых и совершенствование существующих методов и средств анализа и обработки информации о функционировании сервисов передачи файлов в глобальных распределенных инфраструктурах.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Исследование структуры и принципов функционирования сервисов передачи файлов в глобальных распределенных инфраструктурах;

2. Разработка классификации ошибок, возникающих в распределенных инфраструктурах передачи данных.

3. Разработка подходов и методов проектирования систем мониторинга сервисов передачи файлов в грид-иифраструктурах;

4. Разработка системы мониторинга сервиса передачи данных и исследование полученной информации о сбоях.

5. Исследование возможностей адаптивности и автоматизации сервисов передачи файлов.

В результате работы были получены следующие научные результаты:

1. Предложена классификация ошибок, возникающих в распределенных системах передачи данных, основанная на четкой иерархии описания сбоев и использовании механизма паттернов.

2. Предложен и реализован подход к проектированию систем мониторинга сервисов передачи файлов в крупных распределенных грид-инфраструктурах.

3. Предложен новый сервис — сервис управления грид (Grid Management Service, GMS), способный решить проблему адаптивности глобальных распределенных систем.

Практическая ценность работы заключается в следующем:

1. Создана система мониторинга сервиса передачи файлов, предоставляющие широкие возможности для анализа и обработки информации о его функционировании.

2. Проведено исследование ошибок, возникающих при передаче файлов в крупных распределенных грид-инфраструктурах. Исследование позволило определить самые распространенные ошибки, причины их возникновения, основные области возникновения ошибок, выявить программные и логические ошибки в приложениях.

3. С целью автоматизации работы сервиса передачи файлов и апробации идей СМ8 создан прототип модуля экспертной системы, способный значительно облегчить работу администраторов систем передачи данных.

Положения, выносимые на защиту, таковы:

1. Архитектурные особенности сервиса передачи файлов таковы, что для решения задач мониторинга сервиса требуется использовать модифицированные методы мониторинга из различных областей.

2. Предложенная классификация ошибок, предоставляет стандартизированное решение вопросов разделения, объединения и детализации сбоев, возникающих в распределенных системах передачи данных.

3. Разработанный подход к проектированию систем мониторинга сервисов передачи данных в глобальных распределенных инфраструктурах стандартизирует разработку приложений в данной области.

4. Разработанная система мониторинга предоставляет широкие возможности для анализа и обработки информации о функционировании сервиса передачи файлов.

5. Предложенный сервис управления грид (Grid Management Service, GMS), способен решить проблему адаптивности не только сервисов передачи файлов, но и глобальных распределенных систем в целом.

Результаты работы неоднократно докладывались на семинарах ЛИТ ОИЯИ, Дубна, рабочих совещаниях и семинарах ITGS, ЦЕРН, WLCG Service Reliability Workshop, ЦЕРН (26.11.2007), а так же на конференции «Distributed Computing and Grid technologies in science and education», GRID-2008, Дубна (30.5−4.06.3008), СНЕР (Computing in High Energy and nuclear Physics) 2009, Прага (20−27.03.2009) и «Молодежь и XXI век», Курск (26.5−29.5.2009). Работа была награждена первой премией молодых ученых и специалистов в номинации — «научно-технические прикладные работы», на 13-ой зимней конференции ОМУС-2009 (Объединение молодых учёных и специалистов ОИЯИ) (16.02−21.02.2009) и признана лучшей на 16-й научной конференции студентов, аспирантов и молодых специалистов университета «Дубна» (23.3−3.4.2009), а так же конференции «Информационные системы и технологии 2009», Обнинск (15.05.2009).: Диссертация имеет следующую структуру:

В первой главе, основанные положения которой отражены в (13- 14), изложены результаты исследования структуры, внутреннего устройства и методов взаимодействия FTS (File Transfer Service), как типового сервиса передачи данных. В результате исследования были определены основные объекты, их характеристики, состояния, схемы взаимодействия и принципы функционирования сервиса передачи файлов. Отельное место в главе уделено исследованию истории развития технологий мониторинга информационных систем с 60-х годов 20-го века и до наших дней. В процессе исследования определены наиболее перспективные методы и подходы, такие как механизм паттернов, механизм оповещений, корреляционный анализ, различные техники представления результатов и т. д., которые при должной модификации могли бы быть весьма полезны в аспекте мониторинга сервисов передачи файлов.

Во второй главе, основанной на результатах работ (15- 16), представлены методы и средства, разработанные для хранения, обработки и визуализации информации о сбоях, возникающих при передаче данных по каналам связи. Рассматривается система, обрабатывающая файлы отчетов сервиса передачи файлов, для получения информации о сбоях, возникающих при передаче данных по каналам связи. Разработанная система предоставляет надежный инструмент для поддержания работоспособности каналов и значительно расширяет функциональные возможности анализа сбоев на каналах связи. Так же в главе приводятся результаты исследования сбоев, возникающих на каналах передачи данных. Исследование позволило определить самые распространенные ошибки и причинных их возникновения, основные области возникновения ошибок, 1 выявить программные и логические ошибки в приложениях.

В третьей главе, основанные положения которой отражены в работах (17- 18), представлены классификация ошибок, предоставляющая различные уровни детализации, и подход к проектированию средств мониторинга для сервисов передачи файлов. Так же в ней описывается система мониторинга, созданная в соответствии с предложенным подходом и объединяющая в себе функциональность уже существующих систем и работающая непосредственно с базой данных БТБ. Представленный подход призван упростить и стандартизировать разработку приложений, предназначенных для мониторинга, и может быть распространен на широкий спектр различных грид-сервисов. Разработанная система мониторинга предоставляет удобный инструмент для получения подробной информации о работе сервиса, поддержания его работоспособности, а так же упрощения процессов технического обслуживания.

В четвертой главе, основанной на результатах работ (17- 19), представлен краткий анализ актуальной области исследований и разработок сложных систем — автономного компьютинга (autonomie Computing). На основе анализа выдвигается предложение о создании, и определяются основные принципы функционирования, архитектурные особенности и задачи сервиса управления грид — Grid Management Service (GMS), способного взять на себя автоматизацию не только сервиса передачи файлов, но и грид в целом. Так же в главе представлен разработанный прототип экспертной системы, призванный продемонстрировать возможности автоматизации процесса определения состояний объектов и действий для разрешения проблемных ситуаций. Рассмагриваются возможности дальнейшей автоматизации сервиса передачи файлов.: В заключении сформулированы основные результаты диссертационной работы.

2.3.3 Основные результаты исследования сбоев на каналах передачи данных.

Вернемся к ареалам возникновения ошибок — таймаутам, программным ошибкам, специфическим ошибкам приложений и ошибкам пользователей. Как было сказано ранее, легче всего искоренить программные ошибки, т.к. существуют отработанные методологии исправления критических ошибок в приложениях. Однако, стоит заметить, что приложения постоянно обновляются, следовательно, работы по выявлению программных ошибок должны проводиться на постоянной основе. Специфические ошибки приложений — довольно сложная область и, скорее всего, подобные ошибки будут присутствовать всегда, т.к. являются одним из механизмов контроля работоспособности приложений. Единственное правильное направление деятельности в данной области — уменьшение числа таких ошибок путем своевременного реагирования на их появление. Для исправления ситуации с ошибками пользователей, очевидным представляется путь повышения квалификации пользователей, а так же увеличения качества и количества документации на приложения. Проблема таймаутов, по-видимому, самая сложная из четырех. С одной стороны, логичным решением представляется увеличение размера таймаутов, но с другой стороны, подобный шаг может самым негативным образом сказаться на состоянии сервисов. Основными задачами: механизма-таймаутов являются выявление неработоспособных элементов и предотвращение" возникновения чрезмерных очередей, поэтому-.. определение- ' оптимальных таймаутов, при которых система будет сохранять свою функциональность и при этом не терять производительность — сложная и кропотливая работа, которой приходится заниматься администраторам, как конкретных узлов, так и глобальных сервисов. Пожалуй, единственный способ достичь положительных результатов в данном направлении — это постоянные эксперименты и своевременное реагирования на изменения в глобальной инфраструктуре.

Исследования подобного рода могут значительно ускорить процесс эволюционирования и становления сервисов, а методология определения причин ошибки путем выявления ее взаимосвязей с уже хорошо изученными ошибками может стать довольно перспективным направлением для дальнейшего развития системы мониторинга.

Заключение

по главе Для решения проблемы хранения информации об ошибках предложен механизм паттернов, который позволил стандартизировать представление информации об ошибках и значительно упростил добавление шаблонов новых ошибок в систему.

Разработана система мониторинга, предоставляющая надежный инструмент для поддержания работоспособности каналов и значительно расширяющая функциональные возможности анализа сбоев на каналах связи. В течение полутора лет система активно использовалась в ЦЕРН для поддержания работоспособности ГТ8-каналов и позволила выявить ряд программных ошибок в различных приложениях., , ¦

Опираясьна данные, полученные за время работы с системой, впервые было проведено исследование сбоев, возникающих на каналах связи с использование сервисов передачи файлов. Благодаря исследованию были определены и описаны самые распространенные ошибки при передаче данных, изучены причины их возникновения и способы предотвращения. Еще одним результатом исследования стала апробация метода определения причины возникновения неизученных ошибок путем определения степени их связанности с уже известными ошибками. Т. е. если у новой ошибки высокий коэффициент корреляции с ошибками, возникающими при работе с БЯМ, можно предположить, что и эта ошибка возникает по причине сбоев 8Ш4. В результате в новой системе мониторинга, которая будет описана позднее, были реализованы интегрированные средства определения степени корреляции между ошибками.

Глава 3. Разработка и реализация подхода к проектированию систем мониторинга сервисов передачи файлов.

3.1 Классификация ошибок, возникающих в распределенных системах передачи данных Использование паттернов позволило стандартизировать представление информации об ошибках, достичь взаимопонимания между разработчиками программных приложений и пользователями FTS, а также установить связи между различными ошибками. За время работы автором было выделено более 400 паттернов ошибок. Для облегчения работы с ними было определено 16 различных объединяющих классов. На тот момент в FTS использовалось только одно поле для описания ошибки, и обработка данных о них требовала много ресурсов, т.к. необходимо было, производить поиск в строке. i: Изучение выделенных паттернов и классов позволилосовместно с коллективом разработчиков FTS разработать и применить в FTS версии 2.0 новую классификацию ошибок, в соответствии с которой сообщение о сбое состоит из четырех частей:

Scope — источник ошибки (может принимать значения: SOURCE — сайт-источник, DESTINATION — сайт-назначения, TRANSFER — транспортные протоколы, проблемы связи и т. д.).

Category — класс ошибки. Определено более 30 неизменных классов ошибок. (FILEEXIST, NOSPACELEFT, TRANSFERTIMEOUT и т. д.).

Phase — этап в жизненном цикле передачи, на котором произошла ошибка (ALLOCATION, TRANSFERPREPARATION, TRANSFER и т. д.).

Message — детальное описание ошибки (400 паттернов).

Четкая иерархия описания сбоев позволяет достаточно легко решать вопросы разделения, объединения и детализации. Существует возможность группировать сбои по источникам их возникновения и определить их класс для получения общего представления о ситуации, а при необходимости получить детальное описание ошибок с целью их исправления. Кроме того использование различных полей для хранения составных частей ошибок значительно уменьшает время обработки данных.

Из вышеизложенного положение о том, что предложенная классификация ошибок, представляет стандартизированное решение вопросов разделения, объединения и детализации сбоев, возникающих в распределенных системах передачи данных.

3.2 Подход к проектированию систем мониторинга сервисов передачи файлов в • л. • ! — крупных распределенных грид-инфраструктурах .

Следующим шагом работы стала разработка общего подхода к проектированию средств мониторинга для сервисов передачи файлов. Подход ориентирован на удовлетворение общих требований к функциональности системы, сформулированным в первой главе, направленности на минимизацию времени вычислений, использование единых стандартов и автоматизированных механизмов обработки информации. Основные положения подхода следующие:

1. Все компоненты систем мониторинга должны разрабатываться в соответствии с единой классификацией ошибок. Данное правило позволит избежать недопонимания между пользователями и администраторами, упростить процесс разработки.

Заключение

Большая работа по созданию новых и совершенствованию существующих методов и средств анализа и обработки информации о функционировании сервисов передачи файлов проводившаяся в течении более чем 2-х лет автором диссертации в составе группы ТТ 08 привела к разработке новой классификации сбоев, общего подхода к проектированию, а так же ряду средств мониторинга сервиса передачи файлов. Разработанные системы в течении долгого времени использовались для поддержания работоспособностей каналов передачи данных в ЕОЕЕ/УЕСО и позволили выявить ряд программных и логических ошибок приложений, что положительным образом сказалось на развитие сервиса в целом. Основные результаты работы следующие:

1. Выделены основные объекты, характеристики, состояния, схемы взаимодействия, принципы функционирования и архитектурные особенности сервиса передачи файлов, так же определены наиболее перспективные методы и подходы в аспекте мониторинга сервисов передачи файлов.

2. Предложена классификация ошибок, возникающих в распределенных системах передачи данных, основанная на четкой иерархии описания сбоев и использовании механизма паттернов.

3. Предложен и реализован подход к проектированию систем мониторинга сервисов передачи файлов в крупных распределенных грид-инфраструктурах;

4. Создана система мониторинга сервиса передачи файлов, предоставляющая широкие возможности для анализа и обработки информации о функционировании сервиса.

5. Проведено исследование ошибок, возникающих при передаче файлов в крупных распределенных грид-инфраструктурах. Исследование позволило определить самые распространенные ошибки, причины их возникновения, основные области возникновения ошибок, выявить программные и логические ошибки в приложениях.

6. Предложен новый сервис — сервис управления грид (Grid Management Service, GMS), который решает проблему адаптивности глобальных распределенных систем. Определены основные принципы функционирования, архитектурные особенности и задачи этого сервиса. С целью автоматизации работы сервиса передачи файлов и апробации идей GMS создан прототип экспертной системы, интегрированный в систему мониторинга.

Я глубоко признателен моему учителю, научному руководителю и соавтору к.ф.-м.н. профессору В. В. Коренькову, за постановку задачи, постоянное внимание и неоценимую организационную помощь в работе. Он является соавтором опубликованных работ, результаты которых легли в основу настоящей диссертации. Соавторство с ним дало мне неоценимый опыт подготовки научных публикаций.

Я сердечно благодарен д.ф.-м.н. В. А. Ильину, а так же Д. Шиерсу за возможность работать в Европейском Центре Ядерных Исследований (ЦЕРН) в то время, когда работа по мониторингу ЕТБ была наиболее актуально. Их внимание к проводимым работам и ценные указания оказывали стимулирующее влияние.

В достижение представленных результатов неоценимую помощь автору оказали друзья и коллеги группы 1 Т ОБ., Ю. Андреева, Г. Маккенс, П. Тедеско, С. Трайлен, Б. Гайдиоз и Р. Рожа. Автор выражает им искреннюю признательность.

Особую благодарность я хочу выразить А. Нечаевскому, И. Сидоровой и С. Белову за постоянную поддержку и многочисленные полезные советы.

За интересные и полезные дискуссии я благодарен работникам Лаборатории Информационных Технологий, ОИЯИ и института САУ Международного Университета «Дубна».

Показать весь текст

Список литературы

Домашиая страница проекта TeraGrid. URL: http://www.teragrid.org (дата обращения 11.10.2009).
Домашная страница проекта Open Science Grid. URL: http://www.opensciencegrid.org (дата обращения 11.10.2009).
Домашная страница проекта caBIG Community. URL: https://cabig.nci.nih.gov (дата обращения 11.10.2009).
Домашная страница проекта EGEE. URL: http:// www. eu-egee.org (дата обращения 11.10.2009).
Домашная страница проекта Earth System Grid. URL: http:// www.earthsystemgrid.org (дата обращения 11.10.2009).
Домашная страница проекта LHC. URL: http:// public.web.cem.ch/public/en/LHC/LHC-en.html (дата'обращения 11.10.2009).
Домашная страница проекта WLCG. URL: http:// lcg.web.cern.ch/LCG/ (дата обращения 11.10.2009).
Домашная страница ППО gLite. URL: http:// glite.web.cern.ch/glite/ (дата обращения 11.10.2009).
Домашная страница проекта Globus. URL: http:// www.globus.org (дата обращения 11.10.2009).
Домашная страница проекта Globus Alienee. URL: http://www. globus.org/alliance (дата обращения 11.10.2009).
Страница wiki посвященная FTS. URL: https://twiki.cern.ch/twiki/bin/view/EGEE/FTS (дата обращения 11.10.2009).
Домашная страница сервиса Reliable File Transfer Service. URL: https://www.globus.Org/toolkit/docs/4.0/data/rft/ (дата обращения 11.10.2009).
Кореньков В.В., Ужинский А. В. Архитектура сервиса передачи данных в grid // Открытые системы. 2008.- N2 — С.52−56.
Кореньков В. В, Ужинский А. В. История развития технологии мониторинга информационных систем // Системный анализ в науке и образовании. Дубна, 2009.-Вып. 1.
Кореньков В.В., Ужинский А. В. Система мониторинга сервиса передачи данных (FTS) проекта EGEE/WLCG // Сообщения ОИЯИ. Дубна, 2008, — Р11−2008−80.
Кореньков В. В. Ужинский А.В. Статистический анализ сбоев, возникающих при пересылке данных в глобальной грид-инфраструктуре EGEE/WLCG // Сообщения ОИЯИ. Дубна, 2008.- Р11−2008−82
Кореньков В. В, Ужинский А. В. Система мониторинга сервиса передачи данных (FTS) проекта EGEE/WLCG // Вычислительные методы и программирование. 2008.-Т.10 — С.96−100.
Кореньков В. В, Ужинский А. В. На пути к адаптивному grid // Открытые системы. -2009.- N9 СЛ8−19.
Свифт Ч.Д. Machine Features for a More Automatic Monitoring System on Digital Computers //ACM (J ACM). Апрель 1957. — Т. 4.
Шульман Ф.Д. Hardware measurement device for IBM system/360 time sharing evaluation// ACM Annual Conference/Annual Meeting. 1967. — C. 103−109.
Грошов М. The graph display as an aid in the monitoring of a time shared computer system // Technical Report. 1968.
Пинкертон Т. Performance monitoring in a time-sharing system // Communications of the ACM. Ноявбрь 1969. — Т. 12. — C.608−610.
Стивен P., Деллер Ф., Льюис Д, Квин М. Utilization of a small computer for real-time continuous patient monitoring // ACM Annual Conference/Annual Meeting. 1971, — C.622−639.
Ричард A. Monitoring and glurp in the ISVD and beyond // ACM SIGCUE Outlook. -Июнь 1970.-Т. 4.-С.2−11.
Генри JI. Performance Evaluation and Monitoring // ACM Computing Surveys (CSUR). -Сентябрь 1971.- Т. 3. С.79−91.
Арндт Ф.Р., Оливер Д.М. Hardware Monitoring of Real-Time Computer System Performance // Computer. Июль 1972, — T.5. — C.25−29.
Карлсон Г. How to save money with computer monitoring // ACM Annual • Conference/Annual Meeting. 1972.- C.1018−1023.
Свободова Л. Online system performance measurements with software and hybrid monitors // ACM Symposium on Operating Systems Principles. 1973.- C.45−53.
Айдун Б.О. Environments for monitoring and dynamic analysis of execution // Simulation of Computer Networks. 1973.- C. 178−197.
Доминик В.Д., Пениман В.Д. Automated monitoring to support the analysis and evaluation of information systems // ACM SIGIR Forum. Сентябрь 1979.- Т. 14. — C.2−9.
Бунеман О.П., Клемонс E.K. Efficiently monitoring relational databases // ACM Transactions on Database Systems (TODS). Сентябрь 1979.- T.4. — C.368−382.
Свободова Л. Performance monitoring in computer systems: a structured approach // SIGOPS Operating Systems Review. Июль 1981.- Т. 15.- C.39−50.
Дасгупта П. A probe-based monitoring scheme for an object-oriented distributed operating system 11 Conference on Object Oriented Programming Systems Languages and Applications. 1986.- C.57−68.
Карстен HI., Огл Д.М. Real-time monitoring of parallel and distributed systems // The Ohio State University. 1988.
Хедеюки Т., Макото К, Клифорд Е. A real-time monitor for a distributed real-time operating system // Workshop on Parallel & Distributed Debugging. 1988.- C.68−77.
Керола Т., Шветман X. Monit: a performance monitoring tool for parallel and pseudoparallel programs // SIGMETRICS Performance Evaluation Revie. Май 1987.- T.15. -С.163−174.
Старк Д. Monitoring software reliability in the shuttle mission simulator // Proceedings of the 1987 Fall Joint Computer Conference on Exploring technology: today and tomorrow. -1987.- C.123−124.
Клейр Д, Веттерстроем А, Джонсон M. ESP AD: an adaptively controlled rule-based expert system for monitoring and diagnosing space vehicle subsystems // ACM Annual Computer Science Conference. 1988.- C.667−672.
Харди H.B., Барнес Д. П., Ли M. Declarative sensor knowledge in a robot monitoring system // Proc. of the NATO Advanced Research Workshop on Languages for sensor-based control in robotics. 1987.- C.169−187.
Мандел A. Dynamical complexity and pathological order in the cardiac monitoring problem // Physica D. Июль 1987, — T.27. — C.235−242.
Стейн Д.М. On-line documentation and tutorials for an integrated graphical and data analysis system// ACM SIGCHI Bulletin. Октябрь 1987.- T.19. — C.56−57.
Штейнберг Д., Качсшвар П, Стрикленд Д. 3-D displays for real-time monitoring of air traffic // Conference on Human Factors in Computing Systems. 1995.
Браден P.T. A pseudo-machine for packet monitoring and statistics // SIGCOMM Computer Communication Review. Август 1988.- T. l 8. — C.200−209.
Хитсон Б.Л. Knowledge-based monitoring and control: an approach to understanding behavior of TCP/IP network protocols. // ACM SIGCOMM Computer Communication Review. Август 1988.- T.18. — C.210−221.
Дунинг Б., Швитлик Д. A real-time expert system for computer network monitor and control //ACM SIGMIS Database. 1988.- T.19. — C.35−38.
Гинее К. Monitoring database performance—a control issue // SIGSAC Review. Март 1987, — T.5. — C.7−11.
Мейнворинг А., Кулер Д, Поластер Д. An analysis of a large scale habitat monitoring application // Conference On Embedded Networked Sensor Systems. 2004.- C.214−226.
Шварковски К, Фостер Я, Кассельман К, Фитзеральд С. Grid Information Services for Distributed Resource Sharing I I In Proc. 10th IEEE International Sym.p. on High Performance Distributed Computing (HPDC-10), IEEE Press. 2001.
Домашная страница сервиса MDS. URL: http://www.globus.org/toolkit/mds/ (дата обращения 11.10.2009).
DataGrid Information and Monitoring Services Architecture: Design, Requirements and Evaluation Criteria // Technical Report DataGrid. 2002.
Домашная страница системы Hawkeye. URL: http://www.cs.wisc.edu/condor/hawkeye (дата обращения 11.10.2009).
Домашная страница системы MonALISA. URL: http://monalisa.cacr.caltech.edu/monalisa.htm (дата обращения 11.10.2009).
Айфтимией К., Андрсоззи С., Кусцела Г., Миссурели Д. Recent evolutions of GridlCE: a monitoring tool for grid systems // Proceedings of the 2007 workshop on Grid monitoring. -2007.-C.1−8.
Гранди С., Рензи A. Object Based System for Batch Job Submission and Monitoring (BOSS) // CMS NOTE. 2003.
Боанасье Ф., Харакали P., Примет П. Mapcenter: an open grid status visualization tool. // In Proceedings of the 15th International Conference on Parallel and Distributed Computing Systems. 2002.
Домашная страница системы GridView. URL: http://gridview.cem.ch/GRIDYIEW/dtindex.php (дата обращения 11.10.2009).
Домашная страница системы Castor. URL: http://www.castor.org/ (дата обращения 11.10.2009).
Домашная страница системы dCache. URL: http://www.dcache.org/ (дата обращения 11.10.2009).
Домашная страница системы DPM. URL: http://www.gridpp.ac.uk/wiki/DiskPoolManager (дата обращения 11.10.2009).
Домашная страница сервиса SRM. URL: http://www.gridpp.ac.uk/wiki/SRM (дата обращения 11.10.2009).
Домашная страница проекта GridFTP. URL: http://dev.globus.org/wiki/GridFTP (дата обращения 11.10.2009).
Домашная страница сервиса LFC. URL: http://vww.gridpp.ac.uk/wiki/LCGFileCatalog (дата обращения 11.10.2009).
Страница wiki с описанием самых распространных ошибок. URL: https://twiki.cern.ch/tviki/bin/view/LCG/TransferOperationsPopularErrors (дата обращения 11.10.2009).
Энсор Д., Стивенсон И. Oracle Design: The Definitive Guide // O’Reilly Media, Inc. -1997.
Лори E., Фрохер П., Кунтз Р., Кренек A. Programming the Grid with gLite // Computational Methods in Science and Technology. Март 2006.
Бруке С., Кампана С., Лорентсо П., Натер С., Сантинели P. gLite3 User Guide // URL: https://edms.cern.ch/file/722 398/l .2/gLite-3-UserGuide.pdf CERN 2008.
Фостер Я. Globus Toolkit Version 4: Software for Service-Oriented Systems // IFIP International Conference on Network and Parallel Computing. 2005.- C.2−13.
Домашная страница проекта Globus. URL: http://www.globus.org/ (дата обращения 11.10.2009).
Кепарт Д., Чиз Д. The vision of autonomic computing // IEEE Computer. 2003.- T.36. -C.41−50.
Раймер Д., Meep С., Страснер Д. From Autonomic Computing to Autonomic
Networking: An Architectural Perspective // Proceedings of the Fifth IEEE Workshop on Engineering of Autonomic and Autonomous Systems. 2008.- T.00. — C. 174−183.
Лопез Д., Фадон С., Гонзалез Д. An autonomic approach to offer services in OSGi-based home gateways // Computer Communications. 2008, — T.31. — C.3049−3058.
Гургус С., Зейд A. Towards autonomic web services: achieving self-healing using web services // Proceedings of the 2005 workshop on Design and evolution of autonomic application software. 2005. — C. l-5.
Менон Д., Peace Д., Peec Ж., Дьянович Л. IBM Storage Tank— A heterogeneous scalable SAN file system // IBM Systems Journal. 2003.- T.42. — C.250−267.
Меснер M., Тереска E., Гангер P., Еллард В., Селтез M. File classification in self-* storage systems // In Proceedings of the 1st International Conference on Autonomic Computing. Май 2004.
Агарвал Г., Датар Н., Мишра Н., Мотвани P. On identifying stable ways to configure systems // In Proceedings of the 1st International Conference on Autonomic Computing. Май 2004.
Ли X., Парашар M., Класки С. An Autonomic Service Architecture for Self-Managing Grid Applications // Proceedings of the 6th IEEE/ACM International Workshop on Grid Computing. 2005, — C. 132−139.
Домашная страница проекта Apache Axis Toolkit. URL: http://ws.apache.org/axis/ (дата обращения 11.10.2009).
Параш M., Ли X., Матоссиан В., Шмит С., Харири С. AutoMate: Enabling Autonomic Applications on the Gi-id // Cluster Computing. Апрель 2006.- T.9. — С. 161−174.
Рахман M., Буйа P. An Autonomic Workflow Management System for Global Grids // Proceedings of the 2008 Eighth IEEE International Symposium on Cluster Computing and the Grid (CCGRID). 2008.- C.578−583.
Милер P., Десмарис X. A Proposal for an Autonomic Grid Management sSystem //л ¦ <
Proceedings of the 2007 International Workshop on Software Engineering for Adaptive and Self-Managing Systems. 2007, — C. pll-18.
Коунсв С., Нои P., Торрес Д. Autonomic QoS-Aware resource management in grid computing using online performance models // ACM International Conference Proceeding Series. 2007, — T.321.- Art N48.
Скривер И., Льюис А., Смит M., Фриес Т. Resource evaluation and node monitoring in service oriented ad-hoc grids // Proceedings of the sixth Australasian workshop on Grid computing and e-research. 2008.- T.82. — C.65−71.
Мессиг M., Госчинский A. Autonomic system management in mobile grid environments // ACM International Conference Proceeding Series. 2007.- T.249. — C.49−58.
Кристуа С., Григорас С., Бетев Л., Легранд И. Monitoring, accounting and automated decision support for the Alice experiment based on the MonALISA framework // High
Performance Distributed Computing, Proceedings of the 2007 workshop on Grid monitoring. -2007.- C.39−44.
Имамаджик E., Добренич Д. Grid infrastructure monitoring system based on Nagios // High Performance Distributed Computing. 2007.- C.23−28.
Домашная страница проекта Nagios. URL: http://www.nagios.org/ (дата обращения 11.10.2009).
Андреева Е., Гадиоз Б., Херала Д., Рожа Р. Сайз П. Experiment Dashboard: the monitoring system for the LHC experiments // High Performance Distributed Computing. -2007.- C.45−49.
Дуарте А., Ретико А., Вициназа Д. Global grid monitoring: the EGEE/WLCG case // High Performance Distributed Computing. 2007.- C.9−16.
Игнизио Д. Introduction to Expert Systems. The Development and Implementation of Rule-Based Expert Systems // McGraw-Hill, Inc. 1991.
Гиарратано Д., Райли Г. Expert Systems: Principles and Programming, Fourth Edition // Course Technology. 2004.

Заполнить форму текущей работой