Проверим и оценим то, как сказывается отсутствие системы оповещения на работе инфраструктуры. Для этих целей составим формальную и математическую модель процесса мониторинга. В качестве инструмента формального моделирования используем конечные автоматы, математическая модель будет предложена собственная.
Конечные автоматы — ориентированные графы, в которых состояния системы — вершины графа, а переходы из состояния в состояние — именованные направленные ребра графа.
Перечислим все состояния, в которых может находиться бизнес процесс, сделаем это согласно сценария:
- 1. Нормальный режим работы
- 2. Сбор статистики
- 3. Нештатная ситуация
- 4. Мониторинг
- 5. Устранение нештатной ситуации
Схема конченого автомата, иллюстрирующая формальную модель бизнес-процесса, показана на рисунке 4.
Рисунок 4 — Граф конечного автомата формальной модели бизнес-процесса мониторинга Оценим с помощью математической модели затраты на процесс мониторинга. Ключевым показателем с точки зрения работы ИТ-инфраструктуры является время восстановления работоспособности компонента. Составим формулу, по которой произведем оценку временных затрат на данный процесс:
Согласно формуле, время восстановления работоспособности компонента складывается от времени передачи сообщения об ошибке системе мониторинга (Тп.с.), времени доставки сообщения об ошибке системному администратору (Тд) и времени устранения неисправности (Туст.).
Рассмотрим каждый из показателей в отдельности.
Время передачи сообщения складывается из времени обнаружения факта ошибки (Тф.о.), времени идентификации ошибки (Ти.о.), времени пересылки сообщения по каналам связи (Тп.к.). Данные показатели целиком зависят от технических характеристики используемых компонентов и время передачи сообщения можно считать константой. По результатам наблюдения было установлено, что этот показатель в среднем равен 1 минуте, причем наибольшее время относится к обнаружению факта ошибки.
Время доставки сообщения об ошибке системному администратору складывается из времени записи сообщения об ошибке в набор статистических данных (Тз.с.), времени запуска средства мониторинга (Тс.м.) и времени поиска сообщения об ошибке в наборе статистических данных (Тп). Путем наблюдений было выяснено, данный показатель в среднем составляет 45 минут, причем наибольшее время относится к времени запуска средства мониторинга — порядка 40 минут. Здесь дело не в «медлительности» приложений, отвечающих за мониторинг, а в интервалах их проверки.
Время устранения неисправности складывается из времени диагностирования причины возникновения (Тдиаг.) и времени ремонта (Трем). По результатам наблюдений среднее время, затрачиваемое на устранение составляет порядка 30 минут. Безусловно, имеются и поломки, требующие и одного рабочего дня на их устранение, но их доля мала. Большинство же поломок связано с программными сбоями, устранение которых происходит не более чем за 10−15 минут.