Исследование управляемых конечных марковских цепей с неполной информацией и его приложение к расчету показателей надежности сложных систем

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Исследование управляемых конечных марковских цепей с неполной информацией и его приложение к расчету показателей надежности сложных систем (реферат, курсовая, диплом, контрольная)

Содержание

Основные обозначения
1. Управляемые конечные марковские цепи (УКМЦ)
- 1. 1. УКМЦ с полной информацией. Цель и основные результаты исследования
- 1. 2. УКМЦ с неполной информацией. Цель и основные результаты исследования
2. Свойства множества однородных конечных марковских цепей с доходом
- 2. 1. Стационарные характеристики
- 2. 2. Отношения эквивалентности
- 2. 3. Методы расчета стационарных характеристик
- 2. 4. Свойства стационарных характеристик
3. Частичные упорядоченности в множестве Нп
- 3. 1. Определение? -частичной упорядоченности
- 3. 2. Свойства частичных упорядоченностей
- 3. 3. Доказательство основных теорем
4. Минимальные и максимальные элементы в подмножествах множества Н" и их свойства
- 4. 1. Определение минимальных и максимальных элементов. Условия их существования
- 4. 2. Случай
- 4. 3. Случай
- 4. 4. Случай
- 4. 5. Случай
- 4. 6. Случай
5. Частичные упорядоченности в множестве ^(Нп) 5.1. Определение ¿-частичной упорядоченности. Максимальный и минимальный элементы
- 5. 2. Теоремы существования минимального и максимального элементов в множестве А (#)
- 5. 3. Некоторые свойства частичной упорядоченности
6. 1-частичная упорядоченность в множестве ^ и ее свойства
- 6. 1. Определение 1-частичной упорядоченности. Минимальные и максимальные элементы в подмножествах множества
- 6. 2. Условия существования минимальных и максимальных элементов в замкнутом множестве
- 6. 3. Теоремы существования (1, s)-минимального и (1, s^{максимального} элементов
7. 1-частичная упорядоченность в множестве
- 7. 1. Определение 1-частичной упорядоченности и ее свойства
- 7. 2. Теоремы существования 1-минимального и 1-максимального элементов в множествах и
- 7. 3. Теоремы существования 1-минимального и 1-максимального элементов в множествах ^ и Ji^q
8. Основные свойства управляемых конечных марковских цепей
- 8. 1. Основные свойства УКМЦ с полной информацией
- 8. 2. Основные свойства УКМЦ с неполной информацией
9. Алгоритм решения задачи оптимального управления сложной системой с неполной информацией о надежности элементов
- 9. 1. Алгоритмы решения вспомогательных задач
- 9. 2. Алгоритм решения основной задачи
- 9. 3. Обоснование алгоритмов

В настоящее время трудно переоценить значение теории управляемых конечных марковских цепей. Эта теория нашла широкое применение в различных областях науки и техники, таких как исследование операций, экономической кибернетики, теория надежности, теория оптимального управления сложными системами и т. д.

Хотя первые публикации по управляемым конечным марковским цепям (УКМЦ) появились в конце пятидесятых начале шестидесятых годов [2−8], исследования в этой области интенсивно продолжаются и в настоящее время [12−16, 24−28, 32−68], что с одной стороны определяется плодотворностью теории УКМЦ, а с другой стороны показывает, что не все запросы практики удовлетворяются ею полностью.

Действительно, в приложениях часто возникает ситуация, когда непосредственное использование полученных в теории УКМЦ результатов становится некорректным, что указывает на существование иных, хотя и близких к УКМЦ, но в должной мере не изученных математических объектов. Для описания одного из таких объектов, названного УКМЦ с неполной информацией, подробней остановимся на ситуации, в которой он возникает.

Прежде всего, укажем некоторые особенности определения и способа задания УКМЦ с конечным множеством управлений. Для наглядности эти особенности выявим на примере некоторого технического объекта, управляемого диспетчером и обладающего следующими свойствами :

1. Объект характеризуется наблюдаемыми и регистрируемыми в дискретные моменты времени ^ параметрами, где к =1, да. Множество значений этих параметров является конечным множеством, независящим от к. Это множество представляется в виде: 1 = {1,., п}, — и называется множеством состояний объекта, где пе^/ ;

2. Если в момент времени ^ объект находится в состоянии то диспетчер должен с вероятностью ^ выбрать одно управляющее воздействие? из конечного множества % допустимых управляющих воздействий в состоянии I и применить его к объекту, где к = 1, оо, % = {1,., т (Т)}, {= 1, п. Управляющее воздействие примененное к объекту, влияет на его дальнейшее поведение следующим образом: состояние объекта в следующий момент времени ^ будет } с вероятностью), где ] =1,п. Для вероятностей ¿-^Л.

Рц (£) выполняются соотношения: + *?,"> =1. 0) рц (?)>о, + + = и (2) где =, При этом стохастический вектор ¿-[к) = [?[V, ¦ ,¿-иш] именуется рандомизированным управлением в состоянии, а стохастический вектор р[(£) =),., р^О?)] - вектором переходных вероятностей в состоянии {, соответствующим управляющему воздействию? , где? е (!Л. В начальный момент времени ^ объект находится в состоянии 1 с п вероятностью а, где ах > 0, { =1,п, £а, = 1- Вектор, а = [щ ап] ы называется начальным распределением;

3. Если в момент времени ^ объект находился в состоянии { и было применено управление ?, то на интервале времени [^-1, именуемом по традиции [5] кым шагом, объект приносит доход равный), где 1 = = 17п, , к=1,оо. При этом для дохода выполняется соотношение :

— р0<�Я1(0<�Ро, (3) где ро>0.

Соотношения (3) указывают на то, что доход является ограниченной величиной.

Объект, обладающий свойствами 1−3, представляет собой управляемый марковский объект. Укажем следующие пять его основных особенностей :

1. Управление объектом осуществляется диспетчером в дискретные моменты времени где к = 1, оо, в соответствии с правилом 8, называемым (марковской) стратегией и имеющим вид: б = [?(1),. .. , ¿-(1с),.. ], (4) где ¿-(к) = [¿-,(1с),., ¿-[к) — рандомизированное управление в состоянии применяемое в момент времени (или на к-ом шаге), к = 1,<�", I =1,п. При этом множество Б всех стратегий вида (4), называемое множеством (марковских) стратегий, имеет вид :

8 = (5) где = Р = Р1М1}х.х?1Ма), ^ еР^ф, Л, ш®множество всех т ©—мерных стохастических векторов, 1=1,п.

Отметим, что именно из множества Б выбирается и передается диспетчеру некоторая стратегия 8, в соответствии с которой он осуществляет управление марковским объектом. При этом считается, что любая стратегия в, где ее Б, может быть использована для управления объектом ;

2. Минимальным набором исходных данных, которым можно задать рассматриваемый марковский объект, является следующая совокупность: яД {(6) где Ь^) = [ри (Д., ри (4я^)];

3. При фиксированной стратегии в, где БеЭ, наблюдение за процессом смены состояний и управлений объекта в моменты времени к=0,оо дает траекторию г, которая имеет вид: г=[&, Ш1ь4),.Д1к, 4+1),.], (7) где (¡-к, 4+1) — пара, состоящая соответственно из состояния ¿-к, в котором пребывает объект в момент времени^, и управляющего воздействия 4+1, примененного диспетчером к объекту в этом состоянии. При этом для любого к, где к=0,оо, справедливо выражение: 4+1?. Вероятность траектории г определяется, в соответствии с определением стратегии в и исходными данными, изложенными в свойстве 2 объекта, по формуле: ¦ • ч^ргиад* ¦ • • да.

Таким образом, формируется вероятностное пространство траекторий: к,.ад, ра>5), (9).

Я — множество всевозможных траекторий г, имеющих вид (7), йв (К) множество событий на множестве траекторий, Раз — вероятностная мера, заданная на множестве и обладающая свойством (8);

4. При фиксированной стратегии в, где б б Б, математической моделью процесса смены состояний объекта в дискретном времени^, где к =0,®, является конечная марковская цепь ^(в). Эта цепь представляет собой последовательность случайных величин щ, к =0,оо, определенных на вероятностном пространстве траекторий (9) выражением :

Лк (г)= ¡-к, к=0Я (10) где ГбЯ. При этом следующая условная вероятность, называемая переходной вероятностью из состояния { в состояние ] при стратегии 8 на (к+1)-ом шаге, определяется в соответствии с выражением (8) по формуле :

Р ФГ]) =Ра>5(Лк+1 = ]/Лк=1) =.

ГрцСО + .-.+^РУНО). (П) где рандомизированное управление, применяемое в состоянии [ в момент времени ^ (на (к+1)-ом шаге) и являющееся соответствующей компонентой стратегии 8, 1 = 1, п, ] =1,п, к=0,<".

В момент времени ^ марковская цепь г| (в) имеет начальное распределение а, т. е. Ра, 3(ло= 0 = где1 = :й;

5. Пусть при фиксированной стратегии в, где Бе8, управляемый марковский объект в момент ^ находится в состоянии 1, тогда за (к +1)-ый шаг он приносит доход, который в соответствии со свойством 3 определяется по формуле: Я. ОГ") = 4.(0 + ¦ • •+*??> *(т (0), (12) где 1=1,п, к=0,со.

Теперь дадим определение УКМЦ с конечным множеством управлений и укажем особенности этой управляемой цепи.

Пусть = (т| (б), q (s)) — конечная марковская цепь с доходом (КМЦЦ), соответсвующая стратегии в, где Бе Б, = {ль к =0,оо} - марковская цепь, определенная выражением (10), q (s) = ^(¿-(к+1)), к=0,оо }, q (i^(k+1)) = =.

Я1(>1к+1))> • ¦ Ч"(>Г)]Твектор дохода за (к+1)-ый шаг цепи л (в), тзнак транспонирования, — величина, определяемая выражением (12), 1 = 1,11, и пусть 2 — множество всевозможных КМЦЦ с числом состояний равным п.

Тогда УКМЦ с конечным множеством управлений представляет собой совокупность, имеющую вид: [ Б, 2, % ], (13) где? : Б -" 2, т. е.? является отображением множества стратегий Б в множество всех КМЦЦ 2 — при этом? (э) = (л (в), я (в)) и? (Б)е 2 .

Теперь укажем две основные особенности УКМЦ, являющиеся следствием ее определения: а. Каждой фиксированной стратегии э, где эеБ, ставится в соответствие одна конечная марковская цепь с доходом? (в), которая задается следующей совокупностью исходных сведенийа, {Р (к+1)(& к=0^}, {Ч (к+1)(*), к=0^}], (14) где, а — начальное распределение, Р (к+1)($) = (ру (<>[к+1))) — матрица переходных вероятностей на к-ом шаге, имеющая порядок п и элементы которой определяются выражением (11), = /к+1)) — п-мерный вектор дохода за к-ый шаг, 1-ая компонента которого определяется выражением (12), [ = 1, п — б. УКМЦ является математической моделью рассматриваемого управляемого марковского объекта и может быть задана совокупностью исходных данных, определяемой выражением (6). Здесь же отметим, что в подавляющем числе работ, например [4−6, 12−16], УКМЦ традиционно задается именно этой совокупностью .

Сформулируем теперь цель управления УКМЦ.

Если каждой фиксированной стратегии б, где бе Б, поставить в соответствие значение среднего дохода, получаемого за один шаг марковской цепи? (б) и определяемого, например, выражением :

Ф (з)=1Йк-ЧКа,§ (з), к) (15) к—>оо к т где 0(а, Ш, к) = а • ?Пр (Н)00 • Я (т*), (16) т=1 -=1 то цель управления УКМЦ состоит в максимизации этого дохода, т. е. в определении такой оптимальной стратегии в*, для которой выполняется соотношение: ф (б*) = вир { ф (б): б^б } (17).

Отметим, что: 1) ф (б) является функционалом, заданным на множестве стратегий Б, т. е. ф: Б -> Я1, а выражение (17) определяет критерий оптимальности для УКМЦ — 2) 0(а, (б), к) является средним аддитивным доходом, получаемым на цепи (б) за интервал времени, 1к] (или за к шагов), при стратегии б, где беэ — 3) именно стратегию б* необходимо иметь диспетчеру для осуществления эффективного управления, позволяющего получить максимальный средний доход в единицу дискретного времени (на один шаг) от длительной эксплуатации марковского объекта.

УКМЦ, задаваемая совокупностью (6), исследуется в работах [4,5,8] и основным результатом здесь является следующее утверждение: существует непустое множество оптимальных стратегий, независящих от начального распределения, и это множество содержит стационарную вырожденную в точке и стратегию з (и), где з (и) = [¿-(и),.. ., ¿-(и),. .. ] е Б, и = (и!,., ип), иее?/-, I =1,п, ¿-(и) = [.^(и,),., ?п (ип)] е Р, ¿-¡-(и-) — стохастический вектор, вырожденный в точке иь т. е. ?у (ц) = 1, если] = иь ^(и,) = 0, если] *^, ] = 1,., ш (0, i =1,п. При этом процедура поиска указанной оптимальной стратегии представляет собой итерационный алгоритм Р. Ховарда, сходящийся за конечное число итераций. Этот результат имеет важное прикладное значение, т.к. позволяет осуществить поиск оптимальной стратегии в* на конечном множестве стационарных вырожденных стратегий.

Однако использование указанного результата теории УКМЦ становится некорректным в следующей ситуации, часто встречающейся в приложениях при управлении марковским объектом: значение вектора ад = [(рц (А-, Рип <*(*)],. (18) определяющего стохастические свойства управляемого марковского объекта и входящего в совокупность (6) точно неизвестно, а известна лишь некоторая область его значений (0[(?), где? = 1,., т (Г), 1 = 1, п .

Укажем следующие два случая, которые приводят в приложениях к возникновению указанной ситуации :

1. Вектор И^) определяется обработкой статистических данных, поэтому достаточно точно бывает известна лишь некоторая область его значений.

2. Вектор зависит от некоторого изменяющегося во времени параметра VI (Х), где к = 1, оо, т. е. ^(Т) = ^)). Про этот параметр известно лишь то, что он принимает значения го некоторого множества У^)которое порождает область v, (19) где ?= 1,., т (0,1 = 1*1. Область! Д (0 является характеристикой неполной информации в значении вектора где, I =1,п, и входит в совокупность исходных данных, которой задается новый объект — УКМЦ с неполной информацией. Эта совокупность записывается аналогично совокупности (6) и имеет вид :

Ы}, (20).

Понятно, что в случае, если (0[(?), I е%, [ =1,п являются одноэлементными множествами, то совокупность (20) совпадает с совокупностью (6), т. е. УКМЦ с неполной информацией тождественна УКМЦ, которую теперь уместно именовать УКМЦ с полной информацией.

Существенное отличие УКМЦ с полной информацией, задаваемой совокупностью (6), от УКМЦ с неполной информацией, задаваемой совокупностью (20), заключается в следующем: если любой стратегии б, где Бе Б, в УКМЦ с полной информацией соответствует одна марковская цепь с доходом задаваемая совокупностью (14), то в УКМЦ с неполной информацией каждой стратегии э будет соответствовать множество марковских цепей ^(б), определяемое на основе данных совокупности (20).

Так как определение множества где эеБ, требует дополнительных формальных построений, которые целесообразно опустить при первом, во я многом качественном знакомстве с УКМЦ с неполной информацией, то сейчас — в введении в предмет исследованияэто определение не приводится оно подробно и во всех нюансах излагается в разделе 1.2). Однако, чтобы оценить элементный состав множества £(б) отметим, что даже для наиболее простого случая, когда б является стационарной вырожденной стратегией, множество ^(з) может содержать в качестве элементов как однородные, так и неоднородные марковские цепи с доходом, которые задаются совокупностями вида (14).

Теперь сформируем функционал для УКМЦ с неполной информацией.

Поскольку неизвестно какая именно марковская цепь с доходом из множества ^(з), где б б Б, является процессом блуждания марковского объекта по своим состояниям, то функционал Ф (б), определяемый выражением (15), трансформируется, ориентируясь на «наихудшую» цепь из множества ^(б), и записывается в виде:

Ф1(8)=м{П^к-1-д (а,^, к): ад}, (21) где 0,(а, ?, к) — средний аддитивный доход за к шагов марковской цепи? с доходом, определяемый в соответствии с выражением (16).

Таким образом, Ф^) является гарантированным средним доходом в единицу дискретного времени, получаемого от длительной эксплуатации марковского объекта при управлении, осуществляемом диспетчером в соответствии со стратегией б, где Бе8.

Цель управления УКМЦ с неполной информацией сохраняется той же, что и в случае УКМЦ с полной информацией, и состоит в максимизации гарантированного среднего дохода Ф^), т. е. в определении такой оптимальной стратегии б*, если она существует, или такой е — оптимальной стратегии Бе, если б* не существует, для которых выполняются соотношения:

Ф^^ир* Ф^вбБ}, (22) и ф 1(8V* 1(8б) < В, (23) где е — некоторое положительное число.

Несмотря на достаточно простой способ задания совокупностью (20), УКМЦ с неполной информацией является довольно сложным математическим объектом. На это, в частности, указывает следующее обстоятельство: даже при «хорошей» — стационарной вырожденной стратегии в, где б е Б, множество ^(б) может содержать в качестве элементов неоднородные марковские цепи, требующие разработки специальных методов их сравнения (частичного упорядочивания).

До настоящего времени УКМЦ с неполной информацией, функционалом (21) и критерием оптимальности (22) в полном объеме не исследовалась, хотя ее частные случаи рассматривались в работах В. А. Каштанова, Е. Ю. Барзиловича, Н. Гирлиха, В. Фогеля и др. Открытыми оставались вопросы: о существовании оптимальных стратегий, о существовании оптимальных стратегий, независящих от начального распределения, о существовании оптимальных стационарных вырожденных стратегий и т. д.

В настоящей монографии проводится полное описание и исследование УКМЦ с неполной информацией, выявляющее такие экстремальные свойства фундаментальных характеристик марковских цепей с доходами в множествах &(&), Бе Б, которые позволяют как доказать существование оптимальных стационарных вырожденных стратегий, независящих от начального распределения, так и разработать итерационную процедуру их нахождения.

Работа строится по принципу «от простого к сложному» и состоит из 9 разделов и заключения.

В первом разделе даются определения УКМЦ как с полной, так и с неполной информацией. Указываются цели и основные результаты исследования указанных УКМЦ.

Во втором разделе рассматриваются основные свойства множества 2 0 всех однородных КМЦД с числом состояний равным п, которое представляется в виде: Н0= И): аеР1д, 11еНп}, где 11) — однородная КМЦЦ, задаваемая парой (а, Ъ), а — начальное распределение, РКп — множество всех п-мерных стохастических векторов-строк, Нп = Н х. .. х Н — прямое произведение п экземпляров множества Н, Н = х [-р0, Ро], Ро> 0, Ь =.

11,., 11п] еНп, 11-=, ., Ь^+^еН, элемент 11 определяет матрицу переходных вероятностей Р (Ь) и вектор-столбец дохода я^), Р (Ъ) = (11у), 1 = = 1, п, } = 1, п, ql (h) = [11^+1,., Ь^н]7, 11у — соответствующая компонента элемента 11.

В третьем разделе вводится^{-частичная} упорядоченность в множестве Н" основанная на сравнении стационарных характеристик «1(11), ук (Ъ), к = 1, оо однородных КМЦЦ 11), 1ге Нп, где? = 1,<�», и устанавливаются ее основные свойства, где «[(11) = 7С{И) — ql (ll) — вектор финитного дохода, Л (Ъ).

— матрица финитных вероятностей и Л (Ъ) = Ншк" 1-^ + Р (Ь) +. .. + Ры (11)],.

Е — единичная матрица порядка п, Ук (11) = (-1)к+1-[В^(Ь) • ql (h) — «1(11)], к=1^оо — вектора «весов», В ¡-(И) = (Е — Р (Ь) + Л (\))'1 — матрица, обратная к фундаментальной матрице (Е — Р (Ь) + Я (Ь)) .

Одно из основных свойств^{-частичной} упорядоченности, которое утверждает, что в множестве Нп существует не более (п+2)-ух различных частичных упорядоченностей, при этом различными могут являться упорядоченности, для которых? =, п+2.

В четвертом разделе определяются ?- минимальный, ?- максимальный и (?, е) — минимальный, {?, е) — максимальный элементы в множестве 2), где е {1,., п+2}, е>0, Юа Н", и выявляются свойства этих элементов.

Этот раздел состоит из шести подразделов.

В первом подразделе даются определения ?- минимального,^{-максимального} и (?, е) — минимального, (?, е) — максимального элементов в множестве 2).

Во втором подразделе рассматривается случай, когда множество Ю =. хФп таково, что каждое множество, где { = 1, п, является конечным множеством. Показывается, что в этом случае в множестве *2) существует ?- минимальный и максимальный элементы, где I = 1, п+2.

В третьем подразделе рассматривается случай, когда три множества: Ю = х2>п, где 2), сН, 1 = й, СоЮ=.. хСо<�Па, где а! Двыпуклая оболочка множества Т) х, 1 = 1, п, Т = Т1х... хТп, где Т^сН, 1 = 1, п, связаны соотношениями: Т)[ с Т, с Со (1)1. Показывается, что в этом случае, если в одном из множеств Ю, Т, СоЮ существует (п+2)минимальный ((п+2) — максимальный) элемент, то в каждом из этих множеств также существует ?- минимальный (?- максимальный) элемент, где? = 1, п+2. При этом ?- минимальный {?- максимальный) элемент в множестве является Iминимальным (?- максимальным) элементом в множествах Т и СоЮ, а Iминимальный {? — максимальный) элемент в множестве Т является.

— минимальным ?- максимальным) элементом в множестве СоЮ.

В третьем подразделе показывается также, что если множество Т таково, что каждое множество Т, является конечным множеством, либо линейным многогранником, то в множестве Т существует (п+2) — минимальный ((п+2) — максимальный) элемент.

В четвертом подразделе рассматривается случай, когда множество (D = = (Dix... х (Dn, где 2), с H, i = l, n, имеет некоторый специальный вид. Показывается, что в этом случае в множестве (D существует I-минимальный и iмаксимальный элементы, где i = l, n+ 2.

В пятом подразделе рассматривается случай, когда (D — (Dxx... x (Dn является замкнутым множеством, в котором существует элемент h, обладающий свойством: множество J состояний однородной КМЦЦ ^{а, h) образует один класс возвратных сообщающихся состояний. При этом показывается, что в множестве *D имеется 1-минимальный (1-максимальный) элемент C, для которого выполняется соотношение: «i, i (Q =. .. = «i, n (Q > гДе «1д (Q — iая компонента вектора гх (Q, i = l, n. Показывается также, что в том случае, когда в множестве Ю отсутствуют элементы, для которых соответствующие однородные КМЦЦ имеют невозвратные состояния, в этом множестве (D имеется Iминимальный (?- максимальный) элемент, где I = 1, п+2.

В шестом подразделе рассматривается случай, когда (D = (Dix ¦. x (Da, где (D[ с H, i = l, n, является замкнутым множеством. Показывается, что для любого s > 0 существует такое множество Те = Te>i х... х, где ТЕ— -линейный многогранник, обладающий свойством: с Т£— с H, i = 1, п, для которого выполняются следующие системы неравенств: г-(1)-Ч1(С (1))<�е, i = u,.

4i (C (2))-ri (2).

В пятом разделе вводится ?- частичная упорядоченность в множестве с^(Нп), согласованная с ¿—частичной упорядоченностью в множестве Нп, где =, п+2, с/?(Нп) — множество всевозможных подмножеств множества Нп, и устанавливаются ее некоторые свойства. Этот раздел состоит из трех подразделов..

В первом подразделе дается определение ?- частичной упорядоченности в множестве с^(Нп) и приводятся утверждения, устанавливающие ее основные свойства. Вводятся также понятия ?- максимального и ?- минимального элементов в подмножествах множества сА (Ип) и выявляются некоторые их свойства..

Во втором подразделе приводится доказательство существования ¿—максимального (?- минимального) элемента £>(аэ) в множестве А (Щ, где А (г/)с=с^(Нп), РЩ = {Ю{и):и&г[), Ю (и) = Ю1(и1)х. .. хфп (мп), ©-¡-(«¡-)сН, щ-1- ая компонента элемента и, Ы = % х. х % = {,., т (Т)}, 1 = 1, п, аееЯ/..

В третьем подразделе устанавливаются некоторые свойства ?- частичной упорядоченности, необходимые для дальнейшего изложения материала..

В шестом разделе дается определение и указываются свойства 1- частичной упорядоченности в множестве Ь, являющемся основной ха рактеристикой множества Е всех конечных марковских цепей с доходом (всех КМЦД), где Ь = Нп х. .. х Нп х. ... Множество Е всех КМЦД с числом состояний равным п представляется в виде :.

Е = {$(а, Ъ):аеР1>п, }, (24) где £,(а,£>) — КМЦД, задаваемая парой (а, начальное распределение- ?>= = (И (1),. ., .)е£>, И®е Нп, к=1,оо — элемент Ь определяет как последовательность матриц переходных состояний этой цепи { Р (к)(Ь)= Р (Ь (к)), к= = 1, оо}, так и последовательность доходов { = <11(Ь (к)), к=1,оо}, Рф00) = {=й, j = и, Ч1(Ь (к}) = [И 1гЕ+1®-,. 11и+1(«]т, Ь,/к) — соответствующая компонента элемента Ь (к)..

Устанавливаются основные свойства 1-частичной упорядоченности в множестве ?> и указывается ее соотношение с^{-частичной} упорядоченностью в множестве Нп, где I = 1, п+2..

Этот раздел состоит из трех подразделов..

В первом подразделе дается определение 1- частичной упорядоченности в множестве $> и указывается соотношение этой упорядоченности с.

Iчастичной упорядоченностью в множестве Нп, где I = 1, п+2..

Во втором подразделе доказываются условия существования 1-минимального (1-максимального) и (1, в)-минимального ((1, в)-максимального) элементов в замкнутом множестве ?>, где ?> = ?)х.х?)х., Ф — х. х — любое замкнутое подмножество множества Н, I = 1, п. Указываются также основные свойства упомянутых элементов..

В третьем подразделе приводятся теоремы существования (1, е)-минимального и (1, ?) — максимального элементов в множестве ?> = Т>х. .. х.

Ю х. .. , где = х. .. х £>п, ?), — любое подмножество множества Н, I = 1, п, и указываются основные свойства этих элементов..

В седьмом разделе вводится 1- частичная упорядоченность в множестве сАф), согласованная с 1-частичной упорядоченностью в множестве •?>, где = Нп х. .. х Нп х. .. , сЛф) — множество всевозможных подмножеств множества? , I = 1, п + 2. Устанавливаются основные свойства введенной частичной упорядоченности..

Этот раздел состоит из трех подразделов..

В первом подразделе дается определение 1- частичной упорядоченности в множестве сЛф) и приводится ее соотношение с Iчастичной упорядоченностью в множестве о#(Нп). Даются также определения 1- максимального и 1- минимального элементов в подмножестве)..

Во втором подразделе приводятся теоремы существования ¡—максимального и 1-минимального элементов в множествах 2л = { Ф^): зеБ} и Х1>0= и&М}, связанных непосредственно с УКМЦ с неполной информа цией К{ = [Б, сДЕ), где Б — множество стратегий, ф^с ?), ^(б) = а, Ь): аеРца, Ь^^)}, Ца, Ь) — КМЦЦ, задаваемая парой {а, Ь) (см. выражение (24)), б (м)-стационарная стратегия, вырожденная в точке и, и = х. х ип — множество управлений, {1,., ш (1)}, {= 1, п. Множество ^(б) называется стационарной характеристикой неполной информации, определяется на основе совокупности исходных данных (20) и имеет следующий вид: i (s)= {[Ь (1)(,(1)), .Д00^),.^: [ для любого к = 1, оо выполm (i) няется равенство h[k)(>,(lc)) =Xihi О)4?! > hi (i)e^iGX i= l. n ] }, j=i где — i-ая компонента элемента h^i^), = [>|к),.,*(пк)] - к-ая компонента стратегии s, ??(k) — i-ая компонента ?(k), iD?(j) — характеристика неполной информации в значении вектора hi (j), заданная в совокупности (20), }еЦ, i = u?..

В этом подразделе показывается, что 1- максимальный (1- минимальный) элемент ?>i (s (as)) в множестве 0 является 1- максимальным (¡—минимальным) элементом в множестве! Хь При этом as является таким элементом из множества U, для которого £>(аэ) является ?- максимальным (?- минимальным) элементом в множестве А ((М) = {D (u): иеЩ, где? = l, n + 2, 'Diu) = =(c)i (tti) х. х Da (ua), Diu) — характеристика неполной информации в значении вектора h?(«?), заданная в выражении (20), щ — i-ая компонента управления и, щ = 1,., m (i), i = i|n..

В третьем подразделе приводятся теоремы существования ¡—максимального, ¡—минимального элементов в множествах %2 = {£>(s):seS}и s (z?)): ueii}, связанных непосредственно с УКМЦ с неполной информа щей K2 = [S, , ?(s) = {£(а, Ь): аí->e©-(s)}. Множество ?(s) называется нестационарной характеристикой неполной информации, определяется на основе совокупности исходных данных (20) и имеет следующий вид: ?(s) = {[h (1)(«(1)),., ¡-^(Я),.]^: j-i где Ь[к) (*,(к)) — 1-ая компонента элемента Ь (1%(к)), *(|с) = Ык)] - к-ая компонента стратегии э, ¿-¡-(к) — ьая компонента *(к), — характеристика неполной информации, заданная в совокупности (20), }е% ,[ =

В этом параграфе показывается, что 1- максимальный (1-минимальный) элемент ?>2(з (ае (1))) (?>2(з (а2(2)))) в множестве Т2>0 является 1-максимальным (1-минимальным) элементом в множестве При этом аэ является таким элементом из множества для которого 5″ (ж) является Iмаксимальным (?- минимальным) элементом в множестве А (Щ = {о (и): иеЩ, где? =, п + 2, б» {и) — замыкание множества «Ь (и)..

В восьмой главе доказываются теоремы, устанавливающие аналитические соотношения, из которых следуют основные свойства УКМЦ как с полной, так и неполной информацией. Именно эти теоремы представляют собой основные результаты исследования указанных УКМЦ, которые приводятся в разделе 1 настоящей работы..

В девятой главе приводятся алгоритмы решения задачи оптимального управления сложной системой с учетом неполной информации о надежностных характеристиках элементов и расчета оценок стационарных показателей надежности таких систем..

В заключение автором делаются итоговые замечания по проведенному исследованию..

Материал, изложенный в настоящей работе, может представлять интерес как для математиков, интересующихся развитием методов исследования управляемых конечных марковских цепей, так и для математиков-прикладников, интересующихся численными методами поиска оптимальных стратегий управления УКМЦ с неполной информацией..

10. Заключение.

Настоящая работа рассматривается автором как первая самостоятельная часть исследований, позволяющая в известной мере решить проблему эффективного управления сложной технической системой, обладающей следующими особенностями:.

1) множество состояний системы, представляющее собой декартово произведение множеств состояний составляющих ее элементов-.

2) система эксплуатируется в течение длительного времени и ее поведение удовлетворительно описывается управляемым полумарковским процессом-.

3) наличие неполной информации о надежностных (вероятностных) характеристиках элементов..

Учитывая то обстоятельство, что многие задачи управления полумарковским процессом могут быть сведены к соответствующим задачам управления конечными марковскими цепями, математическая модель управляемой конечной марковской цепи с неполной информацией, исследованная в настоящей работе, может служить основой для расчета оптимальных стратегий управления сложными техническими системами с неполной информацией при минимаксном критерии оптимальности. При этом имеется возможность нахождения верхней и нижней оценок для функционаласреднего дохода в единицу временидля любой, в том числе и оптимальной, простой стратегии управления..

Показать весь текст

Список литературы

W. Vogel. An asymptotie Minimax Theorem for the Two-Armed Bandit Problem.-Ann. Math. Stat., 1960, v. 31, p. 444−451.
C. Derman. On sequential decisions and Markov chains. Manag. Sci., 9, 1, 1962,16.24.
D. Blackwell. Discrete dynamic programming. Ann. Math. Statist. 33,1962, 719−726.
O.B. Висков, A.H. Ширяев. Об управлениях, приводящих к оптимальным стационарным режимам. Труды Математич. Ин-та им. В. А. Стеклова АН СССР, 1964, 35−45.
Р.Ховард. Динамическое программирование и марковские процессы. М.: Сов. Радио, 1964.
Marting Lof A. Optimal control of a continions-time Markov decision chain with periodic transmion probabilities. Operations Pes. 15, 1967,872−881.
Fabius J., Zwet D. Some Remarks on the Two-Armed Bandit. Ann. Math. Stat., 1970, v. 41, N 6, p. 1906−1916.
Х.Майн, С.Осаки. Марковские процессы принятия решений. М.: Наука, 1977.
А.Н. Ширяев. Некоторые новые результаты в теории управляемых случайных процессов. Transacions of 4-th Prague Conference on Information Theory, Statistics, Decision Fuctions, Random Processes. Prague, 1967.
Bather. Optimal decision procedures for finite Markov chains. Part III: general convex system. Adv. Appl. Prob, 5, 3 (1973), 541−553.
Е.Б. Дынкин, A.A. Юшкевич. Управляемые марковские процессы и их приложения. М.: Наука, 1975.
Р.Я. Читашвили. Управляемая конечная цепь Маркова с произвольным множеством решений. Теория вероятностей и ее применения, 1975, 20, № 4, 855−864.
Е.А. Файнберг. Об управляемых марковских процессах с конечным числом состояний и компактными множествами управлений. Теория вероятностей и ее применения, 1975, 20, № 4, 873−880.
Е.А. Файнберг. О конечных управляемых цепях Маркова. Успехи математических наук, 1977, 32, № 3,181−182.
Е.А. Файнберг. Существование стационарной 8 оптимальной стратегии. Теория вероятностей и ее применения, 1978, 33, № 2, 313−330.
Е.А. Файнберг. s оптимальное управление конечной цепью Маркова при среднем критерии. Теория вероятностей и ее применения, 1980,, № 1, 71−82.
Чжун Кай-лай. Однородные цепи Маркова. М.: Мир, 1964.
Дж. Кемени, Дж. Снелл. Конечные цепи Маркова. М.: Наука, 1970.
Е.Г. Белоусов. Введение в выпуклый анализ и целочисленное программирование. М.: Московский университет, 1977.
А.Н. Ширяев. Вероятность. М.: Наука, 1980.
Д.К. Фадеев, В. Н. Фадеева. Вычислительные методы линейной алгебры. M.-JL: Физматгиз. 1963.
А.Н. Колмогоров, С. В. Фомин. Элементы теории функций и функционального анализа. М.: Наука, 1976.
Математическая энциклопедия. М.: Сов. энциклопедия, 1977.
Е.Ю. Барзилович, В. А. Каштанов. Некоторые математические вопросы теории обслуживания сложных систем. М.: Сов. радио, 1971,
Е.Ю. Барзилович, В. А. Каштанов. Организация обслуживания при ограниченной информации о надежности системы. М.: Сов. радио, 1975.
В. Джевелл. Управляемые полумарковские процессы. Кибернетический сборник. Новая серия, вып. 4. М.: Мир, 1967,252−268.
В.Г.Срагович. Адаптивное управление. М.: Наука, 1981.
Э.Л.Пресман, И. М. Сонин. Последовательное управление по неполным данным. М.: Наука, 1982.
В.В. Баранов, Н. С. Подцыкин, Н. И. Харыбин. Методы оптимальных решений в управляемых марковских системах с ненаблюдаемыми состояниями. Вестник Харьковского университета, 1987, № 298,49−52.
Ю.А. Великий. Условия сходимости распределений моментов достижения для цепей Маркова. Доклады АН СССР, 1988, А, № 6, 10−12.
О.Н. Мартыненко. Алгоритм исключения неоптимальных стратегий в управляемых марковских процессах. Автоматика, 1988, № 2, 71−73.
Г. Н. Цервадзе. Об агрегировании и укрупнении марковских цепей. Сообщения АН СССР, 1988,129, № 3, 505−508.
Т.А. Сарымсаков. Основы теории процессов Маркова. Ташкент: Фан, 1988.
В.М. Ядренко. Об одной экстремальной задаче для цепи Маркова, описывающей простейшее случ. блуждание с отражением. Изб. задачи соврем, теории случ. процессов. Киев, 1988,116−119.
W. Grassmann. Markov modelling. Winter Simul. Conf. Proc. Arlington, Va, 12−14 Dec, 1983, vol. 1. New York, № 4, 1983,613−619.
A. Nazin, A. Poznyak. Stochastic. Contr.: Proc. 2 IF AC Symp., Vilnius, 19−23 May, 1966. Oxforte.a., 1987,365−369.
Chrzan Piotr. О pewnym algorithmic rozwiazania zadania optimalizacja niejedno-rodnego okresowego lancncha Markowa. Pr. Nauk. AE Wroclfwin, 1986, № 351, 25−49.
Borkar Vivek S. Control of Markov chains with loug run average cost criterion. Sto-chast. Duffer. Syst., Stochast. Contr. Theory and Appl.: Proc. Workshop, June 9−19, 1986. New York e.a., 1988,57−77.
Olsder G., Papavassilopoulos G. A Markov chain game with dynamic information. J. Optimiz. Theory and Appl., 1988, 59, № 3, 467−486.
Seneta E. Sensitivity to perturbation of the stationary distribution: some refinemens. Linear Algebra and Appl., 1988, 108, 121−126.
Schal M. Estimation and control in Markov decision models. Wiss. Z. Tech. Hochsch., Leipzig, 1988, 12, № 3, 187−192.
Rubino G., Sericola B. On weak lumpability in Markov chains. J. Appl. Probab., 1989, 26, № 3, 446−457.
Semal P., Courtois P. Stability analysis of large Markov chains. Performance 87: Proc.12 th IFIP WG7. 3 Int. Symp. Comput. Performance Modelling, Meas. and Eval., Brussels, 7−9 Dec., 1987. Amsterdam etc, 1988, 363−382.
Filar Jerzy A, Lee Huey Miin. Proc. 24 th IEEE Conf. Decis. and Contr, Fort Lauderdale, Fla, Dec, 11−13, 1985, vol. 2, New York, № 4, 1985, 1106−1112.
Kurano Masami. Markov decision processes with a minimum variance criterion. J. Math. Anal, and Appl, 1987, 123, № 2, 572−583.
Ohno K. A value iteration method for undiscounted multichain Markov decision processes. Zor: Z. Oper. Res, 1988, 32, № 2, 71−93.
Schweitzer P. Solving Markovian decision processes by successeve elimination of va-riables. J. Math. Anal, and Appl, 1988, 130, № 2, 403−419.
Borkar Vivek S. Control of Markov chains with loug run average cost criterion: the dynamic programming equations. SIAM J. Contr. and Optim, 1989,27, № 3, 642−657.
Жуков B. M, Карманов A.B., Ливанов Ю. В. Управляемые конечные марковские цепи с неполной информацией и их приложения. ВИНИТИ, № 4623 В88 деп, М.: ВЦ АН СССР, 1988 -228 с.
Жуков В. М, Карманов A.B., Ливанов Ю. В. Учет надежности оборудования при автоматизированном проектировании генеральных схем обустройства нефтяных месторождений, М, Автоматизация и телемеханизация нефтяной промышленности, 1986, 40 с.
Юшкевич A.A. Проверочные теоремы для марковских процессов принятия решений с управляемым детерминированным сносом ., Теория вероятностей и ее применения, 1989, 34, № 3, с.528−551.
H.-J. Girlich, A.A. Sokolichin. Schatzen und Steueru in einem Markoffshen Entshei-dungsmodell mit unbekanter Parameterfolge. Wiss. Z. Tech. Hochschule, Leipzig, 1988, 12, № 2.
Комашко O.B. Устойчивость цепей Маркова, порожденных кусочно-линейными преобразованиями. Киев: Киевский университет, 1990, 17 с. Деп. в ВИНИТИ 3491. Ук. 90.
Боровков A.A. Эргодичность и устойчивость многомерных цепей Маркова. Теория вероятностей и ее применения. 1990, 35, № 3, 543−547.
Гущин A.A., Екушев А. И. Оценка среднего дохода от программного управления для одного типа управляемых марковских последовательностей. Теория вероятностей и ее применения. 1990, 35, № 3,438−448.
Kuenle Heinz-Uwe. Maarkov games with complete information and average cost criterion. Trans. 11 th Prague Conf. Int. Theory, Statist. Desis. Funct.: Random Process., Prague, Aug. 27−31,1990, vol. B.
Feinberg E. A Markov decision model of a search process. Strateg. Seguet. Search and Select. Real Time: Proc. AMC IMS — SIAM Jt Summer Res. Conf., Amherst, Mass., June 21−27,1990.
Schal M. On the chance tu visit a goal set infinitely of ten Optimization. J. Appl. Probab. 1990.v. 21,№ 4, 585−592.
Медницкий В.Г., Авербах Б. А. Стохастическая модель функционирования производственной системы. Экономика и экономические методы. 1991, 27, № 2, 383−391.
Malancioin Odetta. On the Markov chains with parameter. Sei. Bull. Moch. Eng. Po-lytechn. Inst. Buharest. — 1991 — 53, № 1, 2
Tsantas N., Vassilion P. The non homogeneons Markov system in a stochastic environment. J. Appl. Probab. — 1993. — 30, № 2, 285−301.
Schal M. Average optimality in dynamic programming with general state space. Math. Op. Res., 1993, № 18,163−172.
Sennot Linn I. The average cost optimality equation and critical number policies. Probab. Eng. and Inf. Sei. 1993. 7, № 1, 47−67.
Ferenstein Elzbieta Z. A variation jf the Dynku stopping game. Math. jap. -1993. 38, № 2, 271−279.
Di Masi G. Stettner L. On adaptive control of a partially observed Markov chain. Appl. Math. 1994. — 22, № 2, 165−180.
Guo Xianping. Strong optimality for MDP average model. Acta sei., natur. Univ. norm. Hunanensis. 1996. — 19, № 1, 21−24.
Borkar Vivek S. Ergodic control of Markov chains with constraints the general case. SIAM J. Contr. and Optimiz. — 1994. — 34, № 1.
Puterman M. Markov Decision Processes. Wiley, New York, 1994.
Stettner Lukasz. Ergodic control of Markov processes with mixed observation structure. Diss. math. 1995. — № 341, p. 1−36.
Scariano Stephen M. Decisions, decisions,. Math, and Comput. Educ. -1995.-29, № 1, p.83−93.
M.Haviv, M.Puterman. Bias optimality in controlled queueing systems. J.Appl.Prob., 1998, V.35, p.136−150.
Ибрагимов A.A. О марковской игре «Большой матч». А и Т, 2000, № 11.
Ибрагимов A.A. Существование и нахождение оптимальных стратегий в рекур сивных играх. Изв. РАН, Т и СУ, 2001, № 4.
Жуков В.М., Карманов A.B. Управляемые конечные марковские цепи с неполной информацией и их приложения (минимаксных подход). М.: МГИЭМ, 2000.
Карманов A.B. Исследование управляемых конечных марковских цепей с неполной информацией. М.: Наука, 2002.
Карманов A.B. Метод расчета стационарных показателей надежности объектов нефтеснабжения в условиях неполной информации об исходных данных. Автоматизация, телемеханизация и связь в нефтяной промышленности, 2004, № 12.
Карманов A.B., Карманова JI.A. Алгоритм решения задачи оптимального управления сложной системой с неполной информацией о надежности элементов. Автоматизация, телемеханизация и связь в нефтяной промышленности, 2005, № 5.
Карманов A.B. О возможности «зацикливания» вычислительной процедуры при определении стационарных характеристик надежности. Автоматизация, телемеханизация и связь в нефтяной промышленности, 2005, № 6.
Карманов A.B. Метод определения «весов» в процедуре расчета стационарных характеристик надежности сложных систем нефтеснабжения с неполной информацией. Автоматизация, телемеханизация и связь в нефтяной промышленности, 2005, № 9.
Карманов A.B., Карманова J1.A. Метод оценки финитных вероятностей на основе агрегирования марковской цепи. Автоматика и Телемеханика, 2005, № 10.
Сухарев М. Г, Карасевич A.M. Технологический расчет и обеспечение надежности газо- и нефтепроводов. М.: Нефть и Газ, 2000.

Заполнить форму текущей работой