В настоящее время трудно переоценить значение теории управляемых конечных марковских цепей. Эта теория нашла широкое применение в различных областях науки и техники, таких как исследование операций, экономической кибернетики, теория надежности, теория оптимального управления сложными системами и т. д.
Хотя первые публикации по управляемым конечным марковским цепям (УКМЦ) появились в конце пятидесятых начале шестидесятых годов [2−8], исследования в этой области интенсивно продолжаются и в настоящее время [12−16, 24−28, 32−68], что с одной стороны определяется плодотворностью теории УКМЦ, а с другой стороны показывает, что не все запросы практики удовлетворяются ею полностью.
Действительно, в приложениях часто возникает ситуация, когда непосредственное использование полученных в теории УКМЦ результатов становится некорректным, что указывает на существование иных, хотя и близких к УКМЦ, но в должной мере не изученных математических объектов. Для описания одного из таких объектов, названного УКМЦ с неполной информацией, подробней остановимся на ситуации, в которой он возникает.
Прежде всего, укажем некоторые особенности определения и способа задания УКМЦ с конечным множеством управлений. Для наглядности эти особенности выявим на примере некоторого технического объекта, управляемого диспетчером и обладающего следующими свойствами :
1. Объект характеризуется наблюдаемыми и регистрируемыми в дискретные моменты времени ^ параметрами, где к =1, да. Множество значений этих параметров является конечным множеством, независящим от к. Это множество представляется в виде: 1 = {1,., п}, — и называется множеством состояний объекта, где пе^/ ;
2. Если в момент времени ^ объект находится в состоянии то диспетчер должен с вероятностью ^ выбрать одно управляющее воздействие? из конечного множества % допустимых управляющих воздействий в состоянии I и применить его к объекту, где к = 1, оо, % = {1,., т (Т)}, {= 1, п. Управляющее воздействие примененное к объекту, влияет на его дальнейшее поведение следующим образом: состояние объекта в следующий момент времени ^ будет } с вероятностью), где ] =1,п. Для вероятностей ¿-^Л.
Рц (£) выполняются соотношения: + *?,"> =1. 0) рц (?)>о, + + = и (2) где =, При этом стохастический вектор ¿-[к) = [?[V, ¦ ,¿-иш] именуется рандомизированным управлением в состоянии, а стохастический вектор р[(£) =),., р^О?)] - вектором переходных вероятностей в состоянии {, соответствующим управляющему воздействию? , где? е (!Л. В начальный момент времени ^ объект находится в состоянии 1 с п вероятностью а, где ах > 0, { =1,п, £а, = 1- Вектор, а = [щ ап] ы называется начальным распределением;
3. Если в момент времени ^ объект находился в состоянии { и было применено управление ?, то на интервале времени [^-1, именуемом по традиции [5] кым шагом, объект приносит доход равный), где 1 = = 17п, , к=1,оо. При этом для дохода выполняется соотношение :
— р0<�Я1(0<�Ро, (3) где ро>0.
Соотношения (3) указывают на то, что доход является ограниченной величиной.
Объект, обладающий свойствами 1−3, представляет собой управляемый марковский объект. Укажем следующие пять его основных особенностей :
1. Управление объектом осуществляется диспетчером в дискретные моменты времени где к = 1, оо, в соответствии с правилом 8, называемым (марковской) стратегией и имеющим вид: б = [?(1),. .. , ¿-(1с),.. ], (4) где ¿-(к) = [¿-,(1с),., ¿-[к) — рандомизированное управление в состоянии применяемое в момент времени (или на к-ом шаге), к = 1,<�", I =1,п. При этом множество Б всех стратегий вида (4), называемое множеством (марковских) стратегий, имеет вид :
8 = (5) где = Р = Р1М1}х.х?1Ма), ^ еР^ф, Л, ш®множество всех т ©—мерных стохастических векторов, 1=1,п.
Отметим, что именно из множества Б выбирается и передается диспетчеру некоторая стратегия 8, в соответствии с которой он осуществляет управление марковским объектом. При этом считается, что любая стратегия в, где ее Б, может быть использована для управления объектом ;
2. Минимальным набором исходных данных, которым можно задать рассматриваемый марковский объект, является следующая совокупность: яД {(6) где Ь^) = [ри (Д., ри (4я^)];
3. При фиксированной стратегии в, где БеЭ, наблюдение за процессом смены состояний и управлений объекта в моменты времени к=0,оо дает траекторию г, которая имеет вид: г=[&, Ш1ь4),.Д1к, 4+1),.], (7) где (¡-к, 4+1) — пара, состоящая соответственно из состояния ¿-к, в котором пребывает объект в момент времени, и управляющего воздействия 4+1, примененного диспетчером к объекту в этом состоянии. При этом для любого к, где к=0,оо, справедливо выражение: 4+1?. Вероятность траектории г определяется, в соответствии с определением стратегии в и исходными данными, изложенными в свойстве 2 объекта, по формуле: ¦ • ч^ргиад* ¦ • • да.
Таким образом, формируется вероятностное пространство траекторий: к,.ад, ра>5), (9).
Я — множество всевозможных траекторий г, имеющих вид (7), йв (К) множество событий на множестве траекторий, Раз — вероятностная мера, заданная на множестве и обладающая свойством (8);
4. При фиксированной стратегии в, где б б Б, математической моделью процесса смены состояний объекта в дискретном времени, где к =0,®, является конечная марковская цепь ^(в). Эта цепь представляет собой последовательность случайных величин щ, к =0,оо, определенных на вероятностном пространстве траекторий (9) выражением :
Лк (г)= ¡-к, к=0Я (10) где ГбЯ. При этом следующая условная вероятность, называемая переходной вероятностью из состояния { в состояние ] при стратегии 8 на (к+1)-ом шаге, определяется в соответствии с выражением (8) по формуле :
Р ФГ]) =Ра>5(Лк+1 = ]/Лк=1) =.
ГрцСО + .-.+^РУНО). (П) где рандомизированное управление, применяемое в состоянии [ в момент времени ^ (на (к+1)-ом шаге) и являющееся соответствующей компонентой стратегии 8, 1 = 1, п, ] =1,п, к=0,<".
В момент времени ^ марковская цепь г| (в) имеет начальное распределение а, т. е. Ра, 3(ло= 0 = где1 = :й;
5. Пусть при фиксированной стратегии в, где Бе8, управляемый марковский объект в момент ^ находится в состоянии 1, тогда за (к +1)-ый шаг он приносит доход, который в соответствии со свойством 3 определяется по формуле: Я. ОГ") = 4.(0 + ¦ • •+*??> *(т (0), (12) где 1=1,п, к=0,со.
Теперь дадим определение УКМЦ с конечным множеством управлений и укажем особенности этой управляемой цепи.
Пусть = (т| (б), q (s)) — конечная марковская цепь с доходом (КМЦЦ), соответсвующая стратегии в, где Бе Б, = {ль к =0,оо} - марковская цепь, определенная выражением (10), q (s) = ^(¿-(к+1)), к=0,оо }, q (i^(k+1)) = =.
Я1(>1к+1))> • ¦ Ч"(>Г)]Твектор дохода за (к+1)-ый шаг цепи л (в), тзнак транспонирования, — величина, определяемая выражением (12), 1 = 1,11, и пусть 2 — множество всевозможных КМЦЦ с числом состояний равным п.
Тогда УКМЦ с конечным множеством управлений представляет собой совокупность, имеющую вид: [ Б, 2, % ], (13) где? : Б -" 2, т. е.? является отображением множества стратегий Б в множество всех КМЦЦ 2 — при этом? (э) = (л (в), я (в)) и? (Б)е 2 .
Теперь укажем две основные особенности УКМЦ, являющиеся следствием ее определения: а. Каждой фиксированной стратегии э, где эеБ, ставится в соответствие одна конечная марковская цепь с доходом? (в), которая задается следующей совокупностью исходных сведенийа, {Р (к+1)(& к=0^}, {Ч (к+1)(*), к=0^}], (14) где, а — начальное распределение, Р (к+1)($) = (ру (<>[к+1))) — матрица переходных вероятностей на к-ом шаге, имеющая порядок п и элементы которой определяются выражением (11), = /к+1)) — п-мерный вектор дохода за к-ый шаг, 1-ая компонента которого определяется выражением (12), [ = 1, п — б. УКМЦ является математической моделью рассматриваемого управляемого марковского объекта и может быть задана совокупностью исходных данных, определяемой выражением (6). Здесь же отметим, что в подавляющем числе работ, например [4−6, 12−16], УКМЦ традиционно задается именно этой совокупностью .
Сформулируем теперь цель управления УКМЦ.
Если каждой фиксированной стратегии б, где бе Б, поставить в соответствие значение среднего дохода, получаемого за один шаг марковской цепи? (б) и определяемого, например, выражением :
Ф (з)=1Йк-ЧКа,§ (з), к) (15) к—>оо к т где 0(а, Ш, к) = а • ?Пр (Н)00 • Я (т*), (16) т=1 -=1 то цель управления УКМЦ состоит в максимизации этого дохода, т. е. в определении такой оптимальной стратегии в*, для которой выполняется соотношение: ф (б*) = вир { ф (б): б^б } (17).
Отметим, что: 1) ф (б) является функционалом, заданным на множестве стратегий Б, т. е. ф: Б -> Я1, а выражение (17) определяет критерий оптимальности для УКМЦ — 2) 0(а, (б), к) является средним аддитивным доходом, получаемым на цепи (б) за интервал времени, 1к] (или за к шагов), при стратегии б, где беэ — 3) именно стратегию б* необходимо иметь диспетчеру для осуществления эффективного управления, позволяющего получить максимальный средний доход в единицу дискретного времени (на один шаг) от длительной эксплуатации марковского объекта.
УКМЦ, задаваемая совокупностью (6), исследуется в работах [4,5,8] и основным результатом здесь является следующее утверждение: существует непустое множество оптимальных стратегий, независящих от начального распределения, и это множество содержит стационарную вырожденную в точке и стратегию з (и), где з (и) = [¿-(и),.. ., ¿-(и),. .. ] е Б, и = (и!,., ип), иее?/-, I =1,п, ¿-(и) = [.^(и,),., ?п (ип)] е Р, ¿-¡-(и-) — стохастический вектор, вырожденный в точке иь т. е. ?у (ц) = 1, если] = иь ^(и,) = 0, если] *, ] = 1,., ш (0, i =1,п. При этом процедура поиска указанной оптимальной стратегии представляет собой итерационный алгоритм Р. Ховарда, сходящийся за конечное число итераций. Этот результат имеет важное прикладное значение, т.к. позволяет осуществить поиск оптимальной стратегии в* на конечном множестве стационарных вырожденных стратегий.
Однако использование указанного результата теории УКМЦ становится некорректным в следующей ситуации, часто встречающейся в приложениях при управлении марковским объектом: значение вектора ад = [(рц (А-, Рип <*(*)],. (18) определяющего стохастические свойства управляемого марковского объекта и входящего в совокупность (6) точно неизвестно, а известна лишь некоторая область его значений (0[(?), где? = 1,., т (Г), 1 = 1, п .
Укажем следующие два случая, которые приводят в приложениях к возникновению указанной ситуации :
1. Вектор И^) определяется обработкой статистических данных, поэтому достаточно точно бывает известна лишь некоторая область его значений.
2. Вектор зависит от некоторого изменяющегося во времени параметра VI (Х), где к = 1, оо, т. е. ^(Т) = ^)). Про этот параметр известно лишь то, что он принимает значения го некоторого множества У^)которое порождает область v, (19) где ?= 1,., т (0,1 = 1*1. Область! Д (0 является характеристикой неполной информации в значении вектора где, I =1,п, и входит в совокупность исходных данных, которой задается новый объект — УКМЦ с неполной информацией. Эта совокупность записывается аналогично совокупности (6) и имеет вид :
Ы}, (20).
Понятно, что в случае, если (0[(?), I е%, [ =1,п являются одноэлементными множествами, то совокупность (20) совпадает с совокупностью (6), т. е. УКМЦ с неполной информацией тождественна УКМЦ, которую теперь уместно именовать УКМЦ с полной информацией.
Существенное отличие УКМЦ с полной информацией, задаваемой совокупностью (6), от УКМЦ с неполной информацией, задаваемой совокупностью (20), заключается в следующем: если любой стратегии б, где Бе Б, в УКМЦ с полной информацией соответствует одна марковская цепь с доходом задаваемая совокупностью (14), то в УКМЦ с неполной информацией каждой стратегии э будет соответствовать множество марковских цепей ^(б), определяемое на основе данных совокупности (20).
Так как определение множества где эеБ, требует дополнительных формальных построений, которые целесообразно опустить при первом, во я многом качественном знакомстве с УКМЦ с неполной информацией, то сейчас — в введении в предмет исследованияэто определение не приводится оно подробно и во всех нюансах излагается в разделе 1.2). Однако, чтобы оценить элементный состав множества £(б) отметим, что даже для наиболее простого случая, когда б является стационарной вырожденной стратегией, множество ^(з) может содержать в качестве элементов как однородные, так и неоднородные марковские цепи с доходом, которые задаются совокупностями вида (14).
Теперь сформируем функционал для УКМЦ с неполной информацией.
Поскольку неизвестно какая именно марковская цепь с доходом из множества ^(з), где б б Б, является процессом блуждания марковского объекта по своим состояниям, то функционал Ф (б), определяемый выражением (15), трансформируется, ориентируясь на «наихудшую» цепь из множества ^(б), и записывается в виде:
Ф1(8)=м{П^к-1-д (а,^, к): ад}, (21) где 0,(а, ?, к) — средний аддитивный доход за к шагов марковской цепи? с доходом, определяемый в соответствии с выражением (16).
Таким образом, Ф^) является гарантированным средним доходом в единицу дискретного времени, получаемого от длительной эксплуатации марковского объекта при управлении, осуществляемом диспетчером в соответствии со стратегией б, где Бе8.
Цель управления УКМЦ с неполной информацией сохраняется той же, что и в случае УКМЦ с полной информацией, и состоит в максимизации гарантированного среднего дохода Ф^), т. е. в определении такой оптимальной стратегии б*, если она существует, или такой е — оптимальной стратегии Бе, если б* не существует, для которых выполняются соотношения:
Ф^^ир* Ф^вбБ}, (22) и ф 1(8V* 1(8б) < В, (23) где е — некоторое положительное число.
Несмотря на достаточно простой способ задания совокупностью (20), УКМЦ с неполной информацией является довольно сложным математическим объектом. На это, в частности, указывает следующее обстоятельство: даже при «хорошей» — стационарной вырожденной стратегии в, где б е Б, множество ^(б) может содержать в качестве элементов неоднородные марковские цепи, требующие разработки специальных методов их сравнения (частичного упорядочивания).
До настоящего времени УКМЦ с неполной информацией, функционалом (21) и критерием оптимальности (22) в полном объеме не исследовалась, хотя ее частные случаи рассматривались в работах В. А. Каштанова, Е. Ю. Барзиловича, Н. Гирлиха, В. Фогеля и др. Открытыми оставались вопросы: о существовании оптимальных стратегий, о существовании оптимальных стратегий, независящих от начального распределения, о существовании оптимальных стационарных вырожденных стратегий и т. д.
В настоящей монографии проводится полное описание и исследование УКМЦ с неполной информацией, выявляющее такие экстремальные свойства фундаментальных характеристик марковских цепей с доходами в множествах &(&), Бе Б, которые позволяют как доказать существование оптимальных стационарных вырожденных стратегий, независящих от начального распределения, так и разработать итерационную процедуру их нахождения.
Работа строится по принципу «от простого к сложному» и состоит из 9 разделов и заключения.
В первом разделе даются определения УКМЦ как с полной, так и с неполной информацией. Указываются цели и основные результаты исследования указанных УКМЦ.
Во втором разделе рассматриваются основные свойства множества 2 0 всех однородных КМЦД с числом состояний равным п, которое представляется в виде: Н0= И): аеР1д, 11еНп}, где 11) — однородная КМЦЦ, задаваемая парой (а, Ъ), а — начальное распределение, РКп — множество всех п-мерных стохастических векторов-строк, Нп = Н х. .. х Н — прямое произведение п экземпляров множества Н, Н = х [-р0, Ро], Ро> 0, Ь =.
11,., 11п] еНп, 11-=, ., Ь^+^еН, элемент 11 определяет матрицу переходных вероятностей Р (Ь) и вектор-столбец дохода я^), Р (Ъ) = (11у), 1 = = 1, п, } = 1, п, ql (h) = [11^+1,., Ь^н]7, 11у — соответствующая компонента элемента 11.
В третьем разделе вводится-частичная упорядоченность в множестве Н" основанная на сравнении стационарных характеристик «1(11), ук (Ъ), к = 1, оо однородных КМЦЦ 11), 1ге Нп, где? = 1,<�», и устанавливаются ее основные свойства, где «[(11) = 7С{И) — ql (ll) — вектор финитного дохода, Л (Ъ).
— матрица финитных вероятностей и Л (Ъ) = Ншк" 1-^ + Р (Ь) +. .. + Ры (11)],.
Е — единичная матрица порядка п, Ук (11) = (-1)к+1-[В^(Ь) • ql (h) — «1(11)], к=1^оо — вектора «весов», В ¡-(И) = (Е — Р (Ь) + Л (\))'1 — матрица, обратная к фундаментальной матрице (Е — Р (Ь) + Я (Ь)) .
Одно из основных свойств-частичной упорядоченности, которое утверждает, что в множестве Нп существует не более (п+2)-ух различных частичных упорядоченностей, при этом различными могут являться упорядоченности, для которых? =, п+2.
В четвертом разделе определяются ?- минимальный, ?- максимальный и (?, е) — минимальный, {?, е) — максимальный элементы в множестве 2), где е {1,., п+2}, е>0, Юа Н", и выявляются свойства этих элементов.
Этот раздел состоит из шести подразделов.
В первом подразделе даются определения ?- минимального,-максимального и (?, е) — минимального, (?, е) — максимального элементов в множестве 2).
Во втором подразделе рассматривается случай, когда множество Ю =. хФп таково, что каждое множество, где { = 1, п, является конечным множеством. Показывается, что в этом случае в множестве *2) существует ?- минимальный и максимальный элементы, где I = 1, п+2.
В третьем подразделе рассматривается случай, когда три множества: Ю = х2>п, где 2), сН, 1 = й, СоЮ=.. хСо<�Па, где а! Двыпуклая оболочка множества Т) х, 1 = 1, п, Т = Т1х... хТп, где Т^сН, 1 = 1, п, связаны соотношениями: Т)[ с Т, с Со (1)1. Показывается, что в этом случае, если в одном из множеств Ю, Т, СоЮ существует (п+2)минимальный ((п+2) — максимальный) элемент, то в каждом из этих множеств также существует ?- минимальный (?- максимальный) элемент, где? = 1, п+2. При этом ?- минимальный {?- максимальный) элемент в множестве является Iминимальным (?- максимальным) элементом в множествах Т и СоЮ, а Iминимальный {? — максимальный) элемент в множестве Т является.
— минимальным ?- максимальным) элементом в множестве СоЮ.
В третьем подразделе показывается также, что если множество Т таково, что каждое множество Т, является конечным множеством, либо линейным многогранником, то в множестве Т существует (п+2) — минимальный ((п+2) — максимальный) элемент.
В четвертом подразделе рассматривается случай, когда множество (D = = (Dix... х (Dn, где 2), с H, i = l, n, имеет некоторый специальный вид. Показывается, что в этом случае в множестве (D существует I-минимальный и iмаксимальный элементы, где i = l, n+ 2.
В пятом подразделе рассматривается случай, когда (D — (Dxx... x (Dn является замкнутым множеством, в котором существует элемент h, обладающий свойством: множество J состояний однородной КМЦЦ ^{а, h) образует один класс возвратных сообщающихся состояний. При этом показывается, что в множестве *D имеется 1-минимальный (1-максимальный) элемент C, для которого выполняется соотношение: «i, i (Q =. .. = «i, n (Q > гДе «1д (Q — iая компонента вектора гх (Q, i = l, n. Показывается также, что в том случае, когда в множестве Ю отсутствуют элементы, для которых соответствующие однородные КМЦЦ имеют невозвратные состояния, в этом множестве (D имеется Iминимальный (?- максимальный) элемент, где I = 1, п+2.
В шестом подразделе рассматривается случай, когда (D = (Dix ¦. x (Da, где (D[ с H, i = l, n, является замкнутым множеством. Показывается, что для любого s > 0 существует такое множество Те = Te>i х... х, где ТЕ— -линейный многогранник, обладающий свойством: с Т£— с H, i = 1, п, для которого выполняются следующие системы неравенств: г-(1)-Ч1(С (1))<�е, i = u,.
4i (C (2))-ri (2).
В пятом разделе вводится ?- частичная упорядоченность в множестве с^(Нп), согласованная с ¿—частичной упорядоченностью в множестве Нп, где =, п+2, с/?(Нп) — множество всевозможных подмножеств множества Нп, и устанавливаются ее некоторые свойства. Этот раздел состоит из трех подразделов..
В первом подразделе дается определение ?- частичной упорядоченности в множестве с^(Нп) и приводятся утверждения, устанавливающие ее основные свойства. Вводятся также понятия ?- максимального и ?- минимального элементов в подмножествах множества сА (Ип) и выявляются некоторые их свойства..
Во втором подразделе приводится доказательство существования ¿—максимального (?- минимального) элемента £>(аэ) в множестве А (Щ, где А (г/)с=с^(Нп), РЩ = {Ю{и):и&г[), Ю (и) = Ю1(и1)х. .. хфп (мп), ©-¡-(«¡-)сН, щ-1- ая компонента элемента и, Ы = % х. х % = {,., т (Т)}, 1 = 1, п, аееЯ/..
В третьем подразделе устанавливаются некоторые свойства ?- частичной упорядоченности, необходимые для дальнейшего изложения материала..
В шестом разделе дается определение и указываются свойства 1- частичной упорядоченности в множестве Ь, являющемся основной ха рактеристикой множества Е всех конечных марковских цепей с доходом (всех КМЦД), где Ь = Нп х. .. х Нп х. ... Множество Е всех КМЦД с числом состояний равным п представляется в виде :.
Е = {$(а, Ъ):аеР1>п, }, (24) где £,(а,£>) — КМЦД, задаваемая парой (а, начальное распределение- ?>= = (И (1),. ., .)е£>, И®е Нп, к=1,оо — элемент Ь определяет как последовательность матриц переходных состояний этой цепи { Р (к)(Ь)= Р (Ь (к)), к= = 1, оо}, так и последовательность доходов { = <11(Ь (к)), к=1,оо}, Рф00) = {=й, j = и, Ч1(Ь (к}) = [И 1гЕ+1®-,. 11и+1(«]т, Ь,/к) — соответствующая компонента элемента Ь (к)..
Устанавливаются основные свойства 1-частичной упорядоченности в множестве ?> и указывается ее соотношение с-частичной упорядоченностью в множестве Нп, где I = 1, п+2..
Этот раздел состоит из трех подразделов..
В первом подразделе дается определение 1- частичной упорядоченности в множестве $> и указывается соотношение этой упорядоченности с.
Iчастичной упорядоченностью в множестве Нп, где I = 1, п+2..
Во втором подразделе доказываются условия существования 1-минимального (1-максимального) и (1, в)-минимального ((1, в)-максимального) элементов в замкнутом множестве ?>, где ?> = ?)х.х?)х., Ф — х. х — любое замкнутое подмножество множества Н, I = 1, п. Указываются также основные свойства упомянутых элементов..
В третьем подразделе приводятся теоремы существования (1, е)-минимального и (1, ?) — максимального элементов в множестве ?> = Т>х. .. х.
Ю х. .. , где = х. .. х £>п, ?), — любое подмножество множества Н, I = 1, п, и указываются основные свойства этих элементов..
В седьмом разделе вводится 1- частичная упорядоченность в множестве сАф), согласованная с 1-частичной упорядоченностью в множестве •?>, где = Нп х. .. х Нп х. .. , сЛф) — множество всевозможных подмножеств множества? , I = 1, п + 2. Устанавливаются основные свойства введенной частичной упорядоченности..
Этот раздел состоит из трех подразделов..
В первом подразделе дается определение 1- частичной упорядоченности в множестве сЛф) и приводится ее соотношение с Iчастичной упорядоченностью в множестве о#(Нп). Даются также определения 1- максимального и 1- минимального элементов в подмножестве)..
Во втором подразделе приводятся теоремы существования ¡—максимального и 1-минимального элементов в множествах 2л = { Ф^): зеБ} и Х1>0= и&М}, связанных непосредственно с УКМЦ с неполной информа цией К{ = [Б, сДЕ), где Б — множество стратегий, ф^с ?), ^(б) = а, Ь): аеРца, Ь^^)}, Ца, Ь) — КМЦЦ, задаваемая парой {а, Ь) (см. выражение (24)), б (м)-стационарная стратегия, вырожденная в точке и, и = х. х ип — множество управлений, {1,., ш (1)}, {= 1, п. Множество ^(б) называется стационарной характеристикой неполной информации, определяется на основе совокупности исходных данных (20) и имеет следующий вид: i (s)= {[Ь (1)(,(1)), .Д00^),.^: [ для любого к = 1, оо выполm (i) няется равенство h[k)(>,(lc)) =Xihi О)4?! > hi (i)e^iGX i= l. n ] }, j=i где — i-ая компонента элемента h^i^), = [>|к),.,*(пк)] - к-ая компонента стратегии s, ??(k) — i-ая компонента ?(k), iD?(j) — характеристика неполной информации в значении вектора hi (j), заданная в совокупности (20), }еЦ, i = u?..
В этом подразделе показывается, что 1- максимальный (1- минимальный) элемент ?>i (s (as)) в множестве 0 является 1- максимальным (¡—минимальным) элементом в множестве! Хь При этом as является таким элементом из множества U, для которого £>(аэ) является ?- максимальным (?- минимальным) элементом в множестве А ((М) = {D (u): иеЩ, где? = l, n + 2, 'Diu) = =(c)i (tti) х. х Da (ua), Diu) — характеристика неполной информации в значении вектора h?(«?), заданная в выражении (20), щ — i-ая компонента управления и, щ = 1,., m (i), i = i|n..
В третьем подразделе приводятся теоремы существования ¡—максимального, ¡—минимального элементов в множествах %2 = {£>(s):seS}и s (z?)): ueii}, связанных непосредственно с УКМЦ с неполной информа щей K2 = [S, , ?(s) = {£(а, Ь): аí->e©-(s)}. Множество ?(s) называется нестационарной характеристикой неполной информации, определяется на основе совокупности исходных данных (20) и имеет следующий вид: ?(s) = {[h (1)(«(1)),., ¡-^(Я),.]^: j-i где Ь[к) (*,(к)) — 1-ая компонента элемента Ь (1%(к)), *(|с) = Ык)] - к-ая компонента стратегии э, ¿-¡-(к) — ьая компонента *(к), — характеристика неполной информации, заданная в совокупности (20), }е% ,[ =В этом параграфе показывается, что 1- максимальный (1-минимальный) элемент ?>2(з (ае (1))) (?>2(з (а2(2)))) в множестве Т2>0 является 1-максимальным (1-минимальным) элементом в множестве При этом аэ является таким элементом из множества для которого 5″ (ж) является Iмаксимальным (?- минимальным) элементом в множестве А (Щ = {о (и): иеЩ, где? =, п + 2, б» {и) — замыкание множества «Ь (и)..
В восьмой главе доказываются теоремы, устанавливающие аналитические соотношения, из которых следуют основные свойства УКМЦ как с полной, так и неполной информацией. Именно эти теоремы представляют собой основные результаты исследования указанных УКМЦ, которые приводятся в разделе 1 настоящей работы..
В девятой главе приводятся алгоритмы решения задачи оптимального управления сложной системой с учетом неполной информации о надежностных характеристиках элементов и расчета оценок стационарных показателей надежности таких систем..
В заключение автором делаются итоговые замечания по проведенному исследованию..
Материал, изложенный в настоящей работе, может представлять интерес как для математиков, интересующихся развитием методов исследования управляемых конечных марковских цепей, так и для математиков-прикладников, интересующихся численными методами поиска оптимальных стратегий управления УКМЦ с неполной информацией..
10. Заключение.
Настоящая работа рассматривается автором как первая самостоятельная часть исследований, позволяющая в известной мере решить проблему эффективного управления сложной технической системой, обладающей следующими особенностями:.
1) множество состояний системы, представляющее собой декартово произведение множеств состояний составляющих ее элементов-.
2) система эксплуатируется в течение длительного времени и ее поведение удовлетворительно описывается управляемым полумарковским процессом-.
3) наличие неполной информации о надежностных (вероятностных) характеристиках элементов..
Учитывая то обстоятельство, что многие задачи управления полумарковским процессом могут быть сведены к соответствующим задачам управления конечными марковскими цепями, математическая модель управляемой конечной марковской цепи с неполной информацией, исследованная в настоящей работе, может служить основой для расчета оптимальных стратегий управления сложными техническими системами с неполной информацией при минимаксном критерии оптимальности. При этом имеется возможность нахождения верхней и нижней оценок для функционаласреднего дохода в единицу временидля любой, в том числе и оптимальной, простой стратегии управления..
.