Сюжет «Алиса vs Петька» как конечная повторяющаяся игра
В двухэтапной модели «Алиса vs Нау.Ру» стимулирование игроков к выбору эффективного, но неравновесного исхода (Т, Т) возможно именно по причине наличия в базовой игре не одного, а двух равновесий: как (Ф, Ф), так и (O, O). Данные исходы в силу своей равновесности являются достоверными угрозами и обещаниями. Их множественность, с одной стороны, и достоверность — с другой, порождают стимулирующий… Читать ещё >
Сюжет «Алиса vs Петька» как конечная повторяющаяся игра (реферат, курсовая, диплом, контрольная)
В качестве простейшего примера повторяющейся игры можно взять историю взаимоотношений Алисы Журавлевой и ее друга Петра Сармузова. В конце концов они достаточно давно знакомы и им неоднократно приходилось сталкиваться с ситуациями, в которых каждый должен был делать выбор между Альтруизмом и Эгоизмом. Более того, совершая этот выбор, нельзя не задумываться о будущем.
Например, в момент, когда Алиса выражает внутреннюю готовность пожертвовать своим научным трудом ради спасения Петьки (сыграть стратегию «А»), она надеется на то, что это будет оценено, что и Петька в дальнейшем будет готов на жертвы ради нее (также начнет играть стратегию «А»). Для ответа на вопрос «обоснованы или нет ожидания Алисы?» представим ее взаимоотношения с Петром Сармузовым в качестве двухэтапной повторяющейся игры Г (2). Другими словами, задумаемся над тем, что может измениться в поведении наших героев, если судьба поставит их перед дилеммой «альтруизм-эгоизм» не один, а два раза.
Найдем совершенное под-игровое равновесие по Нэшу (СПРН) для данной игры. Применим логику обратной индукции и начнем анализ с конца (в данном случае — со второго этапа). Для того чтобы искомое равновесие в повторяющейся игре Г (2) было совершенным, в под-игре (на втором этапе) игроки должны будут сыграть равновесие по Нэшу из базовой игры Г, т. е. их выбор на втором этапе сведется к неэффективной, но устойчивой ситуации (Эгоизм, Эгоизм). Это означает, что двухэтапную повторяющуюся игру можно свести к обычной статической игре, полезности игроков в которой получаются прибавлением полезностей в ситуации (Эгоизм, Эгоизм) ко всем клеткам табл. 3.1. Достаточно символично то, что в нашем примере они равны 0. Следовательно, появление второго этапа ничего не изменило в «рациональном» поведении игроков.
В общем случае справедливо утверждение:
если базовая игра Г имеет единственное равновесие по Нэшу. то повторяющаяся игра Г (Т), полученная па ее основе, будет иметь единственное совершенное под-игровое равновесие, состоящее в разыгрывании равновесия из базовой игры на каждом из этапов.
Итак, нами вновь получено некоторое пессимистическое заключение. Неужели с сотрудничеством и кооперацией в стратегических играх так все безнадежно? Оказывается — нет.
Сюжет «Алиса vs Нау.Ру» как повторяющаяся игра
Для иллюстрации возможных механизмов возникновения сотрудничества в повторяющихся играх воспользуемся еще одним сюжетом из литературного приложения. Представим взаимоотношения Алисы и ее научного руководителя (Нау.Ру) в виде биматричной игры, в которой каждый из игроков (Алиса — игрок 1, Нау.Ру — игрок 2) обладает симметричными наборами стратегий. Стратегия, выбираемая игроком, определяет его отношение к выполнению обязанностей в рамках совместных научных проектов. Ограничимся тремя градациями для уровня отношения к делу:
- • Ф — формальное;
- • О — ответственное;
- • Т — творческое.
Значения полезностей для всех возможных девяти ситуаций взаимного выбора представлены в табл. 7.1. На качественном уровне мы полагаем, что:
- • обоюдное формальное отношение (Ф, Ф) позволяет получить некоторый минимальный (посредственный) результат — например, написан диссертационный тест с туманными перспективами защиты, полезность (1, 1);
- • обоюдное ответственное отношение (О, О) дает обоим участникам обычный (приемлемый) результат — написан диссертационный текст с хорошими перспективами защиты, полезность (3, 3);
- • обоюдное творческое отношение (Т, Т) приводит к выдающимся (премиум) результатам — диссертация вызывает уважение у специалистов, открываются широкие перспективы для дальнейшего научного роста, полезность (4, 4);
- • в ситуациях (Ф. О) ИЛИ (О, Ф) игрок, относящийся к работе формально, не получает никакого результата (полезность 0), а тот, кто пытался проявить ответственность, получает моральный ущерб размером в (-1);
- • в ситуациях (О, Т) ИЛИ (Т, О) «ответственный» игрок извлекает полезность, адекватную минимальному результату (+1), но ущерб игрока, проявившего творческий подход, увеличится до (-2);
- • наконец, в ситуациях (Ф, Т) или (Т, Ф) перед «беспринципным формалистом» открываются широкие возможности для достижения серьезных результатов без затрат труда (полезность 5), ущерб игрока, сделавшего ставку на творческий подход, достигнет также рекордного уровня (-3).
Таблица 7.1
Игра «Алиса vs Нау.Ру», один этап.
Визуальный анализ табл. 7.1 позволяет установить, что данная игра имеет два очевидных равновесия по Нэшу в чистых стратегиях:
- • (Ф, Ф), дающее обоим игрокам по 1, так называемый посредственный результат;
- • (О, О), дающее обоим игрокам по 3, так называемый приемлемый результат.
Оба равновесия соответствуют Парето-неоптимальным ситуациям, так как в ситуации (Т, Т) полезность игроков была бы выше (премиум-результат). Однако ситуация (Т, Т) не является равновесием по Нэшу — от нее каждому из игроков по отдельности выгодно отклониться и получить еще большую полезность (+5).
Теперь несколько изменим модель и будем считать, что процесс сотрудничества Алисы и Нау.Ру складывается из двух этапов. Например, написание диссертации (этан 1) и собственно се защита (этап 2). Полезности игроков на каждом из этапов по-прежнему задаются табл. 7.1, общая полезность от сотрудничества находится как сумма от полезностей на каждом из этапов.
Разумеется, игроки могут и дальше придерживаться неэффективных равновесных решений (Ф, Ф) или (О, О) на каждом шаге. Но возможны и иные интересные варианты. Например:
- • на первом этапе сыграть Т (творческое отношение);
- • если партнер на первом этапе также играет Т, то на втором этапе играть «хорошее» равновесие (О, О), во всех остальных случаях — «плохое» равновесие (Ф, Ф).
С точки зрения, например, научного руководителя логику этой стратегии можно интерпретировать следующим образом: «На начальном этапе я готов глубоко погрузиться в проблематику Вашей работы и, насколько это в моих силах, помогать Вам. Если такое же творческое отношение я увижу с Вашей стороны, то и на финальной стадии буду вести себя ответственно. В противном случае — не обессудьте!» .
Если просуммировать полезности первого и второго этапа, то мы получаем игру, представленную в табл. 7.2. Стрелки показывают, что к полезностям в ситуации (Т, Т) добавляются полезности «хорошего» равновесия (О, О), которое игроки ожидают на втором этапе, т. е. (+3), а к полезностям всех остальных ситуаций — полезности «плохого» равновесия (Ф, Ф), т. е. (+1).
Таблица 7.2
Игра «Алиса уэ Нау.Ру», два этапа.
Как можно заметить (см. табл. 7.2, 6), двухэтапная игра с учетом сделанного допущения о стратегиях игроков уже имеет три ситуации равновесия. Во-первых, это «неинтересные» равновесия, наследуемые от базовой игры:
- • (Ф, Ф) на первом этапе и (Ф, Ф) на втором — в общем, неизменно формальное отношение к работе с обеих сторон, приводящее к посредственному результату и защите на уровне нижней планки;
- • (О, О) на первом этапе и (Ф, Ф) на втором — ответственность, плавно перетекающая в формализм.
Но (!) появляется и третья равновесная ситуация:
• (Т, Т) на первом этапе и (О, О) на втором, реализующаяся под девизом «творчество и ответственность» .
Подчеркнем, что эта ситуация является совершенным под-игровым равновесием для рассматриваемой двухэтапной игры, так как она включает себя равновесие (О, О) на втором этапе (т.е. в под-игре) и равновесный выбор (Т, Т), осуществляемый на первом этапе в ожидании последующего «хорошего» исхода (О, О).
Основной вывод, который может быть сделан из приведенного примера, состоит в том, что в повторяющейся игре Г (T), построенной на основе базовой игры Г, имеющей несколько равновесий, может существовать совершенное под-игровое равновесие, исходы которого на промежуточных шагах не являются равновесиями для базовой игры.
В двухэтапной модели «Алиса vs Нау.Ру» стимулирование игроков к выбору эффективного, но неравновесного исхода (Т, Т) возможно именно по причине наличия в базовой игре не одного, а двух равновесий: как (Ф, Ф), так и (O, O). Данные исходы в силу своей равновесности являются достоверными угрозами и обещаниями. Их множественность, с одной стороны, и достоверность — с другой, порождают стимулирующий эффект. В предыдущей игре «Алиса vs Петька», построенной на базовой игре с одним равновесием, при конечном числе ее повторений такой эффект отсутствует!
Одновременно нельзя не признать, что предположение о том, что в случае «нереализации» исхода (Т, Т) на первом шаге игроки обязательно будут играть (Ф, Ф) на втором, по меньшей мере небесспорно. Оно не вполне согласуется с гипотезой об их рациональности. В конце концов, что бы ни случилось на первом шаге, ситуация (О, О) дает им на втором шаге лучший результат. Однако если выбор (О, О) возможен после любой ситуации первого шага, мы можем, применив ту же схему, что использовалась при построении табл. 7.2, б, добавить не (+1), а (+3) ко всем клеткам табл. 7.1 и получить игру, в которой отсутствуют стимулы играть (Т, Т) на первом шаге.
Таким образом, возникает дилемма, что «перетянет»: сила обещаний, данных на первом шаге, или рациональное желание не потерять то, что можно еще не потерять на втором. Персонажем, олицетворяющим непростоту этой дилеммы для Нау.Ру, служит… Наяда Забуйковская.
* * *.
При переходе от конечных повторяющихся игр к повторяющимся играм с бесконечным горизонтом возникают качественно новые эффекты. Очевидно, что сам факт отсутствия ответа на вопрос «играю ли я в последний раз или нет?» не может не влиять на действия игрока. В бесконечных повторяющихся играх Г (¥) для оценки результатов, получаемых игроками, могут быть использованы:
• приведенная стоимость суммы полезностей (выигрышей).
(7.1).
• средняя полезность (выигрыш) за этап.
(7.2).
где d — коэффициент дисконтирования.
Преимущество средней полезности (7.2) по сравнению с приведенной стоимостью (7.1) в первую очередь объясняется сопоставимостью данного показателя с полезностями игроков па отдельных этапах. Добавим также, что в силу постоянства значений полезности на каждом этапе повторяющейся игры при неизменном коэффициенте дисконтирования задачи максимизации показателей (7.1) и (7.2) эквивалентны.
Как мы установили ранее, при конечном числе повторений игры с одним равновесием (дилемма заключенного, сюжет «Алиса vs Петька») стимулов к эффективному, но неустойчивому сотрудничеству не возникает. Это происходит потому, что логика равновесия по Нэшу требует играть устойчивый, но неэффективный исход на последнем шаге ((Сознаться, Сознаться), (Эгоизм, Эгоизм)), а требование «совершенства в под-играх» заставляет повторять его при свертывании под-игр от конца к началу.
Однако при бесконечном повторении таких игр при коэффициенте дисконтирования d > 0,5 стимулы к сотрудничеству могут возникнуть. Помимо стратегий, сводящихся к бесконечному повторению равновесия базовой игры, совершенное под-игровое равновесие могут образовывать стратегии, имеющие следующую структуру:
- • играть стратегию, соответствующую оптимальному, но Парето исходу (т.е. Молчать в дилемме заключенного, Альтруизм в игре «Алиса vs Петька»), до тех пор, пока партнер поступает также;
- • переходить на стратегию, соответствующую равновесию по Нэшу, в случае если это сделал партнер, и далее играть ее всегда.
Образно говоря, вести себя солидарно до первого предательства, а после предательства партнера предавать его всегда. Такая стратегия получила название триггерной или стратегии переключения.