Лекции по теории игр.

advertisement
Лекции по теории игр.
Тема 13: Доминирование и оптимальность по Парето. Арбитражная
схема Нэша.
Для достижения лучшего выигрыша можно использовать не принцип
равновесия, а принцип оптимальности по Парето.
Определение 1. Ситуация бескоалиционной игры x1 доминирует по Парето
ситуацию x2, если
Hi (x1)  Hi (x2) i и существует номер m, такой что Hm (x1) > Hm (x2).
Пояснение к определению 1: доминирует такая ситуация x1, в которой у всех
игроков выигрыш не меньше, чем в ситуации x2 , а у некоторых – строго больше,
чем в ситуации x2. Переход от ситуации x2 к ситуации x1 является выгодным
для некоторых игроков, а у остальных при таком переходе выигрыш не
уменьшается.
Определение 2. Ситуация бескоалиционной игры x0 называется ситуацией,
оптимальной по Парето, если не существует ситуации
x,
которая её
доминирует.
Пояснение к определению 2: оптимальной по Парето является такая ситуация, в
которой у любого игрока нельзя увеличить выигрыш без уменьшения выигрыша
других игроков. При переходе от ситуации x0 к любой другой ситуации у
некоторых игроков уменьшается выигрыш, что является для них невыгодным.
Таким образом, оптимальная по Парето ситуация является выгодной для всех
игроков.
Бескоалиционная игра может иметь несколько оптимальных по Парето ситуаций.
Для биматричных игр существует довольно простой способ нахождения
ситуаций, оптимальных по Парето – так называемый «метод северо-восточной
границы».
На координатной плоскости изображают точки, координатами которых являются
выигрыши игроков во всех возможных ситуациях игры: по оси ОХ откладываются
выигрыши первого игрока, по оси OY – выигрыши второго игрока.
Целью обоих игроков является увеличение
выигрыша, что соответствует движению от центра
координат вправо (для первого игрока) и вверх (для
второго игрока).
Крайние точки множества, достигаемые при таком
движении, образно называются «северо-восточной
границей множества».
Ситуации 4, 12, 11 и 9 приносят наибольший по сравнению с остальными
исходами выигрыш обоим игрокам.
Таким образом, точки, которые находятся на северо-восточной границе
полученного множества, обозначают ситуации, оптимальные по Парето.
Например, для биматричной игры «Конкурс на реализацию проекта» и
обобщённой матрицей выигрышей
З
H ( A, B ) =
З
Пр
Пр
(4, 4) (-1, 7)
(7,-1) ( 2, 2)
нужно изобразить точки с координатами (4, 4), (-1, 7), ( 7, -1) и (2, 2).
По рисунку видно, что ситуация (2, 2) доминируется по Парето ситуацией (4, 4).
Остальные ситуации c координатами (4, 4), (-1, 7) и ( 7, -1) принадлежат к
северо-восточной границе множества и являются оптимальными по Парето.
Сотрудничество в биматричных играх.
В бескоалиционных играх ситуация равновесия не всегда является ситуацией,
оптимальной по Парето, кроме того игра может иметь несколько оптимальных по
Парето ситуаций.
Рассмотрим игры, в которых игроки для достижения наилучшего результата
могут образовывать коалиции. Коалиция является формой сотрудничества,
направленной на увеличение первоначальных возможностей игроков, или, в
теоретико-игровых терминах, на увеличение их выигрышей.
В антагонистической (в частности, в матричной) игре какое-либо сотрудничество
игроков лишено смысла, так как в такой игре улучшение положения одного из
них приводит к ухудшению положения другого. При переходе от матричной игры
к биматричной картина меняется: в биматричной игре сотрудничество игроков
может улучшить положение их обоих.
В биматричной игре имеется только одна нетривиальная коалиция (коалиция,
состоящая более, чем из одного игрока) — коалиция обоих игроков.
Отличие между индивидуальным выбором решений обоими игроками и
совместным
принятием
решения
коалицией
этих
игроков
можно
продемонстрировать на примере биматричной игры «Конкурс на реализацию
проекта».
В данной игре с обобщённой матрицей выигрышей:
З
H ( A, B ) =
З
Пр
Пр
(4, 4) (-1, 7)
(7,-1) ( 2, 2)
имеется
ситуация равновесия по Нэшу — ситуация («программа»,
«программа»), в которой каждая из фирм получает прибыль в 2 ед.
1
Действительно, если игра находится в ситуации («программа», «программа»), то
ни одному из игроков не выгодно одностороннее отклонение от этой ситуации,
отклонившийся игрок уменьшает свой выигрыш и получает (-1) ед.
С другой стороны, если игроки оба отклоняются от ситуации («программа»,
«программа»), то возникает ситуация («заявка», «заявка»), которая является
более выгодной для них обоих, выигрыш каждого из игроков составляет 4 ед.
Однако переход от ситуации («программа», «программа») к ситуации («заявка»,
«заявка») может произойти только как результат договора между игроками, что
осуществимо лишь при создании коалиции {1, 2} этих игроков. Объединение
игроков в коалицию требует, как минимум, возможности обмена информацией
между ними.
Если же игроки не могут обмениваться информацией, то каждый из них будет
опасаться менять выбранную им стратегию «программа» на стратегию «заявка»,
так как это приведёт к уменьшению выигрыша отклонившегося игрока.
На примере этой биматричной игры также можно продемонстрировать
возможность противоречия между выгодностью и устойчивостью:
- ситуация («программа», «программа») является устойчивой (равновесной), но
невыгодной;
- ситуация («заявка», «заявка») является выгодной для обоих игроков, но
неустойчивой.
В частности, это означает, что если игроки заключают между собой договор
(объединяются в коалицию) — обоим придерживаться стратегии «заявка», то
этот договор будет находиться под угрозой нарушения, так как каждому игроку
выгодно одностороннее отклонение от него.
Предположим, что игроки объединились в коалицию {1, 2} и, следовательно,
могут реализовать любую ситуацию игры. Какой исход игры в этом случае
следует считать наиболее выгодным для коалиции {1,2}, т.е. оптимальным для
нее?
Для биматричной игры «Конкурс на реализацию проекта» игроки,
объединившись в коалицию, очевидно, предпочтут выигрыш (4, 4) выигрышу (2,
2), однако выигрыши (7, -1) и (-1, 7) также являются «кандидатами» на
оптимальность.
Для решения задачи нахождения оптимальной ситуации для коалиции игроков в
биматричной игре сделаем еще одно допущение: для коалиции {1,2} допустим
использование не только чистых, но и смешанных стратегий.
Определение. Смешанной стратегией коалиции {1,2} в биматричной игре
называется вероятностное распределение на множестве чистых ситуаций этой
игры.
Пояснение к определению. Если первый игрок использует смешанную стратегию
X=(p1,...,pm), а второй игрок — смешанную стратегию Y=(q1, …,qn), тогда на
множестве ситуаций игры возникает вероятностный вектор z = zij = piqj (i=1,..,m;
j=1,…n). Этот вектор будет смешанной стратегией коалиции {1,2} – для любой
ситуации игры задана вероятность, с которой коалиция выбирает эту ситуацию.
Однако такой вероятностный вектор отражает только независимый выбор
игроков, используется в расширенной бескоалиционной игре и часто приводит к
уменьшению выигрыша из-за несогласованного выбора (например, в игре
«Семейный спор»).
Возможность реализации произвольного, а не только независимого
распределения на множестве чистых ситуаций игры является проявлением
«эффекта кооперации» применительно к смешиванию стратегий игроков,
образующих коалицию, их возможности договариваться о совместных
действиях.
Допущение смешанных стратегий коалиции {1, 2} приводит к тому, что вместе с
двумя ситуациями с выигрышем (v1, v2) и (v’1, v’2) коалиция {1, 2} может
реализовать также ситуацию с выигрышем 1(v1,v2) + 2(v’1, v’2), где 1 и 2 –
вероятности, с которыми коалиция выбирает соответствующие ситуации. Так как
1+1=1  для вычисления можно использовать один параметр:
 (v1,v2) + (1-) (v’1, v’2) = ( v1 + (1-) v’1,  v2 + (1-) v’2) где 0    1.
С геометрической точки зрения это означает, что
множество
возможных
выигрышей
в
биматричной
игре
превращается
в
многоугольник, вершинами которого будут
крайние точки (аij , bij ) (i=1,..,m; j=1,…,n).
При этом точки, соответствующие ситуациям,
оптимальным по Парето, составляют «северовосточную границу» этого многоугольника.
Задача нахождения кооперативного решения биматричной игры сводится теперь
к построению правила, которое для каждого такого многоугольника указывает
единственный оптимальный выигрыш, принадлежащий его «северо-восточной
границе».
Рассмотрим решение этой задачи, известное в теории игр как арбитражное
решение Нэша.
Арбитражная схема Нэша.
Арбитражное решение представляет собой некоторую систему требований
(аксиом), с помощью которых для любой игры выделяется ее единственное
решение.
Для биматричной игры с обобщённой матрицей выигрышей H( A, B) введём
обозначения:
2
1) D — область плоскости, которая совпадает с множеством выигрышей этой
игры в смешанных стратегиях; 2) vA — цена матричной игры первого игрока с
матрицей А, vB — цена матричной игры второго игрока с матрицей В; 3) M0 –
точка с координатами (vA, vB).
Пояснение. Точка M0 называется точкой status quo и показывает
индивидуальные возможности игроков по достижению выигрыша.
Математически арбитражное решение Нэша определяется как отображение Ф,
которое каждой паре вида (D, (vA, vB)) ставит в соответствие точку M* (x*, y*) D,
причем отображение Ф должно удовлетворять следующим аксиомам:
1)
коллективная рациональность - ситуация с выигрышем (x*, y*) D
является оптимальной по Парето.
2)
индивидуальная рациональность - x*  vA и y*  vB. Требование
индивидуальной рациональности означает, что при оптимальном исходе каждый
игрок должен получить не меньше, чем его максимальный гарантированный
выигрыш (не меньше «своего» максимина, совпадающего с ценой
соответствующей игры).
3)
линейность. Пусть область D' получается из области D c помощью
линейного преобразования вида х' = 1 x + 1, y' = 2 y + 2 , где 1 > 0, 2 > 0,
причём v'A = 1 vA + 1 и v'В = 2 vВ + 2. Тогда Ф ( D', ( v'A, v'В )) = (1 x* + 1
, 2 y* + 2 ).
Смысл аксиомы линейности состоит в том, что оптимальное решение не должно
зависеть от выбора начала отсчета и масштаба измерения выигрышей.
4)
симметрия – если множество выигрышей D симметрично относительно
биссектрисы I координатного угла и vA = vB , то x*= y*
Эта аксиома утверждает, что если игроки изначально были равноправны, то и в
случае их объединения они должны получить одинаковый выигрыш.
5)
независимость от посторонних альтернатив – если D1  D и Ф( D, (
vA, vB))  D1, тогда Ф( D1, (vA, vВ )) = Ф (D, (vA, vВ )).
Выполнение этой аксиомы означает, что арбитражное решение для данного
множества ситуаций является также арбитражным решением для любого своего
подмножества, в которое оно попадает. Другими словами, добавление новых
ситуаций не должно менять предпочтения старых.
Утверждение. Отображение, удовлетворяющее аксиомам 1) - 5), существует и
единственно.
В явном виде арбитражное решение Нэша для пары (D, (vA, vВ )) - это точка (x*,
y*) D, для которой произведение ( x - vA )( y - vВ ) достигает наибольшего
значения в той части области D, которая выделяется условием
x  vA и y 
vB.
Рассмотрим нахождение кооперативного решения биматричной игры с помощью
арбитражной схемы Нэша на следующем примере.
Пример. Оптимальное распределение прибыли (кооперативное решение игры
без разделения полезности).
Имеется две фирмы: первая может выпускать одно из изделий А1 и А2 , вторая
— одно из изделий В1 , В2 и В3 . Далее изделия продаются на одном рынке,
прибыль фирм зависит от того, являются ли данные изделия
взаимодополняющими или конкурирующими, и задаётся обобщённой матрицей
В1
В2
В3
выигрышей:
А1
H ( A, B ) = А
2
(3, 3) (0, 0) (4, 1)
(2, 0) (1, 5) (2, 2)
Считая, что фирмы заключают между собой договор о сотрудничестве, найдём
справедливое распределение прибыли, используя арбитражное решение Нэша.
Метод решения:
1.
В декартовой системе координат строим область D — многоугольник,
вершинами которого являются точки, координаты которых заданы в обобщённой
матрице выигрышей;
2.
Выделяем в области D множество ситуаций игры, оптимальных по Парето
(северо-восточную границу).
3.
Находим точку «status quo» — точку с координатами (vA, vB).
В1 В2 В3
А1 А2
В1 В2 В3
В1
3 0
0 5
В3 1 2
Игра первого игрока – матричная игра с матрицей А имеет решение в чистых
стратегиях, следовательно, vA = 1. Цену игры второго игрока (рассматривается
матричная игра с матрицей ВТ , т.к. теперь второй игрок выступает в качестве
первого игрока для своей игры) можно найти графическим способом vB = 15/8.
Замечание. Получили, что vA < vB, это означает, что возможности игроков по
обеспечению наилучшего выигрыша не одинаковы – вторая фирма обладает
бÓльшим потенциалом и, следовательно, её доля выигрыша в коалиции будет
больше.
А1
A = А2
3 0 4
2 1 2
В=
А1
А2
3 0 1
0 5 2
ВТ = В2
4. Вводим новую систему координат, перенося
начало в точку O' (vA, vB).
5.
Арбитражное решение Нэша соответствует
точке М* построенного многоугольника, которая
лежит в I координатной четверти новой системы
3
координат и обращает в максимум произведение координат.
Для нахождения точки М* заметим, что линия, для которой произведение
координат имеет постоянное значение, определяется уравнением x • y = с,
следовательно, является равнобочной гиперболой, асимптотами которой служат
оси новой декартовой системы координат.
Таким образом, М* — та точка, в которой гипербола данного семейства касается
прямой PQ. Для нахождения значений координат точки М* нужно составить
систему из уравнения прямой PQ и уравнения гиперболы.
Находим уравнение прямой PQ . Переводим координаты точек P и Q в новую
систему координат:
P (3,3)  P' ( 3-1, 3-15/8) = P' (2, 9/8)
Q (1,5)  Q' ( 1-1, 5-15/8) = Q' (0, 25/8).
Уравнение прямой, проходящей через точки с координатами (x1, y1) и ( x2, y2)
имеет вид:
x – x1
x – x2
y – y1 = y – y2
Следовательно, уравнение прямой, проходящей через точки P'(2, 9/8) и Q' (0,
25/8) будет иметь вид:
x–2
y – 9/8
x
= y – 25/8

Получили, что «правильное» распределение прибыли, вычисленное с помощью
арбитражной схемы Нэша, устанавливает выигрыш первой фирмы – 41/16 ед.,
выигрыш второй фирмы – 55/16 ед.
Реализация оптимального решения осуществляется некоторой смешанной
стратегией коалиции {1,2}. Чтобы найти смешанную стратегию коалиции {1, 2},
реализующую выигрыш (41/16, 55/16), надо «смешать» ситуации (A1,B1) и (A2,B2)r
приводящие к выигрышам (3,3) и (1,5), в некоторой пропорции так, чтобы
выполнялось равенство:
1(3,3) + 2(1,5) = (41/16, 55/16)
1+2=1  1(3,3) + (1-1)(1,5) = (41/16, 55/16)
1 = 25/32 2 = 1-25/32 = 7/32
Следовательно, для получения «справедливой» доли выигрыша первая и
вторая фирмы должны воспроизводить ситуацию (A1,B1) – с частотой 25/32,
ситуацию (A2,B2) – с частотой 7/32, а остальные ситуации не воспроизводить
совсем.
Замечание. Рассмотренное здесь кооперативное решение биматричной игры
предполагает «неделимость» выигрышей игроков (в частности, невозможность
передачи части выигрыша от одного игрока к другому). В теории игр такое
решение называется кооперативным решением без разделения полезности.
x + y = 25/8
Координаты точки М* являются решением системы уравнений:
x + y = 25/8
x • y =с
Подставляя y = 25/8 – x из первого уравнения во второе, получаем квадратное
уравнение:
8x2 – 25x + 8c = 0.
Параметр с находится из условия единственности решения системы, то есть
данное квадратное уравнение должно иметь нулевой дискриминант. Если
дискриминант равен нулю, то имеется единственный корень x = 25/16, тогда и
y = 25/16.
Получили, что точка М* имеет координаты (25/16, 25/16), переходим обратно к
старой системе координат, находим координаты точки М*:
x* = 25/16 + 1 = 41/16
y* = 25/16 + 15/8 = 55/16.
4
Download