Экзаменационная работа по курсу «Теория игр и

advertisement
Экзаменационная работа по курсу
«Теория игр и экономическое моделирование», 2008 год
Задача 0. Вечная игра «Преподаватель и Студенты». Преподаватель договаривается со
студентами о форме письменного экзамена. Ссылаясь на предыдущий опыт, он хочет
запретить пользоваться при написании работы чем-либо, кроме бумаги и ручки.
Объяснение этому – наличие в интернете огромного количества задач по теории игр с
решениями. Преподаватель приветствует чтение таких текстов при подготовке, но
конечно, не хочет, чтобы сами тексты присутствовали на экзамене. Студенты просят
смягчить условия, обещая, что у них будет только один учебник и один конспект лекций.
Преподаватель решает пойти на такой эксперимент.
При проверке экзаменационных работ преподаватель обнаруживает, что значительная
часть студентов имела на экзамене английский вариант задач с решениями. Перед
преподавателем стоит задача, схожая с анализом сигнальной игры. Есть два типа
студентов: 1 и 2. Тип 1 – обычный студент, у которого на экзамене не было английского
варианта задач с решениями; тип 2 – студент, который имел и пользовался английским
вариантом. Задача преподавателя состоит в следующем.
a) Сформулировать критерии распознавания списывания.
b) Как по-разному оценивать разные типы.
c) Определить размер штрафа в очках для типа 2.
С критериями долго думать не пришлось.
1) Использование обозначений из английского варианта, которых нет в русском.
2) Буквальное совпадение последовательности решения задачи.
3) Правильные нетривиальные формулы без аргументации.
Есть и еще несколько менее очевидных критериев. Приведу только один из них. В
решении одной задачи в английском варианте перед одной формулой стоит такой текст:
«… как я объяснял на занятии…» (…in the class…). Вопрос: Сколько студентов ФУМП
МФТИ тайно посещают занятия в MIT? Или всем этим студентам действительно
очевидно, то, что нужно объяснять в MIT?
Размер штрафа был взят равным 25 очкам, что оставляет шанс даже на итоговую пятерку.
Тип 1 судился (как и всегда) максимально доброжелательно, а тип 2 – максимально
строго, особенно в области обоснования решения.
Ясно, что дальновидный студент типа 2 мог замаскироваться под тип 1. Для этого ему
нужно было творчески подойти к имеющемуся решению и сделать его максимально не
похожим на оригинал (не только, конечно, за счет выбора обозначений), но правильным.
Такой студент типа 2 не отличим для преподавателя от типа 1. Что же, этот студент, по
крайней мере, на интуитивном уровне, лучше понимает концепцию равновесия для
сигнальной игры…
Задача 1. Потребителю нужна одна единица некоторого товара. В тендере участвуют
фирм, которые могут поставить этот товар. Затраты на производство товара для фирмы
равны , причем эта величина известна точно только фирме . Общедоступная
информация о затратах состоит в том, что величины являются независимыми
случайными величинами, равномерно распределенными на отрезке [0,1]. Одновременно и
независимо друг от друга каждая фирма назначает цену , а потребитель покупает товар
у той фирмы, которая назначила минимальную цену. [Если таких фирм несколько, то
победитель определяется среди фирм, назвавших минимальную цену равновероятно по
жребию.] Выигрыш победителя равен − , а выигрыш остальных равен 0.
a) Опишите эту ситуацию как байесовскую игру.
Действия каждой фирмы – это назначение цены, поэтому = [0, ∞). Тип игрока – это
его затраты, поэтому = [0,1]. Ожидания о типах остальных не зависят в данном случае
от знания своего типа. Стратегия фирмы есть функция ( ). Функции выигрыша
определяются очевидным образом. Потребитель в игре не участвует.
b) Найдите в этой игре симметричное линейное равновесие Байеса-Нэша (РБН). Что
будет при → ∞? Дайте краткую интерпретацию.
Пусть ( ) =
+ для всех фирм . Фиксируем одну фирму , ее затраты (тип) и
линейные стратегии остальных
=
+ . Найдем оптимальный ответ фирмы в
виде назначения цены . Для этого запишем ожидаемый выигрыш фирмы . Ясно, что
вероятность назначения другими фирмами цены равна 0. Выигрыш в тендере фирмы
определяется условиями <
+ при всех ≠ . Вероятность такого события равна
1−
, если только 0 ≤
выигрыш фирмы будет равен (
1-го порядка: 1 −
≤ 1. При выполнении последнего условия ожидаемый
− ) 1−
(
−
. Выпишем условие оптимальности
− ) 1−
= 0,
( − ) = 0, или
или 1 −
−
= (1 + +
) . В итоге получили
линейную по затратам стратегию. Для поиска параметров и , соответствующих
симметричному линейному РБН, осталось приравнять коэффициенты:
= ( − 1)/ , =
⟺ =
= . При → ∞ получаем → 1, а → 0, т.е. пределе
получаем искренние стратегии = , которые образуют РБН.
c) Найдите все симметричные РБН со строго возрастающими и дифференцируемыми
стратегиями.
Будем теперь искать симметричное РБН в виде ( ) = ( ) строго возрастающей
гладкой функции. Условия победы в тендере теперь примут вид:
< ( ) или >
( ) при всех ≠ . Вероятность такого события равна
(1 −
( ))
, если только 0 ≤
( ) ≤ 1. При выполнении последнего условия
ожидаемый выигрыш фирмы будет равен ( − )(1 −
( )) . Выпишем условие
оптимальности 1-го порядка:
(1 −
( ))
−
(
)
( − 1)(
− )(1 −
Вспомним, что должно быть при этом выполнено
( )
=
(1 − )
(1 − )
= 0, или
= ( ), что
( )=
и что
. В итоге получаем
−
( )
(1 − )
(1 − )
( ))
( − 1)( ( ) − )(1 − )
= 0, или
− ( − 1)( ( ) − )(1 − )
= 0, или
( ) = −( − 1) (1 − )
( ) = (1 − )
поскольку при
−
. Интегрируя правую часть, получаем
(1 − ) + const. Константа должна быть равна 0,
= 1 все обращается в 0. Итак, ( ) = 1 −
Получили опять то же линейное РБН.
Других симметричных возрастающих гладких СБР нет.
(1 − ) =
+ .
Задача 2. Найдите совершенное байесовское равновесие (СБР) в следующей игре.
[p]
[1-p]
[q]
[1-q]
В этой игре есть только две подыгры, соответствующих ходам игрока 1 в предфинальных
вершинах. Выберем в них ходы и , соответственно. Теперь ясно, что после хода
природы A игрок 1 сделает ход L1, поскольку это обеспечивает игроку 1 выигрыш,
равный 3, а ход R1 – не более 2, т.е. после A имеем: L1 строго доминирует R1. Теперь
ясно, что представление на 3-элементном информационном множестве игрока 2 должно
приписывать нулевую вероятность левой позиции. Заметим еще, что после хода природы
C для игрока 1 ход R3 дает выигрыш всегда больший, чем ход L3.
Осталось перебрать 2 стратегии игрока 1: L1L2R3, L1R2R3.
L1L2R3. Ясно, что = , = 0. Тогда при ходе a игрок 2 получает 1 гарантировано, а при
ходе b – в среднем. Значит, оба хода последовательно рациональны. Оптимален также ход
. Но тогда после хода природы B игроку 1 выгодно играть R2, следовательно, с L1L2R3
СБР не построишь.
L1R2R3. Теперь = 1, = . Оптимальными является ходы a и r. Отклоняться от R2 или
R3 игроку 1 при этом не выгодно. Итак, получили единственное СБР в этой игре.
Задача 3. Трое сенаторов по имени Анна, Борис и Василий участвуют в работе комитета,
определяющего ставку налога ∈ [0,1]. Анна – борец за свободу: ее выигрыш от принятия
ставки налога в день равен (1 − ). Борис – умеренный: его выигрыш от принятия
ставки налога в день равен (1 − ( − ) ), 0 < < 1. Василий – либерал: его
выигрыш от принятия ставки налога в день равен (1 − (1 − ) ). Каждый день один
из них (равновероятно) получает право выдвинуть предложение. Предлагающий
выдвигает ставку , а двое остальных голосуют Да или Нет в алфавитном порядке имен.
Если хотя бы один из голосующих скажет Да, то игра кончается со ставкой налога . Если
оба говорят Нет, то игра продолжается на следующий день.
a) Найдите совершенное по подыграм равновесие Нэша (СПРН) в этой игре.
[Подсказка. Существует СПРН со значениями А ≤ ≤ В такое, что Анна всегда
предлагает А , Борис всегда предлагает , а Василий всегда предлагает В .]
Будем искать СПРН в том виде, какой предложен в подсказке. Идеальные ставки таковы:
для Анны – 0, для Бориса – T , а для Василия – 1. Поэтому Анне нужен голос умеренного
Бориса: если он проголосует против, то более либеральный Василий – тем более.
Собственно, по условию игры Анна не нуждается в голосе Василия, поэтому ей надо
найти минимальную ставку налога, на которую согласится Борис. При такой ставке
Борису будет все равно, что сказать: Да или Нет. Рассуждая аналогично за Василия,
можем прийти к аналогичному выводу: ему надо найти такую ставку, чтобы Борису было
все равно, как голосовать. Пусть Б – ожидаемый выигрыш Бориса в СПРН, т.е. на начало
дня до того, как стало известно, кто делает предложение. Сказав Нет, на выдвинутое
предложение, Борис перейдет в подыгру следующего дня, которая совпадает с исходной
игрой, а потому его ожидаемый выигрыш от голосования против равен Б . Из описанных
выше условий безразличия Анна и Василий должны предложить ему столько же. Если
Борис сделает предложение Б и получит одобрение одного из сенаторов комитета, то оно
будет принято, поскольку он не может быть невыгодно сразу Анне и Василию,
представляющим крайности. Итак, если право сделать предложение выпадает Борису, то
он может смело выдвигать и получать выигрыш 1. Отсюда получаем уравнение
обратной индукции
2
1
1
Б =
Б + ∙1⟹ Б =
3
3
3−2
Из условий безразличия для Бориса при голосовании за предложения Анны и Василия
получаем
1−( А− ) =1−( В− ) =
, или
(
А
А
− ) =(
=
−
В
(
(
− ) =
)
,
В
=
)
, значит
(
+
)
.
Чтобы завершить построение, нам нужно определить условия, когда соглашается каждый
сенатор. Ясно, что Борис соглашается на любое предложение ∈ [ А , В ], поскольку
внутренность этого отрезка для него лучше, чем края, на которые он согласен по
построению.
Из условия СПРН ожидаемый выигрыш Анны на начало периода должен быть равен
+ В ) , поэтому она согласится на любое предложение ≤ А , где
А =1− ( А +
1 − А = А , т.е. А – это максимальная из приемлемых для нее в СПРН ставок. Значит,
А
=
1−
+ (
А
+
+
В)
Рассуждая аналогично, получаем что Василий соглашается на предложение ≥
В,
где
+ ((1 − А ) + (1 − ) + (1 − В ) )
3
b) Что случится при → 1? Дайте короткую интерпретацию.
При → 1 получаем , А → , В → , А → , В → . Это означает фактический диктат
умеренного Бориса.
В
=
1−
Заметим, что при → 0 получаем А → − 1, В → + 1, чего не может быть при
0 < < 1, поскольку предложения должны быть от 0 до 1. Следовательно, приведенное в
пункте a) решение имеет смысл только для достаточно больших коэффициентов
дисконтирования .
Задача 4. В игре «суперприз» участвуют Банкир и Конкурсант. Есть три одинаковых
чемодана с номерами 0, 1 и 2. В одном из чемоданов с равной вероятностью (1/3)
находится 1 миллион долларов, а в других нет ничего. Чемодан 0 принадлежит
Конкурсанту. Банкир предлагает купить содержимое чемодана 0 по цене . Если
Конкурсант соглашается на такую цену, то игра кончается заключением сделки, при
которой Банкир получает содержимое чемодана 0, заплатив Конкурсанту цену . Если
Конкурсант отказывается от предлагаемой ему сделки, то публично перед обоими
игроками открывается чемодан 1. После этого Банкир снова предлагает купить
содержимое чемодана 0 по цене . Если Конкурсант соглашается, то игра кончается
заключением сделки, при которой Банкир получает содержимое чемодана 0, заплатив
Конкурсанту цену . Если Конкурсант отказывается от сделки и на этот раз, то публично
открывается чемодан 2, а Конкурсант становится владельцем содержимого чемодана 0.
Будем считать, что выигрыш от владения миллионов долларов для Банкира равен , а
для Конкурсанта равен
> 1 (размерность – миллионы долларов).
, где
a) В предположении, что
индукцию.
общеизвестно, найдите СПРН, используя обратную
Начинаем обратную индукцию после отказа Конкурсанта на первое предложение.
Если приз в чемодане 1, то в периоде 1 это станет известно. Когда ясно, в чемодане 0
приза нет, Конкурсант будет соглашаться на любую цену, но Банкир будет предлагать 0.
Если в чемодане 1 приза нет, то чемодан 0 содержит миллион с вероятностью ½,
поскольку осталось два неоткрытых чемодана. Значит, ожидаемый доход Конкурсанта
при отказе от равен ½. Следовательно, он будет соглашаться при условии
≥ , или
≥
=
. Значит, Банкир предложит
.
Поскольку > 1, то ожидаемая стоимость выигрыша для Банкира равна −
поэтому Банкир готов сделать такое предложение.
> 0,
Рассмотрим теперь период 0. Если предложение будет отвергнуто, то с вероятностью
1/3 приз окажется в чемодане 1 и оба получат по 0, но с вероятностью 2/3 в чемодане 1 нет
приза, и тогда ожидаемый выигры Банкира будет равен − , а у Конкурсанта –
= .
Итого, умножая на 2/3 получаем
−
∙
и .
Следовательно, Конкурсант согласится на
Отсюда ясно, что в СПРН Банкир предлагает
при условии
=
≥ , или
≥
.
, а конкурсант соглашается.
b) Пусть теперь Банкир не знает , т.е. является приватным параметром
Конкурсанта, а Банкир знает только, что – случайная величина, причем
выполняется следующее условие: Вер
≤
= 2 для любого ≤ 1/2.
Рассмотрим пороговую стратегию конкурсанта ( ) , ( ): соглашаться на
цену в первом раунде, если ≥ ( ), и соглашаться на цену во втором
раунде, если ≥ ( ). Найдите необходимые и достаточные условия на функции
( ) , ( ), при которых описанная пороговая стратегия Конкурсанта
соответствует СБР.
[Подсказка. Некоторые из следующих формул могут оказаться полезными:
(
)
при любых ≥ выполнено Вер
≤
>
=
;
при любых
≥ 1 выполнено Вер( ≤ ) = 1 −
при любых
≥
;
≥ 1 выполнено Вер( ≥ | ≤ ) = (
−
)/(1 −
). ]
Как и ранее, если приз в чемодане 1, то в периоде 1 это станет известно, поэтому в
чемодане 0 нет ничего, а значит, Конкурсант будет соглашаться на любую цену, но
Банкир будет предлагать 0.
Если в чемодане 1 ничего не окажется, чемодан 0 содержит миллион с вероятностью ½.
Ожидаемый доход Конкурсанта при отказе от равен ½. Значит, он будет соглашаться
при условии
≥ , или
условий СБР мы нашли.
≥
, или
( ) = − log
≥
. Итак, функцию
( ) из
Теперь нам нужно функцию ( ) и цену ( ), которая будет предлагаться в СБР. Если
отвергнуто, то Банкир знает, что < ( ), или > ( ) . Обозначим = ( ) .
Ожидаемый доход Банкира от предложения , после того, как было отвергнуто, равен
(
)
( ) = Вер
≤
>
−
=
( − ),
а максимум по
этой квадратичной по
( )= + = +
достигается при
(
)
При заданном Конкурсанты с типом ≥ ( ) предпочитают сделку по цене
сейчас, чем ждать ( ) следующего периода. Конкурсанты с типом
( ) , ( )) откажутся от , но согласятся с ( ) в следующем раунде.
∈(
Для типа ( ) должно быть все равно, что соглашаться, что ждать до следующего
раунда:
2
( )
( ) ( )
=
3
Если подставить найденное выражение для ( ) , то получим искомое уравнение для
определения
( ):
=
Функция
функцию
+
( ) при
(
)
+
(
)
=
(
)
+
(
)
.
при ≥ 1 убывает от ¾ до 0. Значит, это уравнение определяет
∈ [0, 3/4].
Определенную таким образом функцию ( ) следует использовать для нахождения
начальной цены из условий максимизации ожидаемого выигрыша Банкира.
Чтобы записать зависимость ( ) по-честному нужно учесть, что типы ≥ ( )
соглашаются на (и какова вероятность этого события), умножить эту вероятность на
( ) , ( )) для типов, которые
( − ). Затем посчитать вероятность ∈ (
соглашаются во втором периоде, и умножить ее на ( − ). Потом нужно
максимизировать сумму из этих двух слагаемых по . Ясно, что сделать это можно
только численно. Попробуйте.
Ожидания игроков в этом гибридном СБР определяются естественным образом.
.
Download