ij - Марийский государственный университет

МИ НИСТ Е РСТ ВО ОБ РАЗО ВА НИЯ И НАУК И РФ ГОУВПО «МАРИЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ » Институт экономики, управления и финансов Н.С. САДОВИН Т.Н. САДОВИНА ОСНОВЫ ТЕОРИИ ИГР Допущено Советом Учебно-методического объединения по образованию в области менеджмента в качестве учебного пособия по направлению «Менеджмент» ЙОШКАР-ОЛА, 2011 ББК В 183.3 УДК 519.83 С 143 Рецензенты: Е.И. Царегородцев, д-р экон. наук, проф. МарГУ; М.Л. Николаев, д-р физ.-мат. наук, проф. МФ МОСА Рекомендовано к изданию редакционно-издательским советом МарГУ С 143 Садовин Н.С. Основы теории игр: учебное пособие / Мар. гос. ун-т; Н.С. Садовин, Т.Н. Садовина. — Йошкар-Ола, 2011. — 119 с. ISBN 978-5-94808-622-4 Учебное пособие предназначено для поддержки лекционных и практических занятий по курсам «Теория игр», «Математическое моделирование экономических процессов», «Экономико-математические методы», читаемым для студентов экономических специальностей. Для преподавателей, аспирантов, студентов экономических специальностей вузов, занимающихся вопросами принятия решений в условиях риска и неопределенности. ББК В 183.3 УДК 519.83 ISBN 978-5-94808-622-4 © Садовин Н.С., Садовина Т.Н., 2011 © ГОУВПО «Марийский государственный университет», 2011 2 ВВЕДЕНИЕ Содержание управления экономикой сводится к постоянному выбору оптимальных решений. От того, насколько эффективны принимаемые решения, зависит состояние производственнотехнологической и социальной сфер экономики. Сложный характер рыночной экономики предъявляет серьезные требования к обоснованию принятия решений. Одним из способов удовлетворения этих требований является постановка задач принятия решений на математическую основу. Математическое описание постановок различных задач по принятию решений и математическое обоснование подходов к их анализу и решению помогают лицу, принимающему решение, провести критический анализ ситуации, и в результате более обоснованно и последовательно осуществлять определенную стратегию поведения при решении сложных экономических проблем. Теория игр представляет собой теоретические основы математических моделей принятия оптимальных решений в конфликтных ситуациях рыночных отношений, носящих характер конкурентной борьбы, в которых одна противоборствующая сторона выигрывает за счет другой стороны. Наряду с такой ситуацией в теории принятия решений рассматривают также ситуации риска и неопределенности, которые имеют различные модели и требуют разных критериев выбора оптимальных решений. Теория игр получила широкое распространение и используется в различных областях экономики и производства, бизнеса и финансов, сельского хозяйства, военного дела, биологии и социологии, психологии и политологии. К настоящему времени теория игр развилась в самостоятельную область математики и может рассматриваться независимо от ее приложений к реальным игровым ситуациям. В учебном пособии изложены основы теории игр и ее применение в качестве математических моделей при решении некоторых задач в экономике и бизнесе. 3 Пособие состоит из введения, четырех глав и заключения. В первой главе рассматриваются основные понятия теории игр и задачи теории игр в экономике, классификация теории игр. Вторая глава посвящена матричным играм. Рассмотрены понятия оптимальности, оптимальных чистых и смешанных стратегий, методы поиска решений матричных игр. В третьей главе рассмотрены биматричные и кооперативные игры и методы их решения. Четвертая глава посвящена играм с природой. Здесь рассмотрены вопросы решения игр в условиях неопределенности и риска, планирования эксперимента, применение дерева решений и вопросы о стоимости информации. 4 1. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ИГР 1.1. Задачи теории игр в экономике Во многих задачах финансово-экономической сферы, в частности, в задачах маркетинга, менеджмента, финансово-банковских операций, инвестиций в различные проекты и т. д. возникает необходимость принятия решений. Проблема принятия решений осложняется тем, что ее приходится решать в условиях неопределенности. Неопределенность может носить различный характер. Неопределенными могут быть осознанные действия противоборствующей стороны, направленные на уменьшение эффективности решений, принимаемых противной стороной. Например, фирмы, конкурирующие на одном рынке, осуществляют действия, которые приводят к реализации своих интересов и препятствуют в этом конкурентам. Неопределенность может относиться и к ситуациям риска, в которых сторона, принимающая решение, в состоянии установить все возможные результаты своих решений, вместе с вероятностями их появления. Эти вероятности представляют собой вероятности всевозможных условий, в которых решается данная задача. Условия, о которых идет речь, влияют на принятие решений неосознанно и формируются из многих факторов (общего состояния экономической и финансовой систем, курсов валют, уровня инфляции и т. д.). Если же известны все возможные последствия принимаемых решений, но неизвестны их вероятности, то есть неизвестны вероятности возможных состояний внешней среды, окружающей решаемую задачу, то говорят, что решение принимается в условиях полной неопределенности. Кроме того, неопределенностью может обладать и цель решаемой задачи, когда показатель эффективности принимаемого решения характеризуется единственным числом и не всегда отражает достаточно полную картину. 5 В условиях полной определенности теоретические и практические выводы носят однозначный характер и представляют собой четкое описание ситуации в рамках рассматриваемой модели (задачи). В условиях же недостаточной информированности или полной неопределенности результаты анализа уже не обладают такой четкостью и однозначностью. Однако полученные при этом рекомендации оказываются полезными при выборе решений, так как они дают возможность обосновать варианты принимаемых решений с разных точек зрения (порой противоположных). Попытка количественного анализа финансово-экономических ситуаций и принятия на их основе определенных решений и привела к созданию специальных экономико-математических методов обоснования выбора и принятия решений в условиях рыночной экономики. Такие методы позволяют находить количественные характеристики экономических процессов. Это позволяет в одних, более простых и более определенных ситуациях находить оптимальное решение, а в других, более сложных и неопределенных ситуациях, такие методы приводят к получению дополнительной информации, позволяющей провести детальный анализ каждого варианта решения, выявить его положительные и отрицательные стороны и остановиться на том варианте решения, которое будет более или менее полно проанализированным и предпочтительным для стороны, принимающей решение. При выборе решения в условиях неопределенности всегда присутствует фактор действия наудачу без обоснованной уверенности в правильности принимаемого решения. То есть выбор решения в условиях неопределенности всегда сопряжен с риском. Математические методы обоснования принимаемых в экономике решений дают возможность анализа различных вариантов решения с целью уменьшения уровня риска, которое иногда достигается за счет получения дополнительной информации. В этом случае возникает проблема расчета стоимости этой информации, приобретение которой позволит максимизировать экономический эффект принимаемого решения. Математизация содержательных финансово-экономических задач о принятии решений в условиях неопределенности и риска приводит к соответствующим экономико-математическим моделям 6 и методам, теоретический аспект которых составляет теорию игр. Таким образом, задачами теории игр в экономике являются задачи о выборе решений в условиях экономической неопределенности и риска. 1.2. Конфликты и теория игр В практической деятельности часто приходится рассматривать явления и ситуации, в которых участвуют две (или более) стороны, имеющие различные интересы и обладающие соответствующими возможностями применять для достижения своих целей разнообразные действия. Подобные явления и ситуации называются конфликтными или просто конфликтами. Примеры: 1. Студент приходит на экзамен тянет билет и … возникает конфликтная ситуация. Действия сторон — студента и преподавателя — различны, да и их интересы не во всем совпадают. 2. Разбойники делят добычу — снова конфликт. 3. «Три девицы под окном пряли поздно вечерком…». Типичная конфликтная ситуация характеризуется тремя основными составляющими: 1) заинтересованными сторонами (это потребители, фирмы, отдельные страны, финансовые и экономические союзы и т. д.); 2) интересами сторон (удовлетворение различных финансовых, экономических и политических потребностей, вытеснение конкурентов с рынка сбыта, повышение доходов и т. д.); 3) их возможными действиями (выбор объема потребления, способы формирования инвестиционного портфеля, выбор объема производства, выбор дивидендной политики и «демпинговая» политика и т. д.). Любая конфликтная ситуация, взятая из реальной жизни, как правило, довольно сложна. Ее изучение затруднено наличием многих разных обстоятельств, часть из которых не оказывает сколь-нибудь существенного влияния ни на развитие конфликта, ни на его исход. Поэтому для того, чтобы анализ конфликтной ситуации оказался возможным, необходимо удалить эти второстепенные 7 факторы, что при удачном стечении обстоятельств позволяет построить упрощенную формализованную математическую модель конфликта, которую принято называть игрой и которая отличается от реальной конфликтной ситуации еще и тем, что ведется по вполне определенным правилам. Необходимость изучения и анализа конфликтов, представляемых в виде упрощенных моделей (игр) вызвала в жизни специальный математический аппарат — теорию игр. Обычно теорию игр определяют как раздел математики для изучения конфликтных ситуаций. Это значит, что можно выработать оптимальные правила поведения каждой стороны, участвующей в разрешении конфликтной ситуации. Кроме того, в экономике, например, оказался недостаточным аппарат математического анализа, занимающийся определением экстремума функций. Появилась необходимость изучения так называемых оптимальных минимаксных и максиминных решений. Следовательно, теорию игр можно рассматривать как раздел методов оптимизации, позволяющий решать задачи теории принятия решений, в частности управленческих решений в экономике. Математико-игровые модели находят свое применение не только в конфликтных ситуациях социально-экономической области, но и во взаимодействии человека с природой, в политике, биологии, военной области и т. д. 1.3. Основные понятия и классификация видов игр Игра — это упрощенная формализованная модель реальной конфликтной ситуации. Формализация означает выработку определенных правил действия сторон в процессе игры: варианты действия сторон, исход игры при данном варианте, степень информированности каждой стороны о поведении всех других сторон. Заинтересованные играющие стороны (в частности, лица) называются игроками. Причем одну играющую сторону может представлять как один игрок, так и целый коллектив. Стратегией игрока называется любое возможное для игрока действие в рамках заданных правил игры. В условиях конфликта 8 каждый игрок выбирает свою стратегию, в результате чего складывается набор стратегий, называемых ситуацией. Заинтересованность игроков в ситуации проявляется в том, что каждому игроку в каждой ситуации приписывается число, выражающее степень удовлетворения его интересов в этой ситуации и называемое его выигрышем в ней. Хотя не каждый выигрыш можно оценить количественно, но в теории игр качественные выигрыши не рассматриваются. Игры можно классифицировать по следующим критериям: 1. Количество игроков. Если в игре участвуют две стороны, то ее называют игрой двух лиц. Если число сторон больше двух, ее называют игрой n лиц (или множественной). Наиболее глубоко проработаны игры двух лиц. 2. Количество стратегий игры. По этому критерию игры делятся на конечные и бесконечные. В конечной игре каждый из игроков имеет конечное число возможных стратегий. Игра является бесконечной, если хотя бы один из игроков имеет бесконечное число возможных стратегий. 3. Взаимоотношения сторон. По этому критерию игры подразделяются на бескоалиционные, коалиционные, кооперативные. Бескоалиционной называется игра, в которой игроки не имеют права вступать в соглашения, образовывать коалиции. В коалиционной игре игроки могут вступать в соглашения, образовывать коалиции. Если коалиции определены заранее, то такая игра называется кооперативной. 4. Характер выигрышей. По этому критерию игры подразделяются на игры с нулевой суммой и игры с ненулевой суммой. Игра с нулевой суммой означает, что сумма выигрышей всех игроков в каждой партии равна нулю. Игры двух игроков с нулевой суммой относятся к классу антагонистических игр. При этом выигрыш одного игрока равен, естественно, проигрышу другого игрока. Игра, в которой нужно вносить взнос за право участия в ней, является игрой с ненулевой суммой. Экономические задачи теории игр относятся к обоим типам игр. 5. Вид функций выигрыша. По этому критерию игры подразделяются на матричные, биматричные, непрерывные, выпуклые, сепарабельные и так далее. 9 Матричная игра — конечная игра двух игроков с нулевой суммой. Предположим, что первый игрок имеет m стратегий Ai , i = 1, m , а второй игрок n стратегий B j , j = 1, n . Тогда игра может быть названа игрой m ´ n (эм на эн) или m ´ n игрой. Обозначим через aij значения выигрышей игрока A (соответственно — значения проигрышей игрока B ), если первый игрок выбрал стратегию Ai , а второй игрок стратегию B j . В этом случае говорят, что имеет место ситуация { A , B } . Значения выигрыi j шей aij (эффективностей) можем представить в виде платежной таблицы, называемой матрицей игры или платежной матрицей: Та блица 1. 1 Игрок 2 Игрок 1 B1 B2 … Bn A1 a11 a12 … a1n A2 a21 a22 … a2 n … … … … … Am am1 am 2 … amn Или в виде матрицы: æ a11 ç a21 A = {aij } = ç ç ... ç è am1 a12 a22 ... am 2 ... a1n ö ÷ ... a2 n ÷ . ... ... ÷ ÷ ... amn ø (1.1) Биматричная игра — конечная игра двух игроков с ненулевой суммой. Выигрыш каждого игрока задается своей платежной матрицей вида (1.1). 10 Если функция выигрышей aij = f ( i, j ) (1.2) является непрерывной, то игра называется непрерывной, если (1.2) выпуклая, то игра называется выпуклой; если (1.2) можно представить в виде суммы произведений функций одного аргумента — сепарабельной. 6. Количество ходов. По этому критерию игры делятся на одношаговые или многошаговые. Одношаговые заканчиваются после одного хода каждого игрока, и происходит распределение выигрышей. Многошаговые игры бывают позиционными, стохастическими, дифференциальными и так далее. 7. Информированность сторон. По этому критерию различают игры с полной и неполной информацией. Игра определяется как игра с полной информацией, если каждый игрок на каждом ходу игры знает все стратегии, примененные ранее другими игроками на предыдущих ходах. Если же игроку известны не все стратегии предыдущих ходов других игроков, то игра называется игрой с неполной информацией. 8. Степень неполноты информации. По этому критерию игры делятся на статистические и стратегические. Стратегические игры проходят в условиях полной неопределенности. Статистические игры проводятся в условиях частичной неопределенности. В статистической игре имеется возможность получения информации на основе статистического эксперимента, по результатам которого оценивается распределение вероятностей стратегий игроков. С теорией статистических игр тесно связана теория принятия экономических решений. Изучение теории игр можно проводить с различных точек зрения. Мы будем стремиться решать следующие задачи: 1. Выработка принципов оптимальности, то есть того, какое поведение игроков следует считать разумным или целесообразным. 2. Выяснение реализуемости принципов оптимальности, то есть установление существования оптимальных ситуаций (и стратегий). 3. Отыскание оптимальных ситуаций (реализация игры). 11 Отметим также, что оценка игроком ситуации путем указания его количественного выигрыша, вообще говоря, возможна не всегда, а иногда просто не имеет смысла. В этом случае численное значение выигрыша в каждой ситуации заменяют на сравнительную предпочтительность ситуаций для отдельных игроков. Тогда речь ведут о теории игр с предпочтениями, которая включает в себя теорию игр с выигрышами как частный случай. Таким образом, основной целью теории игр является выработка рекомендаций для удовлетворительного поведения игроков в конфликте, то есть выявления для каждого из них «оптимальной стратегии». Понятие оптимальной стратегии — одно из важнейших понятий теории игр, может пониматься в различных смыслах в зависимости от показателя оптимальности (эффективности). Стратегия, оптимальная по одному показателю, может не быть оптимальной по другому. Поэтому чаще всего оптимальная стратегия, определенная в результате применения теории игр к реальным конфликтным ситуациям, является оптимальной теоретически и в большинстве случаев реально удовлетворительной. s Вопросы для самоконтроля 1. 2. 3. 4. Какова основная цель теории игр? Каковы основные задачи, решаемые теорией игр? Назовите виды неопределенностей. Дайте их определения. Какие ситуации называются конфликтными? Приведите примеры. 5. Каковы три составляющие конфликтной ситуации? 6. Дайте определение понятия «игра». 7. Может ли играющую сторону представлять коллектив игроков? 8. Что называется выигрышем игрока? 9. Может ли выигрыш игрока быть отрицательным? 10. Что такое стратегия игрока? 11. Приведите классификацию игр. 12. Объясните разницу между игрой с нулевой и ненулевой суммой. 12 13. Какие игры, на Ваш взгляд, встречаются чаще: игры с нулевой или ненулевой суммой? 14. Почему матрица игры называется еще и платежной? 15. Что означает понятие «игра с полной информацией»? В чем ее отличие от игры с неполной информацией? 13 2. МАТРИЧНЫЕ ИГРЫ 2.1. Примеры матричных игр Для того, чтобы составить экономико-математическую модель конфликтной ситуации в виде матричной игры, необходимо построить матрицу выигрышей. Это весьма нетривиальная задача, особенно для игр большой размерности. В общем виде матрица игры (платежная матрица) строится следующим образом: 1) перечисляем все возможные чистые стратегии Ai и B j игроков; 2) формализуем правила, по которым развивается конфликт в виде функции выигрышей f ( i, j ) = aij . Рассмотрим несколько примеров построения платежных матриц. № 2.1. Поставка товаров. На каждой из двух баз ассортиментный минимум составляет один и тот же набор из n видов товаров. Каждая база должна поставить в свой магазин только один из этих видов товара. Магазины, обозначим их через A и B, конкурируют между собой. Один и тот же вид товара в обоих магазинах продается по одной и той же цене. Однако товар, поставляемый в магазин B, более высокого качества. Если магазин A завезет с базы товар i-го вида ( i = 1, n ), а магазин B-товар j-го вида ( i = 1, n ), отличной от товара i-го вида ( i ¹ j ), то товар i-го вида будет пользоваться спросом и магазин A получит прибыль ci у.е. Если же в магазины A и B завезены товары одинакового вида ( i = j ), то товар i-го вида в магазине A не будет пользоваться спросом, так как такой же товар, но более высокого качества продается в магазине B, по такой же цене. Поэтому магазин B понесет убытки по транспортировке, хранению и, возможно, порче товара i-го вида в размере d j у.е. Требуется составить платежную матрицу игры при n = 3 . 14 Решение. Формализуем данную конфликтную ситуацию. Пусть в качестве первого игрока выступает магазин A, а в качестве 2-го — магазин B. Игрок A с целью достижения прибыли имеет возможность выбрать одну из n следующих стратегий Ai — завезти со своей базы товар i-го вида. Игрок B также обладает n стратегиями B j — завезти ее со своей базы j-й товар. Пусть игроки выбрали стратегии {A B } . i, j Тогда можно составить следующую функцию выигрышей игрока A: ìïci ,если i ¹ j , , f ( i, j ) = í ïîd j ,если i = j, а платежная матрица (матрица игры), например, при n = 3 будет выглядеть следующим образом: æ - d1 c1 ç A = ç c2 - d 2 ç c c3 è 3 c1 ö ÷ c2 ÷ . -d 3 ÷ø № 2.2. Антагонистическая конкуренция. Фирма A производит некоторый сезонный товар, имеющий спрос в течение T единиц времени, и который она может поставить на рынок в один из моментов времени i = 1, 2, .., T . Для конкурентной борьбы с фирмой A дочерняя фирма B концерна D, не заботясь о собственных доходах, производит аналогичный товар, который поступает на рынок в один из моментов времени j = 1, 2, .., T . Пусть технология выпуска товара такова, что чем дольше он находится в производстве, тем выше его качество, а реализуется только товар более высокого качества (так как цена на товары разного качества одна и та же). Доход от продажи товара в единицу времени равен c у.е. Требуется построить функцию выигрышей фирмы A, где под выигрышем понимается доход фирмы A. При этом единственным законным средством фирмы B в конкурентной борьбе является 15 выбор момента поставки товара на рынок, так как понижение цены на поставляемый товар запрещено определенными соглашениями. Решение. Формализуем данную конфликтную ситуацию. В качестве игроков выступают фирмы A и B, которые преследуют прямо противоположные интересы: фирма A стремится максимизировать свой доход, а фирма B — минимизировать его. Для достижения своей цели фирма A обладает T стратегиями: A1 , A2 , K, AT , где Ai , ( i = 1, T ) — стратегия, состоящая в том, что фирма A поставляет товар на рынок в момент времени i . Фирма B обладает аналогичными стратегиями B j , j = 1, T . Рассмотрим три возможных варианта результатов сравнения моментов поставки товаров фирмами A и B. 1. Если i < j , то в течение ( j - i ) ед. времени фирма A не будет иметь конкурента и ее доход составит величину c ( j - i ) у.е. В момент времени t = j на рынке появляется товар фирмы B, который имеет более высокое качество, так как он поступает на рынок позже. Поэтому, начиная с момента времени j, фирма A теряет рынок и дохода в дальнейшем не получает. 2. Если i = j , то обе фирмы поставляют свой товар на рынок одновременно, поэтому фирма A (так же как и фирма B ) в оставшиеся ( n - i + 1) ед. времени получит ровно половину дохода в размере c ( n - i + 1) / 2 у.е. 3. Если i > j , то товар фирмы A более качественный, поэтому в течение оставшихся ( n - i + 1) ед. времени фирма A получит доход в размере c ( n - i + 1) у.е. Таким образом, функция выигрышей игрока A может быть записана в виде: ìc ( j - i ) ,при i < j , ï f ( i, j ) = íc ( n + 1 - i ) /2, при i = j , ï îc ( n + 1 - i ) ,при i > j. 16 Если предположить, например, что T = 4 , то можно составить следующую платежную матрицу игры: 2c 3c ö æ 2c c ç ÷ 3c 1,5c c 2c ÷ A=ç . ç 2c 2c c c ÷ ç ÷ c c 0,5c ø èc 2.2. Равновесная ситуация Как уже отмечалось выше, одной из основных задач теории игр является выработка принципов оптимальности, то есть правил, которые позволяют установить, какое поведение игроков следует считать разумным (целесообразным) с точки зрения самих игроков. Поскольку все возможные действия игроков в матричной игре описываются множеством стратегий Ai и B j , то задача заключается в выборе такой стратегии, которая способствует достижению поставленной цели — максимизации выигрыша для игрока A или минимизации проигрыша для игрока B. Рассмотрим методику поиска решения на следующем примере матричной игры, повторяемой многократно: № 2.3. Найти решение матричной игры 3 ´ 3 : æ -2 2 -1ö ç ÷ A=ç 2 1 1 ÷. ç 3 -3 1 ÷ è ø Решение. Попробуем определить оптимальные стратегии игроков. Начнем со стратегии первого игрока, который стремится максимизировать свой выигрыш, учитывая то, что второй игрок будет пытаться свести выигрыш первого игрока к минимуму. Если первый игрок выберет стратегию A1 , то второй ответит стратегией B1 , при которой выигрыш первого равен наименьшему 17 значению -2. На стратегию A2 будет ответом B2 или B3 с минимальным выигрышем 1, а на стратегию A3 – B2 с минимальным выигрышем -3. Запишем эти минимальные выигрыши в правый столбец: Та блица 2. 1 B1 B2 B3 A1 -2 2 -1 -2 A2 2 1 1 1 A3 3 -3 1 -3 Естественно, что первый игрок выбирает стратегию A2 , при которой его минимальный выигрыш максимален: max min = 1 . Таким образом, если первый игрок выберет стратегию A2 , ему гарантирован выигрыш не меньший, чем 1, при любом поведении второго игрока. Рассмотрим теперь поведение второго игрока. Если он выберет стратегию B1 , то первый может ответить стратегией A3 , при которой он получит максимальный выигрыш 3, на B2 ответит A1 , и на B3 – A2 или A3 . Запишем эти максимальные выигрыши в нижней строке. Та блица 2. 2 B1 B2 B3 A1 -2 2 -1 -2 A2 2 1 1 1 A3 3 -3 1 -3 3 2 1 18 Естественно, что второй игрок выбирает стратегию B3 , при которой максимальный выигрыш первого игрока минимален: min max = 1 . То есть, если второй игрок будет придерживаться стратегии B3 , то при любом поведении первого игрока он не проиграет больше, чем 1. В этом примере числа max min и min max совпали: max min = min max = 1 . Это означает, что стратегии A2 и B3 являются оптимальными стратегиями игроков в том смысле, что при многократном повторении игры отказ от выбранной стратегии любым из игроков уменьшает его шансы на выигрыш (увеличивает его шансы на проигрыш). И в самом деле. Если первый игрок будет придерживаться, например, стратегии A1 , то не стоит думать, что второй этого не заметит. Конечно же, заметит и тут же ответит стратегией B1 и выигрыш первого игрока уменьшится. Таким образом, мы получили так называемую равновесную ситуацию { A2 , B3 } . Рассмотрим теперь произвольную матричную игру: æ a11 ç a21 A =ç ç ... ç è am1 a12 a22 ... am 2 ... a1n ö ÷ ... a2 n ÷ , ... ... ÷ ÷ ... amn ø (2.1) и опишем общий алгоритм, с помощью которого можно определить, есть ли в этой игре ситуация равновесия. При этом мы предполагаем, что оба игрока действуют разумно, то есть стремятся к получению максимального выигрыша, считая, что соперник действует наилучшим для себя образом. 19 Рассмотрим действия первого игрока: 1. В каждой строке матрицы A находится минимальный элемент: a i = min ai , j , i = 1, m , j= 1, n и полученные числа a i запишем в виде добавочного правого столбца к матрице A: æ a11 a12 ... a1n a1 ö ç ÷ ç a21 a22 ... a2 n a 2 ÷ . ç ... ... ... ... K ÷ ç ÷ ça ÷ è m1 am 2 ... amn a m ø То есть, выбирая некоторую стратегию Ai , первый игрок рассчитывает выиграть не меньше a i при любых действиях второго игрока. 2. Среди чисел a1 , a 2 ,K, a m выбирается наибольшее число: a = max a i = max min aij . i i (2.2) j То есть, выбрав описанную стратегию (2.2), первый игрок гарантирует себе выигрыш не меньший a . Число a называют нижней ценой игры. Таким образом, действуя наиболее осторожно и рассчитывая на наиболее разумное поведение соперника, первый игрок должен остановиться на той стратегии, при которой число a i будет максимальным. Принцип построения стратегии игрока, основанный на формуле (2.2), называется принципом максимина, а выбранная стратегия A* — максиминной стратегией первого игрока. Рассмотрим теперь поведение второго игрока. 1. В каждом столбце матрицы A находится максимальный элемент: 20 b j = max aij , j = 1, n , i =1, m и полученные числа запишем в виде нижней добавочной строки: æ a11 a12 ç ç a21 a22 çK K ç ç am1 am 2 çç b2 è b1 K a1n a1 ö ÷ K a2 n a 2 ÷ K K K ÷. ÷ K amn a m ÷ ÷÷ K bn ø (2.3) То есть, выбрав некоторую стратегию B j , второй игрок рассчитывает на то, что в результате любых действий первого игрока он проиграет не больше b j . Среди чисел b1 , b 2 ,..., b n выбирается наименьшее число b = min b j = min max aij . j j (2.4) i То есть, выбрав стратегию (2.4), второй игрок гарантирует себе проигрыш, не превышающий b . Число b называется верхней ценой игры. Таким образом, действуя наиболее осторожно и рассчитывая на наиболее разумное поведение соперника, второй игрок должен остановиться на стратегии, при которой b j будет минимальным. Принцип построения стратегии второго игрока, основанный на правиле (2.4), называется принципом минимакса, а выбранная стратегия B* называется минимаксной стратегией второго игрока. Отметим, что нижняя и верхняя цены игры всегда связаны соотношением: a £b . (2.5) 21 Если a = b , то ситуация {A , B } * * называется равновесной, и ни один из игроков не заинтересован в том, чтобы ее нарушить. В случае, если a = b , то их общее значение называют ценой игры n : n =a b max=min aij i j min=max aij . j i = (2.6) В этом случае цена игры n совпадет с соответствующим элементом aij* матрицы A, который называется точкой равновесия или седловой точкой матрицы A. Или седловой точкой является элемент матрицы A, максимальный в своем столбце и минимальный в своей строке. Стратегии A* и B* , соответствующие седловой точке, называются оптимальными, а совокупность пары оптимальных решений { A* , B* } и цены игры n называется решением матричной игры с седловой точкой. Если a < b , то речь пойдет уже об игре без седловой точки. В этом случае предложенный выбор стратегий к равновесной ситуации не приводит, и при многократном повторении игры у игроков могут возникнуть мотивы к нарушению рекомендаций, приведенных выше. № 2.4. Найти нижнюю и верхнюю цены игры для следующей матричной игры: æ 3 5 8 6 11ö A=ç ÷. è 8 4 12 7 9 ø Решение. Определим максиминную стратегию первого игрока, выбрав наименьшие значения выигрышей в каждой строке: a1= 3,= a=2 =4, a max a i 4 Þ A2 . 22 Определим минимаксную стратегию второго игрока, выбрав наибольшие значения проигрышей для второго игрока в каждом столбце матрицы выигрышей: = b1 8, b = 5, = b3 12,= b4 2 7,= b 5 1,= b min =b j 5 Þ B2 . Здесь уже нет седловой точки, так как a < b . Допустим, что первому игроку стало известно, что второй игрок принял минимаксную стратегию B2 , тогда оптимальной для первого игрока будет не максиминная стратегия A2 , а стратегия A1 , дающая ему выигрыш 5 > a . Это означает, что бывают ситуации, когда первый игрок может получить выигрыш, превосходящий максиминный, если ему известны намерения второго игрока (при многократном повторении игры в сходных условиях). 2.3. Смешанные стратегии Рассмотрим теперь подробнее случай отсутствия седловой точки, то есть случай, когда a < b . Это означает, что первый игрок может обеспечить себе выигрыш, не меньший a , а второй — проигрыш, не больший b . Возникает вопрос, как «справедливо» разделить разность b - a между игроками. Оказывается, что компромиссного распределения разности b - a между игроками можно добиться путем случайного чередования игроками чистых стратегий. При этом можно получить выигрыш «в среднем» больший, чем a , но меньший, чем b . Для этого применяют так называемые смешанные стратегии, которые можно представить в виде случайных величин, возможными значениями которых являются чистые стратегии. Для первого игрока имеем смешанную стратегию æA S1 = ç 1 è p1 A2 ... Am ö ÷, p2 ... pm ø (2.7) 23 где pi ³ 0 — вероятность того, что первый игрок применит чистую стратегию Ai , m åp i =1 i =1. А для второго игрока имеем смешанную стратегию: æB S2 = ç 1 è q1 B2 ... Bn ö ÷, q2 ... qn ø (2.7') где q j ³ 0 — вероятность того, что второй игрок применит чистую n стратегию B j , åq j =1 j = 1. Отметим, что каждая чистая стратегия является частным случаем смешанной стратегии. Если мы окажемся в ситуации { Ai , B j } , то она будет реализована с вероятностью pi × q j , а выигрыш составит величину aij . И средний выигрыш первого игрока можно определить как математическое ожидание: m n H ( A, p, q ) = åå aij pi q j , (2.8) i =1 j =1 где p, q — вектора с компонентами pi и q j соответственно. Стратегии p 0 = ( p10 ,..., pm0 ) и q 0 = ( q10 ,..., qm0 ) называются оп- тимальными смешанными стратегиями игроков, если выполнены следующие соотношения: H ( A, p, q 0 ) £ H ( A, p 0 , q 0 ) £ H ( A, p 0 , q ) . (2.9) Поясним последнее соотношение. Левая часть этого неравен- ства H ( A, p, q 0 ) £ H ( A, p 0 , q 0 ) означает, что если первый игрок отклоняется от оптимальной стратегии p 0 , то его выигрыш 24 может только уменьшиться, при условии, что второй игрок придерживается оптимальной стратегии q 0 . Аналогично: неравенство H ( A, p 0 , q 0 ) £ H ( A, p 0 , q ) означает, что если второй игрок отклоняется от оптимальной стратегии q 0 , то его проигрыш может только увеличиться. Условие оптимальности (2.9) аналогично условию max min H ( A, p, q ) = H ( A, p0 , q 0 ) = min max H ( A, p, q ) . p q q p (2.10) И величина H ( A, p 0 , q 0 ) = n (2.11) будет называться ценой игры, а «набор» ( p , q ,n ) 0 0 называется решением матричной игры. Естественно, что возникают следующие вопросы: какие матричные игры имеют решение в смешанных стратегиях и как найти это решение, если оно существует. Ответ на этот вопрос дает основная теорема теории матричных игр. Теорема 2.1. (Неймана). Для матричной игры с любой матрицей A величины max min H ( A, p, q ) , min max H ( A, p, q ) p q q p существуют и равны между собой: max min H ( A, p, q ) = min max H ( A, p, q ) . p q q p Более того, существует, по крайней мере, одна ситуация ( p , q ) , для которой выполняется соотношение: 0 0 25 max min H ( A, p, q ) = min max H ( A, p, q ) = q p q = H ( A, p , q ) =n . 0 p 0 (2.12) Другими словами, любая матричная игра имеет решение в смешанных стратегиях. В состав оптимальных смешанных стратегий игроков могут входить не все чистые стратегии Ai , B j , то есть вероятности некоторых из них будут равны нулю ( pi0 = 0, q 0j = 0 ) . Тогда те чистые стратегии Ai , B j , которые входят в оптимальные смешанные стратегии, будут называться активными чистыми стратегиями. На этот счет справедлива следующая теорема: Теорема 2.2. Оптимальная смешанная стратегия p 0 первого игрока смешивается только из тех чистых стратегий Ai , ( pi ¹ 0 ) , для которых выполнены равенства n åa q j =1 ij 0 j =n ; А в оптимальной смешанной стратегии q 0 второго игрока смешиваются только те стратегии B j , для которых выполнены равенства m åa i= 1 ij pi0 = n . Кроме того, справедливы равенства: m n = min å aij pi0 j i =1 m max = min å aij pi j p n i =1 n = min max å aij q j = max å aij q q i j =1 i j =1 26 = . 0 j (2.13) Последние равенства и представляют собой основу для разработки различных методов решения матричных игр. Таким образом, можно привести следующие условия применения смешанных стратегий: 1. Игра без седловой точки. 2. Игроки используют случайную смесь чистых стратегий с заданными вероятностями. 3. Игра повторяется многократно в сходных условиях. 4. При любом ходе ни один из игроков не информирован о стратегии второго игрока. 5. Допускается усреднение результатов игр. Перейдем теперь к изучению методов решения матричных игр в смешанных стратегиях. 2.4. Решение матричной игры 2×2 Начнем рассмотрение методов нахождения оптимальных смешанных стратегий с простейшей игры, описываемой платежной матрицей æ a11 A= ç è a21 a12 ö ÷. a22 ø Пусть смешанные стратегии игроков имеют вид: æ A1 S1 = ç è p1 A2 ö æ B1 ÷ , S2 = ç p2 ø è q1 B2 ö ÷. q2 ø Оптимальные стратегии p10 и p20 = 1 - p10 и цена игры n должны удовлетворять условиям: ìa11 p1 + a21 p2 = n , í îa12 p1 + a22 p2 = n , (2.14) или a11 p1 + a21 (1 - p1 ) =a12 p1 + a22 (1 - p1 ) . 27 Откуда получаем следующее решение матричной игры: ì 0 a22 - a21 , ï p1 = a11 + a22 - ( a12 + a21 ) ï ïï a11 - a12 0 0 , í p2 = 1 - p1 = a11 + a22 - ( a12 + a21 ) ï ï a11a22 - a12 a21 ïn a11=p10 + a21 p20 = . a11 + a22 - ( a12 + a21 ) ïî (2.15) Вычислив оптимальное значение n , можем вычислить и оптимальную смешанную стратегию второго игрока из условия a11q1 + a12 q2 = v , или a11q1 + a12 (1 - q1 ) = v . А именно: v - a12 q10 = = , q20 a11 - a12 a -v 1 - q10 =11 , a11 - a12 (2.15') при a11 ¹ a12 . Эту задачу можно решить и графически, учитывая, что решение системы (2.14) представляет собой геометрически точку пересечения двух прямых на плоскости ( p1 , n ) или (1 - p1 , n ) . Приведем алгоритм геометрического способа решения игры 2×2: 1. На оси абсцисс откладываем отрезок единичной длины p1 = p Î [ 0, 1] . 2. На оси ординат откладываем выигрышы при стратегии A2 , а на прямой p = 1 — выигрыши при стратегии A1 . 3. Строим стратегии, проходящие через точки: а) ( 0, a21 ) и (1, a11 ) ; б) ( 0, a22 ) и (1, a12 ) . 4. Находим точку пересечения прямых, которая и дает решение матричной игры ( p10 , v ) . 28 Проиллюстрируем данный алгоритм на рисунке: n a21 a12 n a22 a11 0 1 p10 p Рис. 2.1 № 2.5. Решите матричную игру 2 ´ 2 , заданную платежной матрицей: æ3 8ö A= ç ÷. è 7 4ø Решение. Определим сначала верхнюю и нижнюю цену игры: a1 = 3, a 2 4, =a max {3, =4} 4 , b1 = 7, b 2 8, =b min {7, =8} 7 . = = Так как a < b , то имеем игру без седловой точки, что приводит к необходимости рассмотрения смешанной стратегии. По формулам (2.15) найдем: 4-7 p10 = = 0,375 , 3+ 4-7-8 p20 = 1 - p10 1 = - 0,375 = 0,625 , n = 3 × 0,375 + 7 × 0,625 = 5,5 . 29 По формулам (2.15´) определим смешанную стратегию второго игрока: q10 = 5,5 - 8 = = 0,5, q20 1 - q10 = 0,5 . 3-8 = ) , v 5,5 . Ответ: p 0 = ( 0,375; 0,625=) , q 0 ( 0,5; 0,5 Проиллюстрируем это решение графически согласно приведенному выше алгоритму. n 8 7 5,5 4 3 0 1 0,375 Рис. 2.2 2.5. Матричные игры 2×n Пусть платежная матрица игры имеет вид: æa A = ç 11 è a21 a12 a22 ... a1n ö ÷. ... a2 n ø 30 p Тогда, согласно теореме 2.2, решение игры находится из уравнения: ( ) n = min a1 j p0 + a2 j (1 - p0 ) =max min ( a1 j p + a2 j (1 - p ) ) , j= 1, n . j 0 £ p £1 j Для нахождения максимума (по p ) функции min ( a1 j p + a2 j (1 - p ) ) , (2.16) j построим ее график. Для этого надо построить n прямых вида: w j = a1 j p + a2 j (1 - p ) , (2.16´) на плоскости ( p, w ) , p Î [0, 1] и путем визуального сравнения выбрать ломанную, огибающую их снизу. Верхняя точка этой ломанной и дает решение игры. Геометрически это можно проиллюстрировать следующим образом: w n 0 p20 p10 1 Рис. 2.3 Здесь нижняя огибающая выделена жирной линией. 31 p № 2.6. Найти оптимальную стратегию первого игрока в матричной игре, заданной матрицей 2×3: æ 1 3 5ö A=ç ÷. è4 2 1ø Решение. 1. Сначала проанализируем игру на наличие седловой точки: a1 = 1, a 2 1, =a b1 = 4, b 2 max {1;=1} 1 , 3, b 3= 5, b = min ={4; 3; 5} 3 . = = Так как a < b , то седловой точки нет и надо искать решение в смешанных стратегиях. 2. Вычислим средние выигрыши первого игрока, при условии, что второй игрок выбирает только чистые стратегии, при помощи таблицы: p 1 3 5 1–p 4 2 1 То есть, получаем следующие прямые: w1 = p + 4 (1 - p )= 4 - 3 p , w2 = 3 p + 2 (1 - p )= p + 2 , w3 = 5 p + (1 - p ) = 4 p - 1 . 3. Построим нижнюю огибающую данных трех прямых (рис. 2.4). 4. Видно, что максимальное значение огибающей определяется точкой пересечения прямой w1 с прямой w 2 . Поэтому решаем систему уравнений: 32 5 w 4 3 2,5 2 1 1 0,5 Рис. 2.4 0 1 p ì4 - 3 p = w , í î p + 2 = w, а именно: 4 p = 2, p = 0,5 . Следовательно, получили следующее решение: n = 0,5 + 2 = 2,5, p 0 = ( 0,5; 0,5) . Найдем теперь оптимальную стратегию для второго игрока. Здесь в зависимости от формы нижней огибающей может представиться несколько случаев. А. Нижняя огибающая имеет единственную точку максимума 0 ( p ,n 0 ). 1. Если p 0 = ( 0;1) , то есть оптимальной стратегией первого игрока является стратегия A2 , то второму игроку выгодно применять чистую стратегию, соответствующую номеру прямой 33 ( k 0 ), проходящей через точку ( 0, n ) и имеющей наибольший отрицательный наклон. w n (k ) 0 0 p 1 Рис. 2.5 2. Если p 0 = (1; 0 ) , то оптимальной для второго игрока является стратегия, соответствующая номеру ( k 0 ) соответствующей прямой, имеющей наименьший положительный наклон. w n (k ) 0 0 1 Рис. 2.6 34 p 3. Если 0 < pi0 < 1 , то в оптимальной точке пересекаются, как минимум, две прямые: w n (k ) 0 0 (l ) 0 1 p0 p Рис. 2.7 одна из которых ( k 0 ) имеет положительный наклон, а другая ( l 0 ) отрицательный. И оптимальная смешанная стратегия второго игрока получается при q 0 = qk , 1 - q 0 =ql , q=j 0, j ¹ k , l , где q 0 является решением уравнения a1k q + a1l (1 - q ) a=2 k q + a2 l (1 - q ) . B. Нижняя огибающая имеет горизонтальный участок. 35 w (k ) 0 1 0 p Рис. 2.8 Тогда оптимальной для второго игрока является чистая стратегия Bk 0 . Найдем теперь оптимальную стратегию второго игрока в нашей задаче. 1. Так как в оптимальной точке пересекаются первые две прямые, то q1 = q, q2 = 1 - q, q3 = 0, то есть из трех стратегий применяются первые две (активными являются B1 и B2 ). 2. Приравняем соответствующие средние выигрыши второго игрока с использованием таблицы: q 1–q 0 1 3 5 4 2 1 36 а именно: 1 × q + 3 × (1 - q ) + 0 × 5 = 4 × q + (1 - q ) × 2 + 0 ×1 . 3. Решим последнее уравнение: q + 3 - 3q 4q += 2 - 2q, 4q = 1 , q10 = 1 æ1 3 ö , q 0 = ç ; ;0 ÷ . 4 è4 4 ø 4. Вычислим цену игры: 1 æ 1ö n = 1 × + 3 ç1 - ÷ = 2,5. 4 è 4ø Следовательно, полное решение игры имеет вид: æ1 3 ö p 0 = ( 0,5; 0,5 ) , q 0 = ç ; ; 0 ÷ , n = 2,5. è4 4 ø 2.6. Матричные игры m×2 В этом случае платежная матрица игры имеет вид: æ a11 ç a21 А=ç ç ... ç è am1 a12 ö ÷ a22 ÷ . ... ÷ ÷ am 2 ø Решение этой игры аналогично решению игры 2 ´ n , только в этом случае на плоскости ( q, w ) ищется минимум верхней огибающей прямых 37 wi = ai1q + ai 2 (1 - q ) , i = 1, m . Рассмотрим конкретный пример игры 3 ´ 2 . № 2.7. Найти решение игры 3 ´ 2 : æ1 4 ö ç ÷ A = ç 3 -2 ÷ . ç0 5 ÷ è ø Решение. 1. Проанализируем игру на наличие седловой точки: a1 = 1, a 2= -2, a 3= 0, a= 1, b1 = 3, b 2= 5, b= 3. То есть a < b и необходимо применить смешанную стратегию. 2. Вычислим средние выигрыши второго игрока (при условии, что первый игрок выбирает только чистые стратегии). Из таблицы q 1–q 1 4 3 -2 0 5 получаем следующие прямые: w1 = q + 4 (1 - q )= 4 - 3q; w2 = 3q - 2 (1 - q=) -2 + 5q; w3 = 0 + 5 (1 - q )= 5 - 5q. 38 3. Построим верхнюю огибающую. w 5 4 3 n 1 0 3 4 1 q -2 Рис. 2.9 4. Так как наименьшее значение верхней огибающей получается как решение системы уравнений: q + 4 (1 - q ) , ïìw = í ïîw = 3q - 2 (1 - q ) , то получаем: 3q - 2 (1 - q ) =q + 4 (1 - q ) ; 3q - 2 + 2q= q + 4 - 4q ; 39 3 1 , 1 - q0 = ; 4 4 9 1 7 n = 3q 0 - 2 (1 - q 0 = ) - 2× = = 1,75. 4 4 4 8q = 6, = q 0 5. Найдем смешанную стратегию первого игрока, полагая p = p, p20 = 1 - p, p30 = 0 , и приравнивая средние выигрыши первого игрока: 0 1 1 × p + 3 × (1 - p ) + 0 × 0 =4 × p + ( -2 ) × (1 - p ) + 5 × 0 ; p + 3 - 3 p= 4 p - 2 + 2 p ; 5 3 8 p = 5, =p 0 , 1 - p0 = . 8 8 Проверка: 5 3 5 9 14 n = + 3 × = + = =1,75. 8 8 8 8 8 Таким образом, получаем следующее решение игры: æ5 3 ö p 0 = ç , , 0 ÷ , =q 0 è8 8 ø æ3 1ö ç , ÷,= n è4 4ø 1,75 . 2.7. Матричные игры m×n Как будет показано ниже, решение любой матричной игры может быть найдено методами линейного программирования. При этом объем вычислений напрямую зависит от размерности платежной матрицы. Поэтому на практике важны любые приемы предварительного анализа игры, позволяющие уменьшить размеры платежной матрицы (уменьшить число чистых стратегий). Одним из таких приемов является доминирование (мажорирование) стратегий. 40 2.7.1. Доминирование стратегий В ряде случаев анализ платежной матрицы показывает, что некоторые чистые стратегии не могут внести никакого вклада в оптимальные смешанные стратегии, поэтому их можно отбросить, что приводит к платежной матрице меньшей размерности. Пусть A = {aij } — произвольная платежная матрица. m´ n Говорят, что стратегия Ai доминирует стратегию Ak , если справедливы неравенства: aij ³ akj , j = 1, n . В этом случае из платежной матрицы можно «убрать» k-ую строку. Аналогично, стратегия B j доминирует стратегию Bl , если aij £ ail , i = 1, m. В этом случае из матрицы можно «убрать» l-й столбец. Рассмотрим применение доминирования стратегий на примере следующей матрицы выигрышей: æ1 3 5 6 ö ç ÷ A = ç4 2 1 2 ÷. ç 3 1 1 -1÷ è ø Очевидно, что все элементы второй строки (стратегия A2 ) не меньше соответствующих элементов третьей строки, поэтому третью строку можно удалить. Тогда получим матрицу 2 ´ 4 : æ1 3 5 6ö A=ç ÷. è4 2 1 2ø 41 Сравнивая поэлементно третий и четвертый столбцы, видим, что третий столбец доминирует четвертый, поэтому его также можно удалить: æ 1 3 5ö A=ç ÷, è4 2 1ø а решение последней задачи можно найти (№ 2.7), например, графическим способом: n = 2,5; p 0 æ1 1 ö 0 ç ; =; 0 ÷ ; q è2 2 ø æ1 3 ö ç ; =; 0; 0 ÷ . è4 4 ø Мажорирование стратегий можно распространить и на смешанные стратегии. Например, если элементы одной строки не больше некоторых выпуклых линейных комбинаций соответствующих элементов других строк, то соответствующую стратегию можно исключить, заменив ее смешанной стратегией с соответствующими частотами использования чистых стратегий. Рассмотрим пример: æ 24 0 ö ç ÷ A = ç 0 8÷. ç 4 5÷ è ø Если взять чистую стратегию A1 с частотой 0,25, а A2 с частотой 0,75, то A3 мажорируется линейной комбинацией A1 и A2 , так как: 4 < 24 × 0,25 + 0 × 0,75 = 6, 5 < 0 × 0, 25 + 8 × 0,75 = 6. Поэтому стратегию A3 можно исключить. 42 Аналогично можно поступать и со стратегиями B j второго игрока. 2.7.2. Аффинное правило При поиске решения матричных игр часто бывает полезным следующее свойство: оптимальные стратегии у матричных игр B и A, элементы которых связаны соотношениями: = m, j 1, =n , bij = l aij + m , i 1, где l > 0, m — любое число; имеют одинаковые равновесные ситуации, а цены игр связаны равенством: n B = ln A + m . № 2.8. Найти цену матричной игры 2 ´ 3 : æ 1 5 9ö B =ç ÷. è 7 3 1ø Решение. Так как bij = 2aij - 1, где æ 1 3 5ö A=ç ÷, è4 2 1ø и v A = 2,5 , то цена игры B будет равна: n B = 2n A - 1 = 2 × 2,5 - 1 = 4 . 2.7.3. Итерационный метод решения матричных игр Этот метод решения матричной игры отражает, в некоторой степени, реальную ситуацию накопления опыта по поиску игроками «хороших» стратегий в результате многократного повторения 43 конфликтных ситуаций. На каждом шаге игрок выбирает наиболее выгодную для себя стратегию, опираясь на предыдущий выбор противника. То есть игрок на собственном опыте прощупывает способ поведения другого игрока и старается отвечать на него наиболее выгодным для себя образом. Таким образом, происходит практическое «обучение» игроков в ходе самой игры. Проиллюстрируем итерационный метод на следующем примере. № 2.8. Найти итерационным методом решение матричной игры 2 ´ 3 : æ2 0 3 ö A= ç ÷. è 1 3 -3 ø Решение. Вычислим a = 0, b = 2 , то есть седловой точки нет, и необходимо строить смешанную стратегию. Найдем сначала точное решение геометрическим способом: n = 1, p 0 æ2 1ö 0 ç ; =÷ , q è 3 3ø æ 2 1ö ç 0; =; ÷ . è 3 3ø Теперь опишем правила выбора ходов (чистых стратегий) игроками, предположив для определености, что начинает первый игрок. Пусть первый игрок выберет стратегию A1 : A1 - ( 2, 0, 3) . Второй игрок ответит стратегией B2 , чтобы выигрыш первого игрока был минимален: æ0ö B2 - ç ÷ . è 3ø 44 В ответ первый игрок выберет стратегию A2 , чтобы его выигрыш был максимальным: A2 - (1, 3, -3) . Второй игрок выбирает свою стратегию так, чтобы «накопленный» выигрыш первого игрока ( 2, 0, 3) + (1, 3, -3) = ( 3, 3, 0 ) , æ3ö был минимален — это стратегия B3 - ç ÷ . è -3 ø Первый игрок выбирает свою стратегию так, чтобы его «накопленный» выигрыш при стратегиях B2 и B3 был максимален: æ 0ö æ 3 ö æ 3ö ç ÷+ç ÷=ç ÷, è 3 ø è -3 ø è 0 ø это стратегия A1 - ( 2, 0, 3) . Второй игрок выбирает свою стратегию снова из условия минимума «накопленного» выигрыша первого игрока: ( 3, 3, 0 ) + ( 2, 0, 3) = ( 5, 3, 3) , например, эта стратегия B2 и так далее. Разобьем последовательные ходы игроков на пары (A,B ) i j и запишем результаты в таблице: Та блица 2. 3 n i B1 B2 B3 n * ( n) j A1 A2 n * ( n) n ( n) 1 2 3 4 5 6 7 8 9 10 11 1 1 2 0 3 0,00 2 0 3 3 1,50 45 Продолжение табл. 2.3 n i B1 B2 B3 n * ( n) j A1 A2 n * ( n) n ( n) 2 2 3 3 0 0,00 3 3 0 1,5 0,75 3 1 5 3 3 1,00 2 3 3 1,0 1,0 4 1 7 3 6 0,75 2 3 6 1,5 1,125 5 2 8 6 3 0,6 3 6 3 1,2 0,9 6 1 10 6 6 1,0 2 6 6 1,0 1,0 7 1 12 6 9 0,857 2 6 9 1,286 1,071 8 2 13 9 6 0,75 3 9 6 1,125 0,9375 9 1 15 9 9 1,0 2 9 9 1,0 1,0 10 1 17 9 12 0,9 2 9 12 1,2 1,05 11 2 18 12 9 0,818 3 12 9 1,091 0,955 12 1 20 12 12 1,0 2 12 12 1,00 1,00 Дадим пояснения по составлению таблицы: 1-й столбец — номер пары ходов игроков. 2-й столбец — номер стратегии Ai , выбранной первым игроком. 3-й, 4-й и 5-й столбцы — «накопленный» суммарный выигрыш первого игрока за первые n шагов, при выборе вторым игроком стратегий B1 , B2 и B3 соответственно. Минимальный из этих выигрышей выделен жирным шрифтом и служит основанием для ответного хода второго игрока. 6-й столбец — минимальный средний выигрыш первого игрока за первые n ходов. 7-й столбец — номер стратегии B j , выбранной вторым игроком. 8-й и 9-й столбцы — «накопленный» суммарный выигрыш первого игрока за первые n шагов при выборе им стратегий A1 и A2 соответственно. Максимальный выигрыш выделен жирным шрифтом и служит основанием для нового хода первым игроком. 46 10-й столбец — максимальный средний выигрыш первого игрока за первые n ходов. 11-й столбец — среднее арифметическое минимального и максимального среднего выигрышей первого игрока. Та блица 2. 4 n p10 p20 q10 q20 q30 n 1 1 0 0 1 0 1,5 2 1/2 1/2 0 1/2 1/2 0,75 3 2/3 1/3 0 2/3 1/3 1,0 4 3/4 1/4 0 3/4 1/4 1,125 – – – – – – – 8 5/8 3/8 0 5/8 3/8 0,9375 – – – – – – – 11 7/11 4/11 0 7/11 4/11 0,955 12 2/3 1/3 0 2/3 1/3 1,00 Считая, что смешанные стратегии игроков оцениваются частотами появлений чистых стратегий, можем на каждом шаге найти приближенно эти стратегии: Видно, что с увеличением числа шагов приближенные значения вероятностей все меньше отличаются от точных значений. Отметим два основных преимущества данного метода: 1. Метод прост и универсален. 2. Объем и сложность вычислений сравнительно слабо растут при увеличении числа стратегий Ai и B j игроков. 2.7.4. Сведение матричной игры к задаче линейного программирования Рассмотрим матричную игру m×n с платежной матрицей A= {a } ij m´ n . И будем считать, что все элементы aij платежной матрицы положительны. Этого всегда можно добиться примене47 нием аффинного правила, то есть мы можем просто прибавить ко всем элементам матрицы A одно и то же положительное число. Тогда искомая цена игры n будет тоже являться положительным числом. Начнем с первого игрока. Оптимальная смешанная стратегия первого игрока обеспечивает ему средний выигрыш, не меньший n , при любой чистой стратегии второго игрока. То есть будут выполняться неравенства: m åa =i 1 ij m åp =i 1 i pi ³ n , j = 1, n, = 1, pi ³ 0, i = 1, m. Если ввести новые переменные по формуле xi = pi , то можно n получить: m åa x =i 1 ij i m å x= =i 1 i j 1, n, ³ 1, = 1 , xi ³ 0, = i 1, m. n Так как первый игрок стремится максимизировать свой выигрыш ( v ® maх ) , то решение матричной игры можно свести к следующей задаче линейного программирования: Найти: m min F ( x ) = min å xi (2.17) i =1 при следующих ограничениях: 48 ìm ïå aij xi ³ 1, j = 1, n, í i =1 ï x ³ 0, i = 1, m. î i (2.18) Рассмотрим теперь интересы второго игрока. Его оптимальная смешанная стратегия обеспечивает ему средний проигрыш, не больший n , при любой чистой стратегии первого игрока. То есть: n åa q j =1 ij n åq j =1 j j £ n , i = 1, m, = 1, q j ³ 0, j = 1, n. Если ввести новые переменные y j = qj , j = 1, n , то можно n получить следующую задачу линейного программирования: Найти n max Z ( y ) = max å y j (2.19) j =1 при следующих ограничениях: ì n ïå aij y j £ 1, i = 1, m, í j =1 ï y ³ 0, j = 1, n. î j (2.20) Таким образом, мы пришли к следующей теореме. Теорема 2.3. Решение матричной игры с положительной платежной матрицей равносильно решению двойственных задач линейного программирования (2.17) – (2.18) и (2.19) – (2.20). 49 При этом цена игры n — это величина, обратная значению оптимальных сумм: n= 1 = å xi0 1 , å yi0 а оптимальные значения pi0 и q 0j равны: pi0 = xi0 , å xi0 q 0j = y 0j åy 0 j . Рассмотрим теперь алгоритм решения матричной игры: 1. Ко всем элементам платежной матрицы A прибавим одно и то же положительное число g так, чтобы все элементы платежной матрицы стали положительными. 2. Сводим матричную игру к двойственной задаче линейного программирования и находим их решения: xi0 , y 0j , åx = åy 0 i 0 j . 3. Строим оптимальные смешанные стратегии игроков: y 0j xi0 0 . p = , qj = å xi0 å y 0j 0 i 4. Вычисляем цену игры: n= 1 -g å xi0 1 = -g . å y 0j № 2.9. Решить матричную игру из № 2.6 сведением к задаче линейного программирования. Решение. Сведем матричную игру к двойственной задаче линейного программирования: F ( x ) = x1 + x2 ® min, (2.21) 50 ì x1 + 4 x2 ³ 1, ï3 x + 2 x ³ 1, ï 1 2 í x x 5 + 2 ³ 1, ï 1 ïî x1 , x2 ³ 0, (2.22) – «прямая» задача линейного программирования, и Z ( y ) = y1 + y2 + y3 ® max, (2.23) ì y1 + 3 y2 + 5 y3 £ 1, ï í4 y1 + 2 y2 + y3 £ 1, ï y , y , y ³ 0, î 1 2 3 (2.24) – «обратная» задача. Симплексным методом «легче» решается обратная задача ЛП, так как здесь требуется введение двух дополнительных переменных, против трех в задаче (2.21) – (2.22). Поэтому найдем сначала оптимальную стратегию второго игрока, решив задачу (2.23) – (2.24). Шаг 1. Введем дополнительные переменные y4 , y5 ³ 0 : ì y1 + 3 y2 + 5 y3 + y4 = 1, í î4 y1 + 2 y2 + y3 + y5 = 1. Возьмем в качестве основных переменные y4 и y5 , тогда свободными будут переменные y1 , y2 , y3 : ì y4 = 1 - y1 - 3 y2 - 5 y3 , í î y5 = 1 - 4 y1 - 2 y2 - y3 . Получим базисное решение y = ( 0, 0, 0, 1, 1) , 51 которое является допустимым, поэтому вычислим значение целевой функции: Z ( y ) = y1 + y2 + y3 = 0. Так как в выражении для целевой функции все коэффициенты при переменных — положительны, то в основные можно перевести любую из них. Для этого вычислим: ì 1ü 1 y1 = min í1, ý = , î 4þ 4 ì1 1 ü 1 y2 = min í , ý = , î3 2 þ 3 ì1 ü 1 y3 = min í ,1ý = î 5 þ 5. Следовательно, переводим в основные переменную а в свободные — переменную y4 . y2 , Шаг 2. Основные переменные: y2 и y5 , свободные: y1 , y3 , y4 : 1 1 5 1 ì ïï y2 = 3 - 3 y1 - 3 y3 - 3 y4 , í ï y = 1 - 10 y + 7 y + 2 y . ïî 5 3 3 1 3 3 3 4 Получаем базисное решение: 1ö æ 1 y = ç 0, , 0, 0, ÷ , 3ø è 3 которое является допустимым, поэтому вычисляем значение целевой функции: 52 1 2 2 1 1 Z ( y ) = + y1 - y3 - y4 = . 3 3 3 3 3 Так как в выражении для целевой функции коэффициент при y1 является положительным, то переменную y1 необходимо перевести в основные: ì 1ü 1 y1 = min í1, ý= . î 10 þ 10 Следовательно, в свободные переходит переменная y5 . Шаг 3. Основные переменные: y1 и y2 , свободные: y3 , y4 , y5 : 1 7 1 3 ì ïï y1 = 10 + 10 y3 + 5 y4 - 10 y5 , í ï y = 3 - 19 y - 2 y + 1 y . ïî 2 10 10 3 5 4 10 5 Получаем базисное решение: æ1 3 ö , 0, 0, 0 ÷ , y=ç , è 10 10 ø которое является допустимым, потому вычислим значение целевой функции: Z ( y) = 2 1 1 1 2 - y3 - y4 - y5 = . 5 5 5 5 5 Так как все коэффициенты при переменных в выражении для целевой функции отрицательны, то оптимальное решение задачи (2.23) – (2.24) найдено: 2 æ 1 3 ö ymax = ç , ,0,0,0 ÷ , Z max = = 0,4 . 5 è 10 10 ø 53 Определим теперь оптимальную стратегию второго игрока и цену игры: а) цена игры: 1 n= = 2,5 ; Z max б) оптимальная смешанная стратегия: q10 = 0,1 1 0,3 3 = , q20 = = , q30 = 0 , 0,4 4 0,4 4 то есть æ1 3 ö q0 = ç , , 0 ÷ . è4 4 ø Чтобы определить оптимальную стратегию первого игрока найдем решение задачи (2.21) – (2.22), воспользовавшись свойствами решений взаимно двойственных задач линейного программирования, а именно: Fmin = Z max = 2 1ö æ1 1 , xmin = ç , , 0, 0, ÷ . 5 5ø è5 5 Следовательно, оптимальная смешанная стратегия первого игрока равна: p10 = 1 2 1 1 2 1 = , p20 = = , 5 5 2 5 5 2 то есть æ1 1ö p0 = ç , ÷ . è2 2ø 54 s Вопросы для самоконтроля 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. Дайте определение матричной игры. Каким образом строится платежная матрица в матричной игре? Каковы цели игроков в матричной игре? Дайте определения верхней и нижней цен игры. Какая ситуация в игре называется равновесной? Какие стратегии называются оптимальными? Что произойдет, если игроки отклонятся от оптимальных стратегий? Какая игра называется «матричной игрой с седловой точкой»? Дайте определение смешанных стратегий. Как их можно представить? На какой вопрос отвечает основная теорема теории матричных игр? Назовите пять условий применения смешанной стратегии. Приведите алгоритм решения матричной игры 2 ´ 2 . Какие ситуации возможны при решении матричной игры 2´ n ? Каким образом можно уменьшить платежную матрицу? Что такое аффинное правило? Каковы основные преимущества итерационного метода? Приведите алгоритм решения матричной игры сведением к задаче линейного программирования. Какие методы решения матричной игры, на Ваш взгляд, являются наиболее удобными? 55 3. БИМАТРИЧНЫЕ ИГРЫ 3.1. Основные понятия и ситуация равновесия В матричной игре интересы двух игроков были прямо противоположны, то есть речь шла об антагонистической игре. Однако гораздо чаще встречаются ситуации, в которых интересы игроков хотя и не совпадают, но не обязательно являются противоположным. Рассмотрим конфликтную ситуацию, в которой два игрока имеют следующие возможности для выбора своей линии поведения: а) 1-й игрок может выбрать любую из стратегий A1 , A2 , K , Am ; б) 2-й игрок — любую из стратегий B1 , B2 , K, Bn . При этом в ситуации { Ai ; B j } выигрыш первого игрока будет равен aij , а второго — bij , причем, вообще говоря bij ¹ aij . Тогда получаем две платежные матрицы размерности m ´ n : æ a11 a12 ç a21 a22 A=ç çK K ç è am1 am 2 K a1n ö æ b11 b12 ÷ ç K a2 n ÷ b b22 и B = ç 21 çK K K K÷ ÷ ç K amn ø è bm1 bm 2 K b1n ö ÷ K b2 n ÷ . K K÷ ÷ K bmn ø (3.1) Здесь A — платежная матрица первого игрока, B — платежная матрица второго игрока. В этом случае говорят, что речь идет о биматричной игре двух игроков с платежными матрицами (3.1). Отметим, что при bij = - aij получаем обычную матричную игру. Рассмотрим один пример биматричной игры. 56 № 3.1. Преподаватель – Студент. Студент (1-й игрок) готовится к зачету, который принимает преподаватель (2-й игрок). У студента есть две стратегии A1 — подготовиться к зачету, A2 — не готовиться. У преподавателя есть две стратегии: B1 поставить зачет и B2 — не поставить зачет. Постройте платежные матрицы игры. Решение. В основу значений функции выигрыша положим следующие качественные соображения: Выигрыш студента Сдал зачет Не сдал зачет Готовился к зачету оценка заслужена очень обидно Не готовился к зачету удалось обмануть оценка заслужена Выигрыш преподавателя Поставил зачет Не поставил зачет Готовился к зачету все нормально был не прав Не готовился к зачету дал себя обмануть опять придет Количественно выигрыши игроков можно выразить, например, как æ 2 -1ö æ 1 -3 ö A= ç ÷, B = ç ÷. è1 0 ø è -2 -1 ø Рассматривая биматричную игру, перейдем сразу к смешанным стратегиям и определим средние выигрыши игроков математическим ожиданием: H1 ( p, q ) = å aij pi q j , H 2 ( p, q ) = å bij pi q j . i, j i, j 57 (3.2) Будем говорить, что пара векторов ( p ,K, p ) p0 = 0 1 0 m и q 0 = ( q10 ,K, qn0 ) определяют равновесную ситуацию, если при любых p и q , удовлетворяющих условиям åp i = 1, åq i = 1, 0 £ pi , q j £ 1 , справедливы неравенства: H1 ( p, q 0 ) £ H1 ( p 0 , q 0 ) , H 2 ( p0 , q ) £ H 2 ( p0 , q0 ) . (3.3) Неравенства (3.3) означают, что если игрок отклонится от равновесной ситуации ( p 0 , q 0 ) , то его выигрыш может только уменьшиться. На вопрос о существовании ситуации равновесия отвечает следующая теорема. Теорема 3.1. (Дж. Нэш). Всякая биматричная игра имеет хотя бы одну равновесную ситуацию (точку равновесия) в смешанных стратегиях. Остается разрешить проблему нахождения этой ситуации равновесия. 3.2. Биматричные игры 2×2 Рассмотрим биматричную игру 2 ´ 2 : æ a11 A=ç è a21 a12 ö æ b11 b12 ö ÷, B =ç ÷, a22 ø è b21 b22 ø с вероятностями p1 = p , p2 = 1 - p , q1 = q , q2 = 1 - q . Вычислим средние выигрыши игроков H 1 ( p, q ) = = a11 pq + a12 p (1 - q ) + a21 (1 - p ) q + a22 (1 - p )(1 - q ) , 58 (3.4) H 2 ( p, q ) = = b11 pq + b12 p (1 - q ) + b21 (1 - p ) q + b22 (1 - p )(1 - q ) . (3.4’) Для таких игр оказывается справедливой следующая теорема, позволяющая находить смешанные стратегии. Теорема 3.2. Выполнение неравенств (3.3): H1 ( p, q 0 ) £ H1 ( p 0 , q 0 ) , H 2 ( p0 , q ) £ H 2 ( p0 , q0 ) , равносильно выполнению следующих неравенств: ì H1 ( 0, q 0 ) £ H1 ( p 0 , q 0 ) , ï ï H1 (1, q 0 ) £ H1 ( p 0 , q 0 ) , ï í 0 0 0 ï H 2 ( p ,0 ) £ H 2 ( p , q ) , ï 0 0 0 ïî H 2 ( p ,1) £ H 2 ( p , q ) . (3.5) Другими словами, чтобы убедиться в том, что пара ( p ,q ) 0 0 определяет равновесную ситуацию, достаточно проверить справедливость неравенств (3.3) не для всех p Î [0,1] и q Î [ 0,1] , а только для двух чистых стратегий каждого игрока. Перепишем формулу (3.4) в более удобном виде H1 ( p, q ) = ( a11 - a12 - a21 + a22 ) pq + ( a12 - a22 ) p + ( a21 - a 22 ) q + a22 . Положим здесь p = 0 и p = 1 : H1 (1, q ) = ( a11 - a12 - a21 + a22 ) q + a12 + ( a21 - a22 ) q , H1 ( 0, q ) = ( a21 - a22 ) q + a22 59 и рассмотрим разности: H1 ( p, q ) - H1 (1, q=) ( a11 - a12 - a21 + a22 ) pq + ( a12 - a22 p ) - ( a11 - a12 - a21 + a22 ) q + a22 - a12 , H1 ( p, q ) - H1 ( 0, = q ) ( a11 - a12 - a21 + a22 ) pq + ( a12 - a22 p ) . Полагая ìC = a11 - a12 - a21 + a22 , í îa = a22 - a12 , (3.6) получим H1 ( p, q ) - H1=(1, q ) Cpq - a p - Cq + a = Cq ( p - 1) - a ( p - 1) = = ( p - 1)( Cq - a ) , H1 ( p, q ) - H1 ( 0, q=) Cpq - a p p=( Cq - a ) . Так как в точке равновесия эти разности должны быть неотрицательными, то приходим к следующей системе неравенств: ìï( p - 1)( Cq - a ) ³ 0, í ïî p ( Cq - a ) ³ 0. Для H 2 ( p, q ) , при обозначениях: ì D = b11 - b12 - b21 + b22 , í î B = b22 - b21 , (3.7) получаем аналогичным образом: ïì( q - 1)( Dp - b ) ³ 0, í ïî q ( Dp - b ) ³ 0. 60 Таким образом, для того, чтобы пара ( p, q ) определяла равновесную ситуацию в биматричной игре 2 ´ 2 , необходимо и достаточно справедливости системы неравенств: ì( p - 1)( Cq - a ) ³ 0; ï ï p ( Cq - a ) ³ 0; ï (3.8) í( q - 1)( Dp - b ) ³ 0; ï ïq ( Dp - b ) ³ 0; ïq Î [ 0,1] , p Î [ 0,1] , î где C , D , a , b вычисляются по формулам (3.6) – (3.7). 3.3. Поиск равновесных ситуаций № 3.2. Решите биматричную игру в условиях № 3.1. Решение. Вычислим параметры, входящие в систему (3.8): C = 2 - ( -1) - 1 + 0 = 2,= a 0 + 1 =1 , D = 1 - ( -3) - ( -2 ) - 1= 5,= b -1 - ( -2 )= 1 . Тогда получаем следующие системы неравенств: ïì( p - 1)( 2q - 1) ³ 0, ïì( q - 1)( 5 p - 1) ³ 0, иí í ïî p ( 2q - 1) ³ 0, ïî q ( 5 p - 1) ³ 0. Решим первую из систем: 1 1) p = 1 , 2q - 1 ³ 0 , q ³ . 2 1 2) p = 0 , 2q - 1 £ 0 , q £ . 2 1 3) 0 < p < 1 , q = . 2 61 Перенесем эти результаты на чертеж в виде «зигзага»: q 1 1 2 1 1 5 p Рис. 3.1 Решим вторую систему: 1 1) q = 1 , 5 p - 1 ³ 0 , p ³ . 5 1 2) q = 0 , 5 p - 1 £ 0 , p £ . 5 1 . 5 Перенесем эти результаты на чертеж в виде «зигзага»: 3) 0 < q < 1 , 5 p - 1 = 0 , p = q 1 1 5 1 Рис. 3.2 62 p Объединим эти рисунки. q 1 1 2 1 1 5 p Рис. 3.3 Видим, что игра имеет три равновесные ситуации с соответствующими выигрышами: 1) p = 1 , q = 1 , H1 (1,1) = 2 , H 2 (1,1) = 1 . 2) p = 0 , q = 0 , H1 ( 0,0 ) = 0 , H 2 ( 0,0 ) = -1 . 3) p = 1 1 7 æ1 1ö 1 æ1 1ö , q = , H1 ç , ÷ = , H 2 ç , ÷ = - . 5 2 5 è5 2ø 2 è5 2ø Из этих трех смешанных стратегий, очевидно, лучшей является первая с p = q = 1 , то есть хорошо подготовиться к зачету и поставить зачет. В этом примере реализуется весьма редкая для биматричных игр ситуация, когда функции выигрышей игроков достигают максимума одновременно. № 3.3. Борьба за рынки. Небольшая фирма A (1-й игрок) намерена сбыть партию товара на одном из двух рынков, монополизируемых другой, более крупной фирмой B (2-й игрок). Для этого фирма A готова предпринять по одному из рынков соответ63 ствующие приготовления, например, развернуть рекламную кампанию. Фирма B может воспрепятствовать этому, предприняв по одному из рынков предупредительные меры. Если фирма A встречает противодействие, то терпит поражение, в противном случае — захватывает рынок. Будем считать, что проникновение фирмы A на первый рынок более выгодно для нее, чем на второй, но и поражение на первом рынке принесет фирме A бо́льшие потери (убытки), чем на втором рынке. Таким образом, фирмы имеют по две стратегии: A1 и B1 — выбор первого рынка; A2 и B2 — выбор второго рынка. Составьте и решите биматричную игру. Решение. Составим платежные матрицы игроков в условных единицах, исходя из соответствующих качественных соображений: æ -10 2 ö æ 5 -2 ö A=ç ÷ и B=ç ÷. è 1 -1ø è -1 1 ø Из этих матриц видно, что если обе фирмы выберут один рынок, то выигрывает фирма B, если разные — то фирма A. Найдем равновесные ситуации, вычислив параметры системы (3.8): C = -10 - 2 - 1 - 1= -14 , a = -1 - 2= -3 , D = 5 + 2 +1+1 =9 , b = 1+1 = 2 . Тогда получаем следующие системы неравенств: ïì( p - 1)( -14q + 3) ³ 0, í ïî p ( -14q + 3) ³ 0, ïì( q - 1)( 9 p - 2 ) ³ 0, í ïî q ( 9 p - 2 ) ³ 0. Решим эти системы неравенств: 3 1) p = 1, - 14 q + 3 ³ 0, q £ . 14 64 2) p = 0, - 14q + 3 £ 0, 3) 0 < p < 1, q³ 3 . 14 - 14 q + 3 0, = q 3 .= 14 2 p³ . 9 2 9 p - 2 £ 0, p £ . 9 1) q = 1, 9 p - 2 ³ 0, 2) q = 0, 3) 0 < q < 1, 9 p - 2 0, = p 2 .= 9 Изобразим эти решения на рисунке: q 1 3 14 1 2 9 p Рис. 3.4 2 3 Видно, что получилась одна точка равновесия p = , q = . 9 14 Это дает нам следующие оптимальные смешанные стратегии игроков: æ2 7ö p0 = ç , ÷, è9 9ø æ 3 11 ö q0 = ç , ÷, è 14 14 ø 65 которым соответствуют оптимальные (средние) выигрыши = aij pi0 q 0j H1 ( p0 , q 0 ) = å 4 1 - , H 2 ( p 0 , q 0 ) = å bij pi0 q 0j = . 7 3 Таким образом, если игра может быть повторена многократно в схожих условиях, то фирма A в 22,22 % случаев должна осуществлять попытки проникновения на первый рынок, а в 77,78 % — на второй рынок. При этом (в среднем) она не проиграет больше, 4 чем у.е. Фирме B рекомендуется в 21,43 % случаев оказывать 7 противодействие на первом рынке, а в 78,57 % — на втором. 1 В этом случае ее средний выигрыш составит не менее у.е. 3 Отметим, что в этой задаче получилась одна равновесная точка, и v A ¹ vB . В других биматричных играх можно получить несколько равновесных ситуаций, как, например, в задаче «Преподаватель – Студент». В этом случае встает проблема выбора оптимальной в некотором смысле ситуации, из нескольких равновесных. Эту задачу можно попытаться решить, исходя из содержательного смысла игры. Из рассмотренных примеров видно, что точка равновесия определяется парой p= b , D q= a . C (3.9) А это означает, что в равновесной ситуации выбор одного игрока полностью определяется платежной матрицей другого игрока и не зависит от собственной платежной матрицы. Другими словами, равновесная ситуация определяется не столько стремлением увеличить свой выигрыш, сколько желанием держать под контролем выигрыш другого игрока. Проиллюстрируем это на предыдущем примере. Для этого разобьем биматричную игру на две матричные игры с матрицами 66 æ -10 2 ö æ 5 -2 ö A=ç ÷ и B=ç ÷, è 1 -1ø è -1 1 ø и решим их: 4 v A= - , p 0 7 vB= 1 , p0 3 æ1 6ö æ 3 11 ö 0 ç ,= ÷ , q ç =, ÷, è7 7ø è 14 14 ø æ1 2ö æ2 7ö 0 ç ,= ÷ , q ç ,= ÷ . è3 3ø è9 9ø То есть, если каждый игрок будет применять свои стратегии в биматричной игре, исходя только из собственной матрицы выигрышей, то он найдет свой оптимальный выигрыш и оптимальную стратегию другого игрока. Таким образом, в биматричной игре вновь встречаемся с антагонизмом. Только это не антагонизм интересов, а антагонизм поведения. Кроме того, в биматричных играх, при наличии нескольких равновесных ситуаций, средние выигрыши игроков разнятся, и встает вопрос о том, какой ситуации следует отдать предпочтение. И последнее. Достаточно сложной является и проблема перехода от качественных оценок ситуаций к количественным оценкам. То есть, если, например, в задаче «Преподаватель – Студент» принять другие количественные оценки выигрышей, то можно получить и другие ситуации равновесия. 3.4. Кооперативные игры Выше мы рассматривали игры, в которых игроки не имели права вступать в соглашения, образовывать коалиции. Рассмотрим теперь так называемые кооперативные игры, в которых игроки могут вступать в соглашения, образовывать коалиции. Такие ситуации могут возникать особенно часто, если рассматриваются игры n лиц. Следует отметить, что при содержательном анализе процедур совместного принятия решений в таких коопе67 ративных играх необходимы дополнительные сведения, касающиеся возможных действий коалиций, их предпочтений, способов обмена ими информацией о принимаемых решениях и т. д. Рассмотрим, например, принципы принятия решений на примере биматричных игр. Как отмечалось выше, равновесие является важнейшим принципом оптимальности в бескоалиционных играх, в которых не рассматривается образование коалиций. Коалиция является формой кооперации, направленной на увеличение персональных возможностей игроков, то есть на увеличение их выигрышей. В матричной игре кооперация игроков лишена смысла, так как в такой игре улучшение положения одного из них приводит к ухудшению положения другого. Ситуация меняется при переходе от матричной игры к биматричной, так как в биматричных играх кооперация может улучшить положение обоих игроков. В биматричной игре имеется лишь одна нетривиальная коалиция (коалиция, состоящая более чем из одного игрока) — коалиция обоих игроков. Для пояснения отличий между индивидуальным выбором решений обоими игроками и совместным принятием решения коалицией этих игроков рассмотрим следующий пример. № 3.4. Конкурс на реализацию проекта. Две фирмы участвуют в конкурсе на реализацию проекта, причем доход от реализации проекта составит 10 у.е. Каждая фирма может либо подать простую заявку на участие в конкурсе (затраты равны 1 у.е.), либо представить программу реализации проекта (затраты составят 3 у.е.). По условиям конкурса, если обе фирмы выбирают одинаковый способ подачи заявки, то заказ (и доход) на реализацию проекта делится между ними пополам. Если же фирмы выбирают различные способы действий, то предпочтение отдается фирме, которая представит программу. Требуется разрешить эту конфликтную ситуацию. Решение. Представим описанную конфликтную ситуацию в виде биматричной игры. Игроками A и B здесь выступают фирмы, стратегия A1 ( B1 ) — подача заявки на участие в конкурсе, стратегия A2 ( B2 ) — представление программы действий. 68 Количественно выигрыши игроков можно выразить следующим образом: æ 4 -1ö æ 4 7ö A=ç ÷, B =ç ÷. è7 2 ø è -1 2 ø Решив эту игру, найдем единственную равновесную ситуацию p = q = 0 , или { A2 , B2 } с H1 ( 0, 0 ) = H 2 ( 0, 0 ) = 2 . В этом случае каждая фирма получает прибыль, равную 2 у.е. Для этого обе фирмы должны представить программу действий и поделить пополам доход от реализации проекта. Ни одному из этих игроков невыгодно отклоняться от этой стратегии, так как это может только уменьшить его выигрыш. Но если игроки одновременно отклоняются от оптимальной (равновесной по Нэшу) стратегии, то возникает ситуация { A1 , B1} , которая очевидно является более выгодной для обоих из них с выигрышем H1 (1, 1) = H 2 (1, 1) = 4 . Однако переход к этой ситуации возможен только как результат договора между игроками, что осуществимо лишь при создании коалиции этих игроков. Объединение игроков в коалицию требует как минимум возможности обмена информацией между ними. Если же игроки не могут обмениваться информацией, то каждый из них будет опасаться менять выбранную им чистую стратегию A2 ( B2 ) на стратегию A1 ( B1 ) , так как это приводит к уменьшению выигрыша отклонившегося игрока. Рассмотренный пример демонстрирует важную особенность биматричных игр — возможность наличия противоречия между выгодностью и устойчивостью (положением равновесия). Действительно, ситуация { A2 , B2 } является устойчивой, но невыгодной; а ситуация { A1 , B1} — выгодной, но неустойчивой. Поэтому, если игроки заключают между собой договор — обоим придерживаться стратегии { A1 , B1} , то этот договор будет находиться 69 под угрозой нарушения, так как каждому игроку выгодно его одностороннее нарушение. При исследовании кооперативного аспекта в теории игр внимание обращается, как правило, не на ситуации игры, а на ее исходы. В соответствии с этим в основе оптимальности лежит идея выгодности. Проанализируем, как может реализовываться идея выгодности в рамках неантагонистической игры двух лиц. Пусть Аi — множество стратегий первого игрока, а B j — множество стратегий второго игрока. Если игроки образуют коалицию, то они могут создавать любую ситуацию { Ai , B j } , и, таким образом, реализовать любой исход игры. Возникает вопрос, какой исход игры следует считать в этом случае наиболее выгодным для коалиции, то есть оптимальным для нее. Так, в рамках № 3.4 игроки, объединившись в коалицию, предпочтут исход { A1 , B1} исходу { A2 , B2 } , однако исходы { A1 , B2 } и { A2 , B1} также являются «кандидатами» на оптималь- ность. В общем случае для биматричной игры рассмотрение вопроса о ее оптимальности с точки зрения коалиции удобно представить в геометрической форме. На координатной плоскости ( Н1 , Н 2 ) изобразим точки, координатами которых являются выигрыши игроков ( aij , bij ) для каждой возможной ситуации { Ai , B j } . При этом возникает «картинка», похожая на ту, что изображена на рисунке 3.5. Так как коалиция может выбирать любой из представленных девяти исходов, то фактически получается задача двухкритериальной оптимизации, где первый игрок стремится максимизировать критерий H1 , а второй — критерий H 2 . Анализ такой многокритериальной задачи можно провести в два этапа. На первом этапе мы проводим мажорирование (доминирование) стратегий по Парето. Отбрасывая исходы, доминируемые по Парето, получаем множество Парето-оптимальных исходов. В примере, 70 представленном на рисунке 3.5, Парето-оптимальными являются исходы {4, 5, 6, 8} . Выбор оптимального исхода следует производить из множества Парето-оптимальных исходов. На втором этапе необходимо решить вопрос — какое из Парето-оптимальных решений следует считать оптимальным. H2 8 6 9 4 2 1 5 7 3 0 H1 Рис. 3.5 На первом этапе игроки выступают как союзники, так как этот шаг выгоден обоим из них. Однако на втором этапе, при сравнении любых двух Парето-оптимальных решений, игроки из союзников превращаются в противников: так как увеличение выигрыша одного из них влечет за собой уменьшение выигрыша другого. Для решения задачи нахождения оптимального исхода в кооперативной игре сделаем еще одно допущение: возможно использование не только чистых, но и смешанных стратегий. 71 Это приводит к тому, что вместе с двумя чистыми исходами ( H1 , H 2 ) и ( H1¢, H 2¢ ) коалиция может реализовать также исход: l × ( H1 , H 2 ) + (1 - l ) × ( H1¢, H 2¢ ) = = ( l H1 + (1 - l ) H1¢, l H 2 + (1 - l ) H 2¢ ) , где l Î [ 0, 1] . С геометрической точки зрения, это означает, что множество исходов биматричной игры превращается в многоугольник D, вершинами которого будут точки ( aij , bij ) . При этом исходы, оптимальные по Парето, образуют «северовосточную» границу этого многоугольника, а именно, это ломаная ( 8, 6, 4, 5) (рис. 3.6): H2 8 6 9 4 2 1 3 7 0 5 H1 Рис. 3.6 Задача нахождения кооперативного решения биматричной игры сводится теперь к построению правила, которое для каждого такого многоугольника исходов указывает единственный оптимальный исход, принадлежащий его «северо-восточной» 72 границе. Рассмотрим решение этой задачи, известное как арбитражное решение Неша. Арбитражное решение представляет собой некую систему требований (аксиом), с помощью которых для любой игры выделяется ее единственное решение — оптимальный исход этой игры. Пусть v A и vB — цены матричных игр с матрицами A и B соответственно. Тогда в явном виде арбитражное решение Нэша для пары ( H1 , H 2 ) — это точка ( H1* , H 2* ) , для которой произведение (функция полезности): U = ( H1 - v A ) × ( H 2 - vB ) (3.10) достигает своего наибольшего значения в той части области D возможных исходов биматричной игры, в которой выполняются условия: H1 ³ v A , H 2 ³ vB . В качестве иллюстрации решения кооперативной игры рассмотрим следующую задачу. № 3.5. Оптимальное распределение прибыли. Имеются две фирмы: первая может произвести одно из двух изделий А1 и А2 , вторая — одно из трех изделий В1 , В2 и В3 . Если первая фирма произведет продукцию Ai , i = 1,2 , а вторая — B j , j = 1,3 , то прибыль этих фирм (зависящая от того, являются ли эти изделия взаимодополняющими или конкурирующими), определяется таблицей 3.1: Та блица 3. 1 В1 В2 В3 А1 [3,3] [0,0] [ 4,1] А2 [ 2,0] [1,5] [ 2,2] 73 Считая, что фирмы заключают между собой соглашение, определить справедливое распределение прибыли, используя арбитражное решение Нэша. Решение. Построим в декартовой системе координат многоугольник D возможных исходов игры, вершинами которого являются возможные исходы игры, приведенные в таблице 3.1: H2 H 2¢ M 5 4 H M* * 2 3 2 U =U* N H1¢ 0¢ 1 0 1 2 H1* 3 4 5 H1 Рис. 3.7 Выделим в этом многоугольнике множество Паретооптимальных решений (северо-восточную границу). Вычислим цены игры для матричных игр: æ3 0 4ö æ3 0 1ö A=ç ÷ и B=ç ÷, è2 1 2ø è0 5 2ø а именно, v A = 1 , vB = 15 . Следовательно, функция полезности 8 по Нэшу примет вид: 74 15 ö æ U = ( H1 - 1) × ç H 2 - ÷ . 8ø è Введем новую систему координат O¢H1¢H 2¢ параллельным пеæ 15 ö реносом начала координат в точку O¢ ç 1, ÷ . По рисунку 3.7 è 8ø видно, что оптимальным решением задачи (U ® max ) является точка касания функции полезности с отрезком MN . Определим уравнение этой прямой, как уравнение прямой, проходящей æ 25 ö æ 9ö через две данные точки M ç 0, ÷ и N ç 2, ÷ в системе O¢H1¢H 2¢ . è 8 ø è 8ø Получим следующее уравнение: 8H1¢ + 8H 2¢ = 25 . Чтобы определить координаты оптимальной точки M * , решим следующую оптимизационную задачу: Найти максимум целевой функции U = H1¢ × H 2¢ ® max , при условии, что 8H1¢ + 8H 2¢ = 25 . Построим функцию Лагранжа: L ( H1¢, H 2¢ , l ) = H1¢H 2¢ + l ( 25 - 8H1¢ - 8 H 2¢ ) . Вычислив частные производные первого порядка и приравняв их к нулю, получим следующую систему уравнений: ì H 2¢ - 8l = 0; ï í H1¢ - 8l = 0; ï25 - 8H ¢ - 8 H ¢ = 0, î 1 2 75 решение которой имеет вид: H1¢ = 25 25 , H 2¢ = . 16 16 Перейдя к старым координатам, получим: H1 = 25 41 +1 = , H =2 16 16 25 15 55 + = . 16 8 16 Для определения оптимальной смешанной стратегии в этой кооперативной игре, реализующей полученный результат, надо смешать ситуации ( 3, 3) и (1, 5) в некоторой пропорции так, чтобы выполнялось равенство: æ 41 55 ö p × ( 3,3) + (1 - p ) × (1,5) = ç , ÷ . è 16 16 ø Решив последнее уравнение, получим: p= 25 , 32 1- p = 7 . 32 Следовательно, для получения «справедливой» доли, фирмы 25 должны воспроизводить ситуацию ( 3, 3) — с частотой , а си32 7 туацию ( 5, 1) с частотой , а остальные ситуации не воспроиз32 водить совсем. При этом средний выигрыш первого игрока 41 55 составит у.е., а второго — у.е. 16 16 76 s Вопросы для самоконтроля 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Дайте определение биматричной игры. В чем, на Ваш взгляд, состоит основная сложность биматричной игры? Какая теорема отвечает на вопрос о существовании равновесной ситуации в биматричной игре? Приведите ее формулировку. Каким соотношением определяется ситуация равновесия в биматричной игре? Могут ли функции выигрышей игроков достигать максимума одновременно? Чем в равновесной ситуации определяется выигрыш игрока? В чем отличие антагонизма интересов от антагонизма поведения? Какие игры называются кооперативными? Какова основная цель объединения игроков в коалиции? В чем заключается особенность биматричной игры? Какие допущения необходимо сделать для нахождения оптимального исхода в кооперативной игре? Что такое «арбитражное решение Нэша»? Что произойдет, если в процессе игры игроки разорвут коалицию? Возможно ли это? 77 4. ИГРЫ С ПРИРОДОЙ 4.1. Понятие игры с природой Ситуации, рассмотренные в предыдущих главах, в экономической практике могут оказаться не вполне адекватными действительности, поскольку реализация моделей матричных игр предполагала возможность многократного повторения решений (действий), предпринимаемых в похожих условиях. На практике же количество экономических решений, принимаемых в похожих условиях, жестко ограничено. Нередко экономическая ситуация является уникальной, и решение должно приниматься однократно и в условиях неопределенности. Неопределенность присутствовала и в рассмотренных выше антагонистических играх. Она заключалась в том, что ни один из игроков не обладал информацией о действиях противника. Но эта неопределенность в некоторой степени компенсировалась предположением о том, что игроки действуют осознанно, выбирая стратегии, наиболее выгодные для себя и наименее выгодные для противника. Однако в экономической практике во многих задачах принятия решений существенно важным элементом является неопределенность другого вида. Эта неопределенность не связана с сознательным целенаправленным противодействием противника и заключается в том, что лицо, принимающее решение, недостаточно информировано об объективных внешних условиях, в которых будет приниматься решение. Неопределенность такого вида может порождаться различными причинами: нестабильностью экономической ситуации, рыночной конъюнктурой, курсами валют, уровнем инфляции, налоговой политикой, изменяющимся покупательским спросом и т. д. То есть в задачах подобного рода выбор решения зависит от состояний объективной (экономической) действительности, называемой в модели «природой», а математические модели подобных конфликтных ситуаций называются «игрой с природой». 78 Таким образом, в игре с природой осознанно действует только один игрок, а именно, лицо, принимающее решение. «Природа» является вторым игроком, но не противником первого игрока, так как она осознанно против первого игрока не действует, принимая то или иное свое состояние неопределенным образом, конкретных целей в игре не преследует и безразлична к результату игры. Поэтому термин «природа» характеризует некую объективную реальность, которую не следует понимать буквально, хотя иногда это действительно характеризует состояние природы. Изучение игр с природой должно также начинаться с построения платежной матрицы, что является наиболее трудоемким и ответственным этапом при принятии решений, так как ошибки, допущенные при формировании платежной матрицы, не могут быть компенсированы никакими вычислительными методами. Пусть игрок A имеет m возможных стратегий Ai , i = 1, m , а природа Q может находиться в одном из n возможных состояний Q j , j = 1, n , которые можно рассматривать как ее «стратегии». Тогда матрицу игры с природой можно представить в виде, аналогичном платежной матрице матричной игры, как A = {aij } , или m´ n æ ç ç A1 A = ç A2 ç ç ... çA è m Q1 Q2 ... a11 a12 ... a21 ... a22 ... ... ... am1 am 2 ... Qn ö ÷ a1n ÷ a 2n ÷ , ÷ ... ÷ amn ÷ø (4.1) где aij — выигрыш игрока A при выборе им стратегии Ai и при состоянии природы Q j . Матрица игры с природой содержательно отличается от платежной матрицы антагонистической матричной игры тем, что элементы столбцов матрицы (4.1) не являются проигрышами природы при соответствующих ее состояниях, то есть выигрыши aij платит не природа, а некая «третья сторона», или совокупность сторон, влияющих на принятие решений игроком. 79 С одной стороны, задача выбора игроком A чистой или смешанной стратегии в игре с природой проще, чем в матричной игре, так как в этом случае со стороны природы отсутствует систематическое противодействие игроку. С другой стороны, эта задача осложняется наличием неопределенности, связанной с дефицитом осведомленности игрока о характере проявлений состояний природы. В игре с природой также можно доминировать (мажорировать) стратегии, что может позволить уменьшить размерность платежной матрицы. Например, в игре с матрицей размерности 5 ´ 5 : æ2 ç ç9 А = ç2 ç ç4 ç4 è 6 4 3 2ö ÷ 4 5 1 3÷ 3 1 4 2÷ ÷ 8 3 0 1÷ 7 4 8 2 ÷ø стратегия А5 доминирует стратегии А1 и А3 , поэтому их можно «удалить». Тогда размерность матрицы игры будет равна 3 ´ 5 : æ 9 4 5 1 3ö ç ÷ А = ç4 8 3 0 1÷ , ç 4 7 4 8 2÷ è ø число строк в которой на две строки меньше, чем в исходной матрице. Таким образом, и в играх с природой можно и нужно пользоваться принципом доминирования стратегий игрока A (строк матрицы игры). Однако этот принцип недопустим для второго игрока-природы, поскольку природа не стремится к выигрышу в игре, а действует неосознанно. Так, например, в последней матрице пятый столбец ( Q5 ) доминирует первый, второй и третий столбцы ( Q1 , Q2 и Q3 ). Поэтому в матричной игре эти столбцы можно было бы удалить. Но в игре с природой этого 80 делать нельзя. Это обстоятельство является еще одним свойством, отличающим игры с природой от матричных игр. При решении вопроса о выборе возможной стратегии в игре с природой игрок A должен исходить из матрицы выигрышей. Однако она не всегда адекватно отражает имеющуюся ситуацию. На выбор стратегии должны влиять не только выигрыши, составляющие матрицу игры, но и показатели «удачности» и «неудачности» выбора данной стратегии при данном состоянии природы и благоприятности этого состояния для увеличения выигрыша. Показателем благоприятности состояния Q j природы Q называется наибольший выигрыш при этом состоянии, то есть наибольший элемент j-го столбца: b j = max aij , j = 1, n . (4.2) i И для характеристики степени удачности применения игроком стратегии Ai при состоянии природы Q j вводят понятие «риска». Риском rij игрока A при выборе им стратегии Ai и при состоянии природы Q j называется разность между показателем благоприятности b j и выигрышем aij : rij = b j - aij , (4.3) То есть риск — это разность между выигрышем, который игрок получил бы, если бы он точно знал, что состоянием среды будет Q j , и выигрышем, который он получит, не имея этой информации. Таким образом, риск rij игрока A представляет собой упущенную возможность максимального выигрыша bj (упущенную выгоду) при данном состоянии природы. Эта упущенная возможность определяется (см. (4.3)) невыигранной частью максимального выигрыша. Следовательно, величину риска можно интерпретировать как своеобразную плату за отсутствие информации о действительном состоянии природы. Другими словами, точная 81 информация о действительном состоянии природы Q j позволяет игроку выбрать ту стратегию Ai , при которой его выигрыш будет максимальным ( b j ). Если ввести величину: w j = min aij , (4.4) i представляющую собой наименьший выигрыш игрока A при состоянии природы Q j , то можно установить границу изменения рисков как: 0 £ rij £ b j - w j , (4.5) где разность b j - w j называют колебанием выигрышей при состояниях природы Q j . Для данной матрицы выигрышей A матрица рисков RA имеет ту же размерность и следующий вид: RA = {rij }m´n . (4.6) Отметим, что матрица выигрышей (4.1) однозначно определяет матрицу рисков (4.6), так как каждый элемент rij этой матрицы однозначно определяется по формулам (4.3). Обратное не верно, то есть одна и та же матрица рисков может соответствовать разным матрицам выигрышей. № 4.1. Постройте матрицу рисков для следующей матрицы выигрышей: æ1 4 5 9ö ç ÷ A = ç 3 8 5 3÷ . ç 4 6 6 2÷ è ø (4.7) 82 Решение. Вычислим показатели благоприятности по формулам (4.2): b1 = 4 , b 2 = 8 , b 3 = 6 , b 4 = 9 . Тогда матрица рисков будет иметь вид: æ3 4 1 0ö ç ÷ RА = ç 1 0 1 6 ÷ . ç0 2 0 7÷ è ø (4.8) Матрица рисков проясняет некоторые нюансы рассматриваемой игры с природой. Например, если игрок выбирает стратегию А2 , то при состояниях природы Q1 и Q4 он получает одинаковые выигрыши a21 = a24 = 3 . Однако эти выигрыши не являются равноценными в смысле рисков, так как удачность выбора стратегии А2 по отношению к состояниям природы Q1 и Q4 разная. Показатель благоприятности состояния природы Q1 для возможности увеличения выигрыша равен b1 = 4 , а для Q4 — b 4 = 9 . Поэтому риски игрока A при выборе стратегии А2 и при состояниях природы Q1 и Q4 равны соответственно: r21 = 1, r24 = 6 . Другими словами, при состоянии природы Q1 игрок мог бы выиграть по максимуму величину b1 = 4 , а выиграл, придерживаясь стратегии А2 , а21 = 3 ед., «проиграв» всего r21 = 1 ед. А при состоянии природы Q4 проиграл бы r24 = 6 ед. Таким образом, выбор стратегии A2 по отношению к состоянию Q1 — более удачлив, чем по отношению к состоянию природы Q4 . Именно такую ситуацию и отражает матрица рисков (4.8). В этом примере мы сравнили одинаковые выигрыши при одной и той же стратегии игрока, но при разных состояниях природы. При этом было показано, что эти результаты могут быть неравноценными в смысле рисков. Одинаковые же выигрыши при разных стратегиях, но при одном и том же состоянии природы 83 всегда равноценны. Например, в матрице выигрышей (4.7) одинаковые выигрыши а13 = а23 = 5 при стратегиях А1 и А2 , и при состоянии природы Q3 — равноценны, поскольку равны соответствующие риски r13 = r23 = 1 . Для решения игры с природой требуется выбрать такую чистую (или смешанную) стратегию, которая была бы наиболее выгодной по сравнению с другими. Отметим, что смешанной стратегии у игрока может и не быть, если действия игрока являются альтернативными, то есть выбор одной стратегии отвергает все другие стратегии, например при выборе альтернативных проектов. Методы принятия решений в игре с природой зависят от того — известны или нет вероятности состояний Q j природы. Если эти вероятности неизвестны, то имеет место ситуация полной неопределенности, и это называется принятием решений в условиях полной неопределенности, а если эти вероятности известны априорно, то имеем дело с принятием решений в условиях риска. 4.2. Принятие решений в условиях полной неопределенности Рассмотрим игру с природой, в которой вероятности состояний природы Q j неизвестны и отсутствует всякая возможность получения о них какой-либо статистической информации. То есть мы находимся в состоянии полной неопределенности, связанной с отсутствием информации о вероятностях состояний среды (природы). В таких моделях для определения наилучших решений используются, например, следующие критерии: максимакса, Вальда, Сэвиджа и Гурвица. Критерий максимакса. Это критерий крайнего оптимизма, максимизирующий максимальные выигрыши для каждого состояния природы по формуле: M = max max aij . i (4.9) j 84 Для матрицы (4.7) этот критерий дает M = max {9, 8, 6} = 9 , что соответствует стратегии A1 . Таким образом, максимаксный критерий является критерием крайнего оптимизма, так как он ориентирует лицо, принимающее решение, на наилучшее для него состояние природы и, как следствие отсюда, — на порой «шапкозакидательское» поведение при выборе стратегии. Вместе с тем, ситуации, требующие применения этого критерия, в экономике не так уж и редки. Этим критерием пользуются не только безоглядные оптимисты, но и игроки, поставленные в безвыходное положение и вынужденные руководствоваться принципом «пан или пропал». Максиминный критерий Вальда. При применении данного критерия природа рассматривается как агрессивно настроенный и сознательно действующий противник, как в матричной игре. Поэтому выбирается стратегия, гарантирующая выигрыш не меньший, чем «нижняя цена игры с природой»: W = max min aij . i (4.10) j Для матрицы (4.7) этот критерий дает W = max (1, 3, 2 ) = 3 . что соответствует стратегии A2 . В соответствии с этим критерием, из всех самых неудачных результатов выбирается самый лучший. Это перестраховочная позиция крайнего пессимизма, рассчитанная на худший случай. Такая стратегия приемлема, например, когда игрок не столько хочет выиграть, сколько не хочет проиграть. Принципом критерия Вальда часто пользуются в обиходе, что подтверждается такими поговорками, как «береженого бог бережет» и т. д. Выбранное таким образом решение полностью исключает риск. Это означает, что принимающий решение не может столкнуться с более худшим результатом, чем тот, на который он ориентируется. Это свойство заставляет считать критерий Вальда 85 одним из фундаментальных. Поэтому в технических и экономических задачах он применяется чаще всего как сознательно, так и неосознанно. Однако в практических ситуациях излишний пессимизм этого критерия может оказаться очень невыгодным. Применение этого критерия может быть оправдано, если ситуация, в которой принимается решение, характеризуется следующими обстоятельствами: о вероятности появления того или иного состояния природы ничего не известно; с появлением того или иного состояния необходимо считаться; реализуется лишь малое количество решений; не допускается никакой риск. Критерий минимального риска Сэвиджа. Этот критерий аналогичен критерию Вальда, только игрок в этой ситуации руководствуется матрицей рисков (4.6) и выбирает стратегию, при которой достигается минимально возможный из наибольших рисков: S = min max rij . i (4.11) j Для матрицы (4.8) получаем S = min ( 4, 6, 7 ) = 4 . То есть лучшей стратегией по этому критерию является стратегия A1 . Хотя критерии Сэвиджа и Вальда являются критериями крайнего пессимизма, но в общем случае они не эквивалентны, то есть их применение может приводить к выбору разных стратегий, в чем мы убедились на приведенных выше примерах. Обобщенный критерий пессимизма-оптимизма Гурвица относительно выигрышей с коэффициентами l1 , l2 , K, ln . Переставим выигрыши ai1 , ai 2 , K, ain при каждой стратегии Ai (т.е. элементы каждой строки матрицы (4.1)), расположив их 86 в неубывающем порядке. Обозначим элементы полученной матрицы через bij , а саму матрицу как B: æ j ç ç B1 B = ç B2 ç ç ... çB è m 1 2 ... b11 b12 ... b21 ... b22 ... ... ... bm1 bm 2 ... n ö ÷ b1n ÷ b 2n ÷ , ÷ ... ÷ bmn ÷ø (4.12) где bi1 £ bi 2 £ K £ bin , i = 1, m . (4.13) Например, матрица (4.7) примет вид: æ 1 4 5 9ö ç ÷ В = ç 3 3 5 8÷ ç 2 4 6 6÷ è ø (4.12') В силу неравенств (4.13) в первом столбце матрицы B расположены минимальные выигрыши bi1 = min bij , а в последнем — j максимальные bin = max bij . Для некоторых номеров i и j j возможны и равенства bij = aij . Введем неотрицательные числа l1 , l2 , K, ln , удовлетворяющие условию: n ål j =1 j = 1. Тогда показателем эффективности стратегии Ai по данному критерию будет число: n Gi ( l1 , l2 ,K, ln ) = å l j bij , i = 1, m , j =1 87 (4.14) а оптимальной стратегией Ai0 будет та, при которой достигается максимум (4.14): Gi0 ( l1 , l2 ,K, ln ) = G ( l1 , l2 ,K, ln ) = max Gi ( l1 , l2 ,K , ln ) , (4.15) i Числа lp = én ù ê 2ú ë û ål j= 1 j n и lo = å lj , é nù j = ê ú +1 ë 2û называются соответственно показателями пессимизма и оптиn énù мизма. Здесь ê ú — целая часть числа . Тогда коэффициенты 2 2 ë û l j , j = 1, n можно выбирать следующим образом: чем опаснее ситуация, тем больше возникает желание подстраховаться, и тем ближе к единице должен быть коэффициент пессимизма l p . В более безопасной ситуации ближе к единице должен быть коэффициент оптимизма lo . Таким образом, в данном критерии коэффициенты l p и lо выражают количественную меру соответственно пессимизма и оптимизма игрока A, выбирающего коэффициенты l1 , l2 , K, ln . Если lo > 0,5 , а l p < 0,5 , то критерий — более «оптимистичный», чем «пессимистичный». Если lo < 0,5 , а l p > 0,5 — более «пессимистичный», чем «оптимистичный». А если lo = lp = 0,5 — то «реалистичный». Рассмотрим теперь вопрос о формализации метода выбора коэффициентов l1 , l2 , K, ln в обобщенном критерии Гурвица относительно выигрышей. С этой целью определим: а) сумму выигрышей по столбцам матрицы B: bj = m åb , i= 1 ij j = 1, n ; 88 б) среднее значение выигрышей bij , расположенных в j-м столбце: 1 1 m b j = å bij ; m m i= 1 bj = в) общую сумму всех возможных выигрышей игрока A: b= n n m å b = åå b j j= 1 = = j 1 i 1 ij . С учетом свойств матрицы B получаем условия: b1 £ b2 £ K £ bn , или b1 £ b2 £ K £ bn . Поэтому в случае выбора игроком более пессимистичной стратегии ( l p > lo ) можно предложить выбрать коэффициенты l1 , l2 , K, ln обратно пропорциональными средним выигрышам: l1:l2 :K:ln = bn :bn -1:K:b1 , что приводит к следующим формулам для вычисления l j : lj = bn - j +1 b , j = 1, n . (4.16) Если же игрок преисполнен оптимизма и считает ситуацию достаточно безопасной, то можно предложить выбрать коэффициенты l1 , l2 , K, ln следующим образом: 89 l1 : l2 : K : ln = b1 : b2 : K : bn , или, как: lj = bj b , j = 1, n . (4.17) В случае реалистичного подхода можно предложить и lj = 1 n . Отметим, что для применения формул (4.16) и (4.17) необходимо, чтобы все b j должны быть или положительными, или отрицательными. № 4.2. Найдите оптимальную стратегию в игре с природой (4.7) по обобщенному критерию Гурвица. Решение. Вычислим: b1 = 6, b2 =11, b3 =16, b4 =23 и b = 56 . Тогда, если игрок придерживается пессимистической стратегии, то l= 1 23 16 11 6 , l= , l= , l= , 2 3 4 56 56 56 56 l= p 39 17 > l= . o 56 56 и Вычислим показатели эффективности стратегий Ai , i = i, m по формулам (4.14): G1 = 23 16 11 6 196 ×1 + × 4 + × 5 + × 9 = , 56 56 56 56 56 90 G2 = 23 16 11 6 220 ×3 + ×3 + ×5 + ×8 = , 56 56 56 56 56 G3 = 23 16 11 6 212 ×2 + ×4 + ×6 + ×6 = . 56 56 56 56 56 Следовательно, оптимальной в этом случае является стратегия A2 , так как ì196 220 212 ü max Gi = max í= ,= , ý i =1,3 î 56 56 56 þ 220 56 G2 . Если игрок придерживается более оптимистичной стратегии, то, согласно формулам (4.17), получаем: l= 1 6 11 16 23 , , l= , l= , l= 2 3 4 56 56 56 56 l= о 39 17 > l= . p 56 56 и Тогда показатели эффективности будут равны: G1 = 6 11 16 23 337 ×1 + × 4 + × 5 + × 9 = ; 56 56 56 56 56 G2 = 6 11 16 23 315 ×3 + ×3 + ×5 + ×8 = ; 56 56 56 56 56 G3 = 6 11 16 23 290 ×2 + ×4 + ×6 + ×6 = . 56 56 56 56 56 и оптимальной будет стратегия A1 , так как: ì 337 315 290 ü max Gi = max = ,= , í ý i =1,3 î 56 56 56 þ 91 337 56 G1 . Если игрок придерживается реалистичной стратегии, то: G1 = 1 19 (1 + 4 + 5 + 9 ) = ; 4 4 G2 = 1 19 ( 3 + 3 + 5 + 8)= ; 4 4 G3 = 1 18 ( 2 + 4 + 6 + 6 )= , 4 4 и игрок может выбирать между стратегиями А1 и А2 . Отметим, что аналогичным образом можно рассмотреть и применение обобщенного критерия Гурвица применительно к матрице рисков RA . Частным случаем обобщенного критерия является критерий пессимизма-оптимизма Гурвица относительно выигрышей с показателем пессимизма l Î [ 0; 1] . То есть: = l1 =l= K ln -1 , l= 2 = 0, ln 1- l . Показателем эффективности стратегии Аi по этому критерию является величина: Gi = l × min aij + (1 - l ) × max aij , j j (4.18) а оптимальная стратегия Ai0 определяется из условия: Gi0 ( l ) = G ( l ) = max Gi ( l ) . (4.19) i Этот критерий учитывает как пессимистический, так и оптимистический подходы к решению игры. А именно, при l = 0 получаем критерий крайнего оптимизма, и решение совпадает с критерием максимакса; при l = 1 получаем критерий крайнего пессимизма и решение совпадает с критерием Вальда. l Î ( 0; 1) 92 характеризует склонность игрока к риску, а именно, чем ближе l к 1, тем игрок менее склонен к риску. № 4.3. Решите № 4.2 по критерию (4.19). Решение. Предположим, что l = 0,5 . Тогда: G1 ( l ) = G1=( 0,5 ) 0,5 × 1 + 0,5 × 9 = 5 ; G2 ( l ) = G=2 ( 0,5 ) 0,5 × 3 + 0,5 × 8 = 5,5 ; G3 ( l ) = G= 0,5 × 2 + 0,5 × 6 = 4 . 3 ( 0,5 ) И в силу (4.19) оптимальной будет стратегия A2 . Критерий Гурвица предъявляет к ситуации, в которой принимается решение, следующие требования: о вероятности появления того или иного состояния природы ничего не известно с появлением того или иного состояния необходимо считаться; реализуется лишь малое количество решений; допускается некоторый риск. Если по принятому критерию рекомендуется использование нескольких стратегий, то выбор между ними может производиться по дополнительному критерию, например, можно сравнивать между собой средние квадратические отклонения выигрышей. Предположим, что один из рассмотренных выше критериев, рекомендует игроку выбрать стратегии A1 или A2 , как в № 4.2 при l p = l0 = 0,5 . Тогда вычислив средние квадратические отклонения: 1 æ1+ 4 + 5 + 9 ö s = (12 + 42 + 52 + 92 ) - ç =÷ 4 4 è ø 2 8,1875, s 1 » 2,86 , 2 1 s 22 = 1 2 (3 + 32 + 52 + 82 ) - æçè 3 + 3 +4 5 + 8= ö÷ø 4 93 2 4,1875, s 2 » 2,05 . можно рекомендовать из двух стратегий выбрать стратегию A2 с меньшим значением среднего квадратического отклонения. Общие рекомендации по выбору того или иного критерия дать затруднительно. Однако отметим следующее: если в отдельных ситуациях недопустим даже минимальный риск, то следует применять критерий Вальда; если определенный риск вполне приемлем, то можно воспользоваться критерием Сэвиджа. Можно рекомендовать одновременно применять поочередно различные критерии. После этого среди нескольких вариантов, отобранных таким образом, в качестве оптимального приходится волевым решением выделять некоторое окончательное решение. Такой подход позволяет, во-первых, лучше проникнуть во все внутренние связи проблемы принятия решений и, во-вторых, ослабляет влияние субъективного фактора. Кроме того, различные критерии часто приводят к одному результату. Таким образом, в случае отсутствия информации о вероятностях состояния среды теория не дает однозначных и математически строгих рекомендаций по выбору критериев принятия решений. Это объясняется, в большей мере, не слабостью теории, а неопределенностью самой ситуации. Единственный разумный выход в подобных случаях — попытаться получить дополнительную информацию, например, путем проведения исследований или экспериментов. В отсутствие дополнительной информации принимаемые решения теоретически недостаточно обоснованы и в значительной мере субъективны. Хотя применение математических методов в играх с природой не дает абсолютно достоверного результата и последний в определенной степени является субъективным (вследствие произвольности выбора критерия), оно, тем не менее, создает некоторое упорядочение, имеющихся в распоряжении игрока данных, и способствует повышению качества принимаемых решений, а именно: 1. Задается множество состояний природы. 2. Определяются выигрыши и проигрыши при различных сочетаниях состояний ( Ai , Q j ) . Такое упорядочение представлений о проблеме само по себе способствует повышению качества принимаемых решений. 94 4.3. Принятие решений в условиях риска Предположим теперь, что игроку из прошлого опыта известны не только возможные состояния природы Q j , j = 1, n , в которых может находиться природа Q , но и соответствующие веро- p j = P ( Q = Q j ) , с которыми природа реализует эти ятности (å p состояния j = 1) . В этом случае мы отступаем от условий полной неопределенности, и будем находиться в ситуации принятия решений в условиях риска. Рассмотрим некоторые критерии принятия решений в игре с природой в условиях риска. Критерий Байеса относительно выигрышей По этому критерию показателем эффективности стратегии Ai , i = 1, m называется среднее значение (математическое ожидание) выигрыша с учетом вероятностей всех возможных стратегий природы: n ai = å pi aij , i = 1, m , (4.20) j=1 то есть ai представляет собой взвешенное среднее выигрышей i-й строки матрицы выигрышей, взятых с весами p1 , p2 , ..., pn . Оптимальной среди чистых стратегий по критерию Байеса будет стратегия Ai0 с максимальным показателем эффективности (4.20), то есть с максимальным выигрышем: ai0 = max ai (4.21) i Следовательно, выбранное таким образом решение является оптимальным не в каждом отдельном случае, а «в среднем». № 4.4. На промышленном предприятии готовятся к переходу на выпуск новых видов продукции A1 , A2 , A3 , A4 . Результаты 95 принятых решений существенно зависят от степени обеспеченности производства материальными ресурсами Q1 , Q2 , Q3 . Каждому сочетанию решений Ai , i = 1, 4 и состояний среды Q j , j = 1,3 соответствует определенный выигрыш — эффективность выпуска новых видов продукции. Всевозможные выигрыши представлены в платежной матрице: æ 25 ç 70 A=ç ç 35 ç è 80 35 40 ö ÷ 20 30 ÷ . 85 20 ÷ ÷ 10 35 ø (4.22) Найдите оптимальную стратегию по критерию Байеса относительно выигрышей, в предположении, что известны вероятности состояний природы p1 = 0, 2, p2 = 0,3, p3 = 0,5 . Решение. Вычислим средние выигрыши: a1 = 25 × 0,2 + 35 × 0,3 + 40 × 0,5= 35,5; a2 = 70 × 0,2 + 20 × 0,3 + 30 × 0,5 = 35,0; a3 = 35 × 0,2 + 85 × 0,3 + 20 × 0,5 = 42,5; a4 = 80 × 0, 2 + 10 × 0,3 + 35 × 0,5 = 36,5. Тогда оптимальной по критерию Байеса является стратегия A3 , так как a3 = max ai = 42,5 . i Критерий Байеса относительно рисков Показателем эффективности стратегии Ai по критерию Байеса относительно рисков называется математическое ожидание рисков, расположенных в i-й строке матрицы RA : 96 n ri = å p j rij , i = 1, m . (4.23) j =1 И оптимальной будет стратегия с наименьшим значением среднего риска ri : ri0 = min ri . (4.24) i При этом справедливо утверждение о том, что критерии (4.21) и (4.24) эквивалентны, то есть по обоим критериям оптимальной будет одна та же стратегия. Критерий Лапласа относительно выигрышей В предыдущих двух критериях Байеса известные вероятности состояний природы могли быть получены, например, на основании статистических исследований. Однако часто складывается такая ситуация, при которой мы лишены возможности определить эти вероятности. Но, желая принять решение в условиях риска, мы вынуждены оценивать эти вероятности состояний природы субъективно. Существуют различные методы численной субъективной оценки степени правдоподобности состояний природы. Один из таких способов заключается в том, что мы считаем 1 их равновероятными: p1 = p2 = ... =pn = . То есть мы не можем n отдать предпочтение ни одному из состояний природы. Этот принцип называют еще принципом «недостаточного основания» Лапласа. Таким образом, показатель эффективности будет равен: ai = 1 n å aij , i = 1, m , n j =1 а наилучшая стратегия определяется по формуле (4.21). 97 № 4.5. Найдите оптимальную стратегию в условиях № 4.4 по критерию Лапласа. Решение. Вычислим средние выигрыши: 1 100 ( 25 + 35 + 40 ) = ; 3 3 1 a2 = ( 70 + 30 + 30 ) = 40; 3 1 140 a3 = ( 35 + 85 + 20 ) = ; 3 3 1 125 . a4 = ( 80 + 10 + 35) = 3 3 a1 = Следовательно, оптимальной по критерию Лапласа является стратегия A3 , так как: a3 = max ai = i 140 . 3 Аналогично рассматривается критерий Лапласа и относительно рисков. Критерий Байеса относительных значений вероятностей состояний природы с учетом выигрышей Предположим, что вероятности состояний природы нам неизвестны, но мы имеем представление о том, какие состояния природы более правдоподобны, какие — менее правдоподобны. Это позволит представить (проранжировать) неизвестные вероятности состояний природы в виде убывающей или возрастающей числовой последовательности. Например, можно считать, что последовательность неизвестных вероятностей p j состояний природы пропорциональна членам некоторой монотонной последовательности положительных чисел t 1 , t 2 , ..., t n : p1 : p2 : ... : pn = t 1 : t 2 : ... :t n . 98 (4.25) n Учитывая, что åp j=1 j = 1 , можем получить следующие оценки вероятностей: -1 æ n ö p j = t j ç åt k ÷ , j = 1, n . è k =1 ø (4.26) № 4.6. Найдите оптимальную стратегию в условиях № 4.4, если есть основания считать, что вероятности состояний природы образуют строго убывающую числовую последовательность, пропорциональную убывающей арифметической прогрессии 3, 2, 1, то есть: p1 : p2 : p3 = 3 : 2 : 1 . Решение. Вычислим оценки вероятностей состояний природы по формуле (4.26): 1 1 1 p1 = , p2 = , p3 = . 2 3 6 Тогда средние выигрыши будут равны: 1 1 1 185 a1 = × 25 + × 35 + × 40 = ; 2 3 6 6 1 1 1 280 140 a2 = × 70 + × 20 + × 30 = = ; 2 3 6 6 3 1 1 1 295 a3 = × 35 + × 85 + × 20 = ; 2 3 6 6 1 1 1 295 a4 = × 80 + × 10 + × 35 = . 2 3 6 6 Следовательно, игроку можно порекомендовать сделать выбор между стратегиями А3 и A4 с наибольшими средними выигрышами. 99 Аналогичный критерий можно рассмотреть и для матрицы рисков. При принятии решений в условиях риска можно применить и критерий, основанный на применении среднего квадратического отклонения — критерий минимизации среднего квадратического отклонения (вариации). Рассмотрим применение этого критерия на примере № 4.4. Вычислим средние квадратические отклонения выигрышей: s 12 = 252 × 0,2 + 352 × 0,3 + 402 × 0,5 - 35,5=2 32, 25 , s 1 = 5,68 ; s 22 = 702 × 0,2 + 202 × 0,3 + 302 × 0,5 - 35,0=2 325,0 , s 2 = 18,03 ; s 32 = 352 × 0, 2 + 852 × 0,3 + 202 × 0,5 - 42,5 2 = 806, 25 , s 3 = 28,39 ; s 42 = 802 × 0, 2 + 102 × 0,3 + 352 × 0,5 - 36,5 2 = 590, 25 , s 4 = 24,30 . Следовательно, если по критерию Байеса предпочтения игрока можно проранжировать как: A3 f A4 f A1 f A2 , то по критерию минимизации среднего квадратического отклонения, получаем: A1 f A2 f A4 f A3 . То есть наиболее предпочтительной является стратегия A1 с наименьшим значением (5,68) среднего квадратического отклонения. Данная ситуация наиболее характерна для задач принятия решений, когда стратегия, наиболее предпочтительная по критерию максимизации среднего выигрыша, наименее выгодна по критерию минимизации среднего квадратического отклонения. Таким образом, в условиях № 4.4 игроку предстоит сделать выбор между двумя стратегиями A1 и A3 , один из которых ( A3 ) характеризуется и большим средним выигрышем и большим 100 риском одновременно. В этом случае можно порекомендовать использование особой меры риска — коэффициента вариации: CV ( Ai ) = CVi= si × 100 % . ai Этот коэффициент отражает риск, который приходится на единицу выигрыша (доходности), и дает базу для сравнения стратегий игрока, когда и их средний выигрыш и их средний риск неодинаковы. В условиях № 4.4. можно получить: s1 × 100 % = 15,60 % , a1 CV2 = 51,51% , CV3 = 66,81% , CV4 = 66,56% . CV1 = Следовательно, по критерию минимизации коэффициента вариации, предпочтения игрока можно проранжировать как: A1 f A2 f A4 f A3 , то есть наиболее предпочтительной является стратегия A1 . Заметим также, что когда речь идет о среднем выигрыше, то речь идет о возможности многократного повторения игры (акта принятия решений). И условность рассмотренных выше критериев состоит в том, что требуемого количества повторений чаще всего может и не быть. 4.4. О планировании эксперимента в играх с природой Рассмотрим теперь вопрос о том, в каких случаях следует проводить эксперименты с целью получения дополнительной статистической информации о состояниях природы для принятия более эффективных решений в условиях риска. 101 Рассмотрим сначала так называемый «идеальный» эксперимент, в результате проведения которого игрок получает точную информацию о том, какое состояние природы будет иметь место в данной ситуации. В качестве критерия принятия решений рассмотрим критерий Байеса. Без проведения эксперимента в качестве оптимальной стратегии по критерию Байеса относительно выигрышей выбиралась стратегия Ai0 с максимальным показателем эффективности (4.21): ai0 = max ai = a . (4.27) i =1, m Если в результате проведенного эксперимента выяснилось, например, что природа будет находиться в состоянии Q j , то в качестве оптимальной надо выбирать стратегию, при которой достигается наибольший выигрыш: b j = max aij , i =1, m где b j , j = 1, n — показатель благоприятности состояния природы Q j . То есть надо выбирать такую стратегию, чтобы наибольший элемент b j j-го столбца матрицы A находился в строке, соответствующей этой стратегии. Однако такое решение мы можем принять только после проведения эксперимента. А нам нужно решить заранее вопрос о целесообразности проведения эксперимента, про который известно только, что он является идеальным, и не известно, в каком именно состоянии Q j будет находиться природа Q, то есть нам не известен размер будущего выигрыша игрока A. Таким образом, разумно рассмотреть взвешенное среднее выигрышей b j с весовыми коэффициентами p j , то есть выигрыш в случае идеального эксперимента можно определить как: n b = å pjb j . (4.28) j =1 102 Тогда средний выигрыш игрока A с применением идеального эксперимента вырастет на величину b - a . Таким образом, проведение эксперимента имеет смысл, если стоимость c такого эксперимента удовлетворяет условию: с < b -a . (4.29) № 4.7. Определите стоимость идеального эксперимента в условиях № 4.4. Решение. Вычислим показатели благоприятности состояний природы: b1 = 80, b 2 = 85, b 3 = 40. Тогда b = 80 × 0, 2 + 85 × 0,3 + 40 × 0,5= 61,5. Следовательно, так как a = 42,5 , то стоимость эксперимента с будет меньше, чем с < b - a = 19 ед. То есть, если стоимость эксперимента с ³ 19 ед., то эксперимент проводить невыгодно. Можно решить эту задачу и в терминах рисков, а именно: с<r min= ri i n min= å p j rij . i (4.30) j =1 При этом получаются те же самые результаты, что и по условию (4.29). Теперь рассмотрим вопрос о проведении эксперимента, не являющегося идеальным, то есть позволяющего лишь уточнить 103 вероятности состояний природы. В общем случае можно предположить, что такой эксперимент Z приводит к появлению одного из несовместных событий Zn ,n = 1, k (исходов эксперимента), вероятности которых зависят от того состояния природы Q j , при котором он проводился. Предположим, что эти условные вероятности P ( Zv Q j ) событий Z = Z v , при условии, что природа находится в состоянии Q = Q j , известны. Тогда по формулам Байеса можно пересчитать вероятности состояний природы, как P (Q Z ) = P (Q ) × P ( Z Q ) P(Z ) , (4.31) или P ( Q = Q j Z= Z v =) ( P ( Q = Q j ) × P Z =Z v Q =Q j P ( Z = Zv ) ), где P ( Q = Q j ) = p j — априорные вероятности состояний природы; P ( Q = Q j Z= Z v =) p jn — апостериорные вероятности со- стояний природы, при условии, что результатом эксперимента будет Z = Z v ; P ( Z = Z v ) — вероятности исхода Z v эксперимента, вычисляемые по формуле полной вероятности: n ( ) P ( Z = Z v ) =å P ( Q= Q j ) × P Z =Z v Q =Q j . j =1 (4.32) Пусть n aiv = å p jv × aij , i = 1, m , v = 1, k — показатель эффективности j =1 104 стратегии Ai по критерию Байеса с апостериорными вероятностями состояний природы Q j Î Q ; b v = max a iv — максимальный средний выигрыш при исходе i =1, m эксперимента Z v Î Z ; k b% = å P=( Z Z v ) × b v — среднее взвешенное максимальных v=1 выигрышей b v с весовыми коэффициентами, равными полным вероятностям P ( Z = Z v ) событий Z v Î Z , вычисляемым по формулам (4.32). Тогда средний выигрыш игрока A с применением неидеального эксперимента вырастет на величину b% - a . Таким образом, проведение эксперимента имеет смысл, если стоимость такого эксперимента с% удовлетворяет условию, аналогичному (4.29): с% < b% - a . (4.33) Можно решить эту задачу и в терминах рисков. При этом результат (4.33) не изменится. 4.8. Определите стоимость проведения эксперимента в условиях № 4.4, если матрица условных вероятностей исходов эксперимента имеет вид: P (Z Q) Z1 Z2 Z3 Q1 0,6 0,25 0,15 Q2 0,3 0,55 0,15 Q3 0,1 0,25 0,65 Решение. Вычисление апостериорных вероятностей состояний природы представим в виде расчетной таблицы: 105 Та блица 4. 1 W P ( Z W) P (W ) P ( Z W) P (W) Z1 Z2 Z3 Z1 Z2 Z3 P (W Z ) Z1 Z2 Z3 W1 0,2 0,6 0,25 0,15 0,12 0,05 W2 0,3 0,3 0,55 0,15 0,09 0,165 0,045 0,346 0,485 0,113 Q3 0,5 0,1 0,25 0,65 0,05 0,125 0,325 0,192 0,368 0,812 0,26 0,34 åP(Z W W) × P (W) 0,03 0,462 0,147 0,075 0,40 Пусть исходом эксперимента будет Z = Z1 , с апостериорными вероятностями состояний природы 0,462, 0,346 и 0,192 соответственно. Вычислим показатели эффективности стратегий игрока: a11 = 0,462 × 25 + 0,346 × 35 + 0,192 × 40 = 31,34 ; a 21 = 0,462 × 70 + 0,346 × 20 + 0,192 × 30 = 45,02 ; a31 = 0,462 × 35 + 0,346 × 85 + 0,192 × 20 = 49, 42 ; a 41 = 0,462 × 80 + 0,346 × 10 + 0,192 × 35 = 47,14 , Тогда максимальный средний выигрыш при исходе эксперимента Z = Z1 будет равен: b 1 = max a i1 = 49, 42 ед. i =1,4 Пусть исходом эксперимента будет Z = Z 2 , с апостериорными вероятностями состояний природы 0,147, 0,485 и 0,368 соответственно. Вычислим показатели эффективности стратегий игрока: a12 = 0,147 × 25 + 0, 485 × 35 + 0,368 × 40 = 35,37 ; a 22 = 0,147 × 70 + 0,485 × 20 + 0,368 × 30 = 31,03 ; a32 = 0,147 × 35 + 0,485 × 85 + 0,368 × 20 53,73 = ; a 42 = 0,147 × 80 + 0, 485 × 10 + 0,368 × 35 = 29,49 . 106 Тогда максимальный средний выигрыш при исходе эксперимента Z = Z 2 будет равен: b 2 = max a i 2 = 53,73 ед. i =1,4 Пусть исходом эксперимента будет Z = Z 3 , с апостериорными вероятностями состояний природы 0,075, 0,113 и 0,812 соответственно. Вычислим показатели эффективности стратегий игрока: a13 = 0,075 × 25 + 0,113 × 35 + 0,812 × 40 = 38,31 ; a 23 = 0,075 × 70 + 0,113 × 20 + 0,812 × 30 = 31,87 ; a33 = 0,075 × 35 + 0,113 × 85 + 0,812 × 20 = 28,47 ; a 43 = 0,075 × 80 + 0,113 × 10 + 0,812 × 35 = 35,55 . Тогда максимальный средний выигрыш при исходе эксперимента Z = Z 3 будет равен: b 3 = max ai 3 = 38,31 ед. i = 1,4 Вычислим взвешенное среднее максимальных выигрышей b v с весовыми коэффициентами, равными полным вероятностям P ( Z = Z v ) событий Z v Î Z : k b% = å P ( =Z v =1 Zv ) × b v 0,=26 × 49,42 + 0,34 × 53,73 + 0,40 × 38,31 = =46,44 ед. Следовательно, так как a = 42,5 , то стоимость эксперимента c будет меньше, чем с < b% - a = 3,94 ед. 107 То есть если стоимость эксперимента с ³ 3,94 ед., то такой эксперимент проводить невыгодно. Выше мы рассмотрели вопрос о том — выгодно, или невыгодно проводить единичный эксперимент. Аналогичным образом можно заранее выяснить, выгодно ли провести эксперимент несколько раз. 4.5. Выбор решений с помощью дерева решений Многие инвестиционные задачи требуют анализа последовательности решений и состояний экономической среды, когда одна совокупность стратегий инвестора и состояний экономической среды порождает другое состояние подобного типа. Если имеют место два или более последовательных множества решений, и (или) два или более состояний экономической среды, то появляется целая цепочка решений, следующих одно за другим (вытекающих одно за другим) В этом случае для решения инвестиционной задачи используется дерево решений — это графическое изображение последовательности решений и состояний экономической среды с указанием соответствующих вероятностей для любых комбинаций решений. В общем случае для решения задачи предполагается выполнение следующих этапов: 1. Формулировка задачи. Необходимо, прежде всего, среди множества факторов, оказывающих влияние на решение задачи, выделить существенные и несущественные. Далее необходимо выполнить следующие основные процедуры: а) определение возможности сбора информации для принятия решений и экспериментирования; б) составление перечня событий (состояний экономической среды или рынка), которые могут произойти с определенной вероятностью; в) установление временного порядка расположения событий, в исходах которых содержится полезная и доступная информация, и последовательности действий инвестора. 108 2. Построение дерева решений. 3. Оценка вероятностей состояния рынка. Эти вероятности определяются либо статистически, либо экспертным образом. 4. Установление величины дохода (эффективности принятия решений) для каждой возможной комбинации действий инвестора и состояний рынка. 5. Решение задачи. Рассмотрим процедуру принятия решений на следующем примере. № 4.9. Руководство некоторой компании может для выпуска новой продукции создать: а) крупное предприятие; б) малое предприятие; в) просто продать патент. Размер дохода, который может получить компания, зависит от состояния рынка, который может быть благоприятным или неблагоприятным с одинаковой вероятностью 0,5. Размеры возможных доходов (расходы идут со знаком минус) изображены в следующей таблице. Найдите оптимальную (байесовскую) стратегию. Та блица 4. 2 Доход компании (руб.) Стратегии Действия компании A1 Благоприятное состояние рынка Неблагоприятное состояние рынка Строительство крупного предприятия 200 000 -180 000 A2 Строительство малого предприятия 100 000 -20 000 A3 Продажа патента 10 000 10 000 Решение. 1. Построим дерево решений «слева — направо». 2. При движении «справа — налево» вычисляем для каждой вершины дерева ожидаемую денежную оценку (ОДО) при выборе соответствующей стратегии. 109 3. Осуществим выбор ветвей, которым соответствует максимальное ОДО. 1. На основе данных таблицы 4.2 построим дерево решений в обозначениях: — решение принимает инвестор; ** — решение «принимает» случай. 10 000 большое приятие пред- благоприятное состояние ** неблагоприятное состояние 40 000 малое предприятие 40 000 благоприятное ** состояние неблагоприятное состояние 10 000 200 000 -180 000 100 000 -20 000 10 000 продажа патента Рис. 4.1 2. Вычислим средний ожидаемый доход инвестора при каждой возможной стратегии: a1 = 200000 × 0,5 + ( -180000 ) × 0,5 = 10000 руб. a2 = 100000 × 0,5 + ( -20000 ) × 0,5 = 40000 руб. a3 = 100000 × 1 = 10000 руб. 110 3. Таким образом, следует выбрать вторую стратегию, то есть построить малое предприятие, так как: a2 = max ai = 40000 руб. i =1,3 Мы решили задачу инвестирования средств при наличии априорной информации о вероятностях возможных состояний рынка. Предположим теперь, что некоторая фирма за определенную плату предлагает предоставить информацию об истинном состоянии рынка в тот момент, когда руководству компании предстоит принять решение о выборе наиболее выгодной стратегии. № 4.10. Определите стоимость точной информации о возможных состояниях рынка в условиях № 4.9. Решение. Чтобы определить максимальную стоимость такой информации необходимо вычислить разность между выигрышем, который может получить компания при наличии точной информации и средним выигрышем, который может получить компания при наличии только априорной информации о состояниях рынка (40000 руб.). Вычислим ожидаемую денежную оценку выигрыша компании при наличии точной информации о состояниях рынка, воспользовавшись деревом решений (рис. 4.1): b = 200000 × 0,5 + 10000 × 0,5 = 105000 руб. Здесь 200000 руб. — это максимальный выигрыш при благоприятном состоянии рынка (строим крупное предприятие), а 10000 руб. — при неблагоприятном (продаем патент). Следовательно, максимальная стоимость точной информации о возможных состояниях рынка равна: = - 40000 = 65000 руб. с = b - а 105000 111 Другими словами — это максимальная сумма, которую может заплатить компания за точную информацию об истинном состоянии рынка в момент принятия решения. Усложним задачу, а именно предположим, что компания решила заказать исследование состояния рынка некоторой фирме, понимая при этом, что дополнительное исследование не способно дать точной информации о состоянии рынка, но поможет уточнить ожидаемые оценки состояния рынка, изменив тем самым вероятности этих состояний. № 4.11. В условиях № 4.9 определите, стоит ли компании заказать исследование возможных состояний рынка некоторой фирме, которая оценивает стоимость своих услуг в 10000 руб. Про эту фирму известно, что она утверждает, что ситуация будет благоприятной с вероятностью 0,45 и неблагоприятной с вероятностью 0,55. Прогнозы фирмы оправдываются следующим образом (известно из ранее составленных его прогнозов): Та блица 4. 3 Прогноз фирмы о состоянии рынка Фактически Благоприятное Неблагоприятное Благоприятный 0,78 0,22 Неблагоприятный 0,27 0,73 Решение. Если компания закажет исследования данной фирме, то дерево решений примет вид, изображенный на рисунке 4.2. Здесь, например, 116400 = 200000 × 0,78 + ( -180000 ) × 0, 22 , 59200 = 116400 × 0,45 + 12400 × 0,55 , 49200 = 59200 - 10000 . 112 116 400 большое предприятие ** неблагопр. сост. (0,22) -180 000 73 600 благопр. 100 000 ** сост. (0,78) 116 400 малое предприятие прогноз благопр. (0,45) неблагопр. -20 000 сост. (0,22) 10 000 10 000 патент 49200 благопр. сост. (0,78) 200 000 проводить исследования -10 000 ** -77 400 большое предприятие неблагопр. прогноз (0,55) ** благопр. сост. (0,27) 200 000 неблагопр. -180 000 сост. (0,73) 12 400 благопр. 100 000 ** сост. (0,27) 12 400 малое предприятие 10 000 патент неблагопр. сост. (0,73) -20 000 10 000 Рис. 4.2 Таким образом: 1. Необходимо провести дополнительное исследование рынка, так как при этом ожидаемый выигрыш компании составит величину b% = 59200 руб., а с учетом оплаты стоимости эксперимента — величину 59200 - 10000 = 49200 руб. что больше ожидаемого выигрыша (40000 руб.) без проведения эксперимента. 113 2. Если фирма прогнозирует благоприятную ситуацию, то целесообразно строить большое предприятие (116400 руб.), а при неблагоприятном прогнозе — малое предприятие (12400 руб.). 3. Максимальная сумма, которую компания может заплатить за услуги фирмы, будет равна: с < b% - a = 19200 руб. s Вопросы для самоконтроля 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. Дайте определение понятия «природа». С неопределенностью какого вида связано принятие решений в игре с природой? Чем она порождается? Можно ли в игре с природой применить доминирование стратегий? Всегда ли матрица выигрышей адекватно отражает имеющуюся ситуацию? Что такое показатель благоприятности? Дайте определение понятия «риск». Являются ли одинаковые выигрыши при разных стратегиях и одинаковом состоянии природы равноценными? Всегда ли у игроков есть смешанная стратегия? Назовите две возможные ситуации при принятии решений в игре с природой. Назовите критерии принятия решений в условиях полной неопределенности. В какой ситуации оправдано применение максиминного критерия Вальда? Каким образом следует выбирать показатели пессимизма и оптимизма по критерию Гурвица? Что они характеризуют? Можно ли применить критерий Гурвица к матрице рисков? Назовите критерии принятий решений в условиях риска. Объясните разницу между идеальным и неидеальным экспериментом. Что такое дерево решений? Назовите основные этапы решения задачи с помощью дерева решений. Каким образом вычисляется ожидаемая денежная оценка (ОДО)? 114 ЛИТЕРАТУРА 1. Бережная Е.В. Математические методы моделирования экономических систем / Е.В. Бережная, В.И. Бережной. — М.: Финансы и статистика, 2003. — 368 с. 2. Бригхем Ю. Финансовый менеджмент / Ю. Бригхем, М. Эрхардт. — СПб.: Питер, 2007. — 960 с. 3. Васин А.А. Исследование операций: учеб. пособие для студ. вузов / А.А. Васин, П.С. Краснощеков, В.В. Морозов. — М.: Изд. центр «Академия», 2008. — 464 с. 4. Волков И.К. Исследование операций: учебник для вузов / И.К. Волков, Е.А. Загоруйко; под ред. В.С. Зарубина, А.П. Крищенко. — 3-е изд., стер. — М.: МГТУ им. Н.Э. Баумана, 2004. — 440 с. 5. Давыдов Э.Т. Исследование операций: учеб. пособие / Э.Т. Давыдов. — М.: Высш. шк., 1990. — 383 с. 6. Дубров А.М. Компонентный анализ и эффективность в экономике: учеб. пособие для вузов / А.М. Дубров. — М.: Финансы и статистика, 2002. — 352 с. 7. Замков О.О. Математические методы в экономике: учебник / О.О. Замков, А.В. Толстопятенко, Ю.Н. Черемных. — М.: МГУ, Изд-во «ДИС», 1997. — 368 с. 8. Исследование операций в экономике: учеб. пособие / Н.Ш. Кремер, Б.А. Путко, И.М. Тришин, М.Н. Фридман; под ред. Н.Ш. Кремена. — М.: Банки и биржи, ЮНИТИ, 1997. — 407 с. 9. Конюховский П.В. Математические методы исследования операций в экономике / П.В. Конюховский. — СПб.: Изд-во «Питер», 2000. — 208 с. 10. Коршунов Ю.М. Математические основы кибернетики: учеб. пособие / Ю.М. Коршунов. — М.: Энергоатомиздат, 1987. — 496 с. 11. Красс М.С. Математические методы и модели для магистрантов экономики: учеб. пособие / М.С. Красс, Б.П. Чупрынов. — СПб.: Питер, 2006. — 496 с. 12. Красс М.С. Основы математики и ее приложения в экономическом образовании: учебник / М.С. Красс, Б.П. Чупрынов. — М.: Дело, 2001. — 688 с. 13. Кузютин Д.В. Математические методы стратегического анализа многосторонних отношений: Голосование, Многосторонние соглашения: учеб. пособие / Д.В. Кузютин. — СПб.: Изд-во С.-Петербургского ун-та, 2000. — 92 с. 14. Лабскер Л.Г. Игровые методы в управлении экономикой и бизнесом: учеб. пособие / Л.Г. Лабскер, Л.О. Бабешко. — М.: Дело, 2001. — 464 с. 15. Математическое моделирование экономических систем: Юнита 2: Прикладные модели экономических систем: учеб. пособие / сост. С.Б. Давыдова. — М.: СГУ, 2001. — 103 с. 16. Моделирование рисковых ситуаций в экономике и бизнесе: учеб. пособие / А.М. Дубров, Б.А. Лагоша, Е.Ю. Хрусталев, Т.П. Барановская; под ред. Б.А. Лагоши. — М.: Финансы и статистика, 2001. — 224 с. 17. Олейник А.Н. Институциональная экономика: учеб. пособие / А.Н. Олейник. — М.: ИНФРА-М, 2000. — 416 с. 115 18. Петросян Л.А. Теория игр: учеб. пособие / Л.А. Петросян. — М.: Высш. шк., 1998. — 304 с. 19. Печерский С.Л. Теория игр для экономистов: Вводный курс: учеб. пособие / С.Л. Печерский, А.А. Беляева. — СПб.: Европейский ун-т в СПб., 2001. — 342 с. 20. Пинегина М.В. Математические методы и модели в экономике: учеб. пособие для вузов / М.В. Пинегина. — М.: Экзамен, 2004. — 128 с. 21. Розен В.В. Математические модели принятия решений в экономике. учеб. пособие / В.В. Розен. — М.: Книжный дом «Университет»; Высшая школа, 2002. — 288 с. 22. Смольяков Э.Р. Теория антагонизмов и дифференциальные игры / Э.Р. Смольяков. — М.: Эдиториал УРСС, 2000. — 160 с. 23. Степанов В.Р. Основы теории принятия решений: Экспериментальное учеб. пособие / В.Р. Степанов. — Чебоксары: Клио, 2004. — 134 с. 24. Теория анализа хозяйственной деятельности: учебник / под ред. В.В. Осмоловского. — Минск: Новое знание, 2001. — 318 с. 25. Трояновский В.М. Математическое моделирование в менеджменте: учеб. пособие / В.М. Трояновский. — 2-е изд., испр. и доп. — М.: РДЛ, 2000. — 256 с. 26. Шапкин А.С. Экономические и финансовые риски. Оценка, управление, портфель инвестиций / А.С. Шапкин. — М.: Издательско-торговая корпорация «Дашков и Кº», 2005. — 544 с. 27. Шапкин А.С. От игр к играм. Математическое введение / А.С. Шапкин. — М.: Эдиториал УРСС, 1998. — 112 с. 28. Шикин Е.В. Математические методы и модели в управлении: учеб. пособие / Е.В. Шикин, А.Г. Чхартишвили. — М.: Дело, 2002. — 440 с. 116 СОДЕРЖАНИЕ Введение ..........................................................................................3 1. Основные понятия теории игр.....................................................5 1.1. Задачи теории игр в экономике ..................................................... 5 1.2. Конфликты и теория игр ............................................................... 7 1.3. Основные понятия и классификация видов игр ........................... 8 Вопросы для самоконтроля ............................................................... 12 2. Матричные игры ........................................................................ 14 2.1. Примеры матричных игр............................................................. 14 2.2. Равновесная ситуация ................................................................. 17 2.3. Смешанные стратегии ................................................................. 23 2.4. Решение матричной игры 2×2 ..................................................... 27 2.5. Матричные игры 2×n................................................................... 30 2.6. Матричные игры m×2.................................................................. 37 2.7. Матричные игры m×n.................................................................. 40 2.7.1. Доминирование стратегий .................................................. 41 2.7.2. Аффинное правило.............................................................. 43 2.7.3. Итерационный метод решения матричных игр .................. 43 2.7.4. Сведение матричной игры к задаче линейного программирования........................................................................ 47 Вопросы для самоконтроля ............................................................... 55 3. Биматричные игры ..................................................................... 56 3.1. Основные понятия и ситуация равновесия ................................. 56 3.2. Биматричные игры 2×2 ............................................................... 58 3.3. Поиск равновесных ситуаций ..................................................... 61 3.4. Кооперативные игры ................................................................... 67 Вопросы для самоконтроля ............................................................... 77 117 4. Игры с природой ........................................................................ 78 4.1. Понятие игры с природой ........................................................... 78 4.2. Принятие решений в условиях полной неопределенности ........ 84 4.3. Принятие решений в условиях риска .......................................... 95 4.4. О планировании эксперимента в играх с природой ................. 101 4.5. Выбор решений с помощью дерева решений ........................... 108 Вопросы для самоконтроля ............................................................. 114 Литература ................................................................................... 115 118 САДОВИН Николай Степанович САДОВИНА Татьяна Николаевна ОСНОВЫ ТЕОРИИ ИГР УЧЕБНОЕ ПОСОБИЕ Литературный редактор Е.Г. Смоляр Компьютерная верстка С.В. Токмакова Дизайн обложки В.В. Смирнова Лицензия ИД № 06434 от 10 декабря 2001 г. Тем. план 2011 г. № 19. Подписано в печать 28.02.2011 г. Формат 60х84/16. Усл. печ. л. 6,92. Уч.-изд. л. 5,03. Тираж 300. Заказ № 603. 29,75 Оригинал-макет подготовлен к печати в РИЦ и отпечатан ООП ГОУВПО «Марийский государственный университет». 424001, г. Йошкар-Ола, пл. Ленина, 1

ij - Марийский государственный университет

Related documents

Products

Support

ij - Марийский государственный университет

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib