Лекция 4 ЭЛЕМЕНТЫ ТЕОРИИ СТАТИСТИЧЕСКИХ ИГР 1

advertisement
Лекция 4
ЭЛЕМЕНТЫ ТЕОРИИ СТАТИСТИЧЕСКИХ ИГР
1. Понятие и постановка задачи статистической игры
В обычной стратегической игре принимают участие «разумные и антагонистические» противники (противоборствующие стороны). В таких играх
каждая из сторон предпринимает именно те действия, которые наиболее выгодны ей и менее выгодны противнику. Однако очень часто неопределенность, сопровождающая некоторую операцию, не связана с сознательным
противодействием противника, а зависит от некой, не известной игроку 1
объективной действительности (природы). Такого рода ситуации принято
называть играми с природой. Игрок 2 — природа — в теории статистических
игр не является разумным игроком, так как рассматривается как некая незаинтересованная дистанция, которая не выбирает для себя оптимальных стратегий. Возможные состояния природы (ее стратегии) реализуются случайным
образом. В исследовании операций оперирующую сторону (игрока 1) часто
называют статистиком, а сами операции — играми статистика с природой
или статистическими играми.
Рассмотрим игровую постановку задачи принятия решения в условиях
неопределенности. Пусть оперирующей стороне необходимо выполнить операцию в недостаточно известной обстановке, относительно состояний которой можно сделать n предположений. Эти предположения П1, П2, …, Пn будем рассматривать как стратегии природы. Оперирующая сторона в своем
распоряжении имеет m возможных стратегий — А1, А2, …, Аm. Выигрыши
игрока 1 аij при каждой паре стратегий Ai и Пj предполагаются известными и
заданы платежной матрицей А = ‖𝑎𝑖𝑗 ‖.
Задача заключается в определении такой стратегии (чистой или смешанной), которая при ее применении обеспечила бы оперирующей стороне
наибольший выигрыш.
Рассмотрим пример, который можно интерпретировать и решить в
терминах теории статистических решений.
Пример 1. Сельскохозяйственное предприятие имеет три участка земли:
влажный A1, средней влажности А2 и сухой А3. Один из этих участков предполагается использовать для выращивания картофеля, а остальные — для посева зеленой массы. Известно, что для получения хорошего урожая картофеля требуется определенное количество влаги в почве в период вегетации. При
излишней влажности посаженный картофель на некоторых участках может
гнить, а при недостаточном количестве осадков будет плохо развиваться, что
приводит к снижению урожайности. Требуется определить, на каком участке
сеять картофель, чтобы получить хороший урожай его, если известна средняя
урожайность картофеля на каждом участке в зависимости от погодных условий. На участке A1 урожайность составляет 200, 100 и 250 ц с 1 га при выпадении соответственно нормального количества осадков, больше и меньше
нормы. Аналогично на участке A2 — 230, 120 и 200 ц, а на участке А3 — 240,
260 и 100 ц.
На данном этапе решения ограничимся построением платежной матрицы. Обозначим через П1, П2, П3 стратегии игрока 2 — природы, соответствующие количеству осадков меньше нормы, норме и больше нормы. У
сельскохозяйственного предприятия (игрока 1) также три стратегии: А1 —
сеять картофель на влажном участке; А2 — сеять на участке средней влажности и А3 — сеять на сухом участке. Выигрыш сельскохозяйственного предприятия при каждой паре стратегий Ai и Пj задается урожайностью картофеля
с 1 га (см. табл. 1).
Таблица 1
2
П1
П2
П3
1
А1
250
200
100
А2
200
230
120
А3
100
240
260
2. Анализ матрицы выигрышей игры с природой и построение матрицы
рисков.
Анализ матрицы выигрышей игры с природой начинается с выявления
и отбрасывания дублирующих и заведомо невыгодных стратегий лица, играющего с природой, по правилам, рассмотренным в лекции 3. Что касается
стратегий природы, то ни одну из них отбросить нельзя, так как каждое из
состояний природы может наступить случайным образом, независимо от
действий игрока 1. Ввиду того что природа не противодействует игроку 1,
может показаться, что игра с природой проще стратегической игры. На самом деле это не так. Противоположность интересов игроков в стратегической
игре в некотором смысле как бы снимает неопределенность, чего нельзя сказать о статистической игре. Оперирующей стороне в игре с природой легче в
том отношении, что она, скорее всего, выиграет больше, чем в игре против
сознательного противника. Однако ей труднее принять обоснованное решение, так как в игре с природой неопределенность ситуации сказывается в гораздо более сильной степени.
После упрощения платежной матрицы игры с природой целесообразно
не только оценить выигрыш при той или иной игровой ситуации, но и определить разность между максимально возможным выигрышем при данном состоянии природы и выигрышем, который будет получен при применении
стратегии Аi в тех же условиях. Эта разность в теории игр называется риском.
Как и ранее, максимальный выигрыш в j-м столбце обозначим через βj,
т.е. β = max𝑖 𝑎𝑖𝑗 (величина βj характеризует благоприятность состояния природы). Риск игрока при применении им стратегии Ai в условиях Пj обозначим
через rij. Тогда риск rij = βj — ai, где rij >0.
Матрица рисков R = (rij)m×n во многих случаях позволяет более глубоко понять неопределенную ситуацию, чем матрица выигрышей.
Пример 2. Произвести пересчет матрицы выигрышей (см. табл. 1) в матрицу
рисков.
Для удобства матрицу выигрышей перепишем в виде табл. 2.
Таблица 2
2
П1
П2
П3
1
А1
А2
А3
250
200
100
200
230
240
100
120
260
Находим значения βj (𝑗 = ̅̅̅̅̅
1, 3):
β1 = max (250, 200, 100) = 250;
β2, = max (200, 230, 240) = 240;
β3= max (100, 120. 260) = 260.
Рассчитаем элементы матрицы рисков:
r11 = β1 — а11 = 250 — 250 = 0; r12 =β2 — а12 = 240 — 200 = 40;
r13 = β3 — а13 = 260 — 100 = 160; r21 = β1 — а21 = 250 — 200 = 50
и т. д.
Окончательно получим матрицу рисков (см. табл. 3)
Таблица 3
2
П1
П2
1
А1
0
40
А2
50
10
А3
150
0
П3
160
140
0
Элементы матрицы рисков, соответствующие стратегиям Ai в условиях
Пj, характеризуют общую благоприятность или неблагоприятность для игрока 1 отдельных состояний природы.
3. Критерии для принятия решений в статистических играх без эксперимента.
Критерий, основанный на известных вероятностях условий.
Иногда неопределенность ситуации удается в некоторой степени ослабить. Это достигается нахождением вероятностей состояний на основе данных статистических наблюдений.
Предположим, что вероятности состоянии природы известны:
𝑛
Р(П1 ) = 𝑄1 ; Р(П2 ) = 𝑄2 ; Р(П𝑛 ) = 𝑄𝑛 , где ∑ 𝑄𝑗 = 1.
𝑗=1
Тогда среднее значение (математическое ожидание) выигрыша, которое игрок 1 стремится максимизировать, определяется по формуле
𝛼̅𝑖 = 𝑎𝑖1 𝑄1 + 𝑎𝑖2 𝑄2 + ⋯ + 𝑎𝑖𝑛 𝑄𝑛 , 𝑖 = ̅̅̅̅̅̅
1, 𝑚.
В качестве оптимальной стратегии Ai, выбирается та из стратегий Ai, i,
𝑖 = ̅̅̅̅̅̅
1, 𝑚, которая соответствует максимальному среднему значению выигрыша:
𝛼̅ = max𝑖 𝛼̅𝑖 = max𝑖 {∑𝑛𝑗=1 𝑎𝑖𝑗 𝑄𝑗 }
(1)
Оптимальную стратегию при известных вероятностях состояний природы можно найти, используя показатель риска. Для этого необходимо определить среднее значение риска
𝑟̅𝑖 = 𝑟𝑖1 𝑄1 + 𝑟𝑖2 𝑄2 + ⋯ + 𝑟𝑖𝑛 𝑄𝑛 , 𝑖 = ̅̅̅̅̅̅
1, 𝑚.
В качестве оптимальной стратегии в данном случае выбирается та, которая обеспечивает минимальное среднее значение риска:
𝑛
𝑟̅ = min 𝑟̅𝑖 = min {∑ 𝑟𝑖𝑗 𝑄𝑗 }
𝑖
𝑖
𝑗=1
Покажем, что применение критериев среднего выигрыша и среднего
риска для одних и тех же исходных данных приводит к одному и тому же результату. Вычислим показатели 𝑎̅𝑖 и 𝑟̅𝑖 и сложим их
𝑛
𝑛
𝑎̅𝑖 + 𝑟̅𝑖 = ∑ 𝑎𝑖𝑗 𝑄𝑗 + ∑ 𝑟𝑖𝑗 𝑄𝑗
𝑗=1
𝑗=1
Учитывая, что 𝑟𝑖𝑗 = 𝛽𝑗 − 𝑎𝑖𝑗 , получим 𝑎̅𝑖 + 𝑟̅𝑖 = ∑𝑛𝑗=1 𝛽𝑗 𝑄𝑗 .
Полученная сумма для данной матрицы есть величина постоянная. Обозначим ее через С:
𝑎̅𝑖 + 𝑟̅𝑖 = 𝐶
(2)
Из выражения (2) видно, что если 𝑎̅𝑖 обращается в максимум, то 𝑟̅𝑖 принимает минимальное значение. Следовательно, оптимальная стратегия, полученная при применении критерия максимизации среднего выигрыша, будет
совпадать с оптимальной стратегией, полученной по критерию минимизации
среднего риска.
Отметим еще одно важное положение, что, когда известны вероятности
состояний природы Q1, Q2..... Qn, игроку 1 нет смысла пользоваться смешанными стратегиями. Действительно, если игрок 1 применит смешанную
стратегию 𝑝𝐴 = (𝑝1 , 𝑝2 , … , 𝑝𝑚 ), то его средний выигрыш, осредненный .по
условиям природы и по его стратегиям, будет равен
𝑚
𝑎̿ = ∑ 𝑎̅𝑖 𝑝𝑖
𝑖=1
Но 𝑎̿ не может быть больше максимальной из осредняемых величин, т. е.
𝑎̿ ≤ max𝑖 𝑎̅𝑖 . Отсюда следует, что применение в игре с природой любой смешанной стратегии pA не может быть выгоднее для игрока 1, чем применение
оптимальной чистой стратегии.
Пример 3. На основе данных примера1 (см. табл. 1) определить оптимальную стратегию, если известны вероятностные характеристики погодных
условий: вероятность выпадения осадков меньше нормы Q1 =0,3; вероятность
выпадения осадков равна норме Q2=0,4; вероятность выпадения осадков
больше нормы Q3=0,3.
Средние значения выигрышей для каждой из стратегий игрока 1: ̅̅̅=
𝛼1
185ц; ̅̅̅=188
𝛼2
ц; ̅̅̅=204
𝛼3
ц.
Максимальное среднее значение выигрыша
𝛼̅ = max 𝑎̅𝑖 = max(185, 188, 204) = 204.
𝑖
Следовательно, оптимальной стратегией, согласно решению задачи,
является стратегия А3 (сеять картофель на сухом участке).
Предлагается найти решение этой же задачи по критерию риска.
Оценка вероятностей состояний природы
Мы рассмотрели решение статистических игр на основе объективно
вычисленных вероятностей состояний природы. Если объективные оценки
состояний получить невозможно, то вероятности состояний природы могут
быть оценены субъективно на основе:
1) принципа недостаточного основания Лапласа
1
𝑄1 = 𝑄2 = ⋯ = 𝑄𝑛 = ,
(3)
𝑛
который применяется тогда, когда ни одно состояние природы нельзя предпочесть другому;
2) убывающей арифметической прогрессии
𝑄1 : 𝑄2 : … : 𝑄𝑛 = 𝑛: (𝑛 − 1): … : 1,
где
2(𝑛−𝑗+1)
𝑄𝑗 =
, 𝑗 = ̅̅̅̅̅
1, 𝑛;
(4)
𝑛(𝑛+1)
этот прием применяется, если можно расположить состояния природы в порядке убывания их правдоподобности (вероятности свершения) ;
3) получения средних значений вероятностей состояний 𝑄̅1 , 𝑄̅2 , … , 𝑄̅𝑛 , используя оценки группы экспертов.
Кроме рассмотренных подходов к решению игр с природой, основанных на применении объективно вычисленных или субъективно назначенных вероятностей состояний природы, существуют и другие подходы к
нахождению оптимального решения в условиях полной неопределенности,
основанные на применении других критериев.
Максиминный критерий Вальда. Это критерий крайнего пессимизма.
В соответствии с этим критерием в качестве оптимальной рекомендуется выбирать ту стратегию, которая гарантирует в наихудших условиях максимальный выигрыш, т. е. максиминную стратегию:
𝛼 = max𝑖 min𝑗 𝑎𝑖𝑗 .
Критерий Сэвиджа (минимаксного риска). Этот критерий, так же как
и критерий Вальда, является критерием крайнего пессимизма. Согласно этому критерию, рекомендуется выбирать ту стратегию, при которой в наихудших условиях величина риска принимает наименьшее значение:
𝑟 = min𝑖 max𝑗 𝑟𝑖𝑗 .
(5)
Критерий Гурвица. Этот критерий называют критерием обобщенного
максимума или пессимизма-оптимизма. Он имеет вид
𝑠 = max {𝜆 min 𝑎𝑖𝑗 + (1 − 𝜆) max 𝑎𝑖𝑗 },
𝑖
𝑗
𝑗
где 0 ≤ 𝜆 ≤ 1.
Очевидно, что при λ=1 критерий Гурвица превращается в пессимистический критерий Вальда, а при λ=0 — в критерий крайнего оптимизма. Ко-
эффициент λ выбирается на основании субъективных соображений (опыта,
здравого смысла и т. д.).
Пример 4. Найти решение игры, используя принцип недостаточного основания Лапласа. Ожидаемая прибыль (тыс. руб.) при различных стратегиях игрока 1 (Ai) и состояниях природы (Пj) задана матрицей выигрышей (см. табл.
4).
Таблица 4.
2 П1
П2
П3
П4
1
А1
1
3
1
4
А2
4
1
3
2
А3
3
1
3
1
А4
3
0
2
3
На основании выражения (3) имеем
𝑄1 = 𝑄2 = 𝑄3 = 𝑄4 =
Тогда
1
4
1
𝛼1 = (1 + 3 + 1 + 4) = 2,25.
̅̅̅
4
1
𝛼2 = (4 + 1 + 3 + 2) = 2,5.
̅̅̅
4
1
𝛼3 = (3 + 1 + 3 + 1) = 2.
̅̅̅
4
1
𝛼4 = (3 + 0 + 2 + 3) = 2.
̅̅̅
4
Максимальное среднее значение выигрыша
𝛼̅ = max 𝛼̅𝑖 = 𝑚𝑎𝑥(2,25; 2,5; 2; 2) = 2,5 тыс. руб.
𝑖
Следовательно, оптимальной является стратегия А2, которая при равновероятных состояниях природы обеспечивает получение средней прибыли
2,5 тыс. руб.
Пример 5. Найти решение игры с природой, представленной матрицей выигрыша из примера 4, если известно, что стратегии природы в порядке убывания их правдоподобности образуют последовательность П3, П1, П2, П4.
Стратегиям П3, П1, П2, П4 поставим в соответствие стратегии
′
′
П1 , П2 , П′3 , П′4 . Тогда матрица выигрышей будет представлена табл. 5.
Таблица 5.
2 П1’
1
А1
А2
А3
А4
1
3
3
2
П2’
П3’
П4’
1
4
3
3
3
1
1
0
4
2
1
3
𝛼̅𝑖
1,7
2,8
2,4
2,0
Используя выражение (4), при n = 4 находим Q1 = 2/5; Q2 = 3/10; Q3 = 1/5; Q4
= 1/10. Средние выигрыши 𝛼̅𝑖 приведены в последнем столбце таблицы. Из
элементов этого столбца видно, что оптимальной стратегией игрока 1 является стратегия А2, обеспечивающая среднюю прибыль ̅̅̅
𝛼2 = 2,8 тыс. руб.
Пример 6. Руководство универмага заказывает товар вида А. Известно, что
спрос на данный вид товара лежит в пределах от 6 до 9 ед. Если заказанного
товара окажется недостаточно для удовлетворения спроса, то руководство
может срочно заказать и завезти недостающее количество. Если же спрос будет меньше наличного количества товара, то нереализованный товар хранится на складе универмага.
Требуется определить такой объем заказа на товар, при котором дополнительные затраты, связанные с хранением и срочным завозом были бы минимальными, если расходы на хранение единицы товара составляют 1 руб., а
по срочному заказу и завозу — 2 руб.
В данном примере покупательский спрос выступает в качестве второго
игрока, т. е. природы, стратегии которой определяются данными спроса, т. е.
П1 = 6 ед.; П2 = 7 ед.; П3 = 8 ед.; П4 = 9 ед.
Игроком 1 является руководство универмага, стратегии которого лежат
в тех же пределах.
Платежная матрица игры представлена в табл. 6.
Таблица 6.
2 П1=6
П2=7
П3=8
П4=9
αi
1
А1=6
0
- 2
- 4
- 6
- 6
А2=7
- 1
0
- 2
- 4
- 4
А3=8
- 2
- 1
0
- 2
- 2
А4=9
- 3
- 2
- 1
0
- 3
При расчете элементов матрицы учтены только дополнительные затраты, связанные с хранением и срочным завозом товара. Например, при заказе
8 ед. товара и спросе, равном 7 ед., расходы по хранению 1 ед. товара составляют 1 руб. Если спрос при этом же размере заказа равен 9 ед., то затраты на
срочную доставку одной единицы товара составят 2 руб.
Найдем решение игры по критериям Вальда, Сэвнджа и Гурвица при
λ= 0,2.
1. Критерий Вальда. Найдем элементы 𝛼𝑖 = min𝑗 (𝑎𝑖𝑗 ), 𝑖 = ̅̅̅̅̅
1, 4 и запишем
их в дополнительный столбец табл. 6.
Максимальная из величин αi α3 = - 2, следовательно, оптимальной является
стратегия А3, т. е. необходимо заказывать по 8 ед. товара.
2. Критерий Сэвиджа. Пересчитаем матрицу выигрышей в матрицу рисков и
поместим в правом добавочном столбце максимальный риск (см. табл. 7).
Таблица 7.
2 П1=6
1
А1=6
0
А2=7
1
А3=8
2
А4=9
3
П2=7
П3=8
2
0
1
2
П4=9
4
2
0
1
ri
6
4
2
0
6
4
2
3
В соответствии с выражением (5) находим минимальную из величин n, которая равна 2. Следовательно, по критерию Сэвиджа оптимальной является
также стратегия А3.
3. Критерий Гурвица. В правых трех столбцах матрицы (табл. 8) запишем
оценки:
𝛼𝑖 = min 𝑎𝑖𝑗 ;
𝑊𝑖 = max 𝑎𝑖𝑗 ; ℎ𝑖 = 𝜆𝛼𝑖 + (1 − 𝜆) 𝑊𝑖 .
𝑗
𝑗
Наибольшим из всех значений hi является h3 = - 0,4, соответствующее стратегии А3. Следовательно, руководство универмага имеет все основания заказывать по 8 ед. товара, так как все три критерия говорят в пользу стратегии
А3.
Легко заметить, что по критерию Гурвица при любых значениях 0≥ 𝜆 ≥ 1
оптимальной является стратегия A3. Лишь при λ = 0 (крайнем оптимизме) все
стратегии равнозначны.
Таблица 8.
2 П1=6
П2=7
П3=8
П4=9
Wi
hi
αi
1
А1=6
0
-2
-4
-6
-6
0
-1,2
А2=7
-1
0
-2
-4
-4
0
-0,8
А3=8
-2
-1
0
-2
-2
0
-0,4
А4=9
-3
-2
-1
0
-3
0
-0,6
Лекция 5
ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА
В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ
Предположим, что необходимо выполнить некоторую операцию. Условия, в которых будет выполняться операция, недостаточно выяснены. Для их
выяснения можно провести эксперимент, однако это требует затраты средств.
Следует определить: нужно проводить эксперимент или лучше от него воздержаться?
С экономической точки зрения эксперимент целесообразно проводить в
том случае, если затраты на его проведение не превышают выигрыша, который можно получить при более точном знании обстановки. Рассмотрим решение проблемы, основанное на байесовском подходе к принятию решений
(т. е. на известных вероятностях условий), который гарантирует при многократном повторении операции в сходных условиях получение максимального
в среднем выигрыша.
Пусть известны матрица выигрышей ‖𝑎𝑖𝑗 ‖, 𝑖 = ̅̅̅̅̅̅
1, 𝑚; 𝑗 = ̅̅̅̅̅
1, 𝑛, игры с
природой и вероятности Q1, Q2, ... , Оn различных состояний природы П1, П2,
.. . , Пn. Известны также затраты на проведение эксперимента, которые составляют С руб.
Рассмотрим случай идеального эксперимента, проведение которого
позволяет точно определить состояние природы Пj, при котором будет осуществляться операция.
Если эксперимент не проводится, то средний выигрыш игрока 1 определяется в соответствии с выражением (1):
𝑛
𝛼̅ =
max {∑ 𝑎𝑖𝑗 𝑄𝑗 }
𝑖
(1)
𝑗=1
Полагаем теперь, что эксперимент проведен и выяснено действительное состояние природы, при котором будет осуществляться операция.
Если этим состоянием оказалось П1, то выигрыш игрока 1 𝛽1 = max𝑖 𝑎𝑖1 ; если
П2, то выигрыш 𝛽2 = max𝑖 𝑎𝑖2 и т. д. Наконец, при действительном состоянии природы Пn выигрыш игрока 1𝛽𝑛 = max𝑖 𝑎𝑖𝑛 . Однако на самом деле
истинное состояние природы неизвестно, и требуется определить целесообразность проведения эксперимента, поэтому гипотетический средний выигрыш β игрока 1 найдем из выражения
𝑛
𝛽̅ = ∑ 𝛽𝑗 𝑄𝑗
𝑗=1
Эксперимент нужно проводить, если
𝑛
𝑛
𝐶 < ∑ 𝛽𝑗 𝑄𝑗 − max {∑ 𝑎𝑖𝑗 𝑄𝑗 }
𝑗=1
𝑖
(2)
𝑗=1
Так как уменьшаемое в соотношении (2) есть величина постоянная, то
это соотношение можно записать в виде
𝑛
𝐶 < min {∑ 𝑄𝑗 (𝛽𝑗 − 𝑎𝑖𝑗 )}
𝑖
𝑗=1
Учитывая, что βj—aij = rij, окончательно имеем
𝑛
𝐶 < min {∑ 𝑄𝑗 𝑟𝑖𝑗 } = min 𝑟̅𝑖
𝑖
𝑖
𝑗=1
(3)
Таким образом, если затраты на осуществление эксперимента меньше
минимального среднего риска, то его следует проводить. Если же условие (3)
не выполняется, то эксперимент проводить нецелесообразно. В качестве оптимальной стратегии в этом случае следует выбирать ту, для которой средний риск минимален.
Рассмотрим теперь случай неидеального эксперимента. Предположим,
что проведение эксперимента не позволяет точно определить заранее состояние природы Пj, а лишь приводит к одному из l несовместных исходов (событий) В1, В2, Bl. Каждый из исходов дает некоторые косвенные данные в
пользу тех или других состояний природы Пj. Вероятности исходов зависят
от условий П1, П2,…, Пn, в которых проводится эксперимент. Будем считать,
что условные вероятности появления событий 𝐵𝑘 , 𝑘 = ̅̅̅̅
1, 𝑙 , в условиях Пj,
𝑗 = ̅̅̅̅̅
1, 𝑛, нам известны. Обозначим их через Р{Вk/Пj).
Предположим, что эксперимент произведен и получен исход Bk. В этом
случае находим новые апостериорные вероятности состояний природы Qjk
(вероятности состояний Пj, 𝑗 = ̅̅̅̅̅
1, 𝑛, при условии, что в результате экспери̅̅̅̅
мента получен исход 𝐵𝑘 , 𝑘 = 1, 𝑙 , вместо прежних априорных Qj) по формуле Байеса:
𝑄𝑗 𝑃(𝐵𝑘 /П𝑗 )
𝑄𝑗𝑘 = 𝑛
, 𝑗 = ̅̅̅̅̅
1, 𝑛; 𝑘 = ̅̅̅̅̅
1, 𝑙.
(4)
∑𝑗=1 𝑄𝑗 𝑃(𝐵𝑘 /П𝑗 )
Знаменатель правой части выражения (4) есть полная вероятность события (исхода) 𝐵𝑘 , 𝑘 = ̅̅̅̅
1, 𝑙 , т. е.
𝑛
𝑃(𝐵𝑘 ) = ∑ 𝑄𝑗 𝑃(𝐵𝑘 /П𝑗 ).
𝑗=1
Найдем гипотетические средине выигрыши 𝛼̅𝑖 (𝑘) для каждого из исходов 𝐵𝑘 , 𝑘 = ̅̅̅̅
1, 𝑙 , осредняя их с весами, равными апостериорным вероятностям Qjk.
𝑛
𝛼̅𝑖 (𝑘) = ∑ 𝑎𝑖𝑗 𝑄𝑗𝑘 , 𝑖 = ̅̅̅̅̅̅
1, 𝑚 ; 𝑘 = ̅̅̅̅̅
1, 𝑙.
𝑗=1
(5)
Оптимальную стратегию игрока 1 при исходе эксперимента Вk определяет
максимальный средний выигрыш 𝛼̅ (𝑘) = max𝑖 𝛼̅𝑖 (𝑘) , 𝑘 = ̅̅̅̅
1, 𝑙.
Применяя полные вероятности исходов эксперимента P(Bk), определим
среднее значение среднего выигрыша:
𝑙
𝛼̅ ∗ = ∑ 𝛼̅ (𝑘) 𝑃(𝐵𝑘 )
𝑘=1
Решение о целесообразности проведения эксперимента применяется в
соответствии с неравенством
𝑛
𝐶 < 𝛼̅ ∗ − max ∑ 𝑎𝑖𝑗 𝑄𝑗
𝑖
(6)
𝑗=1
Если неравенство (6) выполняется, то проведение эксперимента целесообразно, в противном случае — нецелесообразно.
Пример 1. Матрица выигрышей игры с природой приведена в табл. 1. Вероятности состояний природы П1, П2, П3, П4 известны и равны соответственно:
Q1 = 0,2; Q2=0, Q3 = 0,2; Q4 = 0,5. Стоимость намечаемого к выполнению эксперимента для выяснения условии, в которых будет осуществляться операция, С = 1,5 руб. Необходимо определить целесообразность:
1) проведения эксперимента в предположении, что он позволяет точно охарактеризовать состояние природы Пj, при котором будет осуществляться операция;
2) проведения эксперимента в предположении, что он приводит к исходам В1,
В2, В3, условные вероятности которых P(Bh/Пj) представлены в табл. 2.
Таблица 1
2 П1
П2
П3
П4
1
А1
3
0
2
6
А2
2
1
0
4
А3
0
3
1
5
Таблица 2
2 П1
П2
П3
П4
1
В1
0,2
0,8
0,5
0,4
В2
0,3
0,2
0,1
0,4
В3
0,5
0
0,4
0,2
1. Расчеты целесообразности проведения эксперимента произведем исходя из
среднего выигрыша (читателю предлагается произвести расчет исходя из
среднего риска). В соответствии с выражением (1) находим средний выигрыш
𝑛
𝛼̅ =
max {∑ 𝑎𝑖𝑗 𝑄𝑗 } = max(4; 2,5; 3) = 4.
𝑖
𝑗=1
Гипотетический средний выигрыш
𝑛
𝛽̅ = ∑ 𝛽𝑗 𝑄𝑗 = 3 · 0,2 + 3 · 0,1 + 2 · 0,2 + 6 · 0,5 = 4,3.
𝑗=1
Так как выражение (2) не выполняется: С= 1,5≮ 𝛽̅ − 𝛼̅ = 4,3 - 4,0 = 0,3, то
эксперимент проводить нецелесообразно.
2. Предположим, что в результате эксперимента имел место исход В1. Вычислим апостериорные вероятности Qj1 по формуле Байеса [см. выражение
(4)]:
0,2 ∙ 0,2
𝑄11 =
≈ 0,095;
0,2 ∙ 0,2 + 0,1 ∙ 0,8 + 0,2 ∙ 0,5 + 0,5 ∙ 0,4
0,08
0,1
0,2
𝑄21 =
≈ 0,19; 𝑄31 =
≈ 0,24; 𝑄41 =
≈ 0,476.
0,42
0,42
0,42
̅̅̅̅, равны:
Если имел место исход В2, то апостериорные вероятности Qj2, 𝑗 = 1,4
0,2 ∙ 0,3
𝑄12 =
= 0,2;
0,2 ∙ 0,3 + 0,1 ∙ 0,2 + 0,2 ∙ 0,1 + 0,5 ∙ 0,4
0,02
0,02
0,2
𝑄22 =
≈ 0,067; 𝑄32 =
≈ 0,067; 𝑄42 =
= 0,666.
0,3
0,3
0,3
При исходе В3 имеем:
0,2 ∙ 0,5
𝑄13 =
≈ 0,36;
0,2 ∙ 0,5 + 0,1 ∙ 0 + 0,2 ∙ 0,4 + 0,5 ∙ 0,2
0
0,08
0,1
𝑄23 =
= 0; 𝑄33 =
≈ 0,28; 𝑄43 =
≈ 0,36.
0,28
0,28
0,28
Запишем все найденные апостериорные вероятности состояний природы при исходах В1 и B2 и В3 в табл. 3.
Таблица 3
2 П1
П2
П3
П4
1
В1
0,095
0,19
0,24
0,476
В2
0,2
0,067
0,067
0,666
В3
0,36
0
0,28
0,36
̅̅̅̅. РезульНайдем средние выигрыши 𝛼𝑖 (𝑘) для каждого из исходов 𝐵𝑘 , 𝑘 = 1,3
таты расчетов запишем в табл. 4.
Таблица 4
2 П1
П2
П3
П4
𝛼̅𝑖 (1)
𝛼̅𝑖 (2)
𝛼̅𝑖 (3)
1
А1*
3
0
2
6
3,62* 4,73*
3,8*
А2
2
1
0
4
2,28
3,131
2,16
А3
0
3
1
5
3,19
3,598
2,08
Qj1
0,095
0,19
0,24
0,476
Qj2
0,2
0,067
0,067
0,666
Qj3
0,36
0
0,28
0,36
В трех нижних строках таблицы записаны апостериорные вероятности,
а в трех правых столбцах — средние выигрыши для исходов В1, В2 и В3 соответственно. Вычисления проведены по формуле (5).
Оптимальной стратегией игрока 1 при любом из исходов эксперимента является стратегия A1. Если в результате эксперимента получен исход В1, средний выигрыш игрока 1 𝛼̅ (1) = max𝑖 𝛼̅𝑖 (1) = max (3,62; 2,28; 3,19) =3,62; если
В2 - 𝛼̅ (2) = 4,73; если В3 — 𝛼̅ (3) = 3,8.
̅̅̅̅:
Определим полные вероятности исходов эксперимента 𝐵𝑘 , 𝑘 = 1,3
𝑛
𝑃(𝐵1 ) = ∑ 𝑄𝑗 𝑃(𝐵1 /П𝑗 ) = 0,2 ∙ 0,2 + 0,1 ∙ 0,8 + 0,2 ∙ 0,5 + 0,5 ∙ 0,4 = 0,42;
𝑗=1
𝑛
𝑃(𝐵2 ) = ∑ 𝑄𝑗 𝑃(𝐵2 /П𝑗 ) = 0,2 ∙ 0,3 + 0,1 ∙ 0,2 + 0,2 ∙ 0,1 + 0,5 ∙ 0,4 = 0,3;
𝑗=1
𝑛
𝑃(𝐵3 ) = ∑ 𝑄𝑗 𝑃(𝐵3 /П𝑗 ) = 0,2 ∙ 0,5 + 0,1 ∙ 0 + 0,2 ∙ 0,4 + 0,5 ∙ 0,2 = 0,28;
𝑗=1
Тогда среднее значение среднего выигрыша
𝛼̅ ∗ = ∑𝑙𝑘=1 𝛼̅ (𝑘) 𝑃(𝐵𝑘 ) = 3,62-0,42 + 4,73-0,3 +3,8 0,28 = 4,003.
Так как затраты на эксперимент превышают увеличение выигрыша за счет
более точного знания условий осуществления операции (С = 1,5 > 𝛼̅ ∗ −
max𝑖 ∑𝑛𝑗=1 𝑎𝑖𝑗 𝑄𝑗 = 4,003 — 4,0 = 0,003), то проведение эксперимента нецелесообразно.
Download