Теория принятия решений, часть 2, Decision theory, Part 2

advertisement
Тема. ПРИНЯТИЕ РЕШЕНИЙ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ
Введение. Часть условий при разработке решения всегда неопределенна,
поэтому практически все решения принимаются в условиях некоторой неопределенности. Но картина становится принципиально иной тогда, когда неопределенно большинство важнейших исходных данных.
"Неопределенными могут быть как условия выполнения операции, так и сознательные действия противников или других лиц, от которых зависит успех операции. Кроме того, неопределенность в той или другой степени может относиться
также к целям (задачам) операции, успех которой не всегда может быть исчерпывающим образом охарактеризован одним единственным числом – показателем
эффективности.
Разумеется, когда речь идет о неопределенности в каком-то смысле ситуации, то рекомендации, вытекающие из научного исследования, не могут быть
столь же четкими и однозначными, как в случаях полной определенности. Однако
и при отсутствии полной определенности количественный анализ ситуации все же
может принести пользу и помочь при выборе решения. Разработаны специальные
математические методы, предназначенные для обоснования решений в условиях
неопределенности. В некоторых наиболее простых случаях эти методы дают возможность фактически найти и выбрать оптимальное решение.
В более сложных случаях эти методы доставляют вспомогательный материал, позволяющий глубже разобраться в сложной ситуации и оценить каждое из
возможных решений с различных (иногда противоречивых) точек зрения, взвесить его преимущества и недостатки и, в конечном счете, принять решение, если
не единственно правильное, то, по крайней мере, до конца продуманное.
Необходимо учитывать, что при выборе решения в условиях неопределенности всегда неизбежен элемент произвола, а значит, и риска. Недостаточность
информации всегда опасна, и за нее приходится платить. Однако в условиях
сложной ситуации всегда полезно представить варианты решения и их возможные
последствия в такой форме, чтобы сделать произвол выбора менее грубым, а риск
минимальным".
Как отмечалось, риск может быть снижен применением специальных приемов при разработке и принятии решений финансового менеджмента.
Задачами о принятии решений в условиях неопределенности занимает теория игр и теория статистических решений.
1. ТЕОРИЯ ИГР
1.1. Предмет и задачи теории игр
Подавляющее большинство социально-экономических решений приходится
принимать с учетом противоречивых интересов, относящихся либо к различным
лицам или организациям, либо к различным аспектам рассматриваемого явления,
либо к тому и другому. В таких случаях невозможно применить традиционные
методы оптимизации. В обычных экстремальных задачах речь идет о выборе решения одним лицом, и результат решения зависит от этого выбора, то есть определяется действиями только одного лица. В такую схему не укладываются ситуации, где решения, оптимальные для одной стороны, совсем не оптимальны для
другой и результат решения зависит от всех конфликтующих сторон.
Конфликтный характер таких задач не предполагает вражды между участниками, а свидетельствует о различных интересах. Необходимость анализировать
подобные ситуации вызвала к жизни специальный математический аппарат —
теорию игр.
Теория игр представляет собой часть обширной теории, изучающей процессы
принятия оптимальных решений. Она дает формальный язык для описания процессов принятия сознательных, целенаправленных решений с участием одного
или нескольких лиц в условиях неопределенности и конфликта, вызываемого
столкновением интересов конфликтующих сторон.
Теория игр, раздел математики, изучающий формальные модели принятия
оптимальных решений в условиях конфликта. При этом под конфликтом понимается явление, в котором участвуют различные стороны, наделённые различными
интересами и возможностями выбирать доступные для них действия в соответствии с этими интересами. Отдельные математические вопросы, касающиеся
конфликтов, рассматривались (начиная с 17 в.) многими учёными. Систематическая же математическая теория игр была детально разработана американскими
учёными Дж. Нейманом и О. Моргенштерном (1944) как средство математического подхода к явлениям конкурентной экономики. В ходе своего развития теория
игр переросла эти рамки и превратилась в общую математическую теорию конфликтов. В рамках теории игр в принципе поддаются математическому описанию
военные и правовые конфликты, спортивные состязания, "салонные" игры, а также явления, связанные с биологической борьбой за существование.
В условиях конфликта стремление противника скрыть свои предстоящие действия порождает неопределённость. Наоборот, неопределённость при принятии
решений (например, на основе недостаточных данных) можно интерпретировать
как конфликт принимающего решения субъекта с природой. Поэтому И. т. рассматривается также как теория принятия оптимальных решений в условиях неопределённости. Она позволяет математизировать некоторые важные аспекты
принятия решений в технике, сельском хозяйстве, медицине и социологии. Перспективен подход с позиций теории игр к проблемам управления, планирования и
прогнозирования.
Целью теории игр является выработка рекомендаций по рациональному образу действий участников в конфликтных ситуациях, то есть определение оптимальной стратегии каждого из них.
Первые работы по теории игр (Цермело, Борель, фон Нейман) относятся к
началу ХХ века. Но только появление и широкое распространение ЭВМ привлекло к теории игр внимание широкого круга специалистов.
Теория стратегических игр, в своей математической форме, возникла в 30-х
годах XX века. Ее создателем считается Джон фон Нейман. Первой фундаментальной книгой по теории игр была изданная в 1944 году работа "Теория игр и
экономическое поведение" (Нейман Д., Моргенштерн О. М.:Наука,1970).
Практическое значение теории игр состоит в том, что она служит основой
моделирования игровых экспериментов, в частности, деловых игр, позволяющих
определять оптимальное поведение в сложных ситуациях.
Примеры практического и в том числе экономического содержания призваны,
скорее всего, содержательно интерпретировать математические положения теории игр, чем указывать на фактические или возможные их приложения. От реальной конфликтной ситуации игра отличается тем, что ведется по вполне определенным правилам. Реальные конфликты обычно трудно поддаются формальному
описанию, поэтому любая игра является упрощением исходной задачи, в ней отражаются лишь основные, первостепенные факторы, отражающие суть процесса
или явления.
В зависимости от того, какими данными располагает исследователь, и какую
задачу перед собой ставит, могут быть сформулированы различные теоретикоигровые модели. Различают три основных типа задач:
1. Нахождение оптимального исхода. В качестве исхода в общем случае может рассматриваться социально-экономическая ситуация. В зависимости от содержания задачи ситуацию можно описать наборами благ, получаемых каждым
игроком (выигрышами), или исходом может быть избрание того или иного кандидата, принятие того или иного проекта, договора и т.д. При этом в общем случае
надо найти коалиционную структуру и коалиционные стратегии, при которых оптимальный исход реализуется.
2. Нахождение оптимального исхода при фиксированной коалиционной
структуре, то есть когда нам заведомо известно, что, например, образование коалиций, запрещено, невозможно или имеющаяся коалиционная структура не должна меняться по каким-либо политическим или экономическим соображениям. В
этом случае общей задачей является нахождение правил принятия решений в коалициях (порядок вознаграждения ее членов), при которых данная коалиционная
структура не распадется, и, значит, система будет функционировать согласно интересам и возможностям ее участников.
3. Нахождение устойчивой коалиционной структуры при заданных правилах
принятия решений (конституции, нормативных актах, уставе предприятия и др.) в
коалициях. Такие задачи часто встречаются при решении экономических и социальных проблем.
Формализованные модели конфликтов известны с давних пор: это игры в
буквальном смысле слова - шахматы, карты, кости и т.п. Эти игры носят характер
соревнования, протекающего по известным правилам. Терминология, заимствованная из практики таких игр, применима и для других конфликтных ситуаций,
которые рассматривает теория игр.
1.1.1. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
Задолго до появления теории игр широко использовали подобные упрощённые модели конфликтов – игры в буквальном смысле слова: шашки, шахматы,
домино и т.д. Отсюда и название самой теории игр, и различные термины.
ИГРОЙ называется всякая конфликтная ситуация, изучаемая в теории игр и
представляющая собой упрощенную, схематизированную модель ситуации. От
реальной конфликтной ситуации игра отличается тем, что не включает второстепенные, несущественные для ситуации факторы и ведется по определенным правилам, которые в реальной ситуации могут нарушаться.
Всякая игра включает в себя три элемента: участников игры – игроков, правила игры, оценку результатов действий игроков.
Игроком (лицом, стороной, или коалицией) называется отдельная совокупность интересов, отстаиваемая в игре. Если данную совокупность интересов отстаивает несколько участников игры, то они рассматриваются как один игрок. Игроки, имеющие противоположные по отношению друг к другу интересы, называются противниками. В игре могут сталкиваться интересы двух или более противников. Одна реализация игры называется партией; выбор действия (в пределах
правил) – ходом. Ходы бывают личные и случайные. Личный ход предполагает сознательный выбор того или иного действия, разрешенного правилами игры, а случайный – не зависит от воли игрока (например, он может быть определён подбрасыванием монеты или игральной кости и т.п.). Игры, в которых имеются личные
ходы, называются стратегическими. Игры, состоящие только из случайных ходов, называют азартными. Характерный пример – игра в лото.
Стратегией игрока называется совокупность правил, определяющих выбор
варианта действий при каждом личном ходе в зависимости от сложившейся ситуации.
В зависимости от числа стратегий игры делятся на "конечные" и "бесконечные". Игра называется конечной, если у каждого игрока имеется в распоряжении
только конечное число стратегий. В противном случае игра называется бесконечной.
Оптимальной стратегией игрока называется такая, которая обеспечивает
ему наилучшее положение в данной игре, т.е. максимальный выигрыш. Если игра
повторяется неоднократно и содержит, кроме личных, ещё и случайные ходы, оптимальная стратегия обеспечивает максимальный средний выигрыш.
Игра называется игрой с нулевой суммой, если сумма выигрышей всех игроков равна нулю, т.е. каждый игрок выигрывает только за счёт других. Самый простой случай – парная игра с нулевой суммой – называется антагонистической.
Теория антагонистических игр – наиболее развитый раздел теории игр, с чёткими рекомендациями.
1.1.2. АНТАГОНИСТИЧЕСКИЕ ИГРЫ
Опр. Антагонистической игрой называется система G=<A,B,H>, где A,B - непустые множества стратегий соответственно первого и второго игроков; H(a,b) –
функция выигрыша игрока A (то есть функция потерь игрока B), aA, bB.
Таким образом, в процессе игры каждый игрок выбирает свою стратегию, в
результате чего образуется ситуация (a, b), которой соответствует выигрыш Н(a,
b) для первого игрока и – Н(a, b) для второго.
Антагонистические игры, в которых каждый игрок имеет конечное множество стратегий, называются матричными играми. Для задания такой игры достаточно выписать так называемую платежную матрицу, в которой строки соответствуют стратегиям первого игрока, а столбцы – стратегиям второго игрока. Элементами матрицы служат выигрыши первого игрока.
Рассмотрим антагонистические игры более подробно. В этой игре, как было
сказано выше, участвуют два игрока А и В, имеющих противоположные интересы: выигрыш одного равен проигрышу другого. Так как выигрыш игрока А равен
выигрышу игрока В с обратным знаком, мы можем интересоваться только выигрышем игрока А. Естественно, А хочет максимизировать свой выигрыш, а В –
минимизировать свой проигрыш. Пусть у игрока А имеется n возможных стратегий А1, А2, . . . ,Аn, а у противника – m – возможных стратегий В1, В2, . . ., Вm (такая игра называется игрой nm). Обозначим аij выигрыш игрока А в случае, если
мы пользуемся стратегией Аi, а противник – стратегией Вj. Предположим, что для
каждой пары стратегий (Аi, Вj) выигрыш (или средний выигрыш) аij нам известен.
Тогда в принципе можно составить прямоугольную таблицу (матрицу), в которой
перечислены стратегии игроков и соответствующие выигрыши (см. таблицу 1).
Таблица 1. Платёжная матрица
B
В1
В2
А1
а11
а12
А2
а21
а2m
an1
аnm
A
...
Вm
а1m
...
Аn
Если такая таблица составлена, то говорят, что игра G приведена к матричной
форме. Такая таблица называется платежной матрицей или просто матрицей иг-
ры. Отметим, что само по себе приведение игры к такой форме уже может составить трудную задачу, а иногда и практически не выполнимую, из-за необозримого
множества стратегий. Заметим, что если игра приведена к матричной форме, то
многоходовая игра фактически сведена к одноходовой – от игрока требуется сделать только один ход: выбрать стратегию. Будем кратко обозначать матрицу игры
П=(аij). Если конечная игра записана в виде такой матрицы, то говорят, что она
приведена к нормальной форме. Но попробуйте, например, записать и нормальной форме обыкновенные шахматы! Вы сразу столкнетесь с тем, что количество
возможных стратегий необозримо велико — настолько велико, что их перечисление выходит за пределы возможностей не только человека, но и современной вычислительной машины. А жаль! Потому что, если бы построение матрицы шахматной игры было возможно, это имело бы очень любопытные последствия... Но
не будем забегать вперед.
Рассмотрим пример. Игроки А и В одновременно и независимо друг от друга
записывает каждый одно из трёх чисел: 1, 2 или 3. Если сумма записанных чисел
оказывается четной, то игрок В платит игроку А эту сумму; если же сумма чисел
оказывается нечетной, то эту сумму выплачивает игрок А игроку В.
У игрока А три стратегии:
А1 – записать 1; А2 – записать 2; А3 – записать 3.
Стратегии игрока В аналогичны. Рассматриваемая игра есть игра 33. Платёжная матрица имеет три строки и три столбца. Эта матрица представлена таблицей 2.
Таблица 2. Исходная платёжная матрица
B
A
А1
А2
А3
В1
В2
В3
2
-3
4
-3
4
-5
4
-5
6
В таблице 2 одни элементы являются положительными, а другие отрицательными. Преобразуем полученную матрицу, прибавив к каждому её элементу значение 6. Преобразованная матрица представлена таблицей 3. С точки зрения анализа оптимальных стратегий эта матрица эквивалентна исходной.
Таблица 3 Преобразованная платёжная матрица
B
A
А1
А2
А3
В1
В2
В3
8
3
10
3
10
1
10
1
12
Принцип максимина
Естественный принцип оптимальности для антагонистической игры — принцип максимина (минимакса). Будем анализировать эту игру, используя платёжную
матрицу, показанную на табл. 3. Предположим, что игрок А выбирает стратегию
А1. Тогда в зависимости от того, какую стратегию изберёт противник, наш выигрыш будет равен либо 8, либо 3, либо 10. Итак, выбирая стратегию А1, мы в худшем случае получаем выигрыш 3. Если же выберем стратегию А2 или А3, то будем иметь в худшем случае выигрыш 1. Запишем минимальные возможные выигрыши для разных стратегий Аi в виде дополнительного столбца платёжной
матрицы (табл. 4). Ясно, что следует выбирать ту стратегию, где минимальный
возможный выигрыш оказывается наибольшим (по сравнению с остальными
стратегиями). В данном случае это стратегия А1. Выигрыш 3 является максимальным в тройке минимальных выигрышей (в тройке 3, 1, 1). Его называют максиминным выигрышем или, проще, максимином. У него ещё одно название – нижняя цена игры.
Табл. 4. Нижняя и верхняя цена игры
B
A
А1
А2
А3
βi
В1
В2
В3
αi
8
3
10
3
10
1
10
1
12
12
1
1
Аналогичным образом рассуждает противник. Если он выберет стратегию В1,
то в худшем для себя случае позволит нам получить выигрыш 10. То же можно
сказать и о стратегии В2. При выборе стратегии В3 худший (для противника) случай соответствует нашему выигрышу, равному 12. Числа 10, 10, 12 – максимальные значения наших выигрышей, отвечающие стратегиям противника В1, В2, В3
соответственно. Выпишем эти значения в виде дополнительной строки платёжной
матрицы (см. табл. 4). Ясно, что противник должен выбрать ту стратегию, где наш
выигрыш оказывается наименьшим. Это есть либо стратегия В1, либо В2. Обе
стратегии являются минимаксными, обе они дают противнику гарантию, что наш
выигрыш не превысит минимакса, или, иначе, верхней цены игры, равной в данном случае 10.
Верхняя и нижняя цены игры.
Величина
Величина 
 называется нижней ценой игры.
называется верхней ценой игры.
Наша максиминная стратегия, равно как и минимаксная стратегия противника, является наиболее осторожной, "перестраховочной" стратегией. Принцип
осторожности, диктующий игрокам выбор таких стратегий, называют принципом
минимакса.
Подведём итоги. Антагонистические игры, в которых каждый игрок имеет
конечное множество стратегий, называются матричными играми. Для задания такой игры достаточно выписать так называемую платежную матрицу, в которой
строки соответствуют стратегиям первого игрока, а столбцы - стратегиям второго
игрока. Элементами матрицы служат выигрыши первого игрока.
Означает ли всё это, что теория игр рекомендует придерживаться только минимаксных (максиминных) стратегий? Ответ на этот вопрос зависит от того, имеет или не имеет платёжная матрица игры седловую точку.
Игра с седловой точкой
В теории игр седловая точка (седловой элемент) — это наибольший элемент столбца матрицы игры, который одновременно является наименьшим элементом соответствующей строки (в игре двух лиц с нулевой суммой). В этой точке,
следовательно, максимин одного игрока равен минимаксу другого; С. т. есть точка равновесия.
Рассмотрим некоторую игру 33, платёжная матрица которой дана табл. 5.
Здесь как максиминный, так и минимаксный выигрыши равны 4. Иными словами,
в данной игре нижняя и верхняя цена игры совпадают, обе равны 4. Выигрыш 4
является одновременно и максимальным из минимальных выигрышей для стратегий А1, А2, А3 и минимальным из максимальных выигрышей для стратегий В1, В2,
В3. В геометрии точку на поверхности, являющуюся одновременно минимумом
по одной оси координат и максимумом по другой, называют седловой точкой (см.
рис. 1). По аналогии с геометрией элемент а22=4 рассматриваемой здесь платёжной матрицы называют седловой точкой матрицы, а об игре говорят, что она имеет седловую точку.
Рис. 1. Пример поверхности с седловой точки
Достаточно посмотреть внимательно на матрицу (см. табл. 5), чтобы понять,
что каждый из игроков должен придерживаться максиминной (минимаксной)
стратегии. Эти стратегии являются оптимальными в игре с седловой точкой. Любое отклонение от них будет невыгодно для игрока, допустившего отклонение.
Если же игра не имеет седловой точки (см. табл. 4), то ни одна из стратегий
Аi или Вi не является оптимальной.
Табл. 5. Платёжная матрица с седловой точкой
В1
В2
В3
Минимумы
строк, i
А1
А2
А3
2
5
6
3
7
6
1
2
Максимумы
столбцов, j
6
B
A
2
1
7
Как быть, если игра не имеет седловой точки? Если каждый игрок вынужден
выбирать одну-единственную чистую стратегию, то делать нечего: надо руководствоваться принципом минимакса. Другое дело, если можно свои стратегии
"смешивать", чередовать случайным образом с какими-то вероятностями. Применение смешанных стратегий мыслится таким образом: игра повторяется много
раз; перед каждой партией игры, когда игроку предоставляется личный ход, он
"передоверяет" свой выбор случайности, "бросает жребий", и берёт ту стратегию,
которая выпала.
Смешанные стратегии в теории игр представляют модель изменчивой, гибкой
тактики, когда ни один из игроков не знает, как поведёт себя противник в данной
партии. Такая тактика (правда, обычно безо всяких математических обоснований)
часто применяется в карточных играх.
1.1.3. Решение
игр в смешанных стратегиях
Если игра не имеет седловой точки, то применение чистых стратегий не дает оптимального решения игры. Так, в таблице 4, седловая точка отсутствует. В
таком случае можно получить оптимальное решение, случайным образом чередуя
чистые стратегии.
Необходимость случайного изменения стратегии в игре
без седловой точки
Допустим, что мы и наш противник многократно играем в игру, матрица которой дана на рис. 4. Если мы выберем определённую стратегию, например максиминную стратегию A1, и будем придерживаться её от игры к игре, то противник, поняв это, будет выбирать каждый раз стратегию B2, в результате чего наш
выигрыш не превысит нижней цены игры, т.е. будет равен 3. Если, однако, мы
внезапно (для противника) сменим стратегию A1 на стратегию A2, то получим выигрыш 10. Разгадав нашу новую стратегию, противник тут же сменит стратегию
B2 на стратегию B3, уменьшив наш выигрыш до 1. И так далее. Здесь проявляется
общее правило для игр без седловой точки: игрок, играющий по определённой
(детерминированной) стратегии, оказывается в более худшем положении по сравнению с игроком, который меняет стратегию случайным образом.
Впрочем, случайные изменения стратегии надо делать не как попало, а с
умом. Пусть A1, A2, …, An — возможные стратегии игрока A. Для получения
наибольшего эффекта он должен использовать все или некоторые из этих стратегий случайным образом, но не с одинаковыми, а с разными (специально вычис-
ленными) вероятностями. Пусть стратегия A1,используется с вероятностью p1,
стратегия A2,с вероятностью p2 и т. д.
Смешанной стратегией SA игрока А называется применение чистых стратегий
A1, A2, ..., An с вероятностями p1, p2, ..., pi, ..., pn причем сумма вероятностей равна
1:
Смешанные стратегии игрока А записываются в виде матрицы
,
или в виде строки SA=(p1, p2, …, pn). В отличие от смешанных стратегий SA стратегии Aj называют чистыми. При надлежащем подборе вероятностей pj смешанная
стратегия может оказаться оптимальной. При этом выигрыш игрока A будет не
меньше некоторого значения v, называемого ценой игры. Это значение больше
нижней цены игры, но меньше верхней.
Аналогичны образом должен вести себя игрок B. Его оптимальная стратегия
также есть некоторая смешанная стратегия
или в виде строки SB=(q1, q2, …,qm), где qj — специально подобранные вероятности, с которыми игрок B использует стратегии Bj. Сумма вероятностей равна
1:
При выборе игроком B оптимальной смешанной стратегии выигрыш игрока A будет не больше цены игры v.
Чистые стратегии можно считать частным случаем смешанных. На основании принципа минимакса определяется оптимальное решение (или решение)
игры: это пара оптимальных стратегий S*A , S*B в общем случае смешанных, обладающих следующим свойством: если один из игроков придерживается своей
оптимальной стратегии, то другому не может быть выгодно отступать от своей.
Выигрыш, соответствующий оптимальному решению, называется ценой игры v.
Цена игры удовлетворяет неравенству α≤v≤β, где α и β — нижняя и верхняя цены
игры. Справедлива следующая основная теорема теории игр — теорема Неймана.
Каждая конечная игра имеет по крайней мере одно оптимальное решение, возможно, среди смешанных стратегий. Пусть S*A = (p*1, p*2, ..., p*i, ..., p*m) и S*B =
(q*1, q*2, ..., q*i, ..., q*n) — пара оптимальных стратегий. Если чистая стратегия
входит в оптимальную смешанную стратегию с отличной от нуля вероятностью,
то она называется активной.
Справедлива теорема об активных стратегиях: если один из игроков придерживается своей оптимальной смешанной стратегии, то выигрыш остается
неизменным и равным цене игры v, если второй игрок не выходит за пределы своих активных стратегий.
Решением игры называется такая пара стратегий — в общем случае смешанных, систематическое применение которых обеспечивает каждой стороне
максимально возможный для нее по условиям игры выигрыш, определяемый ценой игры. Если же одна из сторон отступает от своей оптимальной стратегии (в то
время как другая продолжает придерживаться своей), то это ни в коем случае не
может быть выгодно для отступающего; это либо оставит его выигрыш неизменным, либо уменьшит. Таким образом, каждая конечная игра имеет решение
(возможно, в области смешанных стратегий). Это положение называется основной теоремой теории игр.
Эта теорема имеет большое практическое значение — она дает конкретные
модели нахождения оптимальных стратегий при отсутствии седловой точки.
1.1.4. Приведение матричной
игры к задаче линейного программирования
Обозначим через SA=(p1, p2, …, pn) оптимальную смешанную стратегию игрока A. Требуется найти вероятности и определить цену игры при условии, что
известна платёжная матрица игры. Допустим, что игрок B выбирает чистую стратегию B1. Тогда средний выигрыш для игрока A будет равен a11p1+a21p2+…+an1pn.
Этот выигрыш должен быть не меньше цены игры v, следовательно,
a11p1+a21p2+…+an1pn≥v.
Если игрок B выберет стратегию B2, то и в этом случае средний выигрыш
игрока A должен быть не меньше цены игры v, следовательно,
a12p1+a22p2+…+an2pn≥v.
Какую бы стратегию ни выбирал игрок B, выигрыш игрока A всегда должен
быть не меньше цены игры v. Поэтому мы можем записать следующую систему
из m неравенств (напоминаем, что m — число чистых стратегий игрока B):
a11p1+a21p2+…+an1pn≥v;
a12p1+a22p2+…+an2pn≥v;
…………………………
a1mp1+a2mp2+…+anmpn≥v.
При этом p1+p2+…+pn=1.
(1)
(2)
Введя обозначения x1=p1/v, x2=p2/v, … xn=pn/v, перепишем (1) и (2) в виде
a11x1+a21x2+…+an1xn≥1;
a12x1+a22x2+…+an2xn≥1;
…………………………
a1mx1+a2mx2+…+anmxn≥1;
x1+x2+…+xn=1/v.
(3)
(4)
Нам желательно, чтобы цена игры была максимальной, следовательно, 1/v
должна быть минимальной. Таким образом, поиск оптимальной смешанной стратегии свёлся к решению следующей задачи линейного программирования: надо
найти неотрицательные величины xi такие, чтобы они удовлетворяли неравенствам (3) и обращали в минимум сумму x1+x2+…+xn, т.е.
L= x1+x2+…+xn→min,
при ограничениях
a11x1+a21x2+…+an1xn≥1;
a12x1+a22x2+…+an2xn≥1;
…………………………
a1mx1+a2mx2+…+anmxn≥1;
xi≥0, i=1, 2, …, n/
Задача. Самолёты против зениток. Найдём оптимальную смешанную стратегию некоторой конкретной игры. Предположим, что сторона A нападает на сторону B. У стороны A имеются два самолёта, несущие мощное поражающее средство. У стороны B имеются четыре зенитки, при помощи которых осуществляется
оборона важного объекта. Чтобы объект оказался разрушенным, достаточно, чтобы к нему прорвался хотя бы один самолёт. Для подхода к объекту самолёты могут выбрать любой из четырёх воздушных коридоров (см. рис. 2).
Рис. 2. Воздушные коридоры и объект
У стороны A есть две чистые стратегии: стратегия A1 — самолёты посылаются в разных воздушных коридорах (безразлично, каких именно), стратегия A2
— оба самолёта посылаются в каком-то одном из коридоров. Возможные стратегии стороны B таковы: B1 — поставить по зенитке на каждый коридор, B2 — поставить по две зенитки на какие-то два коридора (остальные два коридора остаются неохраняемыми, B3 — поставить две зенитки на один из коридоров и по одной зенитке ещё на два коридора, B4 — поставить три зенитки на один из коридоров и одну зенитку ещё на один коридор, B5 — поставить все четыре зенитки на
один из коридоров. Стратегии B4 и B5 заведомо невыгодны хотя бы потому, что
три, а тем более четыре зенитки в пределах одного коридора не нужны, ведь у
стороны A всего два самолета. Поэтому ограничимся стратегиями B1, B2, B3.
Предположим, что сторона A выбрала стратегию A1, сторона B — стратегию
B1. Ясно, что тогда ни один самолёт не прорвётся к объекту — выигрыш стороны
есть нуль (a11=0). Пусть выбраны стратегии A1 и B2. В этой ситуации, какие бы
два коридора ни выбирала сторона B для размещения пар зениток, у самолётов
всегда будут шесть равновероятных вариантов и только один проигрышный. Таким образом, при выборе стратегий A1 и B2 вероятный выигрыш стороны A составляет 5/6 (a12=5/6). Рассуждая подобным образом, найдём остальные элементы
платёжной матрицы данной игры (см. табл. 6). Нижняя цена игры равна ½, верх-
няя ¾. Седловой точки нет, оптимальное решение лежит в области смешанных
стратегий.
Табл. 6. Платёжная матрица игры
B В1
В2
В3 min
A
А1
0
А2
1
3/4
max
1
3/4
5/6
1/2
0
Чтобы найти оптимальную смешанную стратегию, воспользуемся платёжной матрицей (см. табл. 6) и соотношениями (3) и (4). В результате получим следующую задачу линейного программирования:
x1+x2→min
, x1≥0, x2≥1
Решение удобно представить графически. Для этого построим область допустимых решений D (см. рис. 3). Уравнение x1+x2=const описывает семейство параллельных прямых, которые на рисунке показаны штриховыми линиями. Из всех
прямых, имеющих хотя бы одну точку в пределах допустимой области, наименьшей сумме x1+x2 соответствует прямая FF. Точка G соответствует оптимальной
смешанной стратегии. Координаты этой точки: x1=3/5; x2=1. Отсюда v=5/8, p1=3/8,
p2=5/8. Итак, оптимальная смешанная стратегия стороны A предполагает использование стратегии A1 с вероятностью 3/8 и стратегии A2 с вероятностью 5/8.
Как воспользоваться этой рекомендацией на практике? Если игра происходит один раз, то стороне A следует, по-видимому, избрать стратегию A2, ведь
p2>p1. Предположим, что игра совершается многократно (например, по отношению к многим объектам, подлежащим бомбардировке). Если игра повторяется раз
N (N»1), то в 3N/8 случаях сторона A должна избрать стратегию A1, а в 5N/8 случаях стратегию A2.
Рассмотрим поведение стороны B. При выборе стороной A оптимальной
смешанной стратегии её средний выигрыш оказывается в пределах между верхней ценой игры, раной ¾, и ценой игры v=5/8. При неразумном поведении стороны B выигрыш стороны A может оказаться равным верхней цене игры (и даже
может стать больше). Если сторона B, в свою очередь, будет придерживаться
Рис. 3. Допустимая область D (область красного цвета) и решение G.
оптимальной смешанной стратегии, то выигрыш игрока A окажется равным цене
игры v. Оптимальная смешанная стратегия стороны B сводится к тому, что эта
сторона вообще не применяет стратегию B3, стратегию B1 использует с вероятностью ¼, а стратегию B2 с вероятностью ¾. Нецелесообразность применения стратегии B3 усматривается из рисунка: соответствующая этой стратегии прямая EE
не имеет общих точек с красной областью. Для определения вероятностей, с какими должны использоваться стратегии B1 и B2, воспользуемся уже найденным
значением цены игры (v=5/8): q10+q25/6=5/8. Отсюда видно, что q1=1/4, q2=3/4.
[Тарасов Л. В. Мир, построенный на вероятности. – М.: Просвещение, 1984. –
191 с.].
При решении произвольной конечной игры размера n × m рекомендуется
придерживаться следующей схемы:
1. Исключить из платежной матрицы заведомо невыгодные стратегии по сравнению с другими стратегиями. Такими стратегиями для игрока А (игрока В)
являются те, которым соответствуют строки (столбцы) с элементами, заведомо меньшими (большими) по сравнению с элементами других строк
(столбцов).
2. Определить верхнюю и нижнюю цены игры и проверить, имеет ли игра
седловую точку. Если седловая точка есть, то соответствующие ей стратегии игроков будут оптимальными, а цена совпадает с верхней (нижней) ценой.
3. Если седловая точка отсутствует, то решение следует искать в смешанных
стратегиях. Для игр размера m × n рекомендуется симплексный метод, для
игр размера 2×2, 2×m, m×2 возможно геометрическое решение.
Фактическое решение некоторых классов антагонистических игр сводится к
решению дифференциальных и интегральных уравнений, а матричных игр — к
решению стандартной задачи линейного программирования. Разрабатываются
приближённые и численные методы решения игр. Для многих игр оптимальными
оказываются так называемые смешанные стратегии, то есть стратегии, выбираемые случайно (например, по жребию).
Теория игр, созданная для математического решения задач экономического
и социального происхождения, не может в целом сводиться к классическим математическим теориям, созданным для решения физических и технических задач.
Однако в различных конкретных вопросах теория игр широко используются
весьма разнообразные классические математические методы. Кроме этого, теория
игр связана с рядом математических дисциплин внутренним образом. В теория
игр. систематически и по существу употребляются понятия теории вероятностей.
На языке теория игр можно сформулировать большинство задач математической
статистики. Необходимость при анализе игры количественного учёта неопределённости предопределяет важность и тем самым связь И. т. с теорией информации
и через её посредство — с кибернетикой. Кроме того, теория игр, будучи теорией
принятия решений, может рассматриваться как существенная составная часть математического аппарата операций исследования.
Теория игр применяется в экономике, технике, военном деле и даже в антропологии. Основные трудности практического применения теория игр связаны
с экономической и социальной природой моделируемых ею явлений и недостаточным умением составлять такие модели на количественном уровне.
2. Принятие решений в условиях неопределенности. Элементы теории статистических решений
Предметом рассмотрения данного раздела служат статистические модели
принятия решений, трактуемые как статистические игры или игры с Природой
при использовании дополнительной статистической информации о её стратегиях.
Характерная черта статистической игры – возможность получения информации в
результате некоторого статистического эксперимента для оценки распределения
вероятностей стратегий природы. Исследование механизма случайного выбора
стратегии природой позволяет принять оптимальное решение, которое будет
наилучшей стратегией в игре с неантагонистическим противником человека –
природой.
В рассмотренных разделах теории игр предполагалось, что оба противника
(или больше двух) активно противодействуют друг другу, что оба они достаточно
умны, чтобы искать и найти свою оптимальную стратегию, и осторожны, чтобы
не отступать от нее. Такое положение дает возможность предсказывать поведение
игроков. Неопределенность была лишь в выборе противником конкретной чистой
стратегии в каждой отдельной партии.
Но возможен случай, когда неопределенность в игре вызвана не сознательным противодействием противника, а незнанием условий, в которых будет при-
ниматься решение, случайных обстоятельств. Такие игры называются "играми с
природой".
Игра человека с природой тоже отражает конфликтную ситуацию, возникающую при столкновении интересов в выборе решения. Но "стихийным силам
природы" нельзя приписать разумные действия, направленные против человека и
тем более какой-либо "злой умысел". Таким образом, корректнее говорить о конфликтной ситуации, вызванной столкновением интересов человека и неопределенностью действий природы.
Действия природы могут, как наносить ущерб, так и приносить прибыль.
Поведение природы можно оценить статистическими методами, определить присущие ей закономерности. В зависимости от степени знания этих закономерностей, определяющих поведение природы, различаются игры с природой в условиях определенности и игры с природой в условиях неопределенности.
Во-первых, поведение природы известно полностью (заданы вероятностями). Во-вторых - действия природы не известны, или изучены частично.
К явлениям природы, влияющим на результат решения, относят не
только погодные и сезонные явления (дождь, засуху, урожай, неурожай), но
и проявление любых, не зависящих от нас обстоятельств: например, задержки на транспорте.
Поиском решений в таких ситуациях и занимается теория статистических
решений.
Человек, играя с природой, стремиться максимизировать свой выигрыш, поэтому, если он осторожный игрок (а теория игр рассматривает именно таких игроков), он должен при выборе своей стратегии руководствоваться тем, что неизвестные или известные ему закономерные действия природы приведут к наименее
благоприятным последствиям. Именно поэтому такие игры можно рассматривать
как игры двух лиц с нулевой суммой, которые были уже нами рассмотрены.
Формализация задачи происходит следующим образом: у активного игрока
(человека) возможные действия по-прежнему называются стратегиями, а возможные действия пассивного игрока (природы) – состояниями или условиями природы.
В качестве первого игрока всегда выступает человек, поэтому в матрице записывается его выигрыш. Так как нас интересует оптимальная стратегия человека
и его гарантированный выигрыш, то в игру достаточно определить максиминную
стратегию первого игрока и нижнюю цену игры. Определение верхней цены игры имеет смысл, если данная игра повторяется многократно и оптимальная стратегия может быть смешанной.
2.1. Игры с природой в условиях неопределенности.
Если распределение вероятностей будущих состояний природы неизвестно,
вся информация о природе сводится к перечню ее возможных состояний. Человек
в играх с природой старается действовать осмотрительно, второй игрок (природа,
например, покупательский спрос) действует случайно. Таким образом, в сложных
структурах каждому допустимому варианту решений Xi вследствие различных
внешних условий могут соответствовать различные внешние условия (состояния)
Вj и результаты аij решений. Следующий пример иллюстрирует это положение.
Пусть из некоторого материала требуется изготовить изделие, долговечность которого при допустимых затратах невозможно определить. Нагрузки считаются известными. Требуется решить, какие размеры должно иметь изделие из
данного материала [Э. Мушик, П. Мюллер. Методы принятия технических решений. М.: Мир, 1990. – 2008 с.].
Варианты решений таковы:
X1 – выбор размеров из соображений максимальной долговечности, т.е. изготовление изделия с минимальными затратами в предположении, что материал
будет сохранять свои характеристики в течение длительного времени;
Xn – выбор размеров в предположении минимальной долговечности;
Xi – промежуточные решения.
Условия (состояния), требующие рассмотрения, таковы:
В1 – условия, обеспечивающие максимальную долговечность;
Вm – условия, обеспечивающие минимальную долговечность;
Вj – промежуточные условия.
Под результатом решения аij здесь можно понимать оценку, соответствующую варианту Xi и условиям Вj и характеризующую экономический эффект
(прибыль), полезность или надёжность изделия. Семейство решений описывается
некоторой матрицей nm, которую называют матрицей решений (условия игры
задаются матрицей nm). По аналогии с теорией игр, эту матрицу будем называть
также платёжной матрицей.
Таблица. 7 Матрица решений (nm
Условия
B1
B2
B3
Bj
Bm
X1
a11
a12
a13
a1j
a1m
X2
a21
a22
a23
a2j
a2m
X3
a31
a32
a33
a3j
a3m
Xi
ai1
ai2
ai3
aij
aim
Варианты
Xn
am1
am2
am3
anj
anm
Конструктор старается выбрать решение с наилучшим результатом, но, так
как ему неизвестно, с какими условиями он столкнётся, он вынужден принимать
во внимание все оценки аij, соответствующие варианту Xi.
Оценочная функция
Чтобы прийти к однозначному и по возможности наивыгоднейшему варианту решений даже в том случае, когда каким-то вариантам решений Xi могут соответствовать различные условия Вj, можно ввести подходящие оценочные (целевые) функции. При этом матрица решений сводится к одному столбцу. Каждому
варианту Xi приписывается, таким образом, некоторый результат аir, характеризующий, в целом, все последствия этого решения. Такой результат мы в дальнейшем будем обозначать тем же символом аir.
Рассмотрим некоторые оценочные функции, которые в данном примере мог
бы выбрать конструктор.
Оптимистическая позиция:
max air  max (max aij ).
(1)
i
i
j
Из матрицы результатов решений выбирается вариант (строка), содержащий
в качестве возможного следствия наибольший из всех возможных результатов.
Наш конструктор становится на точку зрения азартного игрока. Он делает ставку
на то, что выпадет наивыгоднейший случай, и, исходя из этого, выбирает размеры
изделия.
Позиция нейтралитета:
max a ir  max (
i
i
1 n
 a ij ).
n j1
(2)
Конструктор исходит из того, что все встречающиеся отклонения результата решения от "среднего" случая допустимы, и выбирает размеры, оптимальные с
этой точки зрения.
Имеется ряд критериев, которые используются при выборе оптимальной
стратегии. Рассмотрим некоторые из них.
Особые случаи
Схематическое сопоставление всех возможных полезностей aij различных
решений в матрице табл. 2 облегчает поначалу их обозрение, не требуя при этом
формальной оценки. Эта матрица может быть меньшего объёма (табл.8) и даже
выродиться в единственный столбец, если будет представлена полная информация о том, с каким внешним состоянием Вj следует считаться. Это соответствует
элементарному сравнению различных технических решений. Матрица решений
может, однако, свестись и к единственной строке (см. табл.9). В этом случае мы
имеем дело с так называемой фатальной ситуацией принятия решений, когда в
силу ограничений технического характера, внешних условий и других причин
остаётся единственный вариант, хотя его дальнейшие последствия зависят от
внешнего состояния Вj, и поэтому результат решения оказывается неизвестным
[Мушик Э., Мюллер П. Методы технических решения: Пер. с нем. – М.: Мир,
1990. – 208 с., ил.].
Таблица. 8. Матрица решений (n2)
Условия
B1
B2
X1
a11
a12
X2
a21
a22
Xi
ai1
ai2
Xn
an1
an2
Варианты
X3
Таблица.9. Фатальная ситуация в принятии решений
Условия
Варианты
X1
B1
B2
B3
Bj
Bm
a11
a12
a13
a1j
a1n
Случается и так, что некоторый вариант решения, например, оказывается
настолько удачным, что для другого варианта Xl из матрицы выполняются неравенства akj≥alj для j=1, …, n. Тогда говорят, что решение Xk доминирует над решением. Решение Xk в этом случае с самого начала оказывается лучшим, а вариант
Xl, напротив, с самого начала не представляет далее интереса.
2.2. Классические критерии принятия решений
Максиминный критерий Вальда. Согласно этому критерию игра с природой ведётся как игра с разумным, причём агрессивным противником, делающим всё для
того, чтобы помешать нам достигнуть успеха. Оптимальной считается стратегия,
при которой гарантируется выигрыш не меньший, чем "нижняя цена игры с природой":
α= Z MM  max (min aij ).
(3)
i
j
Правило выбора решения в соответствии с критерием Вальда (максиминным критерием):
Правило выбора в соответствии критерием Вальда. Матрица решений (платёжная матрица) дополняется ещё одним столбцом из наименьших результатов
аir каждой строки. Выбрать надлежит те варианты, в строках которых стоят
наибольшие значения аir этого столбца.
Выбранные таким образом варианты полностью исключают риск. Это означает, что принимающий решение не может столкнуться с худшим результатом,
чем тот, на который он ориентируется. Какие бы условия ни встретились, соответствующий результат не может оказаться ниже ZMM. Это свойство заставляет
считать максиминный критерий одним из фундаментальных. Поэтому в технических задачах он применяется чаще всего, как сознательно, так и неосознанно. Однако положение об отсутствии риска стоит различных потерь. Продемонстрируем
критерий Вальда на примере (см. таблицу 10).
Таблица 10. Пример вариантов решения без учёта риска
B
X
X1
X2
В1
В2
В3
аir
max a ir
1
1.1
10
1.1
1
1.2
1
1.1
1.1
i
Выбирая вариант X2, предписываемый критерием Вальда, мы избегаем неудачного значения 1, реализующего в варианте X1 при внешнем состоянии B1, получая вместо него при этом состоянии немного лучший результат 1.1, зато в состоянии В2 теряем выигрыш 10, получая всего только 1.1. Это пример показывает,
что в многочисленных практических ситуациях пессимизм минимаксного критерия может оказаться невыгодным
Применение критерия Вальда бывает оправдано, если ситуация, в которой
принимается решение, характеризуется следующими обстоятельствами:




о возможности появления внешних состояний Вj ничего не известно;
приходится считаться с появлением различных внешних состояний Вj;
решение реализуется лишь один раз;
необходимо исключить какой бы то ни было риск, т.е. ни при каких условиях Вj не допускается получать результат, меньший, чем ZMM.
2.3. Критерий пессимизма-оптимизма Гурвица.
Представляется логичным, что при выборе решения вместо двух крайностей в
оценке ситуации придерживаться некоторой промежуточной позиции, учитывающей возможность как наихудшего, так и наилучшего, благоприятного поведения
природы. Такой компромиссный вариант и был предложен Гурвицем. Согласно
этому подходу для каждого решения необходимо определить линейную комбинацию min и max выигрыша и взять ту стратегию, для которой эта величина окажется наибольшей, т.е. стараясь занять уравновешенную позицию, Гурвиц предложил
критерий (HW), оценочная функция которого находится где-то между точками
предельного оптимизма и крайнего пессимизма. Оценочная функция имеет две
формы записи:


ZHW = max  min aij  (1   ) max aij  ,
(5)
j
i 
j

где  — “степень пессимизма” ("коэффициент пессимизма", весовой множитель),
0  1.
Правило выбора согласно критерию Гурвица (HW – критерия) формулируется следующим образом:
Матрица решений дополняется столбцом, содержащим средние взвешенные наименьшего и наибольшего результатов каждой строки. Выбираются те
варианты Xi, в строках которых стоят наибольшие элементы air этого столбца.
При =1 критерий Гурвица (5) тождественен критерию Вальда, а при  =0 – в
критерий крайнего оптимизма (критерий азартного игрока), рекомендующий выбрать ту стратегию, при которой самый большой выигрыш в строке максимален.
В технических приложениях правильно выбрать этот множитель бывает так же
трудно, как и выбрать критерий. Вряд ли возможно найти количественную характеристику для тех долей оптимизма и пессимизма, которые присутствуют при
принятии решения. Поэтому чаще всего весовой множитель =0.5 без возражений
принимается в качестве некоторой "средней" точки зрения.
На выбор значения степени пессимизма оказывает влияние мера ответственности: чем серьезнее последствия ошибочных решений, тем больше желание
принимающего решение застраховаться, то есть степень пессимизма  ближе к
единице.
Рассмотрим применение критерия Гурвица для данных таблицы 1 и степени
пессимизма =0.6.
Для стратегии X1 минимальное значение равно 1, а максимальное – 10. Используя формулу (6), вычислим а1r=0.6*1+0.4*10=4.6. Аналогично для второй
стратегии. Находим максимальное значение столбца аir. В результате получим
таблицу 11.
Таблица 11
B
X
X1
X2
В1
В2
В3
аir
max a ir
1
1.1
10
1.1
1
1.2
4.6
1.14
4.6
i
Следовательно, по критерию Гурвица при =0.6 следует выбирать стратегию
X1.
Замечание. В литературе используется и такая форма критерия Гурвица:


ZHW = max  max aij  (1   ) min aij  ,
(6)
j
i 
j

где  - “степень оптимизма” ("коэффициент оптимизма ", весовой множитель),
01.
При =0 критерий Гурвица (6) тождественен критерию Вальда, а при =1
совпадает с максиминным решением.
Критерий Гурвица предъявляет к ситуации, в которой принимается решение,
следующие требования:
 о вероятностях появления Вj ничего не известно;
 с появлением состояний Вj необходимо считаться;
 реализуется лишь малое количество решений;
 допускается некоторый риск.
2.4. Критерий Сэвиджа (критерий минимакса риска).
На практике, выбирая одно из возможных решений, часто останавливаются
на том, осуществление которого приведет к наименее тяжелым последствиям,
если выбор окажется ошибочным. Этот подход к выбору решения математически
был сформулирован американским статистиком Сэвиджем (Savage) в 1954 году и
получил название принципа Сэвиджа. Он особенно удобен для экономических задач и часто применяется для выбора решений в играх человека с природой.
По принципу Сэвиджа каждое решение характеризуется величиной дополнительных потерь, которые возникают при реализации этого решения, по сравнению
с реализацией решения, правильного при данном состоянии природы. Естественно, что правильное решение не влечет за собой никаких дополнительных потерь,
и их величина равна нулю.
При выборе решения, наилучшим образом соответствующего различным
состояниям природы, следует принимать во внимание только эти дополнительные
потери, которые по существу, будут являться следствием ошибок выбора.
Для решения задачи строится так называемая “матрица рисков”, элементы которой показывают, какой убыток понесет игрок (ЛПР) в результате выбора неоптимального варианта решения.
Риском игрока rij при выборе стратегии i в условиях (состояниях) природы j
называется разность между максимальным выигрышем, который можно получить
в этих условиях и выигрышем, который получит игрок в тех же условиях, применяя стратегию i.
Если бы игрок знал заранее будущее состояние природы j, он выбрал бы стратегию, которой соответствует максимальный элемент в данном столбце: max aij , и
j
тогда риск: rij  max aij  aij .
j
Критерий Сэвиджа рекомендует в условиях неопределенности выбирать
решение, обеспечивающее минимальное значение максимального риска:
ZS= min max rij  min max  max aij  aij  .
(6)
i
i
j
j  i

Рассмотрим применение критерия Сэвиджа для данных таблицы 10.
Строим матрицу "рисков" для этого находим максимальные значения для
каждого столбца таблицы 1. Они равны 1.1; 10 и 1.2 соответственно и находим
значения рисков по формуле rij  max aij  aij . Дополняем эту матрицу столбцом
j
наибольших разностей. Выбираем те варианты, в строках которых стоит
наименьшее для этого столбца значение. В результате получим таблицу 12.
B
X
X1
В1
В2
Таблица 12. Матрица рисков
max a ir
В3
аir
0.1
0
0.2
i
0.2
0.2
X2
0
8.9
0
8.9
Критерий Сэвиджа рекомендует выбрать стратегию X1 .
2.5. Критерий Лапласа.
В ряде случаев представляется правдоподобным следующее рассуждение:
поскольку неизвестны будущие состояния природы, постольку можно считать их
равновероятными. Этот подход к решению используется в критерии “недостаточного основания” Лапласа.
Для решения задачи для каждого решения подсчитывается математическое
ожидание выигрыша (вероятности состояний природы полагаются равными qj =
1/n, j = 1:n), и выбирается то решение, при котором величина этого выигрыша
максимальна.
ZL= max air ,
i
n
1 n
air   aij  q j   aij .
n j 1
j 1
Гипотеза о равновероятности состояний природы является довольно искусственной, поэтому принципом Лапласа можно пользоваться лишь в ограниченных
случаях. В более общем случае следует считать, что состояния природы не равновероятны и использовать для решения критерий Байеса-Лапласа.
2.6. Критерий Байеса-Лапласа.
Этот критерий отступает от условий полной неопределенности - он предполагает, что возможным состояниям природы можно приписать определенную вероятность их наступления и, определив математическое ожидание выигрыша для
каждого решения, выбрать то, которое обеспечивает наибольшее значение выигрыша:
n
ZBL= max  aij  q j .
i
j 1
Этот метод предполагает возможность использования какой-либо предварительной информации о состояниях природы. При этом предполагается как повторяемость состояний природы, так и повторяемость решений, и, прежде всего,
наличие достаточно достоверных данных о прошлых состояниях природы. То
есть, основываясь на предыдущих наблюдениях прогнозировать будущее состояние природы (статистический принцип).
Возвращаясь к нашей таблице 1 предположим, что q1=0.4, q2=0.2 и q3=0.4. Тогда согласно критерию Байеса-Лапласа таблицу 1 дополняем столбцом математических ожиданий и среди этих значений выбираем максимальное. Получим таблицу 13.
B
X
X1
X2
В1
В2
В3
аir
1
1.1
10
1.1
1
1.2
2.8
1.14
Таблица 13.
max a ir
i
2.8
Оптимальным является решение X1.
Критерий Байеса-Лапласа предъявляет к ситуации, в которой принимается
решение, следующие требования:
 вероятности появления состояний Вj известны и не зависят от времени;
 решение реализуется (теоретически) бесконечно много раз;
 для малого числа реализаций решения допускается некоторый риск.
При достаточно большом количестве реализаций среднее значение постепенно стабилизируется. Поэтому при полной (бесконечной) реализации какой-либо
риск исключён.
Исходная позиция применяющего – критерий оптимистичнее, чем в случае
критерия Вальда, однако она предполагает более высокий уровень информированности и достаточно длинные реализации.
Перечисленные критерии не исчерпывают всего многообразия критериев выбора решения в условиях неопределенности, в частности, критериев выбора
наилучших смешанных стратегий, однако и этого достаточно, чтобы проблема
выбора решения стала неоднозначной:
Таблица 14. Оптимальные варианты, полученные с помощью различных критериев
Решение
Критерии
Стратегии Вальда
X1
X2
maxmax
*
Гурвица, Сэвиджа Лапласа Байеса-Лапласа
q1=0.4, q2=0.2, q3=0.4
=0.6
*
*
*
*
*
Из таблицы 14 видно, что от выбранного критерия (а, в конечном счете - от
допущений) зависит и выбор оптимального решения.
Выбор критерия (как и выбор принципа оптимальности) является наиболее
трудной и ответственной задачей в теории принятия решений. Однако конкретная
ситуация никогда не бывает настолько неопределенной, чтобы нельзя было получить хотя бы частичной информации относительно вероятностного распределения
состояний природы. В этом случае, оценив распределение вероятностей состояний природы, применяют метод Байеса-Лапласа, либо проводят эксперимент,
позволяющий уточнить поведение природы.
Поскольку различные критерии связаны с различными условиями, в которых принимается решение, лучшее всего для сравнительной оценки рекомендации тех или иных критериев получить дополнительную информацию о самой ситуации. В частности, если принимаемое решение относится к сотням машин с
одинаковыми параметрами, то рекомендуется применять критерий БайесаЛапласа. Если же число машин не велико, лучше пользоваться критериями минимакса или Сэвиджа.
Примеры постановки решения задач
В данном параграфе на примере решения задач мы должны научиться определять вектор стратегий, вектор состояний и платёжную матрицу и применять
различные критерии для получения оптимального решения.
Задача. В приморском городе решено открыть яхт-клуб. Сколько следует
закупить яхт (из расчета: одна яхта на 5 человек), если предполагаемое число
членов клуба колеблется от 10 до 25 человек. Годовой абонемент стоит 100 денежных единиц. Цена яхты - 170 денежных единиц. Аренда помещения и хранение яхт обходится в 730 денежных единиц в год.
Решение. Несомненно, что имеет смысл рассматривать количество приобретаемых яхт в диапазоне от двух до пяти (4 варианта) и количество потенциальных яхтсменов от 10 до 25. Для уменьшения объема перебора ограничимся вариантами 10, 15, 20, 25 (если полученные выводы для смежных вариантов будут существенно разниться, проведем дополнительный, уточняющий расчет). Итак: X=
{Xi} = (2, 3, 4, 5) – количество яхт (i=1,2,3,4); B = {Bj} =(10, 15, 20, 25) – количество членов яхт-клуба (j=1,2,3,4).
Для того, чтобы начать поиск решения, построим матрицу решений, элементы которой показывают прибыль при принятии i -го решения при j –ом количестве членов яхт-клуба:
aij = 100min(5Xi ; Bj) - 170Xi - 730
т.е. решающее правило в нашей задаче формулируется как "доход – затраты".
Выполнив несложные расчеты, заполним матрицу решений {aij} (см. табл. 15):
Таблица 15. Платёжная матрица
B
X
X1=2
X2=3
X3=4
X4=5
B1=10
B2=15
B3=20
B4=25
-70
-240
-410
-680
-70
260
90
-80
-70
260
590
420
-70
260
590
920
Например, a11 = 100min(52, 10) - 1702-730 =-70
a12=100min(52, 15)-1702-730=-70
a13 = a14 = -70 (спрос на яхты останется неудовлетворенным). Отрицательные значения показывают, что при этих соотношениях спроса на яхты и их наличия яхтклуб несет убытки.
Критерий Вальда (выбор осторожной, пессимистической стратегии) – для
каждой альтернативы (количество яхт в клубе) выбирается самая худшая ситуация (наименьшее значение величины прибыли) и среди них отыскивается гарантированный максимальный эффект:
ZMM=max(-70; -240; -410; -580)=-70
Вывод: принимая решение по критерию Вальда, яхт-клубу следует закупить 2
яхты и максимум ожидаемого убытка не превысит 70 д.е.
Критерий Гурвица (компромиссное решение между самым худшим исходом
и излишне оптимистическим). Рассмотрим изменение решения нашей задачи в зависимости от значений коэффициента оптимизма (в таблице 16 выделены значения, удовлетворяющие критерию Гурвица при различных ):
Таблица 16. Решения по Гурвицу для различных 

X
X1 = 2
X2 = 3
X3 = 4
X4 = 5
=0,2
=0,5
=0,8
-70
-140
-210
-380
-70
10
90
170
-70
160
390
620
Вывод: при  0,5 следует закупить 5 яхт и ожидать прибыль порядка, не
меньшую 170 д.е. (надеемся на широкую популярность нашего клуба и определенную финансовую состоятельность любителей), при = 0,2 не следует закупать
более 2 яхт (мы более осторожны в своих прогнозах и, скорее всего, предпочтем
отказаться от создания клуба).
Критерий Сэвиджа (нахождение минимального риска). При выборе решения по этому критерию сначала матрице полезности сопоставляется матрица сожалений D - для нашего примера, вычитанием (-70) из первого столбца матрицы
полезности, 260 из второго столбца, 590 и 920 из третьего и четвертого столбцов
соответственно, получим матрицу рисков (см. табл. 17):
Таблица 17. Матрица рисков
B
B1=10
B2 =15
B3 =20
B4 =25
air
X
X1 = 2
0
330
660
990
990
X2 = 3
170
0
330
660
660
X3 = 4
170
0
330
340
340
X4 = 5
340
170
0
590
510
Наименьшее значение среди максимальных элементов строк (выделенные в таблице значения) равно:
ZS=min(990; 660; 340; 510)=340
Вывод: покупая 4 яхты для открываемого яхт-клуба, мы уверены, что в худшем случае убытки клуба не превысят 340 д.е.
Критерий принятия решения Байеса-Лапласа. Предположим, что есть статистические данные, позволяющие оценить вероятность того или иного спроса на
членство в яхт-клубе: q=(0,1; 0,2; 0,4; 0,3). Тогда математическое ожидание величины прибыли для каждого из рассматриваемых вариантов решения (предложение яхт в яхт-клубе):
a1r = (-700,1)+(-700,2)+(-700,4)+(-700,3) =-70 ,
a2r= (-2400,1)+(2600,2)+(2600,4)+(2600,3) =210;
a3r = 390; a4r = 370.
Вывод: в условиях рассматриваемой ситуации наиболее целесообразно закупить 4 яхты (в этом случае максимальная ожидаемая прибыль яхт-клуба составит 390 денежных единиц).
Для применения критерия Лапласа находим:
a1r = ((-70)+(-70)+(-70)+(-70)) / 4 = -70 ;
a2r = ((-240)+(260)+(260)+(260)) / 4 =135;
a3r = 215; a4r = 170.
Вывод: в условиях равновероятности возникновения той или иной величины
спроса на членство в яхт-клубе следует закупить 4 яхты и при этом можно рассчитывать на прибыль в размере 215 д.е.
Общий вывод. Рассмотренные критерии приводят к различным решениям и
дают тем самым информацию к размышлению (принятое решение здесь будет
существенно зависеть от психологии и интуиции субъекта решения). Это неудивительно, так как критерии основаны на различных гипотезах. вводя ту или иную
гипотезу о поведении среды, мы тем самым "снимаем неопределённость", однако
сама гипотеза является только предположением, а не знанием. Было бы странным,
если различные предположения приводили всегда к одному и тому результату.
Литература
1. Аллен Р. Математическая экономия. М., Изд.ин. лит.,1963
2. Вентцель Е.С. Исследование операций. М.: Советское радио, 1972
3. Вильямс Дж. Д. Совершенный стратег. - М.: ИЛ,1960
4. Карлин С. Математические методы в теории игр, программировании и
эконмике М.: Мир, 1964
5. Кофман А., Фор Р. Займемся исследованием операций. М: Мир, 1966
6. Ланге О. Оптимальные решения. М. Прогресс, 1967 .
7. Мак-Кинси Дж. Введение в теорию игр. М., Физматгиз,1966
8. Оуэн Г. Теория игр. М., Мир 1971
9. Р.Л. Кини, Х. Райфа. Принятие решений при многих критериях: предпочтения и замещения. М.: Радио и связь, 1981
10.Р.Штойер. Многокритериальная оптимизация. Теория, вычисления, приложения. М.: Радио и связь, 1992
11.Вопросы анализа и процедуры принятия решений. М.: Мир, 1976
12.Статистические модели и многокритериальные задачи принятия решений
М.: Статистика, 1979.
13.Р.Л.Кини. Теория принятия решений. - В кн. Исследование операций. М.:
Мир, 1981 г.
14.Воробьев Н.Н. Теория игр для экономистов-кибернетиков, М.: Наука,
1985.
15.Крушевский А.В. Теория игр. Киев: Вища школа, 1977.
16.Дюбин Г.Н., Суздаль В.Г. Введение в прикладную теорию игр. М.: Наука,
1981
17.Мешковой Н.П., Закиров Р.Ш. Теория игр, конспект лекций. Челябинск,
ЧПИ, 1974
18.Э.Й.Вилкас в сб. Современные направления теории игр. Вильнюс. Мокслас, 1976
19.А.Д.Школьников Основы теории игр. Л, Изд. Горного института, 1970
20.Смоляков. Всегда существующее решение кооперативных игр и его применение к анализу рынков. М.: ВНИИСИ, 1978.
21.http://vtit.kuzstu.ru/books/shelf/145/doc/ext.html
Предыдущая Главная Следующая
Принятие решений в условиях риска
Как было сказано выше, принятие решений в условиях риска характеризуется
тем, что поведение природы (среды) имеет случайный характер. Это проявляется
в том, что существует некоторая вероятностная мера, в соответствии с которой
возникают (наступают) те или иные состояния природы. При этом лицо принимающее решение имеет определённую информацию о вероятностях появления
состояний среды, которая по своему характеру может быть весьма разнообразна.
Например, имеется три состояния среды B1, B2 и B3, то дополнительная информация о появлении этих состояний может заключаться в том, что состояние B 1
наименее вероятно, а состояние B3 более вероятно.
Следовательно, принятие решений в условиях риска предполагает, кроме задания функции реализации, задание некоторой дополнительной информации о
вероятностях состояния среды. Если множество состояний природы B конечно
(число состояний равно m), то вероятностная мера на нём может быть задана вероятностным вектором q=(q1, q2, …, qm), где qj≥0 и
.
Таким образом, матрица выигрышей в условиях риска может быть представлена в следующем виде (см. таблицу 1)
Таблица 1. Платёжная матрица с вероятностным вектором состояния среды
Решения
X1
…
Xi
…
Xn
…
…
q1
B1
a11
Состояния среды
qj
…
Bj
a1j
qm
Bm
a1m
ai1
aij
aim
an1
anj
anm
Выбирая решение Xi, игрок знает, что получит один из выигрышей a11, …, a1m
с вероятностями q1, …, qm соответственно. Следовательно, исходом для принимающего решение при выборе им решения Xi является случайная величина
.
Итак, сравнение двух решений X1 и X2 сводится к сравнению соответствующих им случайных величин .
.
Выбор оптимального решения обычно основывается на одном из следующих критериев:
1) критерий Байеса-Лапласа – ожидаемого значения (прибыли или расходов);
2) комбинации ожидаемого значения и дисперсии;
3) критерий произведения;
4) наиболее вероятного события в будущем и другие.
Рассмотрим подробнее критерий Байеса-Лапласа.
Критерий ожидаемого значения
(критерий Байеса-Лапласа)
На прошлой лекции мы рассмотрели критерий Байеса-Лапласа. Использование данного критерия (в литературе встречается другое название – критерий
"ожидаемого среднего значения") обусловлено стремлением максимизировать
ожидаемую прибыль (или минимизировать ожидаемые затраты). Использование
ожидаемых величин предполагает возможность многократного решения одной и
той же задачи, пока не будут получены достаточно точные расчётные формулы.
Математически это выглядит так: пусть ξ – случайная величина с математическим
ожиданием Mξ и дисперсией Dξ. Если x1, x2,..., xn – значения случайной величины
(с.в.) ξ, то среднее арифметическое их (выборочное среднее) значений
имеет дисперсию
→0
. Таким образом, когда n→
и →Mξ.
Другими словами при достаточно большом объёме выборки разница между
средним арифметическим и математическим ожиданием стремится к нулю (так
называемая предельная теорема теории вероятности). Следовательно, использование критерия "ожидаемое значение" справедливо только в случае, когда одно и
то же решение приходится применять достаточно большое число раз. Верно и обратное: ориентация на ожидания будет приводить к неверным результатам, для
решений, которые приходится принимать небольшое число раз.
Прежде чем перейти к модификации критерия Байеса-Лапласа рассмотрим
данный критерий подробнее.
Известно, что естественной числовой характеристикой случайной величины ξ
является её математическое ожидание Mξ, к которому приближается среднее значение этой случайной величины при большом количестве испытаний.
Если у человека, выступающего против природы, есть статистические данные о закономерностях в конкретных проявлениях природы, то задача легко может быть решена вероятностными методами.
Таким образом, если вероятности состояний природы известны и не изменяются со временем (стационарны), то оптимальным следует считать решение, максимизирующее ожидаемый выигрыш (которое дает наибольшее математическое
ожидание выигрыша против известной стратегии природы – состояния или условия).
Пример. Фирма купила станок за 100 денежных единиц. Для его ремонта
можно купить специальное оборудование за 50 ед. или обойтись старым оборудованием. Если станок выходит из строя, его ремонт с помощью спецоборудования
обходится в 10 ед., без спецоборудования – в 40 ед. Известно, что в течение срока
эксплуатации станок выходит из строя не более трех раз: вероятность того, что
станок не сломается – 0.3; сломается 1 раз – 0.4; сломается 2 раза – 0.2; сломается
3 раза – 0.1. Требуется определить целесообразность приобретения специализированного ремонтного оборудования.
Формализация. Первый игрок имеет две чистые стратегии: покупать (X1) и
не покупать (X2) специализированное ремонтное оборудование. У природы – второго игрока – четыре состояния: станок не выйдет из строя, выйдет один раз, сломается два раза и три раза. Функция выигрыша - затраты фирмы на покупку и ремонт станка, задается платежной матрицей (см. таблицу 1):
Таблица 1.
Решения
X1, не купить
X2, купить
Выход станка из строя
B1, ни разу B2,1 раз
B3,2 раза
-100
-140
-180
-150
-160
-170
B4,3 раза
-220
-180
Решение. Рассмотрим сначала эту задачу как антагонистическую игру. В
матрице методом минимакса находим седловую точку: (X2, B4), таким образом,
цена игры v= - 180 денежных единиц (см. таблицу 2).
Таблица 2.
Решения
X1, не купить
X2, купить
βj
B1,ни разу
-100
-150
-100
Выход станка из строя
B2,1 раз
B3,2 раза
-140
-180
-160
-170
-140
-170
B4,3 раза
αi
-220
-180
-180
-220
-180
Ответ: нужно купить специализированное оборудование.
Однако в играх с природой положение коренным образом меняется: уже в
условии заложена устойчивая смешанная стратегия природы: q= (0,3; 0,4; 0,2; 0,1)
и мы знаем, что именно этой стратегии придерживается природа.
Если же человек – первый игрок – будет продолжать играть оптимально, то
его выигрыш составит M =-150×0.3-160×0.4-170×0.2-180×0.1=-161, а если применит первую, неоптимальную стратегию, то математическое ожидание его выигрыша составит M =-100×0.3 - 140×0.4 - 180×0.2 -220×0.1 =-144.
Таким образом, первому игроку выгодно играть не оптимально!
Решения
Таблица 3.
Выход станка из строя
q1=0.3
q2=0.4
q3=0.2
q4=0.1
M
B1, ни разу
B2,1 раз
B3,2 раза
B4,3 раза
-100
-150
-140
-160
-180
-170
-220
-180
X1, не купить
X2, купить
-144
-161
Ответ: не покупать специализированное оборудование.
Существенное различие между значениями v(x*) и v(x') объясняется тем, что
смешанная стратегия природы неоптимальна и она, "отклоняясь" от своей оптимальной стратегии "недополучает" 36 денежных единиц выигрыша.
Итак, в игре с природой ориентация на математическое ожидание выигрыша
есть фактически ориентация на средний выигрыш, который получится при многократном повторении этой игры (при предположении, что условия игры не меняются). Разумеется, если игра в действительности многократно повторяется, то
критерий среднего выигрыша (например, в экономических задачах – средней прибыли) можно считать оправданным. Однако разумно ли ориентироваться на этот
критерий при единичном испытании?
Рассмотрим следующий пример. Фирма I может выставить на продажу один
из товаров TI1или TI2, а фирма II – один из товаров TII1, TII2, TII3. Товары TI1 и
TII1 являются конкурирующими (например, пиво и лимонад), а товары TI1 и TII3
дополнительными (например, пиво и вобла); остальные товары нейтральны. Прибыль фирмы I зависит от сочетания товаров, выставляемых на продажу обеими
фирмами, и определяется таблицей 4. Известно, что фирма II выставляет на продажу товар TII3 в три раза реже, чем TII1 и в четыре раза реже, чем TII2. Какой товар следует поставлять на продажу фирме I?
Таблица 4
Решения
X1
X2
Состояния среды
q1=3/8
q2=4/8
q3=1/8
B1
B2
B3
8
18
40
18
15
14
Здесь решение выставить на продажу фирмой I товар TI1, решение X2 выставить на продажу фирмой I товар TI2.
Вычислим математические ожидания для данной таблицы:
M =8×3/8+18×4/8+40×1/8=17, M =18×3/8+15×4/8+14×1/8=16. Оптимальной
стратегией будет решение X1, т.е. фирма I поставлять товар TI1. Безусловно, выигрыш в 17 денежных единиц лучше, чем в 16. Однако при выборе решения X1
мы получим не 17 денежных единиц, а один из выигрышей: 8, 18 или 40. При выборе решения X2 мы получим не 16 денежных единиц, а один из выигрышей 18,
15 или 14. Составим таблицу, где указаны отклонения возможных выигрышей от
их ожидаемых значений и вероятности этих отклонений.
Таблица 5. Значения отклонений
Решения
X1
X2
q1=3/8
B1
-9
2
q2=4/8
B2
1
-1
q3=1/8
B3
23
-2
Mξ
17
16
Из данной таблицы видно, что при равных ожидаемых выигрышах, поразному ведут отклонения от ожидаемых выигрышей: для X1 эти отклонения значительны, а для X2 – сравнительно невелики.
Из проведённого анализа можно сделать вывод: в условиях риска критерий
Байеса-Лапласа (ожидаемого среднего выигрыша) не является адекватным и
должен быть изменён с учётом возможных отклонений случайной величины от
её среднего значения.
В теории вероятностей в качестве меры отклонения случайной величины от
её среднего значения обычно используют дисперсию Dξ или среднеквадратичное
отклонение σ=
. В задачах принятия решений в условиях риска будем рассматривать в качестве показателя риска среднеквадратичное отклонение σ,
т.к. σ.имеет такую же размерность, что и случайная величина ξ, математическое ожидание Mξ.
Таким образом, для принятия решения в условиях риска выбор альтернативы
Xi приводит к случайной величине ξi, которая может быть охарактеризована парой показателей (Mξ, σi). Теперь приступим к построению адекватного критерия
сравнения альтернатив. Фактически здесь получается задача двухкритериальной
оптимизации, где в качестве частных критериев выступают математическое ожидание Mξ (значение данного критерия нужно максимизировать) и среднеквадратичное отклонение σ (значение данного критерия нужно минимизировать).
Рассмотрим нахождение Парето-оптимальных решений для данной многокритериальной задачи. Предположим, что требуется выбрать одну оптимальное
решение из множества допустимых решений, каждое из которых определяется
парой показателей (Mξi, σi). Изобразив на координатной плоскости точки с координатами (Mξi, σi), получим картинку типа изображённой на рис. 1, т.е. мы получили пространство оценок. Левая часть рисунка (красные точки) значения математического ожидания мы взяли положительными, а σ отрицательные значения,
т.к. этот критерий (σ) мы должны минимизировать. Парето-оптимальными оценками является правая верхняя граница и соответственно Парето оптимальными
решениями X1, X2, X9 и X7.
В данном примере множество Парето-оптимальных решений есть X1, X2, X9,
X7 и окончательный выбор оптимального решения проводится из этого множества. Как было сказано выше, здесь есть два подхода: первый подход заключается
в том, что строится множество Парето-оптимальных решений и из этого множества ЛПР выбирает единственное решение на основе неформальных дополнительных соображений. Рассмотрим второй подход на основе сужения множества
Парето-оптимальных альтернатив.
1. Выбор главного критерия и назначение нижних границ по остальным критериям. Назначим нижнюю границу по критерию M и минимизировать
критерий σ. В качестве нижней границы критерия M возьмём значение M4
(см. рис. 1), то оптимальным будет решение X2, так среди решений удовлетворяющих условию Mi≥ M4, она наименее рискованна.
2. Лексикографическая оптимизация предполагает упорядочение критериев
по важности. Пусть, например, M – важнейший критерий. Так как максимальное значение по критерию M имеет единственное решение X7, то оно
и является оптимальным. Здесь наглядно проявляется недостаток метода
лексикографической оптимизации: учёт одного (важнейшего) критерия.
Этот недостаток связан с необходимостью введения жесткого приоритета
критериев и может быть снят за счёт ослабления "жесткости" приоритетов.
В этом случае используют метод последовательных уступок (метод смены
цели), который был рассмотрен выше.
Например, в нашем случае в качестве уступки по критерию M величину Δ,
указанную на рис. 1. Тогда результатом выбора на первом шаге будут альтернативы X7, X8, X9. Среди них наилучшей по второму критерию будет X9. Таким образом, несколько снизив требования по критерию M, мы значительно улучшили
оценку по критерию σ (т.е. некоторое уменьшение ожидаемого выигрыша привело к существенному снижению риска).
Рис. 1. Пространство оценок
Рассмотрим применение обобщенного критерия для нашей задачи. Возьмём в
качестве обобщённого критерия функцию вида:
f(M, σ)= M-λ×σ, (1)
где λ – некоторая постоянная величина. Фактически критерий (1) представляет
аддитивный критерий оптимальности частных критериев M, σ с весовыми коэффициентами 1 и – λ. При λ>0 оценка случайной величины с помощью аддитивного критерия (1) меньше, чем её среднее значение, что характерно для осторожного
человека, т.е. человека не склонного к риску. Напротив, при λ<0 оценка (1) выше,
чем среднее значение, что характеризует человека, склонного к риску. Наконец,
при λ=0 оценка случайной величины совпадает с её средним значением (т.е. возможные отклонения случайной величины от её среднего значения игнорируются)
– это характеризует человека, безразличного к риску.
Содержательный смысл аддитивного критерия (1) при λ>0 состоит в том, что
увеличение критерия f(M, σ) может происходить как за счёт увеличения M, так и
за счёт уменьшения σ. Таким образом, для человека, не склонного к риску, критерий (1) отражает стремление к увеличению ожидаемого выигрыша и уменьшению
риска отклонения от него. При этом показатель λ характеризует субъективное отношение принимающего решение к риску. Следовательно, λ можно рассматривать
как субъективный показатель меры несклонности к риску (субъективный показатель осторожности).
Выбор варианта производимого товара. Фирма может выпускать продукцию
из следующих шести видов: зонтики (З), куртки (К), плащи (П), сумки (С), туфли
(Т) и (Ш). Глава фирмы должен принять решение, какой из этих видов продукции
выпускать в течение предстоящего летнего сезона. Прибыль фирмы зависит от того, каким будет лето – дождливым, жарким или умеренным, и определяется таблицей 6. Выбор какого варианта производства будет оптимальным?
При отсутствии дополнительной информации о состояниях среды в условиях
неопределённости, и её решение возможно при принятии какой-либо гипотезы о
поведении среды. Если принимающий решение имеет информацию о вероятностях наступления дождливого, жаркого и умеренного лета, то указанная задача
становится задачей принятия в условиях риска. В рассматриваемой случае необходимая информация может быть взята из статистических данных (наблюдений за
погодой в данной местности). Предположим, что вероятность дождливого, жаркого и умеренного лета равна соответственно 0.2, 0.5 и 0.3. Тогда получаем задачу
принятия решения в условиях риска, заданную таблицей 7.
Таблица 6.
Решения
З
К
П
С
Т
Ш
Д
80
70
70
50
75
35
Состояния среды
Ж
60
40
50
50
50
75
У
40
80
60
70
50
60
Таблица 7.
Решения
З
К
П
С
Т
Ш
0.2
Д
80
70
70
50
75
35
Состояния среды
0.5
Ж
60
40
50
50
50
75
0.3
У
40
80
60
70
50
60
Найдём ожидаемые выигрыши, соответствующие решениям З, К, П, С, Т,
Ш. Имеем:
МЗ=0.2×80+0.5×60+0.3×40=58,
Мк=0.2×70+0.5×40+0.3×80=58,
МП=0.2×70+0.5×50+0.3×60=57,
МС=0.2×50+0.5×50+0.3×70=56,
МТ=0.2×75+0.5×50+0.3×50=55,
МШ=0.2×35+0.5×75+0.3×60=62.5.
Далее, определим дисперсии случайных величин ξЗ, ξК, ξП, ξС, ξТ, ξШ:
DξЗ=196, DξК=336, DξП=61, DξС=84, DξТ=100, DξШ=231.5. Среднеквадратичные
отклонения рассматриваемых случайных величин таковы:
σЗ=14.0, σК=18.3, σП=7.8, σС=9.2, σТ=10.0, σШ=15.2.
Составим таблицу значений критериев M и σ для каждой альтернативы
(таблица 8)
таблица 8
Критерии
M
σ
З
58
14.0
К
58
18.3
П
57
7.8
С
56
9.2
Т
55
10.0
Ш
62.5
15.2
Решения
Представим рассматриваемые решения точками на координатной плоскости
переменных M и σ, получим рис. 2, из которого Парето-оптимальные решения З,
П, Ш. Окончательный выбор оптимальной альтернативы должен производиться
из этого множества.
Рис. 2
Сужение Парето-оптимального множества (в идеале – до одного элемента)
может быть произведено только при наличии дополнительной информации о соотношении критериев M и σ. Как было сказано выше, это можно сделать методом
главного критерия, методом последовательных уступок или с использованием
лексикографического критерия.
Обзор критериев принятия решения в условиях риска
Критерий произведений
Правило выбора в этом случае формулируется так :
Матрица решений
дополняется новым столбцом, содержащим произведения всех результатов каждой строки. Выбираются те варианты, в строках которых находятся наибольшие значения этого столбца.
Применение этого критерия обусловлено следующими обстоятельствами :




вероятности появления состояния Bj неизвестны;
с появлением каждого из состояний Bj по отдельности необходимо считаться;
критерий применим и при малом числе реализаций решения;
некоторый риск допускается.
Критерий произведений приспособлен в первую очередь для случаев, когда все aij
положительны. Если условие положительности нарушается, то следует выполнять
некоторый сдвиг aij+а с некоторой константой а>
будет, естественно зависеть от а. На практике чаще всего
а:=
. Результат при этом
+1.
Если же никакая константа не может быть признана имеющей смысл, то критерий
произведений не применим.
Предыдущая Главная Следующая
Принятие решения в условиях риска с возможностью
проведения эксперимента
При принятии решения в условиях неопределённости (или в условиях риска) принципиальная сложность выбора решения возникает из-за незнания ЛПР истинного состояния среды. В
предыдущих лекциях рассмотрено несколько критериев, каждый из которых по-своему "борется" с неопределённостью: с помощью выдвижения гипотезы о поведении среды (критерий
Лапласа, Вальда, Гурвица и Сэвиджа); с помощью усреднения получаемых выигрышей (критерий Байеса-Лапласа или критерий ожидаемого выигрыша); с помощью учёта как ожидаемого
выигрыша, так и меры отклонения от него. Однако, каждый из этих подходов даёт лишь способ
рационального анализа неопределённости, не устраняя самой неопределённости. Устранение
или хотя бы уменьшение неопределённости может быть произведено только на основе уточнения истинного состояния среды.
На практике такое уточнение осуществляется, как правило, с помощью сбора дополнительной информации, а также с помощью проведения экспериментов, по результатам которых
судят об имеющемся состоянии среды. Например, прежде чем приступить к лечению больного
при неясном диагнозе, врач проводит дополнительные анализы; прежде чем бурить дорогостоящую нефтяную скважину, геолог производит сейсморазведку; прежде чем наладить производство какого-либо товара, предприниматель изготавливает пробную партию этого товара и т.д.
В рамках теории принятия решений все эти действия означают не что иное, как проведение
эксперимента с целью уточнения состояния среды.
Эксперимент называется идеальным, если по его результатам ЛПР узнаёт истинное состояние среды. На практике наличие идеального эксперимента – явление довольно редкое. Чаще всего результат эксперимента даёт некоторую информацию, на основе которой может быть
произведено уточнение среды.
Как использовать результаты эксперимента и имеющиеся статистические данные при
принятии решений наиболее эффективно? Одна из методик, позволяющая решить эту проблему
основана на формуле Байеса – формула переоценки вероятностей событий с учётом результата
проведённого эксперимента.
Отметим, что не для всякой задачи принятия решения эксперимент является возможным.
Если для некоторой задачи эксперимент возможен, то возникает задача оценки целесообразности его проведения. Дело в том, что проведение эксперимента всегда требует затрат (материальных, организационных, временных и пр.).
В книге [Розен] показано, что идеальный эксперимент является выгодным тогда и только
тогда, когда его стоимость меньше минимального ожидаемого риска:
, где rij – риски, C – стоимость эксперимента.
Для изложения байесовского подхода к переоценке вероятностей напомним некоторые
понятия из теории вероятностей.
Условная вероятность события A при условии, что произошло событие B, обозначается
P(A/B) и вычисляется по формуле
P(A/B)=
.
(1)
Рассмотрим следующую теоретико-вероятностную схему. Пусть B1, B2, …, Bm – полная
группа событий и для каждого события Bj, j=
известна её вероятность P(Bj). Пусть произведён опыт, в результате которого произошло событие A. Если известны условные вероятности
P(A/Bj) для всех j=
, тогда условная вероятность (послеопытная) вероятность события Bj
(j=
,) может быть найдена по формуле Байеса
=
P(Bj/A)=
.
Рассмотрим теперь в схематической форме задачу принятия решения в условиях риска,
заданную с помощью матрицы выигрышей, которая имеет вид табл.
Таблица 1. Платёжная матрица с вероятностным вектором состояния среды
Состояния среды
Решения
q1
…
qj
…
qm
B1
…
Bj
Bm
X1
a11
a1j
a1m
…
Xi
ai1
aij
aim
…
Xn
an1
anj
anm
Здесь B1, B2, …, Bm – состояния среды, aij – выигрыш игрока в ситуации, когда он выбирает стратегию Xi, а среда принимает состояние Bj. ЛПР известна вероятность P(Bj)= qj наступления состояния Bj, причём P(Bj)≥0 и
. Предполагается, что среда может находиться в одном и только в одном из состояний B1, B2, …, Bm. Другими словами, случайные события
B1, B2, …, Bm образуют полную группу событий, поэтому их можно взять в качестве гипотез.
Известные ЛПР вероятности состояний среды P(Bj) (j=
) являются безусловными (доопытными, априорными) вероятностями.
Предположим, что проводится некоторый эксперимент, результат которого как-то зависит
от имеющегося состояния среды. Если в результате эксперимента наблюдается событие A и,
кроме того, известны условные вероятности P(A/Bj) для всех j=
, то используя формулу Байеса, можно найти послеопытные (апостериорные) вероятности каждого состояния среды. Знание уточненных вероятностей состояний среды позволяет более точно указать стратегию ЛПР.
Описанный подход к принятию решений в условиях риска называется байесовским, так
как он основан на формуле Байеса. Этот подход иллюстрируется примером, рассмотренным
ниже.
Задача. Бурение нефтяной скважины.
Руководитель поисковой группы должен принять решение: бурить нефтяную скважину
или нет. Скважина может оказаться "сухой" (С), т.е. без нефти, "маломощной" (М), т.е. с малым
содержанием нефти, и "богатой" (Б), т.е. с большим содержанием нефти. Альтернативами руководителя группы являются: x1 – бурить и x2 – не бурить. Чистая прибыль при выборе одной из
альтернатив в зависимости от возможного типа скважины приведена в таблице прибылей (см.
табл. 1)
Таблица 1. Платёжная матрица
Тип скважины
С
М
Б
x1
-70
50
200
x2
0
0
0
Решения
Кроме того, руководителю поисковой группы известно, что в данной местности вероятности сухой, маломощной или богатой скважины таковы: P(C)=0.5, P(M)=0.3, P(Б)=0.2.
Руководитель поисковой группы может провести эксперимент с целью уточнения структуры грунта (состояния среды). Этот эксперимент представляет собой сейсморазведку, результатом которой будет ответ – какова структура грунта в данной местности (но не ответ на вопрос
о типе скважины!). В принципе структура грунта может быть либо открытой (О), либо замкнутой (З). Руководитель группы имеет таблицу результатов экспериментов, приведённой в
этой местности (см. табл. 2).
Таблица 2. Таблица экспериментальных данных
Тип скважины
Структура грунта
открытая (О) замкнутая (З)
Всего
С (сухая)
n11=45
n12=5
50
М (маломощная)
n21=11
n22=19
30
Б (богатая)
n31=4
n32=16
20
60
40
n=100
Всего
Эта таблица показывает, сколько раз на грунтах открытой и грунтах замкнутой структуры
встречались скважины типа С, М, Б (т.е. даёт совместную статистику грунта и типа скважин для
данной местности).
Проведём анализ экспериментальных данных полученной таблицы. Предположим, что
произведено n экспериментов, результаты которых являются значениями дискретных случайных величин X (тип скважины) и Y (структура грунта), которые принимают соответственно
значения С, М, Б и О, З. Обозначим через n11 число экспериментов, в которых X=С и Y=О, через n12 число экспериментов, в которых X=С и Y=З, через n21 число экспериментов, в которых
X=М и Y=О и т.д. В нашем случае n=100, n11=45, n12=5, n21=11. Разделив значения таблицы 2 на
100 (на число проведённых экспериментов), мы получим закон распределения двумерной случайной величины (X, Y) заданной в табличной форме (см. табл. 3).
Таблица 3. Статистический ряд распределения двумерной с.в. (X, Y)
X,
тип скважины
Y,
структура грунта
открытая (О) замкнутая (З)
С (сухая)
p11=0.45
p12=0.05
0.50
М (маломощная)
p21=0.11
p22=0.19
0.30
Б (богатая)
p31=0.04
p32=0.16
0.20
0.60
0.40
1
Из таблицы 3 следует, что Р(X=C)=P(C)=0.5, Р(X=M)=P(M)=0.3, Р(X=Б)=P(Б)=0.2;
Р(Y=O)=P(O)=0.6, Р(Y=З)=P(З)=0.4,
Итак, руководитель группы должен принять решение:


проводить ли эксперимент (его стоимость составляет 10 единиц);
если проводить, то, как поступать в дальнейшем в зависимости от результатов эксперимента.
Таким образом, получена многошаговая задача принятия решений в условиях риска.
Опишем методику нахождения оптимального решения.
Шаг 1. Построим дерево (рис. 1), на котором указаны все этапы процесса принятия решений –
дерево решений. Ветви дерева соответствуют возможным альтернативам, а вершины – возникающим ситуациям. Альтернативами руководителя поисковой группы являются : α – отказ от
эксперимента, β – проведение эксперимента, x1 – бурить, x2 – не бурить. Состояния природы:
выбор типа скважины (С, М, Б), а также выбор структуры грунта (О, З).
Построенное дерево определяет игру руководителя группы с природой. Позициями данной игры служат вершины дерева, а ходами игроков – выбираемые ими решения. Позиции, в
которых ход делает руководитель группы, изображены прямоугольником; позиции, в которых
ход делает природа, – кружком.
Игра протекает следующим образом. В начальной позиции ход делает руководитель группы. Он должен принять решение – отказаться от эксперимента (выбрать решение α) или проводить эксперимент (выбрать решение β). Если он отказался от эксперимента, то игра переходит в
следующую позицию, в которой руководитель группы должен принять решение: бурить (выбрать альтернативу x1) или не бурить (выбрать альтернативу x2). Если же он решает проводить
эксперимент, то игра переходит в позицию, в которой ход делает природа, выбирая одно из состояний О или З, соответствующих возможным результатам эксперимента, и т. д. Игра заканчивается тогда, когда она переходит в окончательную позицию (т.е. вершину дерева, для которой
нет исходящих из неё ветвей)
Шаг 2. Для каждого решения, которое является ходом природы (т.е. исходит из позиции,
изображённой кружком), надо найти вероятность этого хода. Для этого поступаем следующим
образом. Для каждой позиции дерева существует единственный путь, соединяющий эту позицию с начальной позицией. Если это для позиции природы, путь, соединяющий её с с начальной позицией, не проходит через позицию (Э), означающую проведение эксперимента, то вероятности состояний Р(С), Р(М) и Р(Б) являются безусловными (доопытными) и находятся из
табл. 3:
Р(С)=50/100, Р(М)=30/100, Р(Б)=20/100.
Если же для позиции природы путь, соединяющий её с начальной позицией, проходит через позицию (Э), то вероятности состояний среды становятся условными вероятностями и
находятся по формулам (1), используя данные табл. 3:
=45/60;
=5/40;
=1/15;
.
В позиции (Э) вероятности ходов, приводящих к позициям (О) и (З), находятся из таблицы
3: Р(О)=0.6, Р(З)=0.4.
-70
0
50
200
0
0
-70
0
0
20
x1
50
200
0
0
-70
0
50
200 0
0
-30
0
95
0
x1
x2
x1
x2
x2
Открытый
Без эксперимента
0
Замкнутый
20
Эксперимент
β
α
Начало
Рис. 1. Дерево решений
28
95
Шаг 3. Произведём оценку всех позиций дерева игры, "спускаясь" от конечных позиций к начальной. Оценкой позиции служит ожидаемый выигрыш в этой позиции. Оценки конечных позиций находим из таблицы 2. Укажем теперь способ нахождения оценки
произвольной позиции дерева игры в предположении, что уже найдены оценки всех следующих за ней позиций.
Для позиции природы её оценка представляет собой ожидаемый выигрыш (см.
рис 2);
Для позиции игрока оценкой служит максимум всех за ней позиций. Мотив: в "своей" позиции игрок может сделать любой ход, поэтому он выберет тот, который приводит к
наибольшему возможному выигрышу (см. рис 3). В каждой позиции игрок помечает черточкой ту ветвь дерева, которая приводит к позиции, имеющей максимальную оценку.
a1
a2
a3
b1
p1
p2
b2
p3
a
b2
a=p1a1+p2a2+p3a3
b2=max(b1, b2, b3)
Рис. 2
b3
Рис. 3
Обратимся к рис. 1. Получаем, что в начальной позиции ожидаемая прибыль без
проведения эксперимента (альтернатива α) – 20 единиц; ожидаемая прибыль с проведением эксперимента (альтернатива β) – 28 единиц. Таким образом, целесообразным является
решение – проводить эксперимент (сейсморазведку). Далее, если эксперимент покажет,
что грунт открытый, то бурение производить не следует, а если замкнутый, то нужно бурить.
Без проведения эксперимен1 – ветвь:
=20
та. Выбираем максимальное
2 – ветвь: 0
значение из (20, 0). Оно равно
20.
3 – ветвь:
= -30
С проведением эксперимента.
4 – ветвь: 0
Выбираем максимальное значе5 – ветвь:
=95
ние из
(-30, 0, 95, 0). Оно равно 95.
6 – ветвь: 0
Как следует из условия задачи, значение в 95 единиц мы можем получить с вероятностью 0.4. Следовательно, ожидаемый выигрыш будет равен 0.4*95=38 единицам. Вычитаем расходы на проведение эксперимента равное 10 единицам.
В итоге получим 28 единиц.
Деревья решений иерархически представляют собой логическую структуру принятия решений, и облегчает тем самым понимание задачи и процесс её решения. В отличие
от матрицы решений здесь можно видеть временной ход процесса принятия решения. Дерево решений нельзя, однако, в общем случае представить простой матрицей решений;
так могут быть представлены лишь отдельные этапы процесса. Разбиение на этапы производят так, чтобы выбор решения начинался с некоторого узла решений, от которого исходят одна или несколько ветвей, представляющих варианты решений. Далее следуют узлы
событий и на конце – листья", представляющие конечные состояния с указанием значений
соответствующих выходных параметров. Если же за узлами событий следует опять узел
решений с соответствующими действиями, тогда это и всё последующие разветвления относятся к более поздней стадии выбора решения.. Таким образом, можно проследить весь
путь с начала до конца дерева решений.
В дереве решений различают узлы событий и узлы решений. Можно себе представить, что в узлах событий выбор дальнейшего пути определяется внешними условиями
(природой, в теории игр противником), а в узлах решений – лицом, принимающим решение.
Деревья решений легко поддаются модификации: при необходимости их можно дополнительно развить, а в случаях, когда какие-либо ветви практически лишены значения,
– соответственно уменьшить. Узлы решений, если они связаны с одним действием и не
разделены узлами событий могут быть объединены. То же справедливо и для узлов событий.
Предыдущая Главная Следующая
Download