Теория игр Математическая дисциплина предметом исследования которой является

Скачать презентацию Теория игр Математическая дисциплина предметом исследования которой является

ПР-ИС-Лек3.ppt

Количество слайдов: 28

Теория игр Математическая дисциплина, предметом исследования которой является методы принятия решений в конфликтных ситуациях. Конфликтные ситуации – если сталкиваются интересы двух или более лиц преследующих противоположные цели.

Игры Дискретные Комбинаторные Игры 2 -х лиц Антогонистич-кие Неантогонис-кие Непрерывные Случайные Стратегические Игры n- лиц Коалиционные Некоалиционные

Платежная матрица А – игрок i = 1, m B – игрок j = 1, n А имеет m стратегий В имеет n стратегий Аi A 1 А 2. . . Аm Bj B 1 B 2 ………… Bn a 11 a 21. . . am 1 a 12 ………. . a 1 m a 22 ………. . . a 2 m aij am 2 ………. . amn

Принцип минимакса Bj B 1 B 2 ………… Bn ai A 1 А 2. . . Аm a 11 a 21. . . am 1 a 12 ………. . a 1 m a 22 ………. . . a 2 m a 1 a 2 bj b 1 Аi aij am 2 ………. . amn b 2 bm an

Принцип минимакса • Из каждой строчки выбирается минимальное значение: ai = min aij • α = max ai; α = max ai из min aij. • α – нижняя цена игры. Игрок должен придерживаться стратегии max- min (максимином) • α гарантирует минимум, который можно получить придерживаясь максиминной стратегии. • bj = max aij ; βj = min bj ; βj = min max aij • β – верхняя цена игры Это минимаксная стратегия. • Когда α = β, то система устойчива.

Пример 3. Игра «Вооружение и самолеты» Аi Bj B 1 B 2 B 3 a A 1 0. 5 0. 6 0. 8 0. 5 A 2 0. 9 0. 7 0. 8 0. 7 A 3 0. 7 0. 5 0. 6 0. 5 0. 9 0. 7 0. 8 0. 7 b Здесь α=β, то есть система устойчива 0. 7 –это чистая цена игры

Игры со смешанной стратегией • α = β = ν – чистая цена игры; • игры с седловой точкой; игры с полной информацией (противники знают все ходы). • Такие игры являются устойчивыми. • α≠β • α ≤ γ ≤β • α – нижняя цена игры • β – верхняя цена игры • Случайная величина, значением которой является стратегия игрока, называется смешанной стратегией.

Смешанная стратегия • • • Игрок А имеет m стратегий p 1, p 2, ……, pm ∑ pi =1 Игрок B – n стратегий q 1, q 2, ……, qn ∑ qj =1 P = (p 1, p 2, ……, pm) Q = (q 1, q 2, ……. , qn) H(P, Q) = ∑ ∑ aij pi qj – математич. ожид-ие выигрыша игрока А в смеш. стратегии

Геометрическая интерпретация игры Аi A 1 А 2 Bj B 1 B 2 a 11 a 21 a 12 a 22 B 1 N a 21 a 12 SA = (p 1, p 2) ν – решение V B 1 a 11 A 1 B 2 p 1 p 2 SA a 22 A 2

Игра 2 х 6 p | 1 -p| 6 -2 4 -1 3 1 1 0 Чистые стратегии для игрока B W 1 = 6 p – 2(1 -p) W 2 = 4 p – (1 -p) W 3 = 3 p – (1 -p) W 4 = p W 5 = -p – 5(1 -p) W 6 = 4(1 -p) -1 5 0 4

4– 5 1 6 6 5 5 4 4 3 3 2 2 1 1 0 0 -1 -1 -2 2 3 4 -2 N 6 p = -p + 5(1 -p) p = -p + 5 - 5 p p = -6 p +5 7 p = 5 p* = 5/7 p* = p 1, 5 (1 -p) p P 1=5/7; p 2=2/7 V =5/7

Смешанные стратегии Пример. Имеются 4 образца зенитных управляемых ракет: А 1, А 2, А 3, А 4, предназначенных для стрельбы по самолетам. Известны типы самолетов противника В 1, В 2, В 3, В 4, В 5. Вероятность поражения самолета противника применении каждого типа вооружения задана матрицей.

Требуется, исходя из принципов теории игр, обосновать пропорции, в которых надо заказывать вооружение различных типов. В 1 В 2 В 3 В 4 В 5 А 1 0. 2 0. 4 0. 6 0. 4 0. 7 А 2 0. 3 0. 4 0. 6 0. 5 0. 8 А 3 0. 4 0. 5 0. 6 0. 5 0. 8 А 4 0. 7 0. 3 0. 5 0. 2 0. 1 Решение. Замечаем, что стратегия А 1 заведомо невыгодна по сравнению с А 2; стратеги же А 2 заведомо невыгодна по сравнению с А 3; игра сводится к игре 2 х 5 с матрицей

Решение. Замечаем, что стратегия А 1 заведомо невыгодна по сравнению с А 2; стратеги же А 2 заведомо невыгодна по сравнению с А 3; игра сводится к игре 2 х 5 с матрицей В 1 В 2 В 3 В 4 В 5 А 3 0. 4 0. 5 0. 6 0. 5 0. 8 А 4 0. 7 0. 3 0. 5 0. 2 0. 1 Далее, замечаем, что стратегия В 3 для противника явно невыгодна по сравнению с В 2, а В 2 – по по сравнению с В 4.

Остается игра 2 х 3 с матрицей: В 1 0. 4 0. 7 А 3 А 4 В 4 0. 5 0. 2 В 5 0. 8 0. 1 В 1 p 3=5/6, p 4=1/6; v=0. 45 В 4 В 1 v p 4 А 3 В 1=В 4 В 5 p 3 А 4 Т. о. , принимаем рекомендации: не заказывать вовсе образцов А 1 и А 2, а образцы А 3, А 4 заказывать в пропорции 5 : 1. При этом вероятность поражения самолета противника буден не ниже 0. 45

Игры против «природы» • Пусть у нас m возможных стратегий: А 1, А 2, … , Аm, а П 1, П 2, … , Пn – «стратегии природы» . Может показаться, что при наличии природы задача проще, так как нет противодействия. Но при наличии сознательного противника у нас как бы снимается неопределенность. • В данной ситуации (при играх с природой) неопределенность сказывается в гораздо более сильной степени. • В игре против разумного противника мы можем отбросить за него какие то невыгодные для него стратегии Вj. • В игре против природы этого делать нельзя. • В игре против природы рекомендуется использовать понятие «риска» . • Риском наз. разность между выигрышем, который получил бы А, если бы знал Пj, и выигрышем, который он получит в тех же условиях, применяя стратегию Аi. • Риск: rij =bj – aij , где bj = max aij, ,

Пример. Планируется операция в заранее неясных условиях, например, рыночной конъюнктуры. Ожидаемая прибыль задана матрицей выигрышей. А 1 А 2 А 3 П 1 П 2 П 3 П 4 1 4 5 9 3 8 4 3 4 6 6 2 А 1 А 2 А 3 П 1 П 2 П 3 П 4 3 4 1 0 2 6 0 2 0 7 Матрица выигрышей. Здесь а 21=а 24=3. Однако эти выигрыши неравноценны. Так, если природа будет П 1, можно выиграть самое большее всего 4, и выбор А 2 почти хорош, а вот при состоянии П 4 лучше А 1, а А 2 совсем плох. Матрица риска. Видно, что А 2 совсем плох, так как r 21=1, r 24=6

Критерий, основанный на вероятностных условиях • • • Проще решать задачу в условиях неопределенности, когда известны вероятности состояний природы: qi=P(Пi). В этом случае среднее значение: ai*=q 1 х ai 1+q 2 х ai 2+ … + qn х ain Пример. Планируется операция в заранее неизвестных метеорологических условиях. Известны вероятности. П 1 А 1 1 А 2 3 А 3 4 qj 0. 1 П 2 4 8 6 П 3 5 4 6 П 4 9 3 2 0. 5 0. 2 ai 5. 2 4. 5 5. 0 Видно. Оптимальной стратегией игрока является его стратегия А*=А 1, дающая среднтй выигрыш 5. 2

Критерии Вальда, Сэвиджа и Гурвица • Пример. Рассматривается игра с природой 4 х 3. Найти оптимальное решение. А 1 А 2 А 3 П 1 0. 20 0. 75 0. 25 П 2 0. 30 0. 20 0. 80 П 3 0. 15 0. 35 0. 25 А 4 0. 85 0. 05 0. 45

Критерий максиминный Вальда. F=max min aij П 1 П 2 П 3 ai А 1 0. 20 0. 30 0. 15 А 2 0. 75 0. 20 0. 35 0. 20 А 3 0. 25 0. 80 0. 25* А 4 0. 85 0. 05 0. 45 0. 05 В каждой строке матрицы берем наименьший выигрыш. Из величин ai оптимальное значение 0. 25. Оптимальная стратегия А 3

Критерий минимаксного риска Сэвиджа F=min max rij П 1 П 2 П 3 ri А 1 0. 65 0. 50 0. 30 0. 65 А 2 0. 10 0. 60* А 3 0. 60 0 0. 20 0. 60* А 4 0 0. 75 Оптимальной является любая из стратегий А 2, А 3

Критерий пессимизма-оптимизма Гурвица F=max(q min aij + (1 -q) max aij) q=0. 6 П 1 П 2 П 3 ai wi hi А 1 0. 20 0. 30 0. 15 0. 30 0. 21 А 2 0. 75 0. 20 0. 35 0. 20 0. 75 0. 42 А 3 0. 25 0. 80 0. 47* А 4 0. 85 0. 05 0. 45 0. 05 0. 85 0. 37 Записываем в правых трех столбцах матрицы пессимистическую оценку выигрыша ai, оптимистическую wi и их среднее взвешенное по формуле hi=0. 6 ai + 0. 4 wi Здесь 0. 6 легкий перевес в сторону пессимизма. Оптимальная стратегия А 3

Дилемма заключенного Заключенный В хранит молчание Заключенный В дает показания Заключенный А хранит молчание Оба получают полгода А получает 10 лет В освобождается Заключенный А дает показания В получает 10 лет А освобождается Оба получают по 2 года заключения

Пример Швейное предприятие реализует свою продукцию через магазин. Сбыт зависит от состояния погоды. В условиях теплой погоды предприятие реализует 1000 костюмов и 2300 платьев, а при прохладной погоде - 1400 костюмов и 700 платьев. Затраты на изготовление одного костюма равны 20, а платья - 5 рублям, цена реализации соответственно равна 40 рублей и 12 рублей. Определить оптимальную стратегию предприятия.

РЕШЕНИЕ Составим математическую модель задачи. В связи с возможными состояниями спроса фирма располагает двумя стратегиями: 1. F 1 = (1000, 2300) – произвести 1000 костюмов и 2300 платьев, 2. F 2 = (1400, 700) - произвести 1400 костюмов и 700 платьев. Природа (рынок) располагает также двумя стратегиями: 1. D 1 = погода теплая, 2. D 2 = погода прохладная.

1. Если фирма примет стратегию F 1 и спрос действительно будет находиться в первом состоянии, то есть погода будет теплой (D 1), то выпущенная продукция будет полностью реализована и доход составит w 11 =1000*(40 -20) + 2300*(12 -5) = 36100 2. Если фирма примет стратегию F 1, а спрос будет находиться в состоянии D 2 (погода прохладная), то платья будут реализованы лишь частично, и доход составит: w 12 = 1000*(40 -20) + 700*(12 -5) – (2300 -700)*5= 16900. 3. Аналогично, если фирма выберет стратегию F 2, а природа – стратегию D 1 (погода теплая), то доход составит (будут недораспроданы костюмы): w 21 =1000*(40 -20) + 700*(12 -5) – (1400 -1000)*20= 16900, 4. Если природа выберет стратегию D 2, то w 22 = 1400*(40 -20) + 700*(12 -5) = 32900.

Рассматривая фирму и природу в качестве двух игроков, получим платежную матрицу игры 36100 16900 32900 которая будет служить игровой моделью задачи. Поскольку максиминная стратегия игры составляет a = max (16900, 16900) = 16900, а минимаксная b = min (36100, 3290) = 32900, то цена игры лежит в диапазоне 16900 ден. ед. < v < 32900 ден. ед.

Thank you