Описание игры
Два игрока решают сыграть в несимметричную орлянку по следующим правилам:
Игрок1 делает ставку на орла, Игрок2 на решку.
Бросается правильная монета.
Игрок1 не видит, как выпала монета, Игрок2 видит.
Игрок2 может поступить двумя способами: или сразу открыть монету для Игрока1, или сначала предложить Игроку1 удвоение ставки и затем открыть монету.
Игрок1 в случае предложения об удвоении может или спасовать, теряя свою ставку, или принять удвоение ставок.
Так как очевидно, что у Игрока2 больше информации в ходе игры, игроки соглашаются в том, что ставка Игрока1 меньше ставки Игрока2.
Обозначим ставки игроков: X - для Игрока1, Y - для игрока2, X<Y.
Задача
1. Найти оптимальные стратегии игроков.
2. Найти соотношение ставок X и Y, при которых игра становится справедливой, то есть матожидания выигрышей обоих игроков равны нулю при оптимальной стратегии.
==========
Это задача с красивым и априори неожиданным результатом. Предлагаю решить ее самостоятельно.
Рассуждения Игрока2
Если выпала решка, то для Игрока2 складывается безрисковая в данном розыгрыше ситуация. Он уже выиграл, вопрос только в том, какую сумму: X или 2X. Поэтому при выпадении решки Игроку2 всегда есть смысл предлагать удвоение ставок.
Если выпал орел, то с точки зрения выигрыша или проигрыша в данном розыгрыше у Игрока2 возможны варианты:
- Сразу открыть монету и проиграть сумму Y.
- Предложить удвоение ставки, и если Игрок1 спасует, выиграть сумму Х.
- Предложить удвоение ставки, и если Игрок1 согласится, проиграть сумму 2Y.
После этих рассуждений можно записать стратегию для Игрока2:
- При выпадении решки предлагать удвоение ставок всегда.
- При выпадении орла предлагать удвоение ставок иногда, то есть блефовать на орле с некой вероятностью q, и открывать монету без блефа с вероятностью (1-q).
Рассуждения Игрока1
Игрок1 понимает описанные выше рассуждения. Но он не знает, является ли полученное от Игрока2 предложение об удвоении ставки в конкретном розыгрыше блефом на орле или попыткой затянуть его в удвоенный проигрыш на решке. Всегда пасовать при предложении об удвоении нельзя, это очевидный проигрыш в длинной серии игр.
Поэтому стратегия Игрока1 должна быть следующая:
- При предложении удвоения ставок соглашаться с некой вероятностью р, и пасовать с вероятностью (1-р).
Матожидание выигрыша Игрока1
Выразим матожиданиет выигрыша Игрока1 (которое обозначим как Е1) через величины X,Y,p,q. Помним, что монета правильная, орел и решка выпадают с вероятностью 1/2.
Составляющие Е1 слагаемые для различных вариантов выпадения монеты и действий игроков указаны ниже.
1. Выпала решка, Игрок2 предложил удвоение, Игрок1 спасовал:
(-X)*(1/2)*(1-p)
2. Выпала решка, Игрок2 предложил удвоение, Игрок1 принял:
(-2X)*(1/2)*p
3. Выпал орел, Игрок2 сразу открыл монету без блефа:
Y*(1/2)*(1-q)
4. Выпал орел, Игрок2 предложил удвоение, Игрок1 спасовал:
(-X)*(1/2)*(1-p)*q
5. Выпал орел, Игрок2 предложил удвоение, Игрок1 согласился:
2Y*(1/2)*p*q
Матожидание Е1 является суммой указанных пяти величин. После преобразований получаем:
E1=(1/2)*(Y–X–X*p–(X+Y)*q+(X+2Y)*p*q)
Матожидание выигрыша Игрока1 не зависит от стратегии Игрока2 (то есть от вероятности q), если выполнено условие:
– (X+Y)*q+(X+2Y)*p*q=0
– (X+Y)+(X+2Y)*p=0
Отсюда получаем оптимальную величину вероятности p, с которой Игроку1 надо соглашаться на предложение поднять ставки:
p_opt=(X+Y)/(X+2Y)
Ну и наконец найдем E1 при p=p_opt:
E1_opt=(Y^2–X^2–X*Y)/(X+2Y)
Матожидание выигрыша Игрока2
Тут уже все просто. Это игра с нулевой суммой, то есть выигрыши одного игрока являются проигрышами другого. Поэтому сразу можем записать матожидание выигрыша Игрока2, так как Е2=–Е1:
E2=(1/2)*(–Y+X+X*p+(X+Y)*q–(X+2Y)*p*q)
Матожидание выигрыша Игрока2 не зависит от стратегии Игрока1 (то есть от вероятности p), если выполнено условие:
X*p–(X+2Y)*p*q=0
X–(X+2Y)*q=0
Отсюда получаем оптимальную величину вероятности q, с которой Игроку2 надо блефовать:
q_opt=X/(X+2Y)
Ну и наконец найдем E2 при q=q_opt:
E2_opt=(–Y^2+X^2+X*Y)/(X+2Y)
Справедливое соотношение ставок X и Y
Соотношение ставок справедливо, если E1_opt=E2_opt=0
Отсюда получаем нужное нам уравнение:
Y^2–X^2–X*Y=0
(Y/X)^2–(Y/X)–1=0
Решив это квадратное уравнение, получаем справедливое отношение ставок:
Y/X=(5^(1/2)+1)/2
X/Y=(5^(1/2)–1)/2
Округлив правые части до 3-х знаков после запятой получим более узнаваемые величины:
Y/X=1.618
X/Y=0.618
Таким образом, Y/X равно пределу отношения соседних членов последовательности Фибоначчи (далее по тексту Ф или «фи-большое»), а X/Y равно коэффициенту золотого сечения (далее по тексту ф или «фи-малое»). Это красивый результат, который трудно было предположить до решения задачи.
Ну и наконец найдем оптимальные вероятности p_opt и q_opt при справедливом отношении X и Y. Указывая только 3 знака после запятой получим:
p_opt=ф=0.618
q_opt=ф*(1–ф)=0.236
Это тоже красивый и априорно не ожидаемый результат.
Выводы
1. Если Y/X=Ф, то игра потенциально справедлива, то есть матожидание выигрыша обоих игроков равно нулю. Игроки реализуют этот потенциал, если выполнено хотя бы одно из условий:
- Игрок2 блефует на проигрышном для него выпадении монеты с оптимальной вероятностью q_opt=ф*(1–ф).
- Игрок1 принимает предложение об удвоении ставок с оптимальной вероятностью p_opt=ф,
Если ни один из игроков не придерживается оптимальных вероятностей, то результат игры не определен. В зависимости от конкретных значений p и q, статистическое преимущество может быть у любого из игроков.
2. Если Y/X<Ф, то игра не справедлива. Превышение ставки Y над ставкой Х не компенсирует Игроку1 информационное преимущество Игрока2. Потенциально матожидание выигрыша Игрока2 положительно, а Игрока1 отрицательно. Игрок2 реализует этот потенциал, если он блефует на проигрышном для него выпадении монеты с оптимальной вероятностью q_opt=X/(X+2Y). В этом случае Игрок1 не может влиять на отрицательное для него матожидание игры.
Однако, если Игрок2 не придерживается оптимальной вероятности q_opt, то возможен вариант, когда Игрок1 может эмпирически путем подбора вероятности p, получить статистическое превосходство в длинной серии игр в этой потенциально проигрышной для себя ситуации, так как при неоптимальном q появляется возможность, когда E1>0 даже при Y/X<Ф. Подбор р проводится из условия:
Y–X–X*p–(X+Y)*q+(X+2Y)*p*q > 0
3. Если Y/X>Ф, то игра не справедлива. Превышение ставки Y над ставкой Х избыточно компенсирует Игроку1 информационное преимущество Игрока2. Потенциально матожидание выигрыша Игрока1 положительно, а Игрока2 отрицательно. Игрок1 реализует этот потенциал, если он принимает предложение об удвоении ставок с оптимальной вероятностью p_opt=(X+Y)/(X+2Y). В этом случае Игрок2 не может влиять на отрицательное для него матожидание игры.
Однако, если Игрок1 не придерживается оптимальной вероятности p_opt, то возможен вариант, когда Игрок2 может эмпирически путем подбора вероятности q, получить статистическое превосходство в длинной серии игр в этой потенциально проигрышной для себя ситуации, так как при неоптимальном p появляется возможность, когда E2>0 даже при Y/X>Ф. Подбор q проводится из условия:
–Y+X+X*p+(X+Y)*q–(X+2Y)*p*q > 0
Дополнительные выводы
Это неплохая игра, чтобы скоротать время в компании друзей. Да к тому же остаться в плюсе по итогам.
Кроме того, нахождение оптимальных стратегий в подобных задачах со строго заданными правилами дает навык, который иногда может помочь в реальных жизненных ситуациях, когда правила заданы нечетко.
Комментарии
Фон Нейман "Теория игр". 100 лет назад. Рекомендую изданную в СССР еще в начале 70-х (точно не помню):
С друзьями на деньги не играют.
И вообще лучше с ними не вступать в финансовые взаимоотношения. А то друзья становятся не друзьями.
Играли лет 10 назад с друзьями в покер периодически на встречах. Пробовали на интерес... Игра становится фарсом. Постоянный блеф, олл-инн и тд... Весело, но это не покер... Играть же на деньги по понятным причинам с друзьями тоже не получилось(кто то плохо играет и не хочет заведомо проигрывать, кто то может вложить больше других или при тех же ставках ему они менее чувствительны... Короче бросили это дело :)
Эх были времена))
Всю молодость в префе провел. Начинали в школе в 80-х по копейке за вист. Потом ставки росли соответственно. :) Никаких проблем. На деньги надо играть, чтобы никто не шалил. В итоге за ночь никто никогда в долги не залезал. Посидели, потрепались, бухнули, расплатились, отдохнули. Ну а если кому-то хочется без семерок на мизер - его проблемы. Хотя видел я подобный сыгранный - расклад (всё пополам).
Так то не на деньги, а на копейки.
Я понимаю, что для армянского школьника 3-5 рублей - не деньги были.
В 80-х тоже по копейке. В 90-х скидывались на пиво/закусь. После игры раскидывали пропорционально вистам и так, чтоб набравший болше всех вистов не платил. Обид не было. Ну угостил кто то товарищей болше, чем другие, зато посидели, пообщались.
У нас на водку/закусь, но в принципе так и выходило. :)
Похожая ситуация. В 80-е во время командировок на некие полигоны играли в преф на спирт. 1 вист = 1 мл спирта. Никто не чудил в ходе игры.
+1 Декаданс какой-то получается.
Неужели с друзьями можно играть исключительно на деньги?
Резались в преф только так. А без денег, пусть даже чисто символических, в него не то.
Без денег неправильно. Хулиганят многие, особенно по молодости.
С друзьями лучше в настолки, полукооперативные, например в Battlestar Galactica или Ярость дракулы. Тогда и риск, и подставы и интересно и никто не обижен...
Да. На игровые фантики.
Теория игр https://www.youtube.com/watch?v=vPmncI1uJRw
Открыл ответ, посмотрел на формулы, закрыл...
Это чо, столько считать надо что бы тупо в орлянку поиграть?
Да ну нафик
Так в статье описана не орлянка, а несимметричная орлянка. Прямо название об этом :)
У Станислава Лема была в своей время любопытная вещь - рецензии на ненаписанные книги. Там был рассказ как раз на тему орла/решки и теории вероятности - как часто бывает у Лема, умно и занятно написано.
Нестабильное проявление блефа нивелирует всю теорию.
При ограничении увеличения ставок стабильный проигрыш вполне возможен.
Так задача то модельная. А вообще да, все завязано на способность генерировать решения с заданной вероятностью. Причем с помощью подручных средств, без помощи компьютера. Это само по себе задача интересная.
Попробуйте применить эту задачу, когда в качестве игроков выступают, с одной стороны, США, а с другой - Россия.)
Так инициатива наказуема :)
В связи с этим, какова ваша версия ответа?
Россия это 1 игрок, а США - 2, у которого изначально больше информации и, соответственно, у него инициатива.)
Инициатива - это важный фактор, но это не все. Второй важный вопрос - каково соотношение ставок? Короче, у кого статистическое преимущество по вашему мнению?
Я не располагаю всей информацией. Да, начнём с этого...
У Путина больше информации. Вы удивлены? Не стоит, право слово. Я же, всё-таки, не ясновидящий... при всей моей скромности в отношении собственных способностей.
Какие ещё козыри имеются у России? Возможность смести все фигуры с доски. Да, да и это не фигура речи. Более того, я сильно сомневаюсь в наличии такой возможности у США. )
А у меня мнение такое. В таком предельно упрощенном виде как в статье, эта задача к геополитическим вопросам вообще не применима.
Какое то отдаленное отношение к реальности задача может приобрести при сильном усложнении условий:
- Игроков не двое, а много больше.
- Монета не одна, а очень сильно больше.
- Все игроки видят выпадение своего подмножества монет.
- И мы имеем случай всеобщего многостороннего блефа.
Вот как то так. Я даже не представляю, как это можно решить аналитически. Только эмпирически, методом проб и ошибок.
странное задание. формулы не стал читать ибо вероятность выпадения орла и решки 50% вероятность выигрыша соответственно тоже
если всегда отказываться от удвоения а ставки разные - выигрывает тот у кого меньше ставки. вот пример всегда пасуем и игра скатывается к банальному выигрышу в 50% случаев
то есть из 1000 игр 500 выиграл 500 проиграл итого игрок 1 проиграл 500 рублей, а выигррал например 1000 если разница ставок в 2 раза.
на чём основано утверждение "Всегда пасовать при предложении об удвоении нельзя, это очевидный проигрыш в длинной серии игр."
<<игра скатывается к банальному выигрышу в 50% случаев>>
Не скатывается.
А если вы реально в такой игре будете всегда пасовать, вам могут начать всегда предлагать удвоение. Набрав некоторую статистику я бы так и делал, отойдя от "науки". В итоге, начиная с какого то этапа вы станете проигрывать все игры без исключения.
Всё просто так как я не игрок в карты понятие Пас для меня не интуитивно понятно, и я вместо него воспринял как отказ после чего по логике не игрока надо смотреть что на монете.
Ниже меня поправили и тогда я уже прочитал ответ
Вам Спасибо, было интересно. и очень интересно как нужно действовать против живого человека на ограниченном отрезке времени и ставок, например сначала всегда удваивать а позже начать пасовать или наоборот
При пасе ты сливаешься и теряешь ставку. Что выпало - уже не важно.
Спасибо, это условие я не заметил.
Если выпал орёл, то зачем игрок 2 будет предлагать удвоение ставки? Чтобы проиграть в два раза больше, если игрок 1 согласится?
З.Ы. Решение пока ещё не смотрел, т.к. ещё не понял правила
Вы все правильно поняли. Правила изложены исчерпывающе.
В статье оптимальность стратегии понимается как независимость собственного результата от действий противника.
П.С. Кстати, вы первый человек, о котором я с уверенностью могу сказать, что вы начали решать сами. Вникнуть в условие уже часть решения. Респект!
Дык тогда исчезает неопределённость - если игрок 2 предлагает удвоение, значит выпала решка
Нет. Это игра, в которой может случиться удачный блеф на потенциально проигрышном раскладе. Но может случиться и неудачный :)
Главное покерфейс в любой ситуации, а не формулы.
А то некоторые прямо по глазам читаются, что-то вспыхивает там, когда пришло удачно
Так все важно. Нет мелочей. К тому же, на каждый покерфейс без формул может найтись покерфейс с формулами. И тогда тому, что без формул, не позавидуешь :)
Ага, теперь догнал.
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.