题目

赌局规则如下:

  • 两人各自亮出硬币的一面
  • 如果两人都是正面,那么 A 给 B 3 元
  • 如果两人都是反面,那么 A 给 B 1 元
  • 剩下的情况(即一正一反),B 给 A 2 元

直觉误区:它看起来像一个“公平概率题”

一个很常见的错误解法是:

  • 两人都正面的概率是
  • 两人都反面的概率是
  • 一正一反的概率是

于是 B 的期望收益似乎是:

因此表面上看,这好像是个公平游戏。

关键纠正:这不是抛硬币,而是“选策略”

这道题真正的问题在于:

亮出正面还是反面,不是随机抛硬币,而是参与者可以自行控制的策略选择。

所以它不是一个普通的概率题,而是一个经典的:

零和混合策略博弈问题。

也就是说,双方不是被动接受概率,而是在选择:

  • 我多大概率出正面?
  • 多大概率出反面?

一、把问题写成策略模型

设:

  • A 出正面的概率为
  • B 出正面的概率为

那么 A 的期望收益为:

对应地,B 的期望收益为:

因为是零和博弈,所以:

二、这个游戏的核心:混合策略纳什均衡

这类题的关键不是“算一次期望”,而是找:

双方在什么概率策略下,谁都没有动力单方面改变自己的选择。

这就是混合策略纳什均衡

原答案给出的结论是:

也就是说:

  • A 以 的概率出正面
  • B 也以 的概率出正面

这是这个博弈的唯一混合策略纳什均衡。

三、为什么是 :直观理解

混合策略均衡的一个常见思路是:

让对手无论选哪种纯策略,得到的期望都一样。

这样对手就不会偏向某一边,也就达成均衡。

对 A 来说,需要让 B 觉得:

  • 选正面
  • 或选反面

得到的期望是一样的。

原答案给出的方程是:

左边表示 B 出正面时,A 的收益;右边表示 B 出反面时,A 的收益。

解得:

同理也可以推出:

四、均衡下谁占优

如果 A 采用均衡策略 ,并设 B 以任意概率 出正面,那么 B 的期望收益是:

化简后得到:

也就是说:

无论 B 怎么选,只要 A 采用了最优混合策略,B 的平均收益都是每轮亏 元。

于是 A 的平均收益就是:

五、这道题真正说明了什么

这题最值得记的,不是某个具体结果,而是下面这个判断:

1. 不能把“策略选择”误当成“自然概率”

如果双方的行为是可控的,那么概率就不再是题目直接给定的,而是参与者自己决定的。

2. 零和博弈里的关键不是算静态期望

而是找出:

  • 最优策略
  • 对手最优应对
  • 最终均衡点

3. “看起来公平”不等于真的公平

表面上按 去算是公平的, 但一旦允许双方主动选策略,游戏结构就变了。

六、原答案补充的一个公平版本

原文还给了一个对照规则:

  • 两硬币同一面,则 A 给 B 2 元
  • 一正一反,则 B 给 A 2 元

在这个版本下,作者认为:

对 A、B 都公平,即不论采取何种策略,都无法保证赢,期望等于零。

这个对照很有启发性:

  • 有的博弈一眼看着对称,实际上不公平
  • 有的规则改动一点,就真的变成公平博弈

七、这篇笔记最值得记住的结论

1. 这道题不是概率题,而是博弈论题

重点不在随机,而在策略。

2. 误区在于默认双方“各 50% 出正反面”

实际上,参与者完全可以调整自己的出手概率。

3. 该博弈的唯一混合策略纳什均衡是:

4. 在最优策略下,A 才是长期占优的一方

A 每轮平均赢:

B 每轮平均输:

5. “必赢”在这里不是每局都赢

而是:

长期重复博弈下,只要使用最优混合策略,期望上稳定占优。