博弈论入门

2024-02-26

杂项

概述

博弈论”英文称之为“game theory”。目前它是经济学的一个分支

该理论专门研究多个独立个体之间的竞争行为（对抗行为）。在某些中文书籍里面，它又被称作“对策论 or 赛局理论”。

博弈的类型

合作博弈（cooperative game） VS 非合作博弈（non-cooperative game）

不论是“合作博弈”or“非合作博弈”，在博弈过程中都可能会出现“合作”的现象。差别在于——
对于“合作博弈”，存在某种【外部约束力】，使得“背叛”的行为会受到这种外部约束力的惩罚。
对于“非合作博弈”，【没有】上述这种“外部约束力”，对“背叛”的惩罚只能依靠博弈过程的其它参与者。

举例：商业活动中有“合同法”，就相当于上述所说的【外部约束力】。

通常所说的“博弈”大都指“【非】合作博弈”。大多数博弈论的研究也是针对后者（非合作）

同时博弈（simultaneous game） VS 顺序博弈（sequential game）

同时博弈（静态博弈）
　　“同时博弈”有时也称作“静态博弈”，指的是——博弈的【任何一个】参与者在选择自己的行为之前，并【不】知道其它参与者的行为信息。
　　举例：“石头/剪刀/布”

顺序博弈（动态博弈）
　　“顺序博弈”有时也称作“动态博弈”。在这类博弈中，参与者的动作有【时间上的先后】，并且后一个执行动作的博弈者可以看到其他博弈者之前的动作，然后根据别人的动作，思考自己的行为。
　　举例：绝大部分棋牌类游戏都属于这种。

零和博弈（zero-sum game） VS 非零和博弈（non-zero-sum game）

零和博弈
　　“零和博弈”这个名称具有误导性，使得很多人以为各方的收益总和为零。
　　“零和博弈”指的是——在博弈结束之后，参与各方的利益总和为【常量】（可以是零，也可以是“正值”或“负值”）。
　　举例：大多数棋类游戏属于这种；“石头/剪刀/布”也属于这种。

非零和博弈（变和博弈）
　　“非零和博弈”指的是——在博弈结束之后，参与各方的利益总和为【变量】。所以这类博弈有时候称为【变和博弈】。
　　对于这类博弈，在某些情况下可能会让参与各方的利益总和【变大】，从而使得各方存在【合作】的可能性。
　　举例：在“非零和博弈”中，最有名的应该就是“囚徒困境”（Prisoner’s Dilemma）了。

非重复博弈（non-repeated game） VS 重复博弈（repeated game）

“非重复博弈”有时也称作“单次博弈”；相应的，“重复博弈”也被称作“多次博弈”。
　　以“囚徒困境”为例。如果困境中的两个嫌疑人只被抓进去一次，那就是“单次博弈”；如果被抓进去不止一次，就是“多次博弈”。

“重复博弈”还可以进一步细分为“有限重复博弈”（finite repeated game）与“无限重复博弈”（infinite repeated game）。
　　这2个术语容易产生歧义。更严谨的说法是：
“有限重复博弈”——重复次数【确定】的博弈
“无限重复博弈”——重复次数【不确定】的博弈

------------------囚徒困境------------------

1950年，由就职于兰德公司的梅里尔·M·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论，后来由顾问阿尔伯特·W·塔克以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。
若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。
若二人都互相检举（互相“背叛”），则二人同样判监5年。

甲\乙	乙沉默（合作）	乙认罪（背叛）
甲沉默（合作）	二人同服刑半年	甲服刑10年；乙即时获释
甲认罪（背叛）	甲即时获释；乙服刑10年	二人同服刑5年

------------------囚徒困境------------------

收益矩阵 VS 决策树

概述

这两个玩意儿都是为了更直观地描述博弈过程，并帮你看清各方的利弊得失。
“收益矩阵”通常用来描述“静态博弈”（同时博弈）；由于“动态博弈”（顺序博弈）比较复杂，通常不用“收益矩阵”描述。
“决策树”既可以用来描述“静态博弈”，也可以用来描述“动态博弈”。
顺便提醒一下：
在某些书籍/文章中，把“收益矩阵”称作“普通形式”（normal-form）；把“决策树”称作“扩展形式”（extensive-form）。

收益矩阵（payoff matrix）

上一个小节说了：“收益矩阵”通常用来描述静态博弈。而且一般是用来描述双人的静态博弈。更多人的静态博弈，也可以用“收益矩阵”表述，但画起来会麻烦很多。在本文的后续部分，凡是提及“收益矩阵”都是指“双人静态博弈”。
通常的惯例是把自己这方的策略写在表格左边，把对方的策略写在表格上边。为了让大伙儿有个直观感受，俺写一个“石头/剪刀/布”的“收益矩阵”。

	石头	剪刀	布
石头	0	1	-1
剪刀	-1	0	1
布	1	-1	0

在上述矩阵中，1 表示赢；-1 表示输；0 表示平局。

决策树

上述是一个决策树的示意图，表示一个简单的“双人动态博弈”，两个博弈者分别称作 1 ＆ 2；两人的可选策略都只有2个（分别是：U ＆ D）。
　　1 先执行某个动作，然后 2 再执行对应的动作，然后博弈就结束了。这个树状图有4个叶子节点，表示该博弈最终有4种结局。每个叶子节点的括号中各有2个数字，分别表示两个博弈者在不同终局的收益。

策略＆策略集合

决策选项（move） VS 策略（strategy）

某些资料（比如维基百科）把“move”直译为“移动”。这个译法比较怪。在本文中，俺称之为“决策选项”。
　　很多人混淆了“策略”与“决策选项”。
　　以象棋为例，完成一局需要经历很多个步骤。对每个步骤，你都有 N 个决策选项（要走哪个棋子，走到哪）。而“策略”指的是——从第一步到最后一步的所有决策选项的【总和】。你可以把“策略”通俗理解为某种【算法 or 指导思想】，它指导你从第一步走到最后一步。

策略集合（strategy set）

所有可能的策略，构成了“策略集合”。
以“石头/剪刀/布”为例，其“策略集合”只包含3个策略。

有限策略集合 VS 无限策略集合

有限策略集合
　　“石头/剪刀/布”就是典型的“有限策略集合”（该集合只有3个元素）。

无限策略集合
　　为了说明这种集合，举个“分蛋糕博弈”的例子。
　　所谓的“分蛋糕博弈”很简单——这是双人博弈，其中一人先把蛋糕分为两块（可以随便分），然后另一个人先挑选其中一块。
　　对于“负责分蛋糕”的人而言，其策略集合是无穷大（纯小数有无穷多个）。

关于“有限/无限”的反直觉

很多人凭直觉会认为：具有“无限策略集合”的博弈比“有限策略集合”的博弈更复杂。其实不然！
　　围棋虽然很复杂，但其“策略集合”依然是有限滴（只不过，要想描述这个集合，需要存储的信息量会超出整个宇宙的承受能力）。
　　作为对比，“分蛋糕博弈”比“围棋”简单多了（两者的复杂性相差 N 个数量级），但“分蛋糕博弈”反而具有【无限】的策略集合。

纯策略 VS 混合策略

纯策略（pure strategy）

在实际博弈时，如果你总是【固定选择】“策略集合”中的某【一个】策略，这种情况称之为“纯策略”。

以“石头/剪刀/布”为例：如果你每次总是出“石头”，这就是【纯策略】。

混合策略（mixed strategy）

如果你在博弈时，总是【随机选择】“策略集合”中的某【几个】策略，这种情况称之为“混合策略”。

以“石头/剪刀/布”为例：如果你一半概率出“石头”一半概率出“剪刀”，这就是【混合策略】。

完全混合策略（totally mixed strategy）

如果某个“混合策略”包含了“策略集合”中的【每一个】元素，称之为“完全混合策略”。

上一个小节的举例（一半概率出“石头”一半概率出“剪刀”）属于“混合策略”，但【不是】“完全混合策略”。

作为对比，如果你1/4概率出“石头”，1/4概率出“剪刀”，1/2概率出“布”——这就是“完全混合策略”。

有点长…待续…

概述