概述
博弈论”英文称之为“game theory”。目前它是经济学的一个分支
该理论专门研究多个独立个体之间的竞争行为(对抗行为)。在某些中文书籍里面,它又被称作“对策论 or 赛局理论”。
博弈的类型
合作博弈(cooperative game) VS 非合作博弈(non-cooperative game)
不论是“合作博弈”or“非合作博弈”,在博弈过程中都可能会出现“合作”的现象。差别在于——
对于“合作博弈”,存在某种【外部约束力】,使得“背叛”的行为会受到这种外部约束力的惩罚。
对于“非合作博弈”,【没有】上述这种“外部约束力”,对“背叛”的惩罚只能依靠博弈过程的其它参与者。
举例:商业活动中有“合同法”,就相当于上述所说的【外部约束力】。
通常所说的“博弈”大都指“【非】合作博弈”。大多数博弈论的研究也是针对后者(非合作)
同时博弈(simultaneous game) VS 顺序博弈(sequential game)
同时博弈(静态博弈)
“同时博弈”有时也称作“静态博弈”,指的是——博弈的【任何一个】参与者在选择自己的行为之前,并【不】知道其它参与者的行为信息。
举例:“石头/剪刀/布”
顺序博弈(动态博弈)
“顺序博弈”有时也称作“动态博弈”。在这类博弈中,参与者的动作有【时间上的先后】,并且后一个执行动作的博弈者可以看到其他博弈者之前的动作,然后根据别人的动作,思考自己的行为。
举例:绝大部分棋牌类游戏都属于这种。
零和博弈(zero-sum game) VS 非零和博弈(non-zero-sum game)
零和博弈
“零和博弈”这个名称具有误导性,使得很多人以为各方的收益总和为零。
“零和博弈”指的是——在博弈结束之后,参与各方的利益总和为【常量】(可以是零,也可以是“正值”或“负值”)。
举例:大多数棋类游戏属于这种;“石头/剪刀/布”也属于这种。
非零和博弈(变和博弈)
“非零和博弈”指的是——在博弈结束之后,参与各方的利益总和为【变量】。所以这类博弈有时候称为【变和博弈】。
对于这类博弈,在某些情况下可能会让参与各方的利益总和【变大】,从而使得各方存在【合作】的可能性。
举例:在“非零和博弈”中,最有名的应该就是“囚徒困境”(Prisoner’s Dilemma)了。
非重复博弈(non-repeated game) VS 重复博弈(repeated game)
“非重复博弈”有时也称作“单次博弈”;相应的,“重复博弈”也被称作“多次博弈”。
以“囚徒困境”为例。如果困境中的两个嫌疑人只被抓进去一次,那就是“单次博弈”;如果被抓进去不止一次,就是“多次博弈”。
“重复博弈”还可以进一步细分为“有限重复博弈”(finite repeated game)与“无限重复博弈”(infinite repeated game)。
这2个术语容易产生歧义。更严谨的说法是:
“有限重复博弈”——重复次数【确定】的博弈
“无限重复博弈”——重复次数【不确定】的博弈
------------------囚徒困境------------------
1950年,由就职于兰德公司的梅里尔·M·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问阿尔伯特·W·塔克以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
- 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
- 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
- 若二人都互相检举(互相“背叛”),则二人同样判监5年。
甲\乙 | 乙沉默(合作) | 乙认罪(背叛) |
---|---|---|
甲沉默(合作) | 二人同服刑半年 | 甲服刑10年;乙即时获释 |
甲认罪(背叛) | 甲即时获释;乙服刑10年 | 二人同服刑5年 |
------------------囚徒困境------------------
收益矩阵 VS 决策树
概述
这两个玩意儿都是为了更直观地描述博弈过程,并帮你看清各方的利弊得失。
“收益矩阵”通常用来描述“静态博弈”(同时博弈);由于“动态博弈”(顺序博弈)比较复杂,通常不用“收益矩阵”描述。
“决策树”既可以用来描述“静态博弈”,也可以用来描述“动态博弈”。
顺便提醒一下:
在某些书籍/文章中,把“收益矩阵”称作“普通形式”(normal-form);把“决策树”称作“扩展形式”(extensive-form)。
收益矩阵(payoff matrix)
上一个小节说了:“收益矩阵”通常用来描述静态博弈。而且一般是用来描述双人的静态博弈。更多人的静态博弈,也可以用“收益矩阵”表述,但画起来会麻烦很多。在本文的后续部分,凡是提及“收益矩阵”都是指“双人静态博弈”。
通常的惯例是把自己这方的策略写在表格左边,把对方的策略写在表格上边。为了让大伙儿有个直观感受,俺写一个“石头/剪刀/布”的“收益矩阵”。
石头 | 剪刀 | 布 | |
---|---|---|---|
石头 | 0 | 1 | -1 |
剪刀 | -1 | 0 | 1 |
布 | 1 | -1 | 0 |
在上述矩阵中,1 表示赢;-1 表示输;0 表示平局。
决策树
上述是一个决策树的示意图,表示一个简单的“双人动态博弈”,两个博弈者分别称作 1 & 2;两人的可选策略都只有2个(分别是:U & D)。
1 先执行某个动作,然后 2 再执行对应的动作,然后博弈就结束了。这个树状图有4个叶子节点,表示该博弈最终有4种结局。每个叶子节点的括号中各有2个数字,分别表示两个博弈者在不同终局的收益。
策略 & 策略集合
决策选项(move) VS 策略(strategy)
某些资料(比如维基百科)把“move”直译为“移动”。这个译法比较怪。在本文中,俺称之为“决策选项”。
很多人混淆了“策略”与“决策选项”。
以象棋为例,完成一局需要经历很多个步骤。对每个步骤,你都有 N 个决策选项(要走哪个棋子,走到哪)。而“策略”指的是——从第一步到最后一步的所有决策选项的【总和】。你可以把“策略”通俗理解为某种【算法 or 指导思想】,它指导你从第一步走到最后一步。
策略集合(strategy set)
所有可能的策略,构成了“策略集合”。
以“石头/剪刀/布”为例,其“策略集合”只包含3个策略。
有限策略集合 VS 无限策略集合
有限策略集合
“石头/剪刀/布”就是典型的“有限策略集合”(该集合只有3个元素)。
无限策略集合
为了说明这种集合,举个“分蛋糕博弈”的例子。
所谓的“分蛋糕博弈”很简单——这是双人博弈,其中一人先把蛋糕分为两块(可以随便分),然后另一个人先挑选其中一块。
对于“负责分蛋糕”的人而言,其策略集合是无穷大(纯小数有无穷多个)。
关于“有限/无限”的反直觉
很多人凭直觉会认为:具有“无限策略集合”的博弈比“有限策略集合”的博弈更复杂。其实不然!
围棋虽然很复杂,但其“策略集合”依然是有限滴(只不过,要想描述这个集合,需要存储的信息量会超出整个宇宙的承受能力)。
作为对比,“分蛋糕博弈”比“围棋”简单多了(两者的复杂性相差 N 个数量级),但“分蛋糕博弈”反而具有【无限】的策略集合。
纯策略 VS 混合策略
纯策略(pure strategy)
在实际博弈时,如果你总是【固定选择】“策略集合”中的某【一个】策略,这种情况称之为“纯策略”。
以“石头/剪刀/布”为例:如果你每次总是出“石头”,这就是【纯策略】。
混合策略(mixed strategy)
如果你在博弈时,总是【随机选择】“策略集合”中的某【几个】策略,这种情况称之为“混合策略”。
以“石头/剪刀/布”为例:如果你一半概率出“石头”一半概率出“剪刀”,这就是【混合策略】。
完全混合策略(totally mixed strategy)
如果某个“混合策略”包含了“策略集合”中的【每一个】元素,称之为“完全混合策略”。
上一个小节的举例(一半概率出“石头”一半概率出“剪刀”)属于“混合策略”,但【不是】“完全混合策略”。
作为对比,如果你1/4概率出“石头”,1/4概率出“剪刀”,1/2概率出“布”——这就是“完全混合策略”。
有点长…待续…