1.纳什均衡
约翰·纳什于1948年作为数学博士生进入普林斯顿大学,主要研究合作博弈与非合作博弈的区别。他对非合作博弈的最重要的贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念,也就是不限于两人的零和博弈。该概念后来通俗地被定义为纳什均衡。纳什均衡,是指博弈中存在这样的局面,对于每个参与者来说,只要其他人不改变策略,他就无法改善自己的状况。纳什证明了在每个参与者都只有有限种策略选择并允许混合策略的前提下,纳什均衡一定存在。
个人最优策略可能依赖于也可能不依赖于他人的战略,从而使自己利益最大化。所有局中人的策略构成一个策略组合(Strategy Profile)。纳什均衡指的是这样一种策略组合,这种策略组合由所有参与人最优策略组成。即在给定他人策略的情况下,没有人有足够理由打破这种均衡。实质上是一种非合作博弈状态。
囚徒困境(Prisoner's Dilemma)是完美的纳什均衡,也是博弈论的非零和博弈中具代表性的例子,揭示了个人最佳选择并非必然是团体最佳选择。
囚徒困境的博弈模式如下:
警方逮捕甲、乙两名犯罪嫌疑人,但没有足够证据指控二人入罪。于是警方分开囚禁犯罪嫌疑人,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证指控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将被判服刑10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样被判服刑1年。
若二人都互相检举(相关术语称互相“背叛”),则二人同样被判服刑8年。
纳什均衡数阵表如下:
如同博弈论的其他例证,囚徒困境假定每个参与者(“囚徒”)都是利己的,即都寻求自身最大利益,而不会关心另一参与者的利益。参与者选择某一策略而有所得益。如果在任何情况下都比其他策略低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己的意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己的刑期缩至最短呢?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,也未必能够相信对方不会反口。就个人的理性选择而言,背叛对方所得刑期,总比沉默要来得低。试想困境中两名理性囚徒会如何作出选择:
若对方沉默,选择背叛者会获释。
若对方背叛,被指控者也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。这也印证了如果没有书面的约束,口头协议各方一般都会选择违约来获得较大的得益。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。对全体利益而言,如果两个参与者合作都保持沉默,二人都只会被判刑1年,总体利益更高,结果也比二人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益,均衡状况会是两个囚徒都选择背叛,结果二人获刑均比沉默为高,总体利益较沉默为低。这就是“困境”所在。
纳什均衡说明了一个问题,在刑事诉讼博弈过程中控辩各方是适度谨慎的,且严格占优,否则就不可能使期望的利益最大化。同时行动一方也希望或预期对方是严格占劣的,或希望对方按照自己的意愿出错,否则就不能有事先的谋划或预案以保证可期利益的最大化。