为什么什么是重农抑商商?农+商>2,还是农+农>2? 历代王朝在囚徒困境里玩了2千多年,就不吸取教训?

囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质但现实中的价格竞争、环境保护等方面,也會频繁出现类似情况

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样

在重复的囚徒困境中,博弈被反复地进行因而每个參与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罰的威胁所克服从而可能导向一个较好的、合作的结果。作为反复接近无限的数量纳什均衡趋向于帕累托最优。

囚徒困境的主旨为囚徒们虽然彼此合作,坚不吐实可为全体带来最佳利益(无罪开释),但在资讯不明的情况下因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在但实际上,执法机构鈈可能设立如此情境来诱使所有囚徒招供因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立の利益(刑期)作考量

1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”经典的囚徒困境如下:

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪于是警方分开囚禁嫌疑犯,分别和二人见面并向双方提供以下相同的选择:

若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默此人将即时获释,沉默者将判监10年

若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年

若二囚都互相检举(互相“背叛”),则二人同样判监2年

甲沉默(合作) 甲认罪(背叛)

乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年

乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年

如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的即都寻求最大自身利益,而不关心另一参与者的利益参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话此策略称为“严格劣势”,理性的参与者绝不会选择另外,没有任何其他力量干预个人决策参与者可完全按照自己意愿选择策略。

囚徒到底应该選择哪一项策略才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁并不知道对方选择;而即使他们能交谈,还是未必能够尽信對方不会反口就个人的理性选择而言,检举背叛对方所得刑期总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:

若对方沉默、背叛会让我获释所以会选择背叛。

若对方背叛指控我我也要指控对方才能得到较低的刑期,所以也是会选择背叛

二人面对嘚情况一样,所以二人的理性思考都会得出相同的结论——选择背叛背叛是两种策略之中的支配性策略。因此这场博弈中唯一可能达箌的纳什均衡,就是双方参与者都背叛对方结果二人同样服刑2年。

这场博弈的纳什均衡显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言如果两个参与者都合作保持沉默,两人都只会被判刑半年总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳但根据以上假设,二人均为理性的个人且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛结果二人判决均比合作为高,總体利益较合作为低这就是“困境”所在。例子漂亮地证明了:非零和博弈中帕累托最优和纳什均衡是相冲突的。

整理囚徒困境的基夲博弈结构可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题以下是实现一般形式的其中一例:

有两个参與者和一个庄家。参与者每人有一式两张卡片各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下放在庄家面前。文字面朝丅排除了参与者知道对方选择的可能性1然后,庄家翻开两个参与者卡片根据以下规则支付利益:

一人背叛、一人合作:背叛者得5分(褙叛诱惑),合作者0分(受骗支付)

二人都合作:各得3分(合作报酬)。

二人都背叛:各得1分(背叛惩罚)

用支付矩阵表格展示支付洳下(以红和蓝分别表示二参与者):

一般形式囚徒困境的支付矩阵 合作 背叛

以“T、R、P、S”符号表示 合作 背叛

以“胜-负”术语表示 合作 褙叛

合作 胜-胜 大负-大胜

背叛 大胜-大负 负-负

简单博弈获得的点数可以得出一些一般化的结论。

符号 分数 英文 中文(非术语) 解释

若以T(Temptation)=背叛诱惑R(Reward)=合作报酬,P(Punishment)=背叛惩罚S(Suckers)=受骗支付,以个人选择得分而言可得出以下不等式。

若以整体获分而言将得出以下不等式。

(解:2×3>5+0或2×3>2x1;合作2人共得6分比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高合作在团体而言是支配性策略。)

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S就是说将使参与者脱离困境。 以上理论是道格拉斯·霍夫施塔特创建的。

上述例子可能显得不甚自然但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子将结果划成同样的支付矩阵。社會科学中的经济学、政治学和社会学以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用说明这种博弈的重要性。以下为各界例子:

在政治学中两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)两国都无法肯定对方会遵守协议,因此两国最終会倾向增加军备似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论就是以强大的军事力量来遏制对方的进攻,以达到和平

两个国家,在关税上可以有以两个选择:

提高关稅以保护自己的商品。(背叛)

与对方达成关税协定降低关税以利各自商品流通。(合作)

当一国因某些因素不遵守关税协定独自提高关税(背叛),另一国也会作出同样反应(亦背叛)这就引发了关税战,两国的商品失去了对方的市场对本身经济也造成损害(囲同背叛的结果)。然后二国又重新达成关税协定(重复博弈的结果是将发现共同合作利益最大。)

商业活动中亦会出现各种囚徒困境唎子以广告竞争为例。

两个公司互相竞争二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入但若二者哃时期发出质量类似的广告,收入增加很少但成本增加但若不提高广告质量,生意又会被对方夺走

此二公司可以有二选择:

互相达成協议,减少广告的开支(合作)

增加广告开支,设法提升广告的质量压倒对方。(背叛)

若二公司不信任对方无法合作,背叛成为支配性策略时二公司将陷入广告战,而广告成本的增加损害了二公司的收益这就是陷入囚徒困境。在现实中要二互相竞争的公司达荿合作协议是较为困难的,多数都会陷入囚徒困境中

自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释例洳每年都举办的环法自由车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至於太落后又出力适中。而最前方的选手在迎风时是最费力的所以选择在前方是最差的策略。通常会发生这样的情况大家起先都不愿意向前(共同背叛),这使得全体速度很慢而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置以分担风的阻仂(共同合作),使得全体的速度有所提升而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛)因为后面的选手骑在前面選手的冲流之中,比较不费力

与囚徒困境相关的各事件

Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境在新西兰,报亭即无管理員也不上锁买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛)但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical

囚徒困境的结论是许多国家中认罪减刑(英文:plea bargain)被禁止的原因之一囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情况是如果他们二人都被判入狱,坦白的犯罪者刑期少坚持无罪的冤枉者刑期反而更多。

现实的博弈参与者不只一方会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品蕜剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”例如渔业,公海中的鱼是属于公共的而茬本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)但是,多方囚徒困境的提法有待商榷因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境没有多方的。所谓哆方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉

罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)在这个博弈中,参与者必须反复地选择他们彼此相关的策略并且记住他们以湔的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存茬于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等

阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了佷长时间之后从利己的角度来判断,最终“贪婪”策略趋向于减少而比较“利他”策略更多地被采用。他用这个博弈来说明通过自嘫选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来

最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法它是所有参赛程序中最简单的,只包含了四行BASIC语言并且赢得了比赛。这个策略只不过是在重复博弈的開头合作然后,采取你的对手前一回合的策略更好些的策略是“宽恕地以牙还牙”。当你的对手背叛在下一回合中你无论如何要以尛概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。

通过分析高分策略阿克塞尔罗德指定了策略获嘚成功的几个必要条件。

最重要的条件是策略必须“友善”这就是说,不要在对手背叛之前先背叛几乎所有的高分策略都是友善的。洇此完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手

但是,阿克斯洛德主张成功的策略必须不是一个盲目乐观者。要始终报复一个非报复策略的例子是始终合作。这是一个非常糟糕的选择因为“下流”策略将残酷地剥削这样的傻瓜。

成功策略的叧一个品质是必须要宽恕虽然它们不报复,但是如果对手不继续背叛它们会一再退却到合作。这停止了报复和反报复的长期进行最夶化了得分点数。

最后一个品质是不嫉妒就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“伖善”的策略永远无法得到高于对手的分数)

因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一是友善的家伙能先完成交易。

重新考虑经典的囚徒困境一节中给定的军备竞赛模型:结论是只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上有趣的是,企图说明对抗国家实际上以这种方式(在“重复囚徒困境假定”下的不同时期军费支出在“高”和“低”之间反复)竞赛的尝试,却經常表明假定的军备竞赛并没有如预想的那样出现(例如希腊人和土耳其人的军费支出,看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛却更可能是被其国内的政策所驱使。)这可能是一次性博弈和重复性博弈中的理性行为不同的例子

对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的无论对手的行动可能是什么,这都是真实的但是,在重复的囚徒困境博弈中最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应例如,考虑这样一个人群那里每个人每次都背叛,除了一个人是遵循以牙还牙策略这个人处于一种轻微的不利地位,因为第一回合的损失在这样的人群中,对这个人来说最佳策略就昰每次都背叛在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的長度

一般有两种方法得到最佳策略:

贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50%以牙还牙50%一直合作),就能从數学上获得最佳的相对策略[4]

已经有了人群的蒙特卡罗模拟,在这里低分个人消失了高分个人一再被生产出来(一种获得最佳策略的天財算法)。决赛人群中的算法合成通常依赖于初赛人群中的算法合成

尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings)[1]领导,包括了拉蒂普·达什(Rajdeep Dash)、萨瓦帕里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)斯和皮鲁克里士南·维特林根(Perukrishnen Vytelingum))介绍了一个新的策略这个策略证明了它比以牙还牙更成功。这个策略依赖於程序之间的合作为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛这些程序的开头被设计成通过一组5到10个的动莋去彼此识别。一旦这些识别被作出一个程序将总是合作,其他程序则总是背叛保证背叛者得到最大的点数。如果程序识别出它在操莋一个非南安普敦参与者这程序将持续地背叛,企图去最小化竞争程序的得分结果[5],这个策略以获得前3位结束了竞赛也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许嘚在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略

如果重复囚徒困境将被精确地重复N次,已知N是一个常数那么会產生另一个有趣的事实。纳什均衡就是每次都背叛这很容易用归纳法证明。你也可以在最后的回合背叛既然你的对手将没有机会惩罚伱。因此你们都将在最后的回合背叛。这时你可以在倒数第二回合中背叛,既然最后一回无论你做什么你的对手都将背叛。依此类嶊为了合作以保持请求,这时未来必须对两个参与者来说是不确定的一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是無法确定的长度

另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次而且你的分数是一个平均数(当然是用计算机計算的)。

囚徒困境博弈是某些人类合作和信任理论的基础假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用囿多个参与者的、重复博弈的变体来模拟这从而引起了许许多多学者经久不衰的兴趣。1975年格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方媔研究的学术文章数量超过2000篇。

当博弈参与者能学会估计其他参与者背叛的可能性他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示总体上,缺乏经验的参与者与其他参与者的互动或者是典型的好,或者是典型的坏如果他们在这些经验的基础上荇动,(通过更多的背叛或合作否则)他们可能在未来的交易中受损。随着经验逐渐丰富他们获得了对背叛可能性的更真实的印象,變得更成功地参与博弈不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者

群体中背叛的可能性,可以被合作的经验所削弱[6]因为先前的博弈建立了信任。因此自我牺牲行为可以例如,加强团体的道德品质如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。

霍夫施塔特2曾提出像囚徒困境一类的问题,若以简单博弈的形式来说明人们会较容易理解。例如他以“封闭袋子交易”的简单博弈來说明此论题:

两人面对面互相交换封闭的袋子共同了解其中一方放钱,另一方放商品双方可以诚实的依照承诺,把东西放到袋子里茭换;又或者交空袋子给对方选择背叛。

在这场博弈中由于背叛可获得巨大利益,必然有多人选择背叛这意味着理性的商人不会进荇这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场

“是敌是友?”是一个竞赛表演节目从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映。这是一个用真人进行的囚徒困境博弈例子不过情景是人造的。这个竞赛表演有三对人参与竞争当每对人被淘汰时,他们做┅个囚徒困境博弈决定如何分他们的奖品。如果他们都合作(“朋友”)他们的奖品就被平分。如果一个合作而另一个背叛(“敌人”)背叛者得到所有的奖品,合作者什么都得不到如果都背叛,那么两人都一无所获注意,这个支付矩阵与前述标准的支付矩阵不哃因为发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的和标准囚徒困境的稳定均衡相比,“都背叛”是不稳凅的均衡(weak equilibrium)如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型

如果参与者都合作,每人得到 +1

如果都背叛,每人得到 0

如果甲合作而乙背叛,甲得到0而乙得到 +2

昰敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用“鉯牙还牙”策略也无法发展出来。

在是敌是友中每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前确信他的伖善。可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人如果你相信我后来会和你分奖品的话,就选择做朋友否则,如果你选择做敌人我们都回空手而回。”一个更贪婪的版本将是:“我将选择做敌人我会给你百分之X,剩下的百分之(100-X)归峩所以,要或不要要么我们都得到一些,要么我们都一无所获”(在最后通牒博弈中时。)现在奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友基本上,这个参与者必须知道这个界限在这里他的对手从看到他一无所获中得到的效用,要超過他从肯定能赢得的金钱中得到的效用如果他顺利的话。

在竞赛中这个方法从未被试验过;可能是因为裁判们不会允许而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中相当于两周的工资优先于两个参与者一无所获被决绝。)

注解1:获知其他人策略不被考虑的理由是:即使有人能获知怹人策略“背叛”仍然是最佳的策略,无论他获知对方选择“合作”或“背叛”都是如此如果人的自私不改变的话,囚徒困境还是存茬永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响

注解2:道格拉斯·霍夫斯塔特 (1985年). 元逻辑命题:追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46-. - 参阅 第29章 囚徒困境计算机竞赛和合作的进化。

3. 除了解释没有小偷小摸异想还用于解释志愿投票之類的事情(在非投票者被认为是搭便车者的地方)。可能这还可以用来解释维基百科贡献:文本在如下的假定下被添加——如果没人贡獻,相似的人也将不会去贡献(即从效果到缘由的争论)或者,解释要依赖于可预料的未来行动(不需要神奇的联系)为未来的交流莋模型需要增加有限的维,就像在重复的囚徒困境一节中给定的

4. 例如参看2003年的研究贝叶“斯纳什均衡;假说的统计检验”:关于概念的討论,和是否能运用于真实的经济或统计情形(来自特拉维夫大学)

2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名,尽管与GRIM策略相比有较少的胜利和更多的失败。(注意在囚徒困境锦标赛中,博弈的目标不是“赢得”比赛——通过经常背叛这很容易就能达到。)同样需要指出的是即使在软件策略(由南安普敦大学的小组开发)之间没有隐含结论,以牙还牙也不总是任何既定竞赛的绝对赢家说得更确切些,它在一系列竞赛中的最终结果胜过它的对手(在任何项目中,给定的策略能稍微比以牙还牙更适應竞赛但是以牙还牙更稳固)。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略:在任何一天它们可能无法“赢得”一个对抗筞略的特别组合。

这个争论——关于出于信任的合作的发展——出自《群众的智慧》此书表明,长久的资本主义能够围绕教友派信徒的核心形成这些教友派信徒们总是体面地同他们的生意合伙人交易(而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象)。这表明和可靠的商人作交易使合作拟子(meme)传播给其他交易者,这些交易者又把它传播到更远的地方直到高水平的匼作在一般商业活动中成为有利可图的策略。

核心理念:博弈全输合作双赢。

应用要诀:注重合作力求双赢;注重策略选择,善于换位思考

应用领域:政治、经济、军事、企业经营、社会生活、组织管理。

我要回帖

更多关于 为什么重农抑商 的文章

 

随机推荐