【财讯】棘手的重复囚徒困境-百家商业周刊

姚广孝

“航向相对”

《摆脱囚犯困境(上)》(上篇《各人对各人的战争》中生存)的文章刊登在2019年1月14日出版的《经济注意报》第40版上，可以直接关注公众号《经济注意报注意家》能否阅览和编纂。

为了彻底理解合作形成的深层机制，美国著名科学家罗伯特·阿克塞尔罗德(年美国国家科学奖章nationalmedalofscience获得者，美国政府对外关系智囊团“外交关系协会”councilonforeis 是20世纪70年代冲击棘手的“重复囚犯”，引起课题的“重复囚犯困境”问题是典型的“非线性复杂的系统”，以前流传下来的归纳法和演绎法对此束手无策。油门杆是敏锐的嗅觉，利用当时刚兴起的计算机技术，沿着“计算模拟”这一归纳和演绎不同的新研究路径，举办了三次对后世有重大影响的“重复囚犯困境游戏战略的计算机锦标赛” 这三场比赛的结果直接指向合作的本质，“圣诞节停战”的秘密隐藏在这三场比赛的背后。

【财讯】棘手的重复囚徒困境

让我们从第一场比赛开始。参加这次竞赛的14名专家来自心理学、经济学、政治学、数学和社会学五个不同的行业。各专家为游戏战略做出了贡献，除了油门杆自己参加的“随机战略”外，还有15名选手参加了第一场比赛。比赛由200回合组成，每回合15名选手分别与包括自己在内的对手展开游戏。单机游戏是典型的囚犯困境，“单独背叛的诱惑大于双方合作的利益”，每个选手根据自己的既定策略选择“合作”或“背叛”。两个组合有“对方合作己方背叛”、“双方合作”、“双方背叛”、“己方合作对方背叛”四个结果，这四个结果的得分分别是5分、3分和1分。 200回合结束后，根据得分的高低，可以评价不同游戏战略的优劣。

【财讯】棘手的重复囚徒困境

这15个战略来自不同行业的博弈论专家之手，许多复杂性各不相同。有些战略非常简单。例如，“航向相对”( titfortat )。这个策略在第一回合无论对方是谁，默认都选择合作。然后，每一轮的行动取决于对方前一轮的表现。对方在最后一回合背叛，那一回合自己也背叛。对方在前一回合合作，这一回合自己也合作。有些战略非常多而且复杂。例如，“唐宁”战略引入了长期记忆。这将记住比赛中遇到的所有对手，为每个人建立“个人文件”，记录这些对手合作后继续合作的概率和背叛后继续合作的概率。对于任何一个对手，如果这两个概率相似，我认为“唐宁”不介意被背叛，决定在下次相遇后背叛它。如果两个概率大不相同，“唐宁”会让对方容易生气，所以在下次相遇时选择合作。

【财讯】棘手的重复囚徒困境

哪个战略会在第一轮比赛中获胜？乍一看，“航向”战略就像身边常见的“正直者”，只有在第一次和陌生人见面时信任对方，被骗后才能报复。对方犯了错误马上暴露，温厚，不记仇，容易吃亏。 “唐宁”战略，就像一些玩弄心灵的“粗俗人”一样，首先考验你是否欺负，不生气就安装人，惹生气就会得到激烈的利益。两者得分高是不言而喻的，但比赛结果使包括油门杆在内的所有人都感到吃惊: 15个战略中得分最高的是头脑最简单的“航向相对”战略。狡猾的“唐宁”也没有进入前八名。

【财讯】棘手的重复囚徒困境

为什么会有这个结果？最直接的理由很简单。包括“航向相对”在内的很多战略都不是“慷慨”，即使被背叛后也选择报复。但是，程度不同。过去不负责任的“航向相对”战略还很粗略，另一个“弗里德曼”战略只受到一次背叛就永久地继续报复，不管对方之后是否表现出了积极的好行为。在这种情况下，“先取笑别人便宜”是指喜欢背叛找对象的“唐宁”平均起来容易招致报复，得分自然低。

【财讯】棘手的重复囚徒困境

另一个原因比较间接。注意这个竞赛前八名的战略，就会发现有共同的优势，可以说是“善良”。什么是善良？一句话，先不背叛。所有善良战略和其他善良战略之间可以直接达成合作，一旦建立合作关系，就可以永远继续合作，其集体得分一直很高。在这些善良的战略之间互相合作，共同把对方拉进了整个比赛的前列。

【财讯】棘手的重复囚徒困境

上面的分解表明，在这场比赛中，“善良”是比“狡猾”更可靠的战略。那么，在这八个善良的战略中，“航向相对”战略以什么特征得到了最高的分数呢？这里可以凝结的另一个重要指标是宽容。与大家期待的相反，宽容度高的战略往往排在前列。 “航向相对”在背叛后只惩罚对方一次，然后过去不负责任，如果对方今后良好，双方可以继续合作得分。作为善良战略中最不宽容的“弗里德曼”战略，它容易与其他战略陷入相互伤害，因此最终得分也是8个善良战略中最低的。

【财讯】棘手的重复囚徒困境

这样，第一场比赛告诉了我们一个事实:第一，最初不背叛的善良战略整体得分明显高于无故背叛对方的战略。第二，在善良的战略中，更宽容的战略排名靠前，报复心强的战略排名靠后。

第一场比赛的意外结果在学术界引起了热烈的讨论，油门杆很快就举行了第二场比赛，规则与第一场类似，但参加选手的数量大幅增加，来自计算机科学、物理学、进化生物学行业的新面孔因为上次比赛的结果是众所周知的，所以新比赛正好可以验证第一场比赛中“善良”的胜利是偶然的还是必然的结果。这次参加的是62个战略，有学者根据“航向相对”提出了一点改进措施，新战略比“航向相对”更宽容。另一个选手想为“航向相对”制定特别的应对手段，从这个第一回合的胜者那里成功地“擦油”。但是，比赛结果再次令人吃惊，优胜者依然是“航向相对”！然后和上次比赛一样，在这次62项战略中获得前15名基本上具有我们熟悉的优势。我很善良。最后15名战略中只有一个是善良的战略，剩下的一切都喜欢故意背叛和试探对方的恶意战略。

【财讯】棘手的重复囚徒困境

在第二次竞赛中，油门杆又发现了新的东西。 “航向相对”战略的改进不会带来进一步的比赛得分。比如道金斯(《自私基因》作者)的朋友，英国进化生物学家约翰·梅纳德·史密斯在第二次竞赛中提出了“超宽容”战略“2报1报”，只有在连续两次被背叛后才能报复。但是，该战略在62名参加者中只排在24名。这是因为第二次竞赛出现了比第一次竞赛的“唐宁”更狡猾的恶意策略。例如，“检查者”和“冷静者”，就像“第二次报纸还只报告过一次”一样，在这里只介绍了详细情况，但有一个战略比“航向”更有效地被剥削。像前述的“弗里德曼”这样不宽容的战略比“航向相对”的表现更好。换句话说，“航向相对”是所有善良战略中最简单最好的解。

【财讯】棘手的重复囚徒困境

如果“航向相对”遇到“自然选择”

两次比赛足以证明“航向相对”的优秀，但油门杆还不满意，他想在更现实的环境中检查这个战略的鲁棒性。为此，他展开了第三次竞赛。这次比赛没有新的参加者，但与前两次比赛相比，这次比赛有根本的区别。引进了自然选择的环境压力，胜者不仅是分数，创造下一代的机会也在增加。 62名参加者被扔进计算机，比赛依然采取回合制，每次回合结束时，各战略都会判断系统具有适应性和可以生成的下一代数量。大部分战略在200代进化后很快就消失了，恶意战略在开局时可以开花，但随着可剥削的过于宽容的战略灭绝，他们很快就会灭绝，而且推测你没有错，最终赢了依然是

【财讯】棘手的重复囚徒困境

结论到目前为止，“反复囚犯困境”中，“航向相对”是最简单、最好的游戏策略更宝贵的是，它还具有强大的生命力，一旦出生，就可以顽强地活着，战胜其他便宜的恶意战略

这是自然界和人类社会合作广泛产生、稳定发展的深层原因。让我们回顾第一次世界大战西线战场上的双方士兵。他们确立和维持的是这样的“航向相对”战略。从大环境来看，各基层战斗单位长期与同一对手的战斗单位在沿线对峙，这构成了经典的“重复囚犯困境”，合作也有环境基础。在战争后期，盟国和盟国军官为了破坏双方基础士兵达成的心照不宣的停战，频繁交换基础部队的防卫区，最终使这种默契消失。从细节上看，双方士兵都养成了“不要挑衅”的习惯，因此收买了自己的炮兵，不使敌人当真。这是“航向相对”战略的基本优势——善良。另一方面，这些士兵即使想报复也不要忘记把可以插手的信号告诉对方，正好是“航向相对”战略的另一个优点:自己不先插手，但如果被背叛了就有报复的能力。这种威慑力使具有“航向相对”战略的选手不被过度侵犯，长期来说，使合作关系不易遭到背叛诱惑的破坏。

【财讯】棘手的重复囚徒困境

"合作的基础不是信任和友谊. "

1984年，油门杆整理了三场比赛的结果，出版了《合作的进化》。这本书给他很大的评价，也为数学、政治学和进化生物学等其他人文和科学学科提供了新的研究范式。有名的生物学家理查德·道金斯在其名著《自私的基因》的第12章中，以大量的篇幅探讨了自然界各种生物之间如何产生许多杂乱莫名的合作行为，参考了油门杆的分解构想。

【财讯】棘手的重复囚徒困境

在《合作进化》一书中，油门杆详细介绍了三场比赛的细节，总结了胜者“航向相对”的四大优势。善良性，宽容性，愤怒性，可预测性。善良意味着不首先背叛，愤怒性意味着一旦被对方背叛就施加报复，害怕对方多次背叛，宽容性意味着在施加报复后也不记仇，可以很快恢复与对方的合作关系，也是对方的背叛。

【财讯】棘手的重复囚徒困境

在上述四个特征中，“易怒”的价值往往被低估。文明社会的文化教育倾向于让人们思考后再进行。否则，就会被视为没有教养。但是“易怒”既然写在人类基因上，就证明生物的进化是有价值的。事实上，在油门杆举办的两项竞赛中，许多战略欺骗了对方后，注意对方的反应，根据反馈决定下一步的动作。如果参加者对无理的背叛反应迟缓，实际上就会发出错误的信号，让对方认为背叛会受益。更严重的是，一旦建立这样的形象，就很难打破。所以如果你生气了，就不要来得太早。 “航向相对”战略被背叛后，第一时间向对方挥舞马威，对方瞬间理解背叛行为是没有好处的，这其实是比较有效的自我保护战略。

【财讯】棘手的重复囚徒困境

另一个容易被低估的特征是“可预测性”。与拘泥于东方智慧的“不懂刑，威不可测”不同，使自己的反应模式透明是真正的“大智慧”。自己的事情规则足够简单，别人一目了然，而且“我不能欺负。任何背叛都会引起我的报复，无例外”，可以坦率地告诉别人，不要做不必要的尝试。每次的尝试都是欺诈，欺诈会导致报复，报复会给双方带来损失。如果不提前使用这一切，那为什么不轻松呢？

【财讯】棘手的重复囚徒困境

最后，让我们回到上一篇文章中提出的问题。 “每个人对每个人的战争”真的是人类逃不掉的诅咒吗？油门杆的研究对此给出了乐观的否定回答。这项研究最有魅力的地方是不需要做太多的假设。关于“如何达成重复游戏中的稳定合作关系”的问题，不需要假设参加者有利他主义的动机，也不需要按照摇滚等先贤的想法导入某种中央权威，像古典经济学研究那样“理性的人，相反，也可以是经验的、试行错误的性质，如果内有持续学习的机制，外有生存环境的选择性压力，有识别和记忆其他参加者的能力，这种合作就会自发出现，积极扩张的过程是纯粹的自我利益的参与从向人类社会进化、细菌繁殖生存、自私自利到互利合作的逻辑是一贯的。油门玫瑰说:“合作的基础不是信任和友谊，而是关系的持续性。” 产生合作的必要条件其实很简单，只要关系持续，合作总是以很大的概率发生，“对每个人的战争”不是必然的。

【财讯】棘手的重复囚徒困境

馀论

油门杆的三大竞赛是使用新工具研究旧问题的模型。

提出“对每个人的战争”社会契约的摇滚、卢梭、霍布斯等，尽管都是人类思想史上的领袖，他们仅限于技术，只能由政府如何逻辑演绎起源，他们居住的时代、历史学说学者们可以对人类政府的起源提出1万种不同的假设，但历史只有一次，人们无法从大量的重复样本中总结可靠的结论，因此演绎法成为了当然的选择。 20世纪出现的计算机模拟除了以前传下来的归纳和演绎外开辟了第三条路，另一方面与演绎一样，从一些简单明确的前提开始，但不是说明定理，而是在以结果为前提的制约下，大量的模拟另一方面，生成的模拟数据可以用于归纳和分解，但与以往传来的归纳法不同，模拟数据来源于“清洁”、“简单”的计算模型，不像现实世界注意到的数据那样容易受到干扰，所以请做出通常的结论。在这种新的研究方法的帮助下，阿克塞尔罗德对霍布斯等人几百年前遇到的问题得出了不同但足够有说服力的结论。 20世纪80年代以后，油门杆将这种做法应用于经济学的“搭便车”现象、社会学的文化进化、历史学中国际联盟的诞生等新课题，使“合作进化”学说越来越多的行业辉煌。

【财讯】棘手的重复囚徒困境