玩不够的数学2:当数学遇上游戏
上QQ阅读APP看书,第一时间看更新

真正的最优解?

在这里,我们要注意这类结果的一个微妙之处,特别是针对最优策略Cepheus的计算。如果一位玩家玩得很糟糕,总是重复同样的错误,那么对手有时候能观察到这一点,并尝试从中获利。在“石头、剪刀、布”游戏中,如果你的对手总是出石头,那么显然你一直出布的话就能大赢特赢。你用的不再是最优的概率性策略,而是冒着对手醒悟过来,然后利用你总是出布来赢你的风险,但如果对手坚持出石头的话,那么你一直出布肯定要比“最优”混合策略赢得更多。

真实情况可能会比这个更加复杂。对于“石头、剪刀、布”类的游戏,克劳德·香农和一个人工智能程序分别提出了不同的游戏策略,能以明显优势战胜人类玩家。这些程序会辨认出玩家策略的规律并加以利用,它们的策略当然不是博弈论中的最优策略,而是基于分析对手如何连续选择而提出的一种更精妙的方法。博弈论能让我们找到(在统计意义上)永远不会输的混合策略。这当然是好事,但我们可以做得更好。通过分析之前的对局,并采用自适应算法,我们能从对手可被察觉到的弱点中,占到尽可能多的便宜。

没有任何数学方法能定义并计算出,到底什么策略能尽可能快地利用能被辨认出的对手弱点。在现实的“石头、剪刀、布”游戏或扑克对局中,要想玩得好,就要有这方面的考虑。

先说清楚,如果坚持执行坏策略(也就是可以被分析并被利用的策略)的多名人类玩家,以循环赛形式对抗最近更新的最优策略Cepheus,或者其他冒着风险利用玩家弱点的策略,那么Cepheus不一定会赢。换句话说,Cepheus在双人对抗中不可能被任何人打败,但在一场多玩家参与并先后两两对决的比赛中,Cepheus的平均收益很可能低于之前提到的Polaris等程序——后者的构想基础就是根据遇到对局者来自我调整(见框2)。

当信息不完全而又有随机因素时,一切都变得复杂而微妙,面对各种试探性的方法和不断完善的人工智能,数学理论还没有找到能一锤定音的方法。