02 不透明学习机器的局限性_对话最伟大的头脑之大思考系列-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

Deep learning has its own dynamics, it does its own repair and its own optimization, and it gives you the right results most of the time. But when it doesn't, you don't have a clue about what went wrong and what should be fixed.

深度学习有自己的动力学机制，它能自我修复，找出最优化组合，绝大多数时候都会给出正确的结果。可一旦结果错了，你不会知道哪里出了问题，也不知道该如何修复。

朱迪亚·珀尔

Judea Pearl

朱迪亚·珀尔是计算机科学教授，加州大学洛杉矶分校认知系统实验室主任。他与达娜·麦肯齐（Dana Mackenzie）合著了《为什么：关于因果关系的新科学》（The Book of Why: The New Science of Cause and Effect）。

布罗克曼谈朱迪亚·珀尔

20世纪80年代，朱迪亚·珀尔推出了一种实现人工智能的新方法，称为贝叶斯网络。这种基于概率的机器推理模型使机器能够在一个复杂而不确定的世界中发挥作用，成为“证据引擎”，根据新的证据不断修正自己的信念。短短几年内，珀尔的贝叶斯网络完全取代了以往基于规则的人工智能途径。深度学习的出现，使珀尔的研究暂时停下来，因为这种方法有些不透明。深度学习指计算机通过观察大量数据来自学，使自己变得更聪明。

看到迈克尔·乔丹（Michael Jordan）和杰弗里·欣顿（Geoffrey Hinton）等同事在深度学习领域取得的杰出成就后，他对这种不透明感到不安。他开始理解深度学习体系的理论局限性，并指出这些基本障碍的存在将使机器永远无法达到人类的智慧，无论我们付出怎样的努力。珀尔意识到，通过利用贝叶斯网络的计算优势，将简单概率图模型和数据组合起来，也可以表示和推断因果关系。这一发现的意义远远超出了它在人工智能领域最初的存在意义。他的新书向一般大众解释了这种因果思维，可以说，这是一本关于人类如何思考的入门书。

珀尔采用原则性的、数学的方法研究因果关系，这是对思想界的巨大贡献。几乎每一个研究领域都从中受益，特别是数据密集型的健康学和社会科学。

作为一名前物理学家，我对控制论非常着迷。虽然它没有把图灵机的全部性能发挥出来，但它高度透明，这也许是因为它是建立在经典的控制理论和信息理论基础之上的。现在，机器学习的深度学习模式已经失去了这种透明度。从根本上说，深度学习是一个曲线拟合问题，在一长串输入输出链的中间层调整权重。

我发现许多使用者会说“很好用，但我们也不知道原因”。深度学习有自己的动力学机制，一旦你喂给它大量的数据，它就活跃起来，还能自我修复，找出最优化组合，绝大多数时候都会给出正确的结果。可一旦结果错了，你不会知道哪里出了问题，也不知道该如何修复。尤其是，你不知道问题是出在程序上还是方法上，抑或是因为环境发生了改变。我们应该致力于找到一种完全不同的透明度。

一些人认为，我们并不需要透明。我们不了解人类大脑的神经构造，它也运行得挺好，所以我们可以原谅自己的浅薄，最大限度地利用机器。同理，他们还认为，我们为什么不利用深度学习系统，建造一种不用了解它们工作原理的智能呢？在某种程度上，我认可这种观点。我个人并不喜欢不透明，所以我不会浪费时间在深度学习上，但我也知道它在智能中占有一席之地。我知道，不透明的系统也能做出色的工作，我们的大脑就是这样的奇迹。

但这种观点有其局限性。我们可以原谅自己不了解人类大脑的运作原理，这是因为人类大脑的运作原理是一样的，无须了解我们也可以与他人交流、向他人学习、给他人指导、用我们的语言鼓励他人。但如果我们的机器人都像“阿尔法围棋”（AlphaGo）一样不透明，我们便无法与它们进行有意义的交流，这很不幸。无论何时，任务或操作环境有些许改变，我们都需要重新培训它们。

所以，我没有用这些不透明的学习机器做实验，我在努力了解它们理论的局限性，想着怎样去克服这种局限。我使用了因果推理方法，这种方法是科学家思考世界所使用的方法，有着丰富的直觉案例，可以在分析中监控进展情况。这样，我发现确实存在一些基本障碍，除非攻克这些障碍，不然无论我们怎样努力，都无法让机器拥有人类一样的智能。我相信，了解这些障碍和攻克这些障碍同样重要。

当前的机器学习系统几乎完全在统计模式或者说模型盲（model-blind）的模式下运行，这在许多方面类似于将函数拟合到大量点数据。这样的系统不能推理“如果……会怎样？”的问题，因此不能作为强人工智能的基础，强人工智能是模拟人类推理和能力的人工智能。为了达到人类智能水平，学习机器需要现实蓝图的指导，这种蓝图是一个模型，类似于当我们在陌生城市开车时给我们指路的道路地图。

更准确地说，当前的学习机器是通过优化从环境中接收到的感觉输入流的参数来提高其性能。这是一个缓慢的过程，与达尔文进化论的自然选择过程相似。它解释了鹰和蛇等物种，如何在几百万年的进化过程中拥有超强视力的过程。但它无法解释超级进化过程，这一过程使人类在短短的一千年内制造出眼镜和望远镜。人类拥有而其他物种没有的正是他们对环境的心理表征，他们可以随意操纵这种心理表征，想象出假设环境来进行规划和学习。

尤瓦尔·赫拉利（Yuval Noah Harari）和史蒂文·米森（Steven Mithen）等研究“智人”的历史学家们一般认为，使人类祖先4万年前能统治全球的决定性因素是：他们拥有创造和储存自身环境的心理表征能力，他们能反复探究这种心理表征，通过想象扭曲它，最终可以回答“如果……会怎样？”这样的问题。比如他们会问一些介入性问题：“如果我这样做了，会怎样？”还会问一些回顾性或反事实性的问题：“如果我没那样做，会怎样？”今天没有一台学习机器能回答得了这样的问题。而且，大多数学习机器不具有这样的表征，它们无法从这样的问题中得到答案。

至于因果推理，我们发现对于任何形式的模型盲曲线拟合或者任何统计推断，无论拟合过程有多复杂，你能做的都微乎其微。我们还发现了组织这些局限的理论框架，这些框架形成一个层级结构。

第一层是统计推理。统计推理能告诉你的，只是你看到的一件事如何改变你对另一件事的看法。例如，某症状能告诉你得了哪一种疾病。

然后，是第二层。第二层包含了第一层，但第一层却不包含第二层。第二层处理的是行动。“如果我们抬高价格会怎样？”“如果你让我笑了，会怎样？”第二层需要的是干预信息，这些信息是第一层所没有的。这些信息可被编码成概率图模型，它仅仅告诉我们哪个变量对另一个变量有响应。

第三层是反事实的。这是科学家们使用的语言。“如果这个东西重两倍，会怎样？”“如果当初我没有这样做，会怎样？”“治好了我头疼的是阿司匹林还是刚刚打的盹？”反事实在感觉中属于最高层次，即使我们能够预测所有行动的结果，但却无法得到反事实。它们需要一种额外的东西，以等式的形式告诉我们对于其他变量发生的变化，某个变量会如何反应。

因果推理研究的一个突出成就是对干预和反事实的算法化，也就是对层级结构最高两层的算法化。换言之，一旦我们把科学知识编码成模型（这个模型可以是定性的），那么就会存在检查模型的算法，对于一个给定的查询，无论该查询是关于干预的还是反事实的，这种算法都可以根据可用的数据来估算是否有结果，以及如果是的话，如何得出结果。这一成就极大改变了科学家们做科学研究的方法，尤其是在社会学和流行病学等数据密集型科学中，因果模型已经成为第二语言。这些学科把它们的语言转换看成是“因果革命”。正如哈佛社会科学家加里·金（Gary King）所说：“在过去几十年里，人们对因果推理的了解，比先前有史以来学到的一切加起来都多。”

当我思考机器学习的成功并试图把它推广到未来的人工智能时，我问自己：“我们是否意识到了在因果推理领域中发现的基本局限性？我们准备绕过阻碍我们从一个层级升到另一个层级的理论障碍吗？”

我认为机器学习是一种工具，使我们从研究数据走到研究概率。但是，从概率到实际理解，我们仍然需要多迈出两步，非常大的两步。一是预测行动的结果，二是反事实想象。除非我们迈出最后两步，否则我们不能说了解了现实。

哲学家斯蒂芬·图尔敏（Stephen Toulmin）在他充满洞察力的著作《前瞻和理解》（Foresight and Understanding，1961）中提出，透明性与不透明性之间的对比是理解希腊与巴比伦科学之间古老竞争的关键。按照图尔敏的说法，巴比伦天文学家是做出黑匣子预测的大师，在天文观测的准确性和一致性方面远远超过了对手希腊。然而，科学却偏爱希腊天文学家创造性的推测，这种推测大胆且充满隐喻性的意象：充满了火焰的圆管、天火透过小孔被视作星星以及半球状的地球骑在龟甲上。正是这种大胆的建模策略，而不是巴比伦的外推，震惊了埃拉托色尼（Eratosthenes），使他做了一个当时世界上最具创造力的实验，测算出了地球的周长。巴比伦的那些以数据为准则的科学家们永远不会做这样的实验。

模型盲法把内在限制加在强人工智能执行的认知任务上。我觉得，达到人类水平的人工智能不会仅仅从模型盲学习机器中出现，它还需要数据和模型的共生协作。

数据科学只是一门有助于解释数据的科学，而解释数据是一个两体问题，将数据与现实联系起来。但无论数据有多“大”，人们操控数据多么熟练，数据本身并不是一门科学。不透明的学习系统可能会把我们带到巴比伦，但绝不是雅典。