20年之内,机器将拥有人类所具备的一切工作能力。
AI先驱,赫伯特·西蒙,1965年
【一段漫长而艰辛的旅程中】
一个孩子:蓝爸爸,还有多远?
爸爸:不远了。
【过了很久】
另一个孩子:蓝爸爸,还有多远?
爸爸:不远了。
《蓝精灵》
自从人工智能诞生之始,业界专家就保持着愿景有余、“落地”不足的传统。20世纪五六十年代,马文·明斯基(Marvin Minsky)(2)、约翰·麦卡锡(John McCarthy)与赫伯特·西蒙(Herbert Simon)等先驱人物曾发自内心地笃信,AI的问题将在20世纪末之前被彻底解决。1明斯基有句广为流传的名言:“一代人之内,人工智能的问题将在总体上得到解决。”2 50年之后,这些预言却未能实现,而新画的“大饼”却层出不穷。2002年,未来学家雷·库兹韦尔(Ray Kurzweil)(3)公开断言AI将在2029年之前“超越人类本身的智慧”。3 2018年11月,OpenAI这家著名AI研究机构的联合创始人伊利亚·苏茨科弗(Ilya Sutskever)提出:“我们应严肃认真地考虑近期实现通用人工智能(AGI)的可能性。”4
虽然从理论上讲,库兹韦尔和苏茨科弗的预言有望实现,但此事成真的可能性非常渺茫。我们距离具有人类智能灵活性的通用人工智能太过遥远,不是再走几小步就能到达的,相反,这个领域还需要大量的基础性进步。我们将阐明,继续复制行业过去几年间取得的成果是远远不够的,我们需要去做一些完全不同的事情。
即便并不是每个人都像库兹韦尔和苏茨科弗那样积极乐观,但从医疗行业到无人驾驶汽车领域,各种野心勃勃的承诺依然随处可见。5这些承诺通常会落空。举例来说,2012年,我们经常听到人们谈起“自动驾驶汽车将在不久的将来成为现实”。62016年,IBM宣称,在Jeopardy!智力问答节目中夺魁的AI系统沃森(Watson)将会“在医疗行业掀起一场革命”,并称沃森健康(Watson Healthcare)的“认知系统能理解、推理学习和互动”,并且“利用认知计算在近期取得的进步……我们能达到不敢想象的高度”。7-9IBM的目标,是解决从药理学、放射学到癌症诊断与治疗中存在的诸多问题,利用沃森去读取医学文献,给出人类医生可能会遗漏的医疗建议。10与此同时,AI领域最卓越的研究人员之一杰弗里·欣顿(Geoffrey Hinton)说:“很明显,我们应该停止培养放射科医师。”11
2015年,Facebook启动了M计划。这是一个目标远大、覆盖范围广泛的聊天机器人项目。这个机器人要有能力应对你的每一种需求,既能帮你预订餐厅座位,又能帮你规划下一次度假旅行。12
但是,直至今日,上述目标还没有一件得到落实。没准儿有一天,自动驾驶汽车能真正保证安全并普及,聊天机器人真能实实在在地满足你的所有需求,拥有超级智能的机器人医生真能给你看病。但现在看来,所有这一切都是理想,而非现实。
无人驾驶汽车的确存在,但主要局限在高速公路环境中,还需要人类司机就位才能保证安全,原因是软件太不靠谱,不敢让人以性命相托。2017年,Waymo公司(从谷歌分拆出来专门从事无人驾驶汽车工作达10年之久的公司)首席执行官约翰·克拉夫茨克(John Krafcik)放出大话,说Waymo很快就能推出无须人类司机作为安全保障的无人驾驶汽车。13一年之后,正如《连线》杂志(Wired)所言,嚣张气焰全无,人类司机还在。14没有人真的认为,无人驾驶汽车已经可以在“无人”状态下,完全凭借自身能力在城市之中或恶劣天气之下外出行驶。早期的乐观态度,也被现如今的冷静所取代。人们普遍认为,要达到真正的无人驾驶,尚需至少10年的发展,很可能10年还远远不够。15
同样,IBM的沃森向医疗方向的转型也冷却了下来。2017年,MD安德森癌症中心停止了与IBM在肿瘤学方面的合作。16据报道称,沃森给出的一些建议“不安全、不正确”。17 2016年,位于德国马堡的“罕见病和未确诊疾病中心”利用沃森开展的项目,不到两年就被叫停,因为“工作结果无法接受”。18-19当医生将病人的胸痛症状告知沃森系统时,沃森并没有提出心脏病、心绞痛或主动脉撕裂等可能的诊断,而这些连一年级的医学生都能提出。
沃森的问题被曝光后不久,Facebook的M计划也被叫停。20此时距离项目启动的时间还不到3年。
虽然AI领域一直以来都保持着虎头蛇尾的习惯,但看好AI的呼声依然狂热到爆棚。谷歌前首席执行官艾里克·施密特(Eric Schmidt)曾信心满满地宣布,AI会解决气候变化、贫困、战争和癌症等诸多社会问题。21X-Prize创始人彼得·戴曼迪斯(Peter Diamandis)在他的著作《富足》(Abundance)(4)中也提出过类似的观点,认为强AI在成真之日“一定会如火箭般载着我们冲向富足之巅”。22 2018年初,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)宣称:“AI是人类正在从事的最重要的事业之一,其重要性超越电和火的应用。”23不到一年之后,谷歌被迫在一份给投资者的报告中承认,“纳入或利用人工智能和机器学习的产品和服务,可能在伦理、技术、法律和其他方面带来新的挑战,或加剧现有的挑战”。24
还有些人因AI的潜在危害而苦恼不已,而这些担忧与实际情况相去甚远。牛津大学哲学家尼克·博斯特洛姆(Nick Bostrom)提出了关于超级智能占领世界的话题,好像这个灾难不久就会发生似的。25亨利·基辛格(Henry Kissinger)在《大西洋月刊》(The Atlantic)发表的文章中称,AI的危险可能极其巨大,“人类历史可能重蹈印加人的覆辙,面对AI,就像印加人面对无法理解的西班牙文化一样,甚至会对其产生崇拜和敬畏之心”。26埃隆·马斯克(Elon Musk)曾提出警告,称推进AI向前发展的行为无异于“召唤恶魔”,为人类带来“比核武器更恐怖”的危险。27-28已故的史蒂芬·霍金(Stephen Hawking)曾说过,AI的发明可能是“人类文明史上最可怕的事件”。29
但是,他们所讨论的AI究竟是什么样的AI?回到现实之中,满眼看到的都是连门把手都打不开的机器人,“自动巡航”模式下的特斯拉三番五次追尾停在路边的车辆,仅2018年就发生过至少4次。30这就好比是,生活在14世纪的人们不去操心当时最急需的卫生环境,却在为交通堵塞问题而杞人忧天。
真的有可信的AI吗
人们之所以总是过高地估计AI的实际能力,一部分原因在于媒体的夸张宣传,将每一次小小的成绩描绘成天翻地覆的历史性突破。31
看看下面这两个关于所谓机器阅读技术大突破的文章标题。
A:《机器人超越人类阅读水平,令数百万人面临失业风险》32
——《新闻周刊》(Newsweek),2018年1月15日
B:《计算机的阅读能力正在赶超人类》33
——《CNN财富》(CNN Money),2018年1月16日
第一个标题比第二个更加阴险,但两个标题都对一点点小进步进行了极大夸张。首先,此事根本没有机器人参与,而且研究过程中只从一个极其片面的角度对阅读能力进行了测试,与阅读理解的全面测试相距甚远。根本没有谁的工作会因此而受到威胁。
实情是这样的:微软和阿里巴巴两家公司分别开展了“斯坦福问答数据库”(SQuAD,the Stanford Question Answering Dataset)项目,对计算机在阅读过程中一个覆盖面很窄的单一方面进行了针对性测试。34结果显示,针对该特定任务的阅读能力有微小进步,从之前的82.136%提高到了82.65%,也就是所谓的从之前不及人类的水平提高到了人类的水平。其中一家公司发布了一篇媒体新闻稿,将这点微不足道的成绩说成革命性的突破,并宣布“能阅读文件、倾听叙述并回答问题的AI”就此诞生。35
现实远远没有这么性感。上述测试是被设计来搞研究的,并不能作为阅读理解水平的评判基准。测试中提到的每一个问题,都能从文章中生搬硬套地找到答案。说白了,这个测试只能评判划重点的能力,别无其他。至于阅读的真正挑战——推断出作者在字句之外所表达的意思,这些测试则根本连边都沾不上。
举例来说,假设我们给你一张纸,上面写着这样一段话:
苏菲和亚历山大两个孩子外出散步。他们都看到了一只狗和一棵树。亚历山大还看到了一只猫,并指给苏菲看。她跑去摸了摸小猫。
我们可以轻而易举地回答诸如“谁去散步”之类的问题,问题的答案“苏菲和亚历山大”是直接在文中标明的。但真正的阅读需要我们更进一步看到字句之外的意思。我们还应该能回答诸如“苏菲有没有看到猫”和“孩子们有没有被猫吓到”等问题,虽然这些问题的答案并没有直接摆在文字之中。如果你回答不了,就没办法理解接下去会发生的事情。斯坦福问答数据库并不包含此类问题,新的AI系统也没办法应对这类问题。(5)为了进行对比,我们在撰写此段内容时,本书作者马库斯将这则故事在他4岁半的女儿克洛伊身上进行了测试。克洛伊不费吹灰之力就推断出了故事中的苏菲看见了猫。克洛伊还不到6岁的哥哥更棒,接着说如果那只狗其实是一只猫则会如何如何。这种能力,是现如今的AI完全无法企及的。
技术大鳄们每次发布这样的新闻稿,基本都是同一个套路。而众多媒体(幸亏不是所有媒体)都将一点点小进展描绘成意义非凡的革命壮举。举例来说,几年前,Facebook开展了一个基础的概念验证项目,针对AI系统阅读简单故事并回答相关问题的能力进行评估。36结果一大堆热情高涨的新闻标题随之呼啸而来,《Facebook称已找到让机器人更富智慧的秘密》《能学习并回答问题的Facebook AI软件》《能阅读〈魔戒〉概要并回答问题的软件,可加强Facebook搜索能力》,诸如此类。37-38
果真如此的话,确实属于重大突破。哪怕是能看明白《读者文摘》或托尔金的简明注释本,都算是个了不起的壮举,更别提看懂《魔戒》原著本身了。
但无奈的是,真有能力完成这一壮举的AI根本不在我们现如今的视野之中。Facebook AI系统所阅读的文本概要实际上只有4行文字:
比尔博回到洞穴。咕噜将魔戒留在了那里。比尔博拿到魔戒。比尔博回到夏尔郡。比尔博将魔戒留在了那里。佛罗多拿到魔戒。佛罗多前往末日山。佛罗多将魔戒留在那里。索伦魔王死去。佛罗多回到夏尔郡。比尔博前往灰港。全剧终。
但即使这样,这个AI系统竭尽全力能做到的只是直接回答段落中所体现的基本问题,例如“魔戒在哪里”“比尔博现在何处”“佛罗多现在何处”。千万别想问“佛罗多为什么放下魔戒”之类的问题。
许多媒体人在进行技术报道时,尤其喜欢夸大其词。这样做的直接后果就是让公众误以为AI成真的曙光已经洒满大地。39而实际上,我们还有很漫长的夜路要走。
从今往后,若再听说某个成功的AI案例,建议读者提出以下6个问题:
1.抛开华而不实的文笔,此AI系统究竟实实在在地做到了哪些事?
2.此成果的通用性有多强?(例如:所提到的阅读任务,是能测量阅读中的所有方面,还是只有其中的一小部分?)
3.有没有演示程序,能让我用自己的例子来实验一下?如果没有,请保持怀疑态度。
4.如果研究人员或媒体称此AI系统强于人类,那么具体指哪些人类,强出多少?
5.被报道的研究成果中所成功完成的具体任务,实际上将我们与真正的人工智能拉近了多少距离?
6.此系统的鲁棒性如何?如果使用其他数据集,在没有大规模重新训练的情况下,是否还能成功?(例如:一个玩游戏的机器如果掌握了下国际象棋的技能,它是否也能玩《塞尔达传说》这类动作冒险游戏?用于识别动物的系统,是否能将之前从未见过的物种准确识别为动物?经过训练能在白天出行的无人驾驶汽车系统,是否也能在夜间或雪天出行,如果路上新增了一个地图中没有的绕行标志,系统是否知道如何应对?)
本书的写作目的,是要帮助读者拿出怀疑的眼光来看待现实。更深一步,我们还要分析,时至今日AI依然没有步入正轨的原因是什么;我们要思考,究竟该怎么做才能获得稳健而可信的AI,有能力在复杂而瞬息万变的世界中发挥作用的AI,让我们能真心信任的AI,能将自己的家园、自己的父母和孩子、自己的医疗决策,甚至自己的性命相托的AI。
诚然,最近几年来,AI的确以日新月异的速度变得更加令人震撼,甚至令人叹为观止。从下棋到语音识别再到人脸识别,AI都取得了长足的进步。我们特别欣赏的一家名叫Zipline的创业公司,利用了一些AI技术来引导无人机将血液送到非洲的患者身边。40而像这样有价值的AI应用,在几年前还是无法实现的。
最近AI界的许多成功案例,大都得到了两个因素的驱动:第一,硬件的进步,通过让许多机器并行工作,更大的内存和更快的计算速度成为现实;第二,大数据,包含十亿字节、万亿字节乃至更多数据的巨大数据集,在几年前还不存在。比如ImageNet存有1400万张被标记图片,这在训练计算机视觉系统时发挥了至关重要的作用。41除此之外,还有维基百科以及共同构成万维网的海量文件。
和数据同时出现的,还有用于数据处理的算法——“深度学习”。深度学习是一种极其强大的统计引擎(statistical engine),我们将在第3章中对此进行具体解释和评价。从DeepMind下围棋的AlphaZero和下国际象棋的AlphaZero(6),到谷歌最近推出的对话和语音合成系统谷歌Duplex,AI在近几年所取得的几乎每一项进展,其核心都是深度学习。42-43在这些案例中,大数据、深度学习再加上速度更快的硬件,便是AI的制胜之道。
深度学习在许多实际应用领域也取得了极大的成功,如皮肤癌诊断、地震余震预测、信用卡欺诈检测等。44-46同时,深度学习也融入了艺术和音乐领域,以及大量的商业应用之中,从语音识别到给照片打标签,再到资讯信息流的排序整理等。47-51我们可以利用深度学习去识别植物,自动增强照片中的天空,甚至还能将黑白照片转换成彩色。52-54
深度学习取得了令人瞩目的成就,而AI也随之成了一个巨大的产业。谷歌和Facebook上演了史诗级的人才大战,为博士生开出高薪。55 2018年,以深度学习为主题的最重要的一场科学大会,全部门票在12分钟之内被抢购一空。56虽然我们一直认为,拥有人类水平灵活性的AI比许多人想象的要更难以实现,但近些年取得的长足进展也不容否认。大众对于AI的兴奋并非偶然。
各个国家也不甘落后。法国、俄罗斯、加拿大和中国等国家在AI领域都做出了重大战略部署。57麦肯锡全球协会认为,AI对于经济的整体影响可达13万亿美元,其历史意义完全可以与18世纪的蒸汽机和21世纪初的信息技术相媲美。58
然而,以上种种并不能确保我们走在正确的道路上。
即使数据越来越充裕,计算机速度越来越快,投资数额越来越大,我们还是要认清一个现实:当下的繁荣局面背后,缺少了某些本质上的东西。就算揽尽所有这些进步,机器在许多方面依然无法和人类相提并论。
以阅读为例。当你读到或听到一个新句子时,你的大脑会在不到一秒钟的时间内进行两种类型的分析:59第一,句法分析,将句子拆解成一个个名词和动词,领会单个词汇的意义和整个句子的意义;第二,将这句话与你所掌握的关于世界的知识相联系,把这些通过语法组织在一起的零件与你所了解的所有实体以及你脑海中的所有思想整合为一体。如果这句话属于电影中的一段对话,你就会根据这句话对你所理解的该角色的意图和展望进行更新。此人想要做什么?他说的是实情还是谎言?这句话和之前发生的情节有着怎样的关系?这样一句话会对他人构成怎样的影响?举例来说,当数千名奴隶一个接一个地冒着被处决的危险站起来高呼“我是斯巴达克斯”时,我们立刻就能知道,除了斯巴达克斯本人之外,其他所有人都在说谎,而眼前的一幕又是那么动人、那么深刻(7)。我们随后会讲到,当前的AI项目根本达不到这样的理解水平。据我们所知,目前的AI水平甚至连朝这个理解水平发展的动力都不具备。AI的确取得了大幅进展,但物体识别这类已经被解决了的问题,与理解意义的能力有着天壤之别。
这在现实世界中事关重大。我们如今所用的社交媒体平台背后的AI项目,会向用户发送那些为了获得点击率而胡编乱造的故事,从而为虚假新闻推波助澜。因为它们无法理解新闻的内容,无法判断其中的讲述是真是假。60
就连貌似平淡无奇的开车这件事,也比我们以为的要复杂得多。开车时,我们所做的95%的事情都是照章行事,很容易由机器来复制,但如果一位滑板少年突然冲到你的车前,你的正常反应和行为是目前的机器无法可靠完成的:根据全新的、预期之外的事件进行推理和行动,不仅仅依据由先前经验所组成的巨大数据库来采取行动,还要依据强大而富有灵活性地对世界的理解来采取行动。而且我们不能每次看到没见过的东西就踩刹车,否则路上的一堆树叶就会造成刹车和追尾。
目前还没有值得信赖的达到真正无人驾驶水平的汽车。可能消费者能买到的最接近于无人驾驶水平的汽车,就是拥有自动巡航功能的特斯拉,但特斯拉也需要人类司机在驾驶过程中全程聚精会神。在天气状况良好的高速公路上,特斯拉的系统还是比较可靠的,但它在人流车辆密集的市区就没那么可靠了。在下着雨的曼哈顿或孟买的街道上,我们宁愿将自己的性命交托给随便哪个人类司机,也不愿信任无人驾驶汽车。(8)此项技术尚未成熟。61正如丰田自动驾驶研发副总裁所言:“在波士顿的天气和交通状况下,搭无人驾驶汽车从剑桥到洛根机场,这样的事情可能我这辈子都无法亲身经历了。”62
同样,说到电影情节或是报刊文章的中心思想,我们宁愿相信初中生的理解,也不敢相信AI系统的判断。就算我们再不喜欢给宝宝换尿布,也不敢想象,如今正在开发中的机器人能帮我们做这件事并且足够可靠。
狭义AI与广义AI
一言以蔽之,目前的AI是在限制领域内专用的狭义AI(Narrow AI),只能应用于其设计初衷所针对的特定任务,前提是系统所遇到的问题与其之前所经历过的场景并没有太大的不同。这样的现实,令AI可以完全征服围棋,因为围棋2500年来始终保持着一成不变的规则,该现实却令现有的AI在真实世界场景中黯然失色。将AI带到下一个高度,需要我们发明出灵活性更高的机器。
我们现在所拥有的AI软件,基本等同于数字化白痴专家:可以读懂银行支票、给照片打标签、以世界冠军的水准玩棋牌游戏,但也仅限于此。投资人彼得·蒂尔(Peter Thiel)曾说过,我们本来想要的是能飞上天空的汽车,结果得到的却是140个字符(9)。现在的情况是,我们本来想要的是能迅速执行指令、给孩子换尿布、给家人做饭的“机器人罗茜”(Rosie the Robot),(10)结果得到的却是带着轮子的扁圆形扫地机器人。
再来看看谷歌Duplex这个能打电话、听起来与真人几乎无异的系统。63 2018年春季,当谷歌公开发布该系统之时,许多人都在议论,计算机在打电话时是否应该主动报出“非人”的身份。在公众压力下,谷歌于几天之后接纳了计算机自报身份的建议。但这个故事的背后,却是Duplex有效场景非常受限的现实。谷歌及其母公司Alphabet,估计比全世界任何一家公司都拥有更多的计算机、数据和AI人才资源,但他们费了九牛二虎之力搞出来的系统,却只能干三件事:预订餐厅座位、跟发型师预约理发时间,以及查看某些商铺的营业时间。64软件的测试版本在安卓手机上公开发行后,甚至连预约理发时间和查看营业时间的功能也消失了,只剩下了预订餐厅座位。65很难想象,还有比Duplex应用场景更窄的系统。(11)
的确,这种类型的狭义AI正在以日新月异的速度向前发展。我们敢自信满满地肯定,未来几年一定能见证更多的突破。但是,AI远远不只是让数字化助理给你订个餐厅座位这么简单的事。
AI还可以治愈癌症,可以搞清楚大脑的工作方式,可以发明出新材料,提高农业和交通的效率,还可以找到全新的思路去应对气候变化。现在与谷歌同属一家母公司Alphabet的DeepMind曾有一句口号:“搞定智慧,然后用智慧搞定所有其他问题。”
虽然这种说法有点夸大其词,因为许多问题都并不是纯技术问题,而是有政治因素在里面,但我们还是表示认同。AI的进步,只要足够大,就能造成深远的影响。如果AI能像人类一样阅读和推理,还能利用现代计算机系统的精准度、耐心和庞大的计算资源,科学和技术就会得到迅速提升,医学和环境科学也将出现巨大改善。这才是AI应该去做的事情。但是,正如后面的内容所言,我们无法单凭狭义AI这一股力量到达理想的彼岸。
机器人如果能配备远比我们目前AI更为强大的能力,也一定可以造成深远的影响。想象一下,等到全能机器人管家真正到来的那一天,我们就再也不用擦洗窗户,不用扫地,不用给孩子准备午餐便当,不用洗尿布。盲人可以配备机器人助手,老年人可以由机器人来护理。机器人还能取代人类去从事那些危险工作,或在人类完全无法进入的地区工作,到地下、水下、火灾现场、坍塌建筑物、火山内部、出故障的核反应堆之中去工作。等到那一天,因公致死的事件会比现在少很多,而我们开采宝贵自然资源的能力也会比现在提高很多,完全无须人类以身涉险。
同样,如果无人驾驶汽车能够可靠工作的话,就可能造成深远的影响。美国每年有3万人死于交通事故,全球每年有100万人死于交通事故。66如果自动驾驶汽车的AI水平能够趋于完美,那么这些死亡数字就会直线下降。
然而,问题在于,我们现在所遵从的思路,根本无法引领我们走到家务机器人或自动化科学发现的那一天,甚至根本无法让我们拥有完全可靠的无人驾驶汽车。现在仍然缺少一些重要的东西,仅仅狭义AI是不够的。
令人担忧的是,在现在这种情况下,我们还将越来越多的权力交到并不可靠的机器手中,而这些机器完全不具备对人类价值观的理解。苦涩的现实是,目前投入到AI之中的大把银子换来的解决方案都太过脆弱、难以解释、不够可靠,根本无法解决利害关系较大的问题。
问题的核心就在信任二字。我们如今所拥有的狭义AI系统的确能按照编程逻辑去完成工作,但我们无法信任这样的系统去做那些没有被程序员精准预期到的任务。而当利害关系足够大时,这一问题就显得特别要命。如果狭义AI系统在Facebook上给你推送了一条错误的广告,那么一切照常,日子该咋过咋过。但如果AI系统驾驶着你的汽车,全速撞向其数据库中并不存在的外观奇特的车辆,或是AI给癌症病人下了错误的诊断,就真的生死攸关了。
如今的AI界所普遍欠缺的是广义AI(Broad AI),也就是所谓的通用人工智能。如果行业不及时采纳全新的思路,这种缺陷还会持续下去。AI不仅应该有能力处理那些由大量廉价数据支持的特定情况,还应该有能力处理全新的问题,处理那些之前从未见过的变化。
广义AI领域的进展要比狭义AI缓慢许多。广义AI的目标,就是要有能力灵活适应这个本质上疆域无限的世界——这恰恰是人类拥有,而机器却未曾触及的能力。如果我们想要将AI带到下一个高度,那么这就是AI领域需要努力的方向。
当AI参与到像围棋这样的棋牌游戏之中时,它需要处理的系统是完全封闭的,一个摆着黑白棋子的19×19的棋盘,规则固定不变。而且机器本身就有快速处理这个得天独厚的优势。AI能关注到整个棋盘,知道自己和对手能走出的每一步招数。一场比赛下来,AI要走出其中一半的棋子,并且能准确地预知每走一步会带来怎样的局面。AI程序自己就能下数百万盘棋,收集大量的试错数据,而这些数据又能精准地反映出AI系统在与人类冠军对决时所处的境况。
相比之下,真实生活是没有棋盘限制的,更没有数据能完美地反映出瞬息万变的世界。真实生活没有固定规则,拥有无限的可能性。我们不可能将每一种情况都事先排练一遍,更不可能预见在任何给定情况下需要什么信息。举例来说,阅读新闻的系统不能只经历关于上个礼拜、去年或有记载历史上发生的旧事旧闻的训练,因为每时每刻都在发生着全新的情况。拥有智慧的新闻阅读系统,必须有能力掌握普通成年人应该知道的新闻报道中从未提及过的每一样背景信息,比如“你能用螺丝刀拧紧螺丝” “手枪形状的巧克力不能射出真正的子弹”。这种灵活性正是通用人工智能的全部所在,任何一个普通人都拥有这种智能。
狭义AI不具有可替代性。我们不可能让一个用于新闻理解的AI整天围着金属工具打转,另一个AI整天围着武器形状的巧克力打转。这样做既荒谬又不切实际。我们永远也不可能搞来足够多的数据将它们通通训练一遍。也没有哪个单一狭义AI能获得足够多的数据,覆盖所有的情况。想要用机器去理解新闻报道这个行为本身,就不符合纯粹靠数据驱动的狭义AI的整体范式,因为世界本身是开放的。
世界的开放性意味着在我们家里四处走动的机器人会遇到无限种可能性,碰到壁炉、墙上挂着的艺术画作、压蒜器、路由器、宠物、孩子、家庭成员、陌生人,还可能碰到上周才上市的全新玩具。机器人必须对所有这些事物进行实时推理。每一幅画作看起来都不一样,但机器人不可能对着每一幅画作分别学习,搞明白自己应该做什么、不应该做什么(让画作在墙上好好挂着,不要将面条扔到画作上,等等),陷入无穷无尽的试错任务之中。
从AI的角度来看,驾驶的大部分挑战来自驾驶的开放性。好天气下在高速公路上驾驶的情况,狭义AI还有能力处理,因为高速公路本身还算是个封闭系统,行人不能穿越,就连车辆的进入也有所限制。但是,无人驾驶技术的工程师已经意识到,在市区环境中驾驶的情况就复杂得多。熙熙攘攘的都市道路上,任一给定时刻会出现什么状况,有着无穷无尽的可能性。人类司机有能力在掌握极少数据或根本没有直接数据(比如第一次看见交通警察举着手写标志“路面塌陷请绕行”)的情况下,根据当时的情境予以应对。针对这类情境有个术语,叫作异常值(outliers)。狭义AI总是因为异常值的存在而转不开磨。67
狭义AI领域的研究者在概念验证和构建演示程序的竞赛中,常常会忽略异常值。但是,如何利用通用人工智能来应对开放性的系统,而非利用专为封闭性系统设计的蛮力,才是整个行业向前发展的关键所在。
本书要讲的,就是我们需要怎么做,才能向更宏伟的目标前进。
我们了解到,构建有能力对世界进行推理的系统,有能力对周边世界形成深刻理解的系统,才是朝向值得我们信任的AI系统前进的正确方向。
人类的未来与此息息相关,这么说一点儿都不夸张。AI有足够的潜质来帮助我们迎接人类面对的一些最严峻的挑战,在医疗、环境、自然资源等关键领域发挥重要作用。但是,当我们将越来越多的权力交与AI时,我们就越要确信,AI能够以可靠的方式来使用这样的权力。而这就迫使我们不得不对整个范式进行重新思考。
理想与现实之间的鸿沟
本书英文书名中之所以用上了“rebooting”(重启)二字,是因为眼下这条路是走不通的,无法通向安全、聪明、可信的AI。业界在狭义AI短期成绩上的痴迷,以及大数据带来的唾手可得的“低垂的果实”,都将人们的注意力从长期的、更富挑战性的AI问题上转移开来。这一问题,就是如何为机器赋予对世界产生更深刻理解的能力。而业界若想进步,这是个必须解决的问题。没有更加深刻的理解能力,我们永远也无法获得真正值得信任的AI。用技术行话来说,我们可能会陷入局部最大值,这种方法比已经尝试过的任何类似的方法都要好,但是没有好到可以将我们带到想去的地方。
现在,理想与现实之间,存在着一个被称为AI鸿沟(The AI Chasm)的大坑。
追根溯源,此大坑可一分为三。其中每一个都需要我们坦诚面对。
第一个坑,我们称之为“轻信坑”。人类在进化过程中,并没有发展出在人类和机器之间进行区分的辨别能力,这就让我们变得特别容易被愚弄。我们之所以认为计算机可以拥有智慧,是因为人类的整个进化过程都是与人为伴,而人类本身的行为是以思想、信仰和欲望等抽象概念为基础的。从表面看来,机器的行为常常与人类行为有相似之处,于是我们会不假思索地认为机器也拥有和人类一样的某种思维机制,而事实上,机器并不具备这样的能力。我们总是控制不住自己,从认知的角度去看待机器(“这台计算机认为我把文件删除了”),根本不在意机器实际遵从的规则是多么的简单通透。但是,某些完全适合用在人类身上的推论,放到AI身上就会大错特错。为向社会心理学表达敬意,我们参考其中一条中心原则的称谓,将此现象称为“基本超归因错误”(12)。68
基本超归因错误的早期案例之一,发生在20世纪60年代中期。一个名叫伊丽莎(Eliza)的聊天机器人在交流时,令人感觉它能听懂人们的话。69事实上,伊丽莎只不过是在关键词之间做了对应,回应刚刚说到的事情,当不知道该说什么时,就来一句标准的对话开场白:“跟我讲讲你的童年时代。”如果你提到了你母亲,它就会跟你聊你的家庭,而它根本不知道家庭为何物,更不明白家庭有何重要性。伊丽莎只是一系列小把戏,而非真正的智能。
虽然伊丽莎对人的理解单薄如纸,但许多用户还是被愚弄了。有些人会和伊丽莎用键盘一连聊好几个小时,错误地领会伊丽莎给出的那些貌似富有同情心的回复。用伊丽莎的创造者约瑟夫·魏岑鲍姆(Joseph Weizenbaum)的话说:
人们本来对和机器对话这件事心知肚明,但很快就会将这一事实抛在脑后。就像去剧院看戏的人们一样,在一环扣一环的情节渲染下,很快就会忘记他们眼前的一幕并非“真情实景”。人们常常要求和系统进行私下交流,并且在交流一段时间之后,坚持认为此机器真的懂他们,无论我再怎么解释也没用。70
在其他一些案例中,超归因错误甚至会威胁到人们的生命。2016年,一位特斯拉车主将自己的性命完全交托给了自动巡航系统,71据说,他是一边看《哈利·波特》电影,一边任由系统载着他在路上行驶。原本安好的生活就这样被一场事故打破了。在安全驾驶数十万千米之后,车辆遇到了预期之外的情境:一辆白色运货卡车横穿高速公路,特斯拉直接钻到货车下面,车主当场毙命。车辆似乎向车主发出过几次报警,请他将双手放在方向盘上,但车主似乎心不在焉,没有理会。72这场事故背后的道理十分清楚:仅仅因为某些东西在某些时刻貌似拥有智慧,并不意味着它的确如此,更不意味着它能像人类一样处理所有的情况。
第二个坑,我们称之为“虚幻进步坑”:误以为AI解决了简单问题,就相当于在难题上取得了进步。IBM对沃森的大肆吹捧,就属于此类。沃森在Jeopardy!竞技节目中获胜,被认为是机器在语言理解方面走出了一大步,而实际上并非如此。
DeepMind的AlphaGo很可能也会走上同样的老路。围棋和国际象棋都属于“完全信息”型游戏,任一时刻,玩家双方都能看到整个棋盘。而在真实世界的场景中,没人能100%地肯定任何事,我们所掌握的数据常常充满噪声,七零八落;就算在最简单的情况下,也存在大量的不确定性。比如我们要去医院看病,恰逢阴天,正在考虑是走着去还是乘地铁。我们不知道等地铁需要多长时间,不知道地铁是否因故障而停在某处,不知道地铁里的人是否已经挤成馅饼,也不知道如果走着去会不会淋雨,不知道如果我们迟到了医生会做何反应。我们只能根据自己掌握的信息来做决策。相比之下,像DeepMind的AlphaGo那样与自己下100万盘围棋,是可以预期的,系统永远也不可能面对不确定性或不完全的信息,更不可能遇到人类交流时的复杂局面。
像围棋这样的游戏,与真实世界还有另外一种本质上的区别。这种区别与数据有关:游戏可以进行完美的模拟,因此,玩游戏的AI系统可以轻而易举地获得大量数据。在围棋上,机器可以通过与自己下棋的方法,模拟与人类之间的竞技;如果系统需要数十亿个数据点,就尽可能频繁地与自己对弈;程序员可以在几乎不负担任何成本的情况下,得到完美而清晰的模拟数据。
相比之下,在真实世界中,完美而清晰的模拟数据根本就不存在,也不可能总是运用试错的手法去收集数千兆字节的相关数据。在真实世界中,我们只能用有限的次数来尝试不同策略。不可能去医院1000万次,不慌不忙地每次调整一下参数,以优化我们的决策。如果程序员想要训练一个能将失能老人抱到床上的老年人护理机器人,那么每一个数据点都需要用真金白银和实实在在的人类时间去换。没有完美而可靠的模拟手段去收集所有数据,就连用于汽车事故测试的假人也无法取代真人。我们必须从真正的活生生的血肉之躯中,从不同类型的床中,从不同类型的睡衣中,从不同类型的住宅中,才能收集到可靠的数据。而且我们根本没有出错的余地。让老人从距离床边十几厘米的位置掉下来,就会酿成一场灾难。这是生死攸关的事。(13)正如IBM几次三番地通过国际象棋和Jeopardy!证明,在封闭世界中取得成功,并不能确保在开放世界中获得同样的成绩。76
第三个坑,就是我们所称的“鲁棒坑”。在业界,我们时常目睹这样的现象:每当人们找到了在某些时候能发挥作用的AI解决方案,他们就会假定,只要再稍加努力,再多一点数据,此系统就能在所有的时刻发挥作用。而事实并不见得如此。
以无人驾驶汽车为例。做出一辆无人驾驶汽车的演示,在安静的道路上保持一条车道向前行驶,是相对简单的事。人们在好几年前就已经做到了。而让系统在富有挑战或预期之外的情境中工作,难度就会大增。正如杜克大学人类与自动化实验室主任米西·卡明斯(Missy Cummings)在写给我们的电子邮件中所言,问题不在于某辆无人驾驶汽车能在不出事故的情况下跑多少千米,而在于汽车本身的适应能力有多强。用她的话来说,如今的半自动汽车“一般情况下只在极窄极受约束的条件下运行,根本无从得知系统在不同的操作环境和条件下会出现什么状况”。77在凤凰城经过了数百万千米的测试,且表现得无懈可击,非常可靠,并不意味着在孟买的季风天气下不会出问题。
将车辆在理想情况下(如晴天的乡村公路)的行驶表现与车辆在极端情况下的表现混为一谈,是将整个行业置于生死边缘的重大问题。行业中人对极端情况的存在视而不见,甚至连保障车辆性能的方法论都对极端情况不予理会,直到最近才开始有人翻出旧账。行业目前的状态,就是拿着数十亿美元在无人驾驶汽车的技术研发上打水漂儿,因为目前这条老路的鲁棒性差得太远,根本不可能让车辆拥有人类水平的可靠性。我们需要的是完全不同的技术思路,只有这样,才能将我们迫切需要的最后那一点点可靠性掌握在手中。
汽车不过是其中一个例子。总体来看,在当下的AI研究中,鲁棒性都没有得到足够的重视。一部分原因在于目前的AI研究重点都放在了解决那些容错能力较高的问题上,比如广告和商品推荐。如果给你推送了5个商品,你只喜欢其中3个,那么谁也不会因此而受到伤害。但是,在事关重大的未来AI应用领域之中,包括无人驾驶汽车、老人照护、医疗规划等,鲁棒性都至关重要。没人会花钱买个只能以五分之四的概率将爷爷安全抱到床上的机器人管家。
就连在当前水平的AI最擅长的领域,也潜藏着危机。以计算机图像识别为例,有时AI的确能识别出来,但很多时候不仅识别不出来,而且错误犯得让人哭笑不得。如果你给所谓的“自动标题系统”看一张日常情景的图片,常常能得到与人类非常接近的回答,正如这幅图片,其中有一群正在玩飞盘的人,被谷歌的自动标题系统打上了正确的标签。78
一群正在玩飞盘的年轻人
AI自动生成的合理标题
但仅仅5分钟之后,你可能又从系统中得到一个荒谬至极的答案,正如这个贴着许多贴纸的停车标志,被系统错误地识别为“装了许多食品和饮料的冰箱”。79
装了许多食品和饮料的冰箱
同一个系统生成的不那么合理的标题
系统究竟为什么会犯这样的错误,没有人做过任何解释,但这类错误并不少见。我们设身处地从系统的角度出发去思考,在这个特定案例中,犯错的原因可能是图片中的色彩和纹理与另一些带有“装了许多食品和饮料的冰箱”标签的图片有些许相似之处,但系统却不能像人类一样,认识到此标签仅适用于在内部装有各种东西的长方形大铁箱。
同样,无人驾驶汽车常常能正确识别它见到的事物,但有时却认不出来。比如特斯拉会几次三番地撞向停在路边的消防车。80对电网进行控制或对公共健康进行监查的系统,若出现类似的盲点,其后果更加危险。
如何跨越AI鸿沟
若想跨越“AI鸿沟”这个大坑向前走,我们需要做到三件事:搞清楚AI技术的利害关系;想明白当前的系统为什么解决不了问题;找到新策略。
工作机会、人身安全、社会结构,这些都与AI的发展息息相关。由此可见,老百姓和政府官员都迫切需要紧跟AI行业的最新进展,我们所有人都迫切需要了解怎样用批判的眼光去审视AI。专业人士都知道,用统计学数据去糊弄普罗大众是再简单不过的事情。81同样,我们也要具备将AI宣传与AI实情区分开的能力,搞清楚目前的AI能做到哪些事情,不能做到哪些事情。
关键在于,AI并非魔法,而是一套工程技术和算法,其中每一种技术和算法都存在自身的强项和弱点,适用于解决某些问题,但不能用于解决其他问题。82我们写作此书的主要原因之一,就是因为如今铺天盖地的AI相关报道,都让人感觉如同白日做梦,单纯以人们对AI凭空幻想出来的期待和信心为依据,却与当下的实际技术能力没有半点关联。关于实现通用人工智能的难度有多大这个现实问题,在很大程度上来看,从公众围绕AI展开的讨论中根本找不到一点点理解的蛛丝马迹。
还是要明确一点:虽然澄清上述所有问题,需要拿出批判的态度来,但我们对AI全无半点憎恶,而是心怀热爱。我们的整个职业生涯都沉浸其中,真心希望看到AI能以最快的速度向前发展。休伯特·德雷福斯(Hubert Dreyfus)曾撰写过一本著作,主题就是他认为AI永远无法做到的事情,而我们这本书与此不同。83《如何创造可信的AI》这本书,一部分是讲AI现阶段无法做到的事情,这种能力的局限性有何意义,还有一部分是讲我们应该怎么做才能帮助苦苦挣扎的整个AI行业重新振作起来。我们不希望AI从世界上消失,我们希望见证AI的成长,而且希望AI能突飞猛进地成长,这样人们才能实实在在地依靠AI来解决问题。
关于AI的现状,我们要道出一些逆耳忠言。但我们的批评意见是出于一片苦心,希望AI能往好的方向发展,而不是呼吁人们放弃对AI的追求。简而言之,我们坚信,AI能掀起波及整个世界的重大变革,但在AI取得真正的进步之前,许多基本假设也需要改变。《如何创造可信的AI》并不是要唱衰整个行业(虽然一些人可能会从这个角度加以理解),而是对停滞不前的原因进行诊断,并为我们怎样才能做得更好给出处方。
我们认为,AI前行的最佳方向,是要在人类心智的内在结构中去寻找线索。真正拥有智慧的机器,不必是人类的完美复制品,但任何一个用坦诚眼光审视AI的人都会认为,AI依然有许多需要向人类学习的地方,尤其要向小孩子学习。小孩子在许多方面都远远将机器甩在后面,因为小孩子天生就有吸收并理解新概念的能力。专业人士总是长篇大论地讲述计算机在某方面拥有“超人类”能力,但人类的大脑依然在5个基本方面令计算机望尘莫及:我们能理解语言,我们能理解周遭世界,我们能灵活适应新环境,我们能快速学习新事物(即使没有大量数据),而且我们还能在不完整甚至自相矛盾的信息面前进行推理。在所有这些方面,目前的AI系统都还只是站在起跑线上原地踏步。我们还将指出,目前对于制造“白板”机器的痴迷是一个严重的错误。这些机器从零开始学习一切,完全依靠数据而非知识驱动。
如果我们希望机器能做到同样的事情,去推理、去理解语言、去理解周遭世界、去有效学习、以与人类相媲美的灵活性去适应新环境,我们就首先需要搞明白人类是如何做到这些的,搞明白我们人类的大脑究竟想要做什么(提示:不是深度学习擅长的那种对相关性的搜寻)。也许只有这样,面对挑战迎头直上,我们才能获得AI迫切需要的重启契机,打造出深度、可靠、值得信任的AI系统。
用不了多久,AI就会像电力一样普及到千家万户。此时此刻,没有什么比修正AI的前行方向更为紧迫的任务了。