1.1 什么是人工智能
1.1.1 人工智能的定义与分类
概念的界定是一切研究展开的前提。什么是人工智能?这是每一本关于人工智能的著作都必须首先解答的问题。
追本溯源,“人工智能”一词首次正式出现是在1955年8月31日的《人工智能达特茅斯夏季研究项目提案》中。参与此提案的学者麦卡锡(J. McCarthy)、马文·明斯基(M. L. Minsky)、罗切斯特(N. Rochester)、香农(C. E. Shannon)这样写道:“我们提议1956年暑期在新罕布什尔州汉诺威的达特茅斯学院进行一次为期2个月、10人参加的人工智能研究。该研究是基于这样一种猜想进行的,即学习的每个方面或智能的任何其他特征在原则上都可以被如此精确地描述,以至于可以制造机器来模拟它。我们将尝试寻找如何使机器使用语言,形成抽象和概念,解决现在留给人类的各种问题,并改进自己。”提案中还有一个更明确的定义:“就目前的目的而言,人工智能问题被认为是使机器以一种被称为智能的方式运行,如果人类如此表现的话。”更直白地说,他们认为人工智能就是用机器模仿人的智能。
这是对人工智能较早且较为流行的一个定义。但这种定义方式的背后其实是仿生学的思路,它没有考虑到机器产生非类人的智能的可能,也就是说,机器有可能通过与人类智能完全不同的形式达到我们所谓智能的效果。这方面最有名的例子就是AlphaGo Zero——谷歌旗下DeepMind公司推出的围棋人工智能程序。它在学习围棋的过程中完全抛弃了人类棋手的经验,通过自我训练的方式,以100∶0的战绩战胜了此前打败过人类顶尖棋手李世乭、柯洁等人的AlphaGo。
麦卡锡后来也认识到了这种定义方式的局限,他在2007年一篇写给外行的人工智能科普文章中给出了新的释义:“它是制造智能机器,特别是智能计算机程序的科学和工程。它与使用计算机理解人类智能的类似任务有关,但人工智能不必局限于生物学上可观察的方法。”他还进一步对智能作出了解释:“智能是实现世界上目标的能力的计算部分。人类、许多动物和一些机器都具有不同种类和程度的智能。”但是,只有计算才是智能吗?很显然,人与环境的交互并不都是由计算来驱动的,虽然计算对智能机器而言必不可少。
从这个角度来说,尼尔斯·尼尔森(Nils J. Nilsson)对智能及人工智能的看法或许更为合适:“人工智能是致力于使机器变得智能的活动,而智能是使实体能够在其环境中适当地运作并具有远见的品质。”类似地,斯图尔特·罗素(Stuart Russell)和彼得·诺维格(Peter Norvig)在人工智能教材《人工智能:一种现代的方法》中给出了这样的定义:“我们将人工智能定义为从环境中接受感知并执行行动的智能体(agent)的研究。”他们还进一步地将人工智能分为四类:像人一样行动、像人一样思考、合理地思考、合理地行动。
中国电子技术标准化研究院发布的《人工智能标准化白皮书(2018版)》中也尝试给出了自己的定义:“人工智能是利用数字计算机或者由数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。”
可以看到,同其他难以界定的科学概念一样,学界并没有在“人工智能”的定义上达成共识。事实上,在人工智能的研究成熟之前,我们很难给出一个准确而适当的定义。在理论上或实践中追求具体而明确的目标无疑更具有现实意义。不过,了解这些行业先驱与巨擘的观点,可以帮助我们更好地理解这个方兴未艾的人工智能世界。
与定义上的诸多分歧不同,在人工智能的类型问题上,学者们的意见比较一致。根据能力的不同等级,人工智能可以分为两类:弱人工智能(weak AI)和强人工智能(strong AI)(图1-1)。
图1-1 人工智能的类型
弱人工智能,也称狭义人工智能(narrow AI)或专用人工智能(artificial narrow intelligence,ANI),简单来说就是达到专用或特定技能的智能。我们目前能够成功实现和应用的人工智能都属于弱人工智能——哪怕是看起来很厉害的无人驾驶汽车和AlphaGo——因为它们擅长的都只是单一的任务,无法在多领域发挥作用。
强人工智能,也称通用人工智能(artificial general intelligence,AGI),是指达到或超越人类水平的、能够自适应地应对外界挑战的、具有自我意识的人工智能。也有学者对此进行了细分,把达到人类水平的称作强人工智能,而超越人类水平的则是超人工智能(artificial super intelligence,ASI)。无论是强人工智能还是超人工智能,目前都还停留在幻想的阶段。但是,根据大多数人工智能专家的看法,超越人类能力的人工智能一定会出现。因为比起人类相对固定的智能水平,机器的智能正随着算法的优化、处理能力的增强和内存的增加而快速增长,机器超越我们只是时间问题。超人工智能到来的时刻被称作奇点(singularity)。对于奇点何时出现的问题,人工智能科学家也多次调查过同行们的看法,大多数人预计的时间都是2060年之前。这个估计会太过乐观吗?让我们一起拭目以待。
如果从发展的眼光来看,人工智能又可以分为运算智能、感知智能、认知智能和自主智能,这也是人工智能应用的四个不同层次(图1-2)。
图1-2 人工智能的四个层次
(1)运算智能,即快速计算和记忆存储的能力,这也是计算机的核心能力。
(2)感知智能,即视觉、听觉、触觉、识别、分类的能力。人类和高等动物都是通过自身丰富的感觉器官,获取环境信息,与外界进行交互的。目前在机器人身上应用的各种传感器和语音、图像、视频识别与分类等技术就是感知智能的体现。整体来说,运算智能和感知智能还停留在工具层面,并没有触及智能的核心。
(3)认知智能,即理解、判断、分析、推理的能力。而现阶段的人工智能虽然在运用自然语言处理、知识图谱、深度学习(deep learning)机制和神经网络(NNs)后,做到了一定程度的“能理解、会思考”,但仍然非常有限。此外,人类情绪对认知的影响,乃至于作为认知主要部分的潜意识,都是目前机器的认知智能难以模仿实现的。
(4)自主智能,即主动感知、自主决策、自我执行、自主创意、自发情感的能力。这种自主,不仅仅是无须人类干预就可以自由移动并与人类和其他物体交互——目前的无人机、无人驾驶等技术已经实现了某种程度上的自主,更重要的是拥有自我意识、自我认知乃至自我价值观——这是目前只存在于科幻小说与电影中而现实的人工智能尚未或许永远也无法触及的部分。
1.1.2 人工智能的起源与发展
回顾历史,人工智能其实可以追溯到古代的“人造人”想象。在2700年前的古希腊神话中,就出现了塔罗斯(Talos)、潘多拉(Pandora)、“黄金女仆”(the Golden Maidens)和加勒提亚(Galatea)这四个人造人的形象。前三者都是火与工匠之神赫菲斯托斯(Hephaestus)制造的:塔罗斯是用青铜铸造的巨人,他受命守卫着克里特岛,防止外来者的侵犯;潘多拉作为对普罗米修斯盗火的惩罚,其身体由黏土塑造,被众神赋予了诱人的魅力、语言的技能以及装满了灾厄的魔盒;黄金女仆则是用黄金锻造的女机器人,她们会开口说话并协助赫菲斯托斯在其宫殿中进行高难度的工作。加勒提亚则是塞浦路斯岛的国王皮格马利翁(Pygmalion)用白色象牙雕刻出的理想女性,她被爱神阿佛洛狄忒(Aphrodite)赋予了生命。不止西方,在中国战国时期的典籍《列子》汤问篇中,也记载有西周时期的巧匠偃师向周穆王进献能歌善舞、以假乱真的人偶的故事。可以看出,这些神话传说中的人造人拥有的能力与人们如今对人工智能的期许并无多大不同,尽管这些能力的实现基本上靠的是神力而非人力。
虽然古代人并不相信自己能像神一样造人,但他们在实际的生产生活中制造了许多减轻或替代人类劳动的工具,如耕地的犁、翻地的耙、灌溉的水车、收割的镰刀等。到了中世纪,人们开始制造自动机械装置,即自动机(automaton)。已知最早有据可考的自动机来自阿拉伯的博学家艾尔-加扎利(Al-Jazari),他发明了一艘载有4个木偶的小船,可以通过水流的驱动让木偶演奏音乐。因为互换负责音符的木栓可以让木偶演奏出不同的旋律,所以这被认为是第一个可编程的人形机器人。14世纪,机械钟出现,钟表业开始发展。发条、齿轮等钟表技术渐渐被扩展开来用于制造机械动物和人偶,如意大利博学家达·芬奇的机械狮和机器武士。到了18世纪,随着第一次工业革命的逐步展开,人类从手工劳动进入大机器生产的时代。机器生产的发达,使得更多的自动机开始出现,如法国发明家雅克·德·沃康松(Jacques de Vaucanson)的消化鸭,匈牙利发明家沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen)的土耳其行棋傀儡(the Turk),瑞士钟表匠皮埃尔·雅克-德罗兹(Pierre Jaquet-Droz)的三个自动机械人偶“小作家”“小绘图师”和“小音乐家”等。虽然这些自动机只是社会上层娱乐的玩物,但作为模仿生物及人类智能行为的机器,它们可以被视作人工智能的前导和先声。
从制造工具到制造机械人偶,这一变化不仅意味着人的工具职能更多地被机器替代,更昭示了一种世界观的转变——人对自我的认识从“人是上帝的创造物”变成了“人是机器”。17世纪初,法国哲学家、数学家笛卡儿(René Descartes)提出了身心二元论,认为人是由身体和心灵两种完全不同的实体组成的。同时他还认为动物的身体只不过是复杂的机器,人体功能是以机械方式发生作用的。与笛卡儿同时代的英国政治家、哲学家霍布斯(Thomas Hobbes)虽然并不赞成笛卡儿的二元论,但他却更进一步地认为,人是一种由上帝创造的“像钟表一样用发条和齿轮运行的‘自动机械机构’”:人的“‘心脏’无非就是‘发条’,‘神经’只是一些‘游丝’,而‘关节’不过是一些‘齿轮’”。而到了18世纪,作为机械唯物主义代表的法国思想家、哲学家拉美特利(Julien Offroy de la Mettrie)则完全抛弃了上帝,并且非常直白提出了“人是机器”的观点。他认为,人的心灵活动依赖于大脑和整个身体组织,因此和身体活动一样,也属于机械运动。所以,人整个就是一台机器。虽然这种把思想当作物质属性来论证的方式缺乏说服力,但是将人类身体机械化的观点却影响深远。在现代科技的支持下,人类的部分身体组织已经可以被仿生义肢、机械外骨骼等机械装置替代或者增强,各种模仿人体形态和行为的仿人机器人也不断涌现。
但是,身体的机械化还不足够,人工智能的思想根源在于人类心灵(或者说人类思维活动)的机械化。这一观点也可以追溯到笛卡儿。笛卡儿将数学提升为一种普遍适用的科学方法,提出了“普遍数学”,即把数学最一般的特征“度量”和“顺序”运用到其他学科来认知万物。他认为,人类认识领域的任何问题都可以转化为数学问题,人类的认识过程就是数学计算。类似地,霍布斯也认为,真正科学的知识只有在感觉经验的基础上运用推理方法才能获得,而推理就是计算。到了功利主义学派代表人物边沁(Jeremy Bentham)那里,计算就不仅限于心灵的认知层面了,人的情感、欲求、感受等的产生都是基于心灵对快乐和痛苦这两种体验的程度的计算与比较,而趋乐避苦是人类一切思想、情感、行为的动机。所以,心灵的本质就是计算。
然而,由于各种生理因素的限制,人类心灵计算的能力参差不齐,并不完善。于是,人们就开始了将数学运算机械化的尝试,企图通过机器的运算来实现纯粹的、完美的数学运算。1642年,法国哲学家、数学家帕斯卡(Blaise Pascal)发明了第一台机械计算器——加法器(Pascaline)。1673年,德国哲学家、数学家莱布尼茨(G.W. Leibniz)发明了第一台机械式的十进制四则运算器。数学运算的机械化就此开始并不断发展,直到现在的电子计算机阶段。当然,电子计算机的研制成功以及后来人工智能的诞生,还离不开数理逻辑的发展——这是一门用数学的方法来研究形式逻辑,以及研究形式逻辑在其他数学领域的应用的学科。从布尔的布尔代数、弗雷格的一阶谓词演算系统,到哥德尔的不完全性定理、克林的一般递归函数理论,再到图灵(Alan Turing)的理想计算模型图灵机,这些经典的数理逻辑理论成果为1956年人工智能的正式诞生奠定了坚实的基础。
1956年7月到8月,麦卡锡召集的人工智能夏季研讨会在达特茅斯顺利举行。会议聚集了当时相关领域的顶尖研究人员,对人工智能的问题展开了开放式的讨论。尽管从结果来看,与会人员并未就人工智能领域的标准方法达成一致,甚至对“人工智能”这个叫法都存在分歧,但他们都认同人工智能是可以实现的。这次会议也催化了之后蓬勃发展的人工智能研究,因此被后人视为人工智能诞生的标志。
不过,在1956年之前,人工智能的相关研究已经开始了。1943年至1955年这段时期可以称作人工智能的孕育期。1943年,沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)的人工神经元模型应该是现代人工智能领域最早的研究成果。1951年,马文·明斯基与同学迪恩·爱德蒙(Dean Edmunds)合作建造了世界上第一台神经网络计算机SNARC(随机神经模拟强化计算器)。当然,这一时期最重要的里程碑事件还是1950年英国数学家艾伦·图灵提出的图灵测试——如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。虽然严格来说,图灵测试并不严谨、完善,但其中已经蕴含有人工智能的原始概念,并明确了人工智能未来的发展目标,其划时代的意义是毋庸置疑的。
从1956年开始,人工智能的发展大致经历了三大阶段:第一阶段,从1956年到1979年,这是人工智能的诞生时期;第二阶段,从1980年到2010年,人工智能开始步入产业化;第三阶段,从2011年至今,人工智能的研究和应用迎来爆发。当然,这几十年的发展历程并非一路高歌猛进,也曾经出现过几次起伏。所以,这三个阶段又可以细分为六个时期(图1-3)。
图1-3 人工智能发展的时间轴
1.1956—1974年,黄金时期
达特茅斯会议后的近20年是人工智能发展的黄金时期,研究者们普遍乐观,对人工智能的热情和期望很高。这一时期代表性的研究成果有:感知器被发明,人工神经网络[也称连接模型(connection model)]迎来了第一次热潮;麦卡锡开发了编程语言LISP,这是人工智能研究中最流行且仍受青睐的编程语言;工业机器人Unimate被部署在美国通用汽车公司,代替人类进行危险的装配工作;世界上第一个聊天程序ELIZA诞生,它可以用英语与人交流;第一个可自主移动的机器人Shakey、第一个人形智能机器人WABOT-1诞生;第一个专家系统(1)DENDRAL研究完成并投入使用,它的作用是帮助化学家判断特定物质的分子结构。
2.1974—1980年,第一次寒冬
尽管如此,黄金时期的很多乐观承诺并没有如期兑现,人们开始对人工智能产生怀疑。1973年,应用数学家詹姆斯·莱特希尔(James Lighthill)为英国科学委员会编写的一份人工智能研究现状报告发表。该报告对人工智能研究的许多核心方面都作出了非常悲观的预测,称“迄今为止,该领域的任何发现都没有产生当时承诺的重大影响”。莱特希尔报告直接导致英国及其他各国政府和机构减少了对人工智能研究的资金投入,人工智能的发展进入第一次寒冬。
3.1980—1987年,繁荣时期
然而,寒冬中也孕育着生机。1978年,美国卡内基梅隆大学开始为DEC公司研发一款能制定计算机硬件配置方案的专家系统XCON。1980年, XCON投入商业使用,为DEC公司节省了大量成本。XCON的商业成功吸引了许多公司的效仿,专家系统所依赖的知识处理问题也成为这一时期的研究焦点。1982年,日本推出了第五代计算机计划,其目标是造出具有人工智能的计算机系统。随后,美、英、法、德、苏联等国也纷纷响应,投入资金加入角逐,人工智能开始进入新一轮的发展。
4.1987—1993年,第二次寒冬
20世纪80年代末期开始,个人电脑的性能不断提升冲击着AI硬件市场,曾经大获成功的专家系统暴露出应用领域狭窄、知识获取困难、维护费用居高不下等问题,日本人宏伟的第五代计算机计划也宣告失败。各国政府和投资者再次停止为人工智能研究提供资金,人工智能进入第二次寒冬。
5.1993—2010年,稳步发展
进入20世纪90年代,随着计算机硬件的发展,人工智能终于取得了突破性的成果。这一时期最重要的里程碑事件莫过于1997年IBM的深蓝击败了国际象棋世界冠军加里·卡斯帕罗夫,人工智能从此进入大众视野。2006年,杰弗里·辛顿(Geoffrey Hinton)提出了深度学习的概念,英伟达(Nvidia)推出了并行计算平台和编程模型CUDA(统一计算设备架构)。2007年,李飞飞启动ImageNet项目,试图构建一个更好的数据集(data set)。研究者们在算法、算力和数据三方面的努力为人工智能接下来的爆发式发展打下了基础。
6.2011年至今,爆发时期
2011年以来,深度学习算法开始在人工智能的子领域广泛应用。这一时期的重要事件有:2011年,IBM的Watson在智力问答节目中获胜。同年,苹果公司的智能语音助手Siri问世。2014年,亚马逊正式发布了智能音箱产品Echo。Siri和Echo引得各家厂商纷纷效仿,纷纷推出了自己的同类产品抢占市场。2015—2017年,谷歌DeepMind的AlphaGo不断击败数位人类顶尖围棋棋手。2018年,谷歌发布的BERT模型在自然语言处理领域取得了重大突破……(2)如今,人工智能的核心技术不断发展,应用场景逐渐丰富,市场规模持续扩大,已成为时代发展的重要驱动力。
在人工智能的发展过程中,不同学科背景的学者对人工智能的看法各异,因而也产生了人工智能的不同学派。
1.符号主义学派
首先要提的便是符号主义学派。符号主义(symbolicism)又称逻辑主义(logicism)、心理学派(psychologism)或计算机学派(computerism)。代表人物有艾伦·纽厄尔(Allen Newell)、赫伯特·西蒙(Herbert A. Simon)、尼尔斯·尼尔森等。
符号主义的思想源头是19世纪中叶出现的数理逻辑。符号主义认为人类认知和思维的基本单元是符号,而认知过程就是符号上的操作运算。人被视为一个物理符号系统,计算机也是如此。因此,计算机可以用来模拟人类的行为。他们还认为,知识是信息的一种形式,是智力的基础。人工智能的关键问题是知识表示和知识推理。概括来说,就是利用物理符号系统假设和有限合理性原理来实现人工智能。
符号AI(symbolic AI,sAI),或者有效的老式人工智能(good old-fashioned artificial intelligence,GOFAI),在人工智能发展的早期一直占据着主流,为人工智能的发展作出了许多重要贡献。老式并不是对其过时的指责,而是意味着经典。只要是规则清晰、目标明确的任务,使用符号主义的方式是非常方便的。事实上,目前绝大多数的计算机程序和系统也还都是基于编程规则创建的。20世纪80年代流行的专家系统就是符号AI的代表性成果之一。
尽管如此,符号AI也有着非常明显的局限。它严重依赖已经设定好的规则,并且无法处理存在大量变化的、非结构化的数据。举例来说,让符号AI在图像中识别人脸就非常困难,因为你无法穷举人脸的面貌与所处的环境,更难以创建对应的识别规则。专家系统从20世纪90年代开始逐渐遇冷也是如此,它所依赖的复杂符号与大量规则需要耗费大量人力,不便于维护,并且可以应用的领域也非常狭窄,没有普适性。
2.连接主义学派
虽然符号主义学派在人工智能发展的早期占据了主流,但现下更受欢迎的却是另一个学派——连接主义(connectionism)。连接主义又称仿生学派(bionicsism)或生理学派(physiologism)。代表人物有沃伦·麦卡洛克、沃尔特·皮茨、约翰·霍普菲尔德(John Hopfield)、鲁梅尔哈特(D.E. Rumelhart)等。
连接主义的思想源头是仿生学中对人脑模型的研究,尤其是对人脑学习和记忆的研究。连接主义认为智能活动是由大量简单单元通过复杂的相互连接后并行运行的结果。人脑不同于计算机,应该用人脑模式代替计算机模式。神经网络及神经网络间的连接机制与学习算法是这一学派的理论基础。
连接主义的发轫其实很早,1943年,沃伦·麦卡洛克和沃尔特·皮茨就发表了一篇关于神经网络和自动机的论文,对连接主义AI的研究影响深远。20世纪60年代,连接主义的研究也曾出现过热潮。但是由于效率低下的缺陷和对大量计算资源的需求,人们对连接主义的兴趣逐渐降低。直到20世纪80年代,随着基于递归的新一代神经网络、多层感知机和神经网络反向传播算法的提出,连接主义才出现复兴。进入21世纪,其更是掀起了深度学习的热潮,在计算机视觉、自动语音识别(automatic speech recognition,ASR)、自然语言处理等方面都取得了很大的进展,成为当下人工智能的主流。
当然,连接主义AI(connectionist AI,cAI)也并非没有缺点,需要大量高质量的数据,算法缺乏透明度,难以进行合理论证都是连接主义AI一直被人诟病的问题。此外,连接主义AI也很难解决需要逻辑和推理的任务,而这恰恰是符号AI擅长的。
3.行为主义学派
除了符号主义和连接主义,还有学者将行为主义(actionism)算作第三种学派。行为主义又称进化主义(evolutionism)或控制论学派(cyberneticsism)。代表人物有诺伯特·维纳(Norbert Wiener)、罗德尼·布鲁克斯(Rodney Brooks)等。
行为主义学派的兴起源于控制论。1948年,诺伯特·维纳出版了《控制论——或关于在动物和机器中控制和通信的科学》,标志着控制论这门学科的诞生。控制论研究的是生命体、机器和组织的内部或彼此之间的控制与通信。控制论中的智能性原则认为不仅在人类和人类社会中,在其他生物群体乃至无生命的机械世界中,都存在着同样的信息、通信、控制和反馈机制,智能行为是这套机制的外在表现,因此不仅人类,其他生物甚至是机器也同样能做出智能行为。行为主义AI以此为理论基础,提出了“感知—行动”的智能行为模拟方法,认为人工智能可以像人类智能一样,在与周围环境的交互过程中通过反馈机制不断进化,发展出越来越强的智能。
由于控制论的原因,不少学者并不把行为主义AI划入人工智能的范畴。在他们眼中,沿着这一理论路径最多只能实现完美的机械自动化,难以达到真正的智能。