1.2 人工智能发展历史
人工智能诞生至今,其发展并不是一帆风顺的,而是一波三折经历了多个发展阶段,可以总结为起步发展期、反思发展期、应用发展期、低迷发展期、稳步发展期、蓬勃发展期,如图1-2所示。
图1-2 人工智能发展历史的6个阶段
1.2.1 起步发展期(20世纪50—60年代前)
在人工智能诞生之前,图灵模型和冯·诺依曼结构的提出分别为其诞生奠定了理论基础和技术基础(王天一,2017)。1936年24岁的图灵(Alan Mathison Turing)向伦敦权威的数学杂志投了一篇题为《可计算数字及其在判断性问题中的应用》的论文,并于次年在《伦敦数学会文集》第42期上发表,首次提出图灵机的概念,并首次在纯数学的符号逻辑和实体世界之间建立了联系,从理论上证明了研制通用数字计算机的可行性。理论证明图灵机能识别的语言属于递归可枚举的集合,因此它的计算能力等价于可计算函数。图灵机被视为可计算机器的模型。大致在同期,维特根斯坦(Ludwig Josef Johann Wittgenstein)为了研究当时困扰物理学界的科学严格表述问题,开创了语言哲学的研究。塔斯基(Alfred Tarski)则进一步开创了语义学研究的先河。第二次世界大战催生了智能相关理论的出现。其中包括维纳(Norbert Wiener)的控制论与香农(Claude Elwood Shannon)的信息论。维纳与香农后来都参与了由麦卡锡(John McCarthy)与眀斯基(Marvin Lee Minsky)发起的人工智能学科的创建活动。1943年,美国心理学家麦卡洛克(Warren Sturgis McCulloch)和数学家皮特斯(Walter Pitts)提出了利用神经元网络对信息进行处理的数学模型,从此人们开始了对神经元网络的研究。冯·诺依曼(John von Neumann)在1945年发表的《关于离散变量自动电子计算机的草案》中提出“冯·诺依曼体系结构”,为电子计算机的逻辑结构设计奠定了基础,成为计算机设计的基本原则。1950年图灵在论文《计算机器与智能》中提出人工智能的评价标准——“图灵测试”。“图灵测试”是指测试者与被测试者(一个人和一台机器)隔开的情况下,由测试者通过一些装置向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类水准的智能。“图灵测试”限定了图灵认为的人工智能的范畴,即人工智能仅涵盖机器对人类行为的模仿能力,而不包含机器自身是否具有人类思想独有的判断力、创造性等特性,它对后世的影响极大,为人工智能的诞生奠定了理论基础。至此,人工智能的理论基础(图灵模型)和技术基础(冯·诺依曼模型)形成了。
以上的一系列研究催生了科学家对智能的自动化实现的萌芽。雄心勃勃的青年科学家麦卡锡与眀斯基在1956年开始与众多学者探讨思维的自动实现问题。1956年8月,人工智能的先驱者,诸如马文·明斯基(Marvin Lee Minsky)、约翰·麦卡锡(John McCarthy)、艾伦·纽厄尔(Allen Newell)、赫伯特·西蒙(Herbert Alexander Simon)等,以及维纳、香农、麦卡洛克等当时的著名学者,聚集在达特茅斯学院,商讨建立一个独立的学科,研究用计算机模仿人类学习以及其他方面的智能。麦卡锡提议将“人工智能”作为这个学科的名字。至此,一个新的令人振奋的时代——人工智能时代正式开启。
人工智能的诞生,标志着人们难以想象计算机可以完成的任务终将会变为可能,研究人工智能的科学家正在把一个接一个之前人们认为计算机根本不可能完成的任务变为可能。约翰·麦卡锡称这一时期为“惊叹”时期(人们看见计算机取得的成就就会惊讶地说:“看呐,我的妈呀,它没有手!”)(Russell等,2010)。研究人工智能的科学家在这一时期将精力主要放在用计算机解决智力难题、棋类游戏、简单数学定理证明等问题的研究,在美国形成了3个以人工智能为研究目标的研究小组,分别是纽厄尔和西蒙的卡内基-兰德小组(亦被称为心理学小组),纽厄尔的IBM公司工程课题研究小组,明斯基和麦卡锡的MIT研究小组(刘峡壁,2008)。
1957年,心理学小组的主要科学家赫伯特·西蒙、约翰·克利福德·肖(John Clifford Shaw)和艾伦·纽厄尔基于西蒙和纽厄尔关于逻辑机的研究,编写了通用问题求解器的程序。它解决问题的方式源自西蒙的企业问题求解的研究(该研究使他荣获诺贝尔经济学奖,西蒙因此成为史上唯一兼获诺贝尔奖与图灵奖的学者),即先确定程序问题的子目标,然后根据对问题求解状态的评估确定可能采取的行动次序,执行选定的行动进入新的状态,直至最终达到预先规定的状态。问题求解器的程序在棋类游戏、自然语言对话等领域获得了令人惊叹的成功。20世纪50年代,IBM工程课题研究小组的主要科学家阿瑟·塞缪尔(Arthur Lee Samuel)写了西洋跳棋程序,并逐渐融入机器学习的知识,最终使得该程序通过学习达到业余高手级别。
1958年,MIT小组的主要科学家约翰·麦卡锡定义了目前仍在使用的第二古老主流高级语言——Lisp,成为最主要的人工智能程序设计语言之一。马文·眀斯基则致力于感知机的研究,他与合作者发现了感知机的学习能力局限,对于神经网络的前景提出了悲观的论调,他的报告对于神经网络的发展产生了灾难性的影响。
1.2.2 反思发展期(20世纪60—70年代)
虽然人工智能在刚诞生的几年内发展十分迅速,并且取得了很多突破性的成绩,但是科学家对人工智能的进一步探索却遭到了打击,人工智能的发展进入反思发展期,人工智能发展早期的困难主要可以分成3类。
第一类困难主要体现在对复杂问题的求解上。早期的机器进化实验(现称为遗传算法)是模拟自然界产生突变,并在进化过程中保留好的突变而设计的,它随机进行突变,并且通过选择过程保留好的突变。但是在用CPU进行上千小时的模拟之后,仍然没有明显的进展。鲁滨逊归结法虽然能解决很多问题,但是在证明两个连续函数的和还是连续函数的时候,在10万步以内都没有证明出结果。塞缪尔的西洋跳棋程序也在与世界冠军的对弈中惨败。
第二类困难主要体现在早期的人工智能科学家对神经网络的探索上。研究发现,人脑有几万亿以上的神经元,现有的技术条件无法用计算机从结构上模拟人脑。明斯基和派珀特(Papert)证明了,虽然感知机能学习它们可以表示的任何问题,但是它们能表示的东西很少,特别是不能训练两输入的感知机,使其学到异或函数(Casper et al.,1969)。
第三类困难主要表现在机器翻译方面,早期研究机器翻译的科学家简单地认为用双语字典和语法知识就可以实现双语的互译问题,但是我们知道,机器翻译并不仅仅与词的互译和语法知识相关,还包含很多主题、含义上更深层次的知识。著名的二次翻译的例子是:The spirit is willing but the flesh is weak(心有余而力不足),这个句子翻译成俄语再翻译回英语后:The wine is good but the meet is spoiled(酒是好的,肉变质了)。
在经历一次次挫折之后,早期的人工智能受到了来自哲学、心理学、神经生理学等社会各界的质疑和批评,研究人工智能的项目和经费也都陆续夭折。1966年,一份顾问委员会的报告裁定“还不存在通用的科学文本机器翻译,也没有很近的实现前景”,美国政府取消了所有学术性机器翻译项目。1973年,莱特希尔(James Lighthill)报告(James Lighthill,1973)认为人工智能绝不可能有前途,因为它只被用来解决简单的问题。英国政府之后终止了对除两所大学之外全部大学人工智能研究的支持。此外,神经网络的科研经费也很快地缩减到几乎没有。
1.2.3 应用发展期(20世纪70—80年代)
在经历了早期的困难期后,现实的残酷并没能使探索人工智能的科学家们驻足,研究人工智能的科学家没有放弃,而是在逆境中反思人工智能的发展与未来的前景,在逆境中摒弃世人的不解与反对,潜心研究人工智能新的方向与出路。受哲学家费朗西斯·培根(Francis Bacon)的名言“知识就是力量”的影响,美国计算机科学家爱德华·费根鲍姆(Edward Albert Feigenbaum)认为,人工智能必须在知识的指导下实现,人工智能的一个重要研究领域——专家系统正在逐渐形成。专家系统的诞生是人工智能诞生初期经历严冬后遇到的一个春天,人工智能逐渐走出早期的困难期,并在此迅速发展起来,人工智能的发展迎来应用发展期。专家系统,就是计算机预置大量人类已有的解决特定领域问题需要的专业知识,使计算机具备某一领域专家应有的领域知识,使其成为该领域的专家,利用计算机根据已有的知识进行推理,专家系统的结构图如图1-3所示。
1968年,费根鲍姆等人研制出第一个专家系统Dendral,开创了专家系统领域。作为一个化学专家系统,Dendral可以根据质谱仪的数据推理出物质的分子结构,它是第一个成功的知识密集系统,其专业知识来自大量专用规则。以此为开端,科学家将各种各样领域的专业知识融入到专家系统,各个领域的专家系统应运而生,形成了软件产业的一个新的分支:知识产业。1971年,麻省理工学院研制成功并投入使用数学专家系统MACSYMA。1976年,斯坦福大学研制出用于诊断和治疗血液感染疾病的医学专家系统——MYCIN。MYCIN解决了专家系统的知识表示、不精确推理、搜索策略、人机接口知识获取等核心技术问题,意义重大。MYCIN有大约450条规则,可以识别51种病菌,正确使用23种抗生素,能协助内科医生诊断血液感染疾病,为患者提供最佳处方。专家系统的诞生,推动了人工智能的发展,在1977年举办的第五届人工智能大会上,费根鲍姆正式将该领域命名为“知识工程”,并预言20世纪80年代为专家系统发展的黄金时代。
图1-3 专家系统结构图
资料来源:https://baike.baidu.com/item/%E4%B8%93%E5%AE%B6%E7%B3%BB%E7%BB%9F
1978年,美国拉特格尔大学研制成功用于青光眼诊断和治疗的专家系统CASNET。1981年斯坦福大学人工智能中心的杜达等人的地质勘探专家系统PROSPECTOR已经拥有15种矿藏知识,并在次年应用于实际,成功预测到了华盛顿州的一个钼矿的位置。20世纪80年代,知识工程和专家系统在全球蓬勃发展,涉及人类社会的各个领域的专家系统被研制出来,产生了巨大的经济效益和社会效益。20世纪80年代开始,人工智能进入产业化时期。在美国,几乎每个重要的公司都有自己的人工智能研究小组,并且正在使用或者投资开发专家系统。R1是第一个成功的商用专家系统,在数据设备公司(DEC)开始运转。该系统的作用是帮助为新计算机系统配置订单,到1986年为止,它大约每年为公司节省4千万美元。到1988年为止,DEC的人工智能研究小组制作完成的专家系统已经达到40个。杜邦公司有100个专家系统在使用中,另有500个专家系统在开发中,每年大约节省1千万美元。
1980年以后,人工智能再一次在全球范围内兴起,各国纷纷组建人工智能研究机构,或者恢复对人工智能研究的投资。1981年,日本公布了为期10年的“第五代计算机”计划,其目标是建造运行Prolog语言的智能计算机。美国组建微电子和计算机技术公司(MCC)作为保证国家竞争力的研究集团。英国也在艾尔维报告中恢复了因为莱特希尔报告停止对人工智能研究的投资。在这一时期,短短8年时间,人工智能工业从几百万美元(1980年)暴涨到数十亿美元(1988年)。
1.2.4 低迷发展期(20世纪80—90年代)
20世纪80年代到90年代,第五代计算机计划和MCC的人工智能部分都没有完成其最初目标,很多公司也都无法兑现其对人工智能做出的过分的承诺,很快出现了“人工智能的冬天”,人工智能的发展进入了低迷发展期。
此外,专家系统或者知识工程在获得了大量的实践经验之后,其弊端也开始逐渐显现。它们的运作需要从外界获得大量的知识输入,而这样的输入工作极其费时费力,使得知识的获取遇到了瓶颈。这个难题促使人工智能的研究重点发生了转变,转向常识研究。但常识研究仅仅在理论上给出了一些成果,其计算的不可行性(不可判定性与计算复杂性)使其无法付诸实用。同时常识研究垄断了当时的AI话语权,招致了AI其他领域研究者的强烈反对以及随之而来的关于AI发展方向的激烈争论。此后,人工智能分成了几大不同的学派,沿着不同的路径继续发展。
1.2.5 稳步发展期(20世纪90年代—21世纪初)
20世纪80年代到90年代,人工智能领域进入稳步发展期,出现了三大学派三足鼎立的局面,这三大学派分别是:研究传统人工智能的符号主义学派、研究简单生物体和环境互动模式的行为学派、研究用机器模拟大脑结构(神经网络)的连接主义学派,如图1-4所示。
图1-4 人工智能三大学派
资料来源:http://www.weiduba.net/wx/1003147339193443
以约翰·麦卡锡为代表的符号主义学派认为:“人工智能是关于如何制造智能机器,特别是智能的计算机程序的科学和工程。它与使用机器来理解人类智能密切相关,但人工智能的研究并不需要局限于生物学上可观察到的那些方法。”他们认为,数理逻辑才是人工智能的根本,是智能行为的描述方式,用于机器定理证明的逻辑演绎系统也是起源于图灵测试的思想。符号主义将符号视为人类认知和思维的基本单元,认知过程就是对符号的逻辑运算。因此,可以通过计算机中的逻辑门的运算模拟抽象的人类思维,这个过程也就是人工智能。麦卡锡着重强调人工智能的智能并不体现在真实的具体行为而是体现在思维方式上。纽厄尔和西蒙把麦卡锡的这一观点进一步推演为“物理符号系统假说”。“物理符号假说”认为,任何能够将某些物理模式或符号转化为其他模式或符号的系统都有可能产生智能行为,这就是“符号主义学派”这一名称的由来。物理符号可以使用人脑神经网络上的电脉冲信号,也可以使用通过逻辑门产生的高低电平。在这一假说的支持下,符号主义学派聚焦于人类智能的高级行为,如推理、规划、知识表示等方面。
行为主义学派认为人工智能的起源是由美国数学家诺伯特·维纳(Norbert Wiener)建立的控制论。控制论把神经系统的工作原理与信息理论、控制理论、逻辑以及计算机联系起来,其研究重点是模拟人在控制过程中的智能行为和作用,如对自寻优、自适应、自镇定、自组织和自学习等控制论系统的研究。20世纪90年代初,美国麻省理工学院教授罗德尼·布鲁克斯(Rodney Brooks)设计了六足行走机器人,它被视为“控制论动物”,是一个基于感知-动作模式模拟昆虫行为的控制系统,它的智能来自行为主义学派倡导的自下而上的与环境的互动。行为主义学派的代表算法是美国科学家约翰·霍兰(John Henry Holland)提出的遗传算法(Holland,1973)、美国心理学家詹姆斯·肯尼迪(James Kennedy)提出的粒子群优化算法(Kennedy,1995)和洛斯阿拉莫斯国家实验室的克里斯托弗·兰顿(Christopher Langton)提出的人工生命(Langton,1987)。
连接主义学派把人工智能建立在神经生理学和认知科学的基础上,强调智能活动是由大量简单的单元通过复杂的相互连接后并行运行的结果。连接主义依据人类的智慧主要源于大脑活动,大脑又是有数以万亿的神经元细胞通过错综复杂的相互连接形成的,认为神经元不仅是大脑神经系统的基本单元,更是行为反应的基本单元。思维过程是神经元的连接活动过程,通过大量突触相互动态联系着的众多神经元协同作用完成。因此,连接主义通过人工构建神经网络模拟人类智能,即以工程技术手段模拟人脑神经系统的结构和功能为特征,通过大量非线性并行处理器模拟人脑中众多神经元,用处理器的复杂连接关系模拟大脑中众多神经元之间的突触行为。连接主义学派主要成果是人工神经网络技术,人工神经网络技术经历了3个发展阶段:20世纪40年代到60年代,控制论中出现了人工神经网络技术的雏形;20世纪80年代到90年代,人工神经网络技术表现为连接主义;2006年以后,以深度学习之名复兴(Goodfellow et al.,2016)。
第一个阶段开始于20世纪40年代到60年代的控制论,随着生物学习理论的发展和感知机模型等的出现,已经能实现单个神经元的训练。生物学家沃伦·麦卡洛克(Warren Sturgis McCulloch)和数理逻辑学家沃尔特·匹兹(Walter Pitts)提出McCulloch-Pitts神经元(Mcculloch et al.,1943),为人工智能创造了一条用电子装置模仿人脑结构和功能的新途径。它是早期人类模仿人脑的功能研究出的线性模型,其权重需要正确设置后才能使模型的输出对应于期望的类别,这些权重都是人为设置的。20世纪50年代,科学家设计出自适应线性单元,它简单地返回函数本身的值预测一个实数,并且还可以学习从数据预测这些数。1956年,弗兰克·罗森布拉特(Frank Rosenblatt)创造了感知机,它是第一个能根据每个类别的输入样本学习权重的模型。感知机是一种模式识别算法,用简单的加减法实现了两层的计算机学习网络。罗森布拉特用数学符号描述了基本感知机里没有的回路,例如异或回路,但是这种回路一直无法被神经网络处理,直到反向传播算法的提出,才使得这一问题得到了解决。
然而,20世纪70年代后期,由于科学家证明了虽然感知机能学习它们可以表示的任何问题,但是它们能表示的东西很少,计算机科学在这之后很少涉足神经元网络领域。幸运的是,在其他领域这方面工作仍在继续。物理学家约翰·霍普菲尔德(John Joseph Hopfield)用统计力学的方法分析网络的存储和优化特征,把节点集合当作原子集合处理。心理学家大卫·鲁梅尔哈特(David Rumelhart)和杰夫·辛顿(Geoff Hinton)继续进行关于记忆的神经元网络的研究。1969年,布赖森(Arthur Bryson)和何毓琦(Yu-Chi Ho)首先设计出的反向传播算法,由于当时人工智能面临早期困难期,该算法在提出后没有受到重视和应用。20世纪80年代初期,大多数认知科学家研究符号推理模型,这类模型很难解释大脑如何真正使用神经元实现推理功能。
20世纪80年代,人工神经网络技术的发展进入第二个阶段,产生了连接主义的方法和并行分布处理。不同于认知科学,连接主义研究的是基于神经系统实现的认知模型(Touretzky et al.,1985)。连接主义的中心思想是,当网络将大量简单的计算单元连接在一起时可以实现智能行为。生物神经系统中的神经元和计算模型中的隐藏神经元有相似的作用,产生智能行为的过程也与连接主义的过程相似。在这一阶段,当时有至少4个不同的研究小组重新发明了反向传播算法。反向传播算法被应用到很多计算机科学和心理学中的学习问题,可以用反向传播算法训练具有一两个隐藏层的神经网络,获得了很好的效果。第二阶段的另一热点是分布式表示,它的中心思想是系统的每一个输入都应该由多个特征表示,并且每一个特征和都应该参与到多个可能输入的表示。
20世纪90年代,人工神经网络技术的研究人员在使用神经网络进行序列建模的方面取得了重要进展。霍克赖特(Sepp Hochreiter)(Hochreiter,1991)和本吉奥(Yoshua Bengio)等人(Bengio et al.,2002)解决了对长序列进行建模的一些根本性数学难题。霍克赖特和施米德胡贝(jürgen schmidhuber)(Hochreiter et al.,1997)设计出长短时记忆网络(Long Short-Term Memory,LSTM),后来广泛应用于序列建模任务,包括机器翻译、智能问答等NLP任务,在图像处理领域该模型也得到了广泛应用,成为现在应用最广泛的人工神经网络结构之一。20世纪90年代中期,基于神经网络和其他AI技术的创业公司开始寻求投资,其做法野心勃勃且不切实际,当人工智能研究不能实现这些不合理的期望时,如同20世纪80年代末的产业化时期一样,投资者纷纷因失望而止步。2000年,神经网络出现最重要的改进。两位俄罗斯科学家弗拉基米尔·万普尼克(Vladimir Naumovich Vapnik)和阿列克谢·切沃内斯基(Alexey Chervonenkis)提出统计学习理论,并进一步提出支持向量机模型。虽然统计学习在各个领域都得到了广泛的应用,但是连接主义学派依然面临着难以解决的问题:科学家们虽然会向大脑学习如何构造神经网络模型,但是这些神经网络是如何工作的仍是待研究的问题。与此同时,机器学习的其他领域取得了进步,如核方法和图模型都在很多重要任务上实现了很好的效果。这两个因素导致神经网络研究的热潮出现第二次衰退,该低谷一直持续到2007年。
第三个阶段,是今天的深度学习阶段,大约开始于2006年。杰弗里·希尔顿(Geoffrey Hinton)表明为深度信念网络的神经网络可以使用一种称为贪婪逐层预训练的策略来有效地训练(Hinton et al.,2006)。其他CIFAR研究小组很快表明,贪婪逐层预训练的策略也可以被用来训练许多其他类型的深度网络(Bengio et al.,2007;Schölkopf et al.,2006),并且能系统地帮助提高在测试样例上的泛化能力。在这一阶段,“深度学习”这一术语广泛地被神经网络的研究者所熟知,这一术语强调了神经网络的研究者现在有能力训练以前不可能训练的比较深层的神经网络。
在人工智能的稳步发展期,随着计算机性能的高速发展,海量数据的累积和AI研究者的不懈努力,人工智能在许多领域不断取得突破性成果。1997年,IBM的国际象棋机器人深蓝(Deep Blue)战胜国际象棋世界冠军卡斯帕罗夫,引起全世界轰动。2006年,Geoffrey Hinton提出深度学习。在接下来的若干年,借助深度学习技术,包括语音识别、计算机视觉在内的诸多领域都取得了突破性的进展。
1.2.6 蓬勃发展期(2010年以后)
2010年以后,人工智能的发展达到了前所未有的蓬勃发展期,人工智能技术席卷各个领域,正在深刻地改变着人类社会的方方面面,很多早期无法实现的预言也都逐渐实现。
2011年2月,在美国电视节目《危险游戏》(Jeopardy)中,由IBM公司制造的一台超级计算机“沃森”通过处理自然语言线索,在涉及各个领域的百科知识问答竞赛上战胜了人类选手,如图1-5所示。
图1-5 2011年美国电视节目《危险游戏》(Jeopardy)中沃森的表现
资料来源https://en.wikipedia.org/wiki/Watson_(computer)
沃森所用技术和早期机器相比有了巨大的进步,因为它配备的软件能够处理并理解人类语言,然后依赖在比赛前输入的大量信息。这说明计算机不仅能在初始条件确定的棋盘博弈中获胜,某些特定条件下,在不存在初始条件与边界条件的开放世界中同样可以超越人类水平。2016年至今,谷歌旗下DeepMind公司戴密斯·哈萨比斯(Demis Hassabis)领衔的团队在围棋领域研究出了一系列的人工智能机器人。AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,其主要工作原理是“深度学习”。2016年1月27日,国际顶尖期刊《自然》封面文章报道,谷歌研究者开发的名为AlphaGo的人工智能机器人,以5∶0完胜欧洲围棋冠军、职业二段选手樊麾。2016年3月,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4∶1的总比分获胜;2016年年末2017年年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3∶0的总比分获胜。围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平,在GoRatings网站公布的世界职业围棋排名中,其等级分曾超过排名人类第一的棋手柯洁。2017年5月27日,在柯洁与AlphaGo的人机大战之后,AlphaGo团队宣布将不再参加围棋比赛。2017年10月18日,DeepMind团队公布了据称是最强版的AlphaGo,代号AlphaGo Zero。
近几年,人工智能技术飞速发展,图像识别、推荐系统、智能问答、机器翻译、辅助诊断、智能驾驶等技术应运而生,人工智能进入蓬勃发展的辉煌时期。