1.1 人工智能基本概念
人工智能是一门新兴的学科,发展时间并不长,但对科学以及人类社会的意义却不可小觑。人工智能研究的一些领域已经取得了不少成果,产生了巨大的经济和社会效益。例如机器视觉的一些成果已经被广泛运用到制造业、智能监控等;信息检索领域的技术更是诞生了谷歌这样的企业;不仅如此,未来的智能机器人将会给人类社会带来更大的变化。
1.1.1 什么是智能
智能,广义地说,是智力和能力的总称。中国古代思想家一般把“智”与“能”看作两个相对独立的概念。《荀子·正名篇》中说到“所以知之在人者谓之知,知有所合谓之智。所以能之在人者谓之能,能有所合谓之能。”其中,“智”指进行认识活动的某些心理特点,“能”则指进行实际活动的某些心理特点。也有不少思想家把二者结合起来作为一个整体看待。《吕氏春秋·审分》中说到:“不知乘物而自怙恃,夺其智能,多其教诏,而好自以……此亡国之风也。”东汉王充更是提出了“智能之士”的概念,《论衡·实知篇》中有记载:“故智能之士,不学不成,不问不知。”“人才有高下,知物由学,学之乃知,不问不识。”他把“人才”和“智能之士”相提并论,认为人才就是具有一定智能水平的人,其实质就在于把“智”与“能”结合起来作为考察人的标志。根据霍华德·加德纳(Howard Gardner)的多元智能理论(Gardner,1983),人类的智能可以分成以下几个范畴:
(1)语言智能(Linguistic Intelligence)。是指有效地运用口头语言或者文字表达自己的思想并理解他人,灵活掌握语音、语义、语法,具备用言语思维、用言语表达和欣赏语言深层内涵的能力。
(2)数学逻辑智能(Logical-Mathematical Intelligence)。是指有效地计算、测量、推理、归纳、分类,并进行复杂数学运算的能力。这项智能包括对逻辑的方式和关系,陈述和主张,功能及其他相关的抽象概念的敏感性。
(3)空间智能(Spatial Intelligence)。是指准确感知视觉空间及周围一切事物,并且能把所感觉到的形象以图画的形式表现出来的能力。这项智能包括对色彩、线条、形状、形式、空间关系很敏感。
(4)身体运动智能(Bodily-Kinesthetic Intelligence)。是指善于运用整个身体来表达思想和情感、灵巧地运用双手制作或操作物体的能力。这项智能包括特殊的身体技巧,如平衡、协调、敏捷、力量、弹性和速度以及由触觉所引起的能力。
(5)音乐智能(Musical Intelligence)。是指人能够敏锐地感知音调、旋律、节奏、音色等能力。这项智能对节奏、音调、旋律或音色的敏感性强,与生俱来就拥有音乐的天赋,具有较高的表演、创作及思考音乐的能力。
(6)人际智能(Interpersonal Intelligence)。是指能很好地理解别人和与人交往的能力。这项智能善于察觉他人的情绪、情感,体会他人的感觉感受,辨别不同人际关系的暗示以及对这些暗示做出适当反应的能力。
(7)自我认知智能(Intrapersonal Intelligence)。是指自我认识和具备自知之明并据此做出适当行为的能力。这项智能能够认识自己的长处和短处,意识到自己的内在爱好、情绪、意向、脾气和自尊,喜欢独立思考。
(8)自然认知智能(Naturalist Intelligence)。是指善于观察自然界中的各种事物,对物体进行辨识和分类的能力。这项智能有着强烈的好奇心和求知欲,有着敏锐的观察能力,能了解各种事物的细微差别。
我们认为智能是个体对客观事物进行合理分析、判断及有目的地行动和有效地处理周围环境事宜的综合能力。随着人类认知能力和科技水平的发展,智能的内涵也不断的发展变化。在人工智能领域中,如何赋予机器智能和赋予其什么样的智能是一直在讨论的话题。一个完善的人工智能系统应该不仅能够在实践中不断地强化问题求解能力,充实知识库,具备自学习功能,还应有搜集与理解环境信息和自身的信息,并进行分析判断和规划自身行为的能力。
1.1.2 什么是人工智能
人工智能作为一门前沿交叉学科,其定义一直存有不同的观点。维基百科上定义人工智能就是“机器展现出的智能”,即只要是某种机器,具有某种或某些“智能”的特征或表现,都应该算作“人工智能”。大英百科全书则定义人工智能是“数字计算机或者数字计算机控制的机器人在执行智能生物体才有的一些任务上的能力”。百度百科定义人工智能是“研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学”,将其视为计算机科学的一个分支,指出其研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
经过研究,我们认为人工智能需要满足以下4类定义:类人行为、理性行为、类人思考和理性思考(图1-1)。其中,上方两类强调行为,下方两类关注思维过程与推理;左侧两类根据与人类表现的逼真程度来衡量成功与否,右侧两类依靠理性的表现程度来衡量。一个系统的合理性取决于它是否能基于已知的输出条件“正确运行”。
图1-1 人工智能的4类定义
1.1.2.1 类人行为
在类人行为这个类别中,人们主要研究创造能执行一些功能的机器的技艺,而当由人来执行这些功能时需要智能(Kurzweil,1990),或者说如何使计算机能做那些目前人比计算机更擅长的事情(Rich,1991)。
阿兰·图灵(Alan Turing)1950年提出的图灵测试(Turing Test),旨在为智能提供一个令人满意的可操作的定义。如果一位人类询问者在对一个与人隔离的计算机提出一些书面问题以后,不能区分书面回答来自人还是来自计算机,那么这台计算机就通过智能测试。我们要注意的是,为计算机编程使之通过严格的测试还有大量的工作要做,计算机尚需具有4种能力。①自然语言处理(Natural Language Processing):成功地用中英文等自然语言与人交流。②知识表示(Knowledge Representation):将知识以符号化形式化的方式表达并存储起来。③自动推理(Automated Reasoning):运用存储的知识与信息来推出新结论并回答问题。④机器学习(Machine Learning):基于已有信息获取问题求解能力、适应新情况并检测和预测模式。因为人的物理模拟对智能是不必要的,所以图灵测试有意避免询问者与计算机之间的直接物理交互。然而,所谓的完全图灵测试(Total Turing Test)还包括视频信号以便询问者既可测试对方的感知能力,又有机会传递物理对象。要通过完全图灵测试,计算机还需具有计算机视觉(Computer Vision)和机器人(Robotics)。这6个领域构成了人工智能的大部分内容,并且图灵因设计了一个60年后仍合适的测试而值得称赞。
然而人工智能研究者并未致力于通过图灵测试,他们认为研究智能的基本原理比复制样本更重要,就像莱特兄弟和其他人只有在停止模仿鸟,开始使用风洞并且开始了解空气动力学后,对“人工飞行”的追求才获得成功一样。同样航空工程的教材不会把其领域目标定义为制造“能完全像鸽子一样飞行的机器,以致它们可以骗过其他真鸽子”。
1.1.2.2 理性行为
在理性行为这个类别中主要讨论计算智能研究智能Agent的设计(Poole,1998)。Agent就是能够自主行动的某种东西(英语的agent源于拉丁语的agere,意为“去做”)。当然,所有计算机程序都做某些事情,但是期望计算机Agent做更多的事,例如自主的操作、感知环境、长期持续、适应变化并能创建与追求目标等。于是,理性Agent(Rational Agent)是一个旨在实现最佳结果,或者说当存在不确定性时,旨在实现最佳期望结果的Agent。
在对人工智能的“思维法则”的研究途径里,重点在正确的推理。做出正确的推理有时也是合理Agent的部分作用,因为理性行动的一种方法是逻辑地推理出给定行动将实现其目标的结论,然后遵照那个结论行动。另一方面,正确的推理并不是合理性的全部,在某些环境中,无法做可证正确的事情,但是仍然必须做某些事情。还有一些合理行动的方法不能被说成涉及推理。例如,从热火炉上退缩是一种反射行为,通常这种行为比仔细考虑后采取的行为更成功。合理Agent途径比其他基于人类行为或人类思维的途径更经得起科学发展的检验。合理性的标准在数学上定义明确且完全通用,并可被“解开并取出”来生成可证实现了合理性的Agent设计。另一方面,人类行为可以完全适应特定环境,并且可以很好地定义为人类做的所有事情的总和。我们必须学习,不只是为了博学,而是因为学习可提高我们生成有效行为的能力。
1.1.2.3 类人思考
类人思考侧重于让机器进行与人类思维相关的活动,诸如决策、问题求解、学习等活动的自动化进行(Bellman,1978),使其“有头脑”(Haugeland,1985)。如果我们说某个程序能像人一样思考,那么我们必须具有某种办法来确定人是如何思考的,并且我们需要领会人脑的实际运用。有3种办法来完成这项任务:
(1)通过内省——试图捕获我们自身的思维过程。
(2)通过心理实验——观察工作中的一个人。
(3)通过脑成像——观察工作中的头脑。
只有具备人脑的足够精确的理论,才能把这样的理论表示成计算机程序。如果该程序的输入输出行为匹配相应的人类行为,这就是程序的某些机制可能也在人脑中运行的证据。例如,设计了“通用问题求解器”(General Problem Solver)的艾伦·纽厄尔(Allen Newell)和赫伯特·西蒙(Herbert Simon)并不满足于仅让其程序正确地解决问题,而是更关心比较程序推理步骤的轨迹与求解相同问题的人类个体的思维轨迹(Newell,1961)。
认知科学(Cognitive Science)这个交叉学科领域把来自人工智能的计算机模型与来自心理学的实验技术相结合,试图构建一种精确且可测试的人类思维理论。在各种媒体和出版物上,常可以看见人们对人工智能技术与人类认知之间的异同进行探讨。然而,真正的认知科学必然是基于真实人或动物的实验调查与研究。
在人工智能发展的早期,不同途径之间经常出现混淆:某位学者可能主张一个算法很好地完成一项任务,所以它是人类表现的一个好模型;或者相反,需要模仿人类的思维模式。这两种主张使得人工智能和认知科学都能更快地发展,并相互丰富,例如有研究将神经生理学证据吸收到计算模型中,还有近来非常火热的深度学习技术。这种相互作用在计算机视觉和自然语言处理中体现得最明显。
1.1.2.4 理性思考
理性思考侧重于要求机器通过使用计算模型来表现智力(Charniak,1985),并使感知、推理和行动成为可能的计算(Winston,1992)。
希腊哲学家亚里士多德是首先试图严格定义“正确思考”的人之一,他将其定义为不可反驳的推理过程。其三段论(Syllogisms)为在给定正确前提时总产生正确结论的论证结构提供了模式——例如,“所有人必有一死;苏格拉底是人;所以,苏格拉底必有一死。”这些思维法则被认为应当支配着大脑的运行;他们的研究开创了称为逻辑学(Logic)的领域。逻辑学家为世上各种对象及对象之间关系的陈述制定了一种精确的表示法。这种表示法与通常的算术表示法不同的是,后者只为关于数的陈述提供表示法。到了1965年,已有程序原则上可以求解用逻辑表示法描述的任何可解问题。
然而,这条途径存在两个主要的障碍。首先,获取非形式的知识并用逻辑表示法要求的形式术语来陈述知识和问题是不容易的,特别是在知识不是百分之百肯定时。其次,在“原则上”可解一个问题与实际上解决该问题之间存在巨大的差别。甚至求解只有几百条事实的问题就可耗尽任何计算机的计算资源,除非计算机能在关于先试哪个推理步骤提供某种先验指导。虽然这两个障碍对建造计算推理系统的任何尝试都存在,但是它们最先出现在逻辑推理中。