AI新基建:数智化浪潮下的商业变革与产业机遇
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第5章 实现路径:AI的核心技术及其应用

计算机视觉技术

计算机视觉(computer vision, CV)是一门研究如何使计算机具备像人眼那样的视觉功能的科学。其主要原理在于利用摄像机和电脑来代替人眼,使得计算机具备像人类视觉那样可以对各种目标进行识别、分辨、跟踪、判断和决策的功能。

计算机视觉的相关技术包括图像处理技术、信号处理技术、概率统计分析技术、计算几何技术、神经网络技术、机器学习技术等。借助这些技术,计算机能够实现对各种视觉信息的分析和处理。可以说,它是利用计算机技术和设备对人类视觉的一种模拟。作为人工智能领域的重要组成部分,计算机视觉能够使计算机基于二维图像认知三维环境信息。

◆人工智能与计算机视觉

计算机视觉与人工智能之间既有联系,又有区别。人工智能是让计算机去理解图像、语音和文字,主要涉及看、听、读三种感知方式。而视觉是人工智能领域的核心,是让计算机实现起来最困难的部分。人类视觉所能感知到的信息占所有感知信息的80%左右,因此,计算机要模拟人类视觉在技术上需要攻克更多的难题。人工智能的革命将从计算机视觉开始,这是其他领域无法胜任的角色。

人工智能非常重视计算机的推理和决策能力,而计算机视觉还没有达到这个阶段,它主要处于表达图像信息、识别物体的阶段。计算机要识别物体和理解场景也需要对图像特征进行推理和决策,但这种推理和决策与人工智能的推理和决策是有区别的。计算机视觉和人工智能之间主要有以下三方面的关系:计算机视觉是实现人工智能需要解决的一大难题;计算机视觉是人工智能变革的重要引擎,人工智能的许多技术和应用都是从计算机视觉衍生出来的,然后再重新运用于人工智能领域中去;计算机视觉的实现要基于大量人工智能的应用。

◆计算机视觉技术的原理

计算机视觉能利用各种成像系统发挥视觉器官的作用,将各种视觉信息存储到计算机内,并利用计算机发挥人脑作用,实现对这些信息的处理和解释。计算机视觉的终极研究目标是使计算机拥有类似于人类的视觉功能,使机器能像人一样观察和理解这个世界,并能自主适应周围的环境。不过,在实现这一终极目标之前,人类需要先完成计算机视觉的中期目标,即使计算机视觉系统能利用某种程度的智能,基于视觉敏感和反馈,完成一定的任务。

以自动驾驶汽车的视觉导航为例。毫无疑问,自动驾驶汽车的视觉导航是计算机视觉的一个非常重要的应用领域。目前,自动驾驶汽车的视觉导航系统还无法像人那样识别和理解周围环境。因此,人们正在努力进行相关研究,力求使自动驾驶汽车具有道路跟踪能力,开发出规避行人、车辆和其他障碍物的安全可靠的视觉辅助驾驶系统。

另外,还需要指出一点:要让计算机在视觉系统中代替人眼的作用,并不意味着一定要让计算机按照人类视觉处理信息的方法来处理视觉信息。一般来说,计算机视觉只需要根据计算机系统自身的特点来处理视觉信息即可。

如果有人问世界上最强大、最完善的视觉系统是什么,根据迄今为止的认知,答案一定是人类视觉系统。无疑,人类对自身视觉处理机制的研究能够在一定程度上启发和指导计算机视觉的研究。同样,利用计算机信息处理技术和方法研究人类视觉的机理并建立相关的计算理论,也是一个非常重要和有趣的研究领域。

◆计算机视觉的应用领域

计算机视觉主要应用于以下领域:一是对照片、视频资料的解释,如对航空照片、卫星照片、视频片段等的解释和精确制导;二是移动机器人视觉导航;三是医学辅助诊断;四是工业机器人的手眼系统;五是地图绘制;六是物体三维形状分析与识别;七是智能人机接口。

早期,利用计算机视觉系统处理数字图像的主要目的是提高照片的质量,在这个过程中,需要利用到各种数字技术对航空图片、卫星图片等进行辅助处理。具体来说,就是进行图片的读取、判别和分类。不过,在实际操作中,需要判读的照片数量巨大,于是,人们开始想方设法创造出一种自动的视觉系统来代替人类完成这项工作。在此背景下,设计者们纷纷投入到视觉系统的研发之中,并催生出专门用于判读航空照片和卫星照片的各种视觉系统和方法。

自动判读只是视觉系统需要完成的第一步,接下来还要进一步确定目标的性质,这就需要引入实时自动分类功能,并将视觉系统与制导系统相结合。目前,普遍使用的制导方式有三类,分别是激光制导、图像制导和电视制导。例如,导弹系统就会利用到图像制导,即利用图像来进行精确制导,不过这种制导方式还需要与惯性制导相结合。计算机视觉在工业机器人手眼系统中的应用也非常成功。在工业生产中,光照条件、城乡因素等诸多因素都是可控的,这大大简化了对计算机视觉的功能要求,更加便于形成可靠的工业机器人手眼系统。

与工业机器人相比,移动机器人对计算机视觉的功能要求更加苛刻,因为移动机器人具有行为能力,在解决计算机视觉问题的同时还要解决行为规划问题,或者说要让计算机视觉对周围环境进行理解。随着移动机器人的发展,人们对计算机视觉的功能要求也越来越多,比如要求计算机视觉具备道路跟踪、目标识别、障碍回避等诸多功能。现阶段,人们主要采用遥控和远视的方式来设计移动机器人视觉系统,整体的研究尚处于实验阶段。

计算机视觉在医学上的应用主要涉及压缩、存储、传输、分类、判读等功能。对医生来说,计算机视觉还可作为一种辅助训练手段。此外,计算机视觉还可用于三维结构的快速重建。长期以来,地图绘制都是一件费时费力的工作,需要投入大量的人力、物力和时间。传统的地图绘制工作都是由人工测量并绘制完成。随着绘制技术的突破,地图绘制的效率有了较大的提高,主要利用航测和立体视觉技术来绘制地图。在绘制地图过程中,绘制员会利用立体视觉技术将航测数据生成物体三维形状,同时利用计算机视觉对这些物体三维形状进行分析与识别,提取和表示景物的特征,存储、检索和匹配识别相关知识,形成三维景物分析系统。

近年来,生物特征识别技术获得快速发展和应用,并受到社会各界的广泛重视。生物特征识别技术主要是对人的面部、虹膜、指纹、声音等特征进行识别,这些识别大多都需要利用到视觉信息。生物特征识别技术可以用于构成智能人机接口。

目前,除了一些高端工业计算机和特殊仪器外,计算机与人之间的交流仍处于机械式阶段。台式电脑、笔记本电脑等普通计算机还无法自动识别用户的真实身份,输入手段依然以键盘、鼠标为主,其他方式尚不成熟。将计算机视觉应用到计算机上,可以通过检测用户是否存在改变计算机的运行状态,通过对人的面部、虹膜、指纹、声音等特征的识别鉴别用户身份,同时也能通过识别用户点头、摇头等身体姿势给出合理化建议。另外,基于计算机视觉的人机交互方式,还可应用于入口安全检测、边境人员验放等多种场合。