2.2 人工智能热点技术
人工智能热点技术主要包括传感器技术、计算机视觉、自然语言处理、生物特征识别和人机交互等。下面分别进行简要介绍。
2.2.1 传感器技术
传感器是获得信息的一种装置,其定义可分为广义和狭义两种。广义的传感器指凡能感受外界信息并按一定规律转换成便于测量和控制的信息的装置;狭义的传感器指只有将外界信息按一定规律转换成电量的装置才叫传感器(陈裕泉,2007)。传感器获取的信息可以为各种物理量、化学量和生物量,而转换后的信息也可以有各种形式。传感器经过近69年的发展,从最原始的结构性传感器演变为固体传感器至最新的智能传感器,种类繁多,涉及面广,几乎包括现代所有的学科。智能传感器目前应用已相当广泛和普及,智能传感器的产品主要有以下几种类型:运动类(加速度计、陀螺仪等)、光学类(环境光传感器、接近传感器、CMOS图像传感器)、环境监测类(MEMS麦克风、压力传感器、气体传感器等)等。目前智能传感器领域主要是霍尼韦尔、意法半导体、博世、楼氏电子、德州仪器等较为出名。在人工智能方面,传感器技术主要应用在可穿戴设备、物联网以及自动驾驶技术上。
(1)可穿戴传感器。可穿戴传感器可理解为基于人体自然能力之上的,借助信息技术实现对应业务功能的设备。人体自然能力指人类本身与生俱来的能力,如动手能力、行走能力、语言能力、眼睛转动能力、心跳能力、脉搏跳动能力、大脑神经思维能力等(封顺天,2014)。这里的信息技术指基于人体能力或环境能力,通过内置传感器、集成芯片实现对应的信息智能交互功能。随着各种传感器体积的缩小,性能的提高,成本的降低,这些传感器在生活中得到广泛的应用,特别是可穿戴智能设备,在人体健康监控、娱乐、运动等方面有良好的应用前景。就已市场化的可穿戴传感器而言,其中大部分主要基于消费电子被应用于日常健康管理和运动测量,目前上市的有智能手环、智能手表、智能跑鞋/鞋垫等,例如Fitbit公司推出的Charge 2智能手环(图2-17),带有光学心率追踪系统和三轴式加速计,可进行心率及睡眠阶段检测。人的日常行为很大程度上影响着个体的健康状态,因此对于日常生活的记录有助于提高生活水平,这些记录同时也为精准医疗中的个人日常状态和相关环境参数提供了数据支持。目前可穿戴传感器最主要的应用就是日常健康管理,主要功能包括测量行走步数、心率和皮肤电导率等常用参数,及在睡眠时通过加速度传感器测量人体姿态,反映睡眠质量。
图2-17 Charge 2智能手环
资料来源:https://www.fitbit.com/cn/charge2
(2)物联网智能传感器。物联网是信息技术领域的一次重大变革,其被认为是继计算机、互联网和移动通信网络之后的第三次信息产业浪潮。物联网是在互联网基础上延伸和扩展的网络,是通过信息传感设备,按照约定的协议,把任何物品与互联网连接起来,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络(薛燕红,2012;李建功,2013),这也决定了智能传感器在整个物联网架构中的基础作用与核心地位。
智能传感器是具有与外部系统双向通信手段,用于发送测量、状态信息,接收和处理外部命令的传感器。其既能够完成信号探测、变换处理、逻辑判断、功能计算、与外部系统双向通信,又可实现自校准、自补偿、自诊断。智能传感器组成如图2-18所示,一般包含传感单元、智能计算单元和接口单元。传感单元负责信号的采集。智能计算单元根据设定,对输入信号进行分析处理,得到特定的输出结果。智能传感器通过网络接口与物联网其他装置进行双向通信。
图2-18 智能传感器的组成
资料来源:徐文劼,2017
2016年全球智能传感器市场规模达到258亿美元,预计2019年将达到380亿美元,年复合增长率超过了10%。目前智能传感器产品领域产值最大的是美国,美国、日本、德国等少数经济发达国家占据了传感器市场约60%的份额,发展中国家所占份额相对较少。市场规模最大的3个国家美国、日本和德国,分别占据了传感器整体市场份额的29.0%,19.5%,11.3%。美国占世界智能传感器产值的45%以上,欧洲占30%,日本占20%,中国(大陆及台湾)地区占了5%,中国传感器产值占世界比重依然很小(景云鹏,2013)。鉴于中国智能传感器领域弱势地位,工信部发布了《智能传感器产业三年行动指南(2017—2019年)》,聚焦智能终端、物联网、智能制造、汽车电子等重点应用领域,有效提升了中高端产品供给能力,推动了我国智能传感器产业加快发展。
(3)自动驾驶与辅助驾驶中的传感器。进入人工智能时代,汽车的控制系统早已快速进入电子控制时代,而传感器技术作为基石,在电子控制系统中极为重要。传统的汽车传感器正逐步被淘汰,智能化、微型化、多功能化和集成化的新型传感器正成为行业标准。
近年来,汽车主动安全和智能化的需求在市场中的地位不断提高,无人驾驶凸显了巨大的社会价值和经济价值,带动了越来越多的企业、科研机构、学校参与其中,其共同推动着无人驾驶技术的发展。目前,已经有一部分无人驾驶实验车型,可以通过感知环境信息,实现高度自主的驾驶行为,如起步、加速、制动、换道、避撞、车道线跟踪、停车等,但能够实现完全无人驾驶的车辆还没有正式批量生产销售,工业实现的水平还处于高级驾驶员辅助系统ADAS(Advanced Driver Assistance System)阶段。ADAS是汽车智能控制的初级阶段,被视为实现无人驾驶的前提。从ADAS到全自动驾驶汽车还有一段复杂漫长的路要走。ADAS以传感器作为起点,其应具备的功能与要求如图2-19所示。ADAS的处理程序总是由传感器开始,最终到制动器,如图2-20所示。
图2-19 ADAS传感器应具备的功能与要求
资料来源:陈天殷,2018
图2-20 ADAS的处理程序
资料来源:陈天殷,2018
全球传感器产业正进入历史性的重大调整变革期,技术演进和市场增长点改变,将带动传感器产业链格局和产业生态的重大变革和调整。通过紧抓产业发展的战略机遇期,聚焦智能终端、物联网、智能制造、汽车电子等重点应用领域,有效提升中高端产品供给能力,将推动我国智能传感器产业加快发展。
2.2.2 计算机视觉
计算机视觉是新兴的一门研究以机器看世界的新学科,即使用摄像机/摄影机和计算机取代自然世界中的眼睛对特定目标进行识别、跟踪、分析等的机器视觉(颜秉忠,2018)。计算机视觉是使用计算机、光学设备以及计算机算法,对外界的环境做出感知,使得计算机具有动物的“视觉”,是对眼睛的一种模拟,通过对图片或视频的采集,并做出相应的处理,生成相应的三维应用场景信息。计算机视觉不仅是工业界的重大工程领域,在科学界也是一个非常有挑战的研究领域,作为一个综合性的学科,吸引了国内外众多学者和研究者的参与。其涉及研究领域不仅仅包含计算机领域,还包括信号、物理、数学统计、应用数学、神经学和认知科学等多个学科。计算机视觉与其他领域的关系如图2-21所示。
图2-21 计算机视觉与其他领域的关系
计算机视觉的特点是多样性和不完善性,计算机视觉起步较早,但是其真正发展起来是1970年后期,这时计算机的性能迅速提高到能处理大规模的图像数据,但当时对“计算机视觉”并没有确切的正式的定义。然而人们也能通过计算机视觉的相关技术对一些简单的目标进行识别。随着机器学习的日渐兴起,图像的处理更加准确高效,计算机视觉得到了进一步的发展。
(1)计算成像学。计算成像是指涉及数字计算机的任意图像形成的方法。它使得成像系统的目的不再是满足人们的视觉要求而是提供满足智能应用所必需的鲁棒和智能功能,实现“从3D到信息”的跨越。在许多情况下,传感器设计的最终目标不再是为了得到一个高分辨率的图像信号,而是仅收集图像理解算法所需要的信息,以利于机器自动抽取需要的信息,实现“从3D到信息”的跨越。这样就可以在很大程度上回避目前出现的所谓数字媒体“存不起、查不准和管不住”的突出问题。这种将成像与后置的特征提取计算相结合的思想,就是所谓的“计算成像”。计算成像能够实现传统成像无法完成的任务,例如去除运动模糊、超分辨率重建等。王新华等人采用基于自适应稀疏先验信息的空间变化点扩散函数图像分块复原算法,对简单透镜模糊成像进行复原重建(王新华,2017)。近年提出的计算成像,因其对器件的性能要求不高、存储信息量不大,且操作方便成本低廉等优点,正在被越来越多地应用到航天遥感、医疗诊断、军事侦察及移动成像等领域。
(2)图像理解(含图像识别)。图像理解是研究用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学,所讨论的问题是完成某一任务需要从图像中获取哪些信息,以及如何利用这些信息获得必要的解释,图像理解的研究涉及和包含了获取图像的方法、装置和具体的应用实现。对图像理解的研究始于20世纪60年代初,研究初期以计算机视觉为载体,计算机视觉简单地说就是研究用计算机来模拟人类视觉或灵长类动物视觉的一门科学,由图像数据来产生视野环境内有用符号描述的过程,主要研究内容包括图像的获取、图像处理、图像分析、图像识别。图像包括静态图像和动态图像视频,包括二维图像和立体图像。计算机视觉的输入是数据,输出也是数据,是结构化或半结构化数据和符号。识别是传统计算机视觉的目的,即要得到图像中有什么这一结论。自1965年Roberts识别多面体以来,图像理解已经应用在不少的领域:Nagao等人第一次建立了解释多波段航片的系统,对航拍图像区域进行了若干特征体的划分;SCORPIUS组合利用并行处理和图像理解研究结果检测、鉴别有意义的目标,监视军事目标状态变化,提供军事动向资料和情报;ACRONYM是一个由模型出发的解释系统,通过模型化区域的三维信息结构完成模型的匹配理解过程;MOSAIC融合多视角目标获取的二维图像完成目标三维的完整描述,对新的观察点情况进行理解分析。
(3)三维视觉。三维视觉是计算机视觉领域的一个重要课题,它的目的在于重构场景的三维几何信息。三维视觉的研究具有重要的应用价值,其应用包括移动机器人的自主导航系统、航空及遥感测量、工业自动化系统等。三维视觉的主要研究方法有3个:一是直接利用测距器获得程距信息,建立三维描述。这种方法也就是程距法(Range Data Method),根据已知的深度图,用数值逼近的方法重建表面信息,根据模型建立场景中的物体描述,实现图像理解功能(师春艳,2018)。这是一种主动方式的立体视觉方法,其深度图是由测距器(Range Finders)获得的,如结构光(Structured Light)、激光测距器(Laser Range Finders)等其他主动传感技术(Active Sensing Techniques)。这类方法适用于严格控制下的环境(Tightly Controlled Domains),如工业自动化的应用方面。二是仅利用一幅图像所提供的信息推断三维形状的方法。依据光学成像的透视原理及统计假设,根据场景中灰度变化导出物体轮廓及表面,由影到形(Shape From Shading),从而推断场景中的物体。线条图的理解就是这样的一个典型问题,曾经引起了普遍的重视而成为计算机视觉研究领域的一个焦点,由此产生了各种各样的线条标注法。这种方法的结果是定性的,不能确定位置等定量信息,该方法由于受到单一图像所能提供信息的局限性,存在难以克服的困难。三是利用不同视点上的多幅图像提供的信息重构三维结构,这是一种被动式的方法。根据图像获取方式的区别又可以划分为普通立体视觉和通常所称的光流(Optical Flow)两大类。普通立体视觉研究的是由两个摄像机同时拍摄下的两幅图像,而光流法中研究的是单个摄像机沿任一轨道运动时顺序拍下的两幅或更多幅图像。前者可以看作后者的一个特例,它们具有相同的几何构形,研究方法具有共同点。
(4)动态视觉。动态视觉是指在观察移动目标时,捕获、分解、感知移动目标影像的能力(彭金栓,2018)。这种能力伴随着通过动态视觉捕捉影像和短时间内信息处理的过程以及做出相应反应的过程。例如,拳击比赛中每一名拳击选手都要利用动态视觉捕捉对手的快速行为变化。拳击选手通过动态视觉捕捉攻击手的出拳,同时躲避攻击拳。优秀的棒球运动员,可以看得到写在棒球上的阿拉伯数字,也可以捕捉到棒球的旋转方向和移动变化。在航空学上,动态视觉是指在运动状态下观察从正前方接近的物体的视觉分辨能力。动态视觉受多方面因素的影响。物体高速移动时往往会产生残像,图像接收设备以很短的时间接收每一帧,当物体速度快于动态视觉的限界就无法捕捉,其中反应速度是决定性的关键。只要接收每一帧图像的时间越短,就能捕捉到运动速度越快的目标。
(5)视频编解码。所谓视频编码方式就是指通过特定的压缩技术,将某个视频格式的文件转换成另一种视频格式文件的方式。传统的压缩编码是建立在香农(Shannon)信息论基础上的,它以经典的集合论为基础,用统计概率模型来描述信源,但它未考虑信息接受者的主观特性及事件本身的具体含义、重要程度和引起的后果(茅剑,2016)。因此,压缩编码的发展历程实际上是以香农信息论为出发点的一个不断完善的过程。从不同角度考虑,数据压缩编码具有不同的分类方式。按信源的统计特性可分为预测编码、变换编码、矢量量化编码、子带-小波编码、神经网络编码方法等。按图像传递的景物特性可分为分形编码、基于内容的编码方法等。随着产业化活动的进一步开展,国际标准化组织于1986年、1998年先后成立了联合图片专家组JPEG和运动图像压缩编码组织MPEG。JPEG专家组主要致力于静态图像的帧内压缩编码标准ISO/IEC 10918的制定;MPEG专家组主要致力于运动图像压缩编码标准的制定。经过专家组不懈的努力,制定了基于第一代压缩编码方法(如预测编码、变换编码、熵编码及运动补偿等)的3种压缩编码国际标准(杨鑫诚,2013)。视频解码即是视频编码的逆操作。
以上从计算机成像学、图像识别与理解、三维视觉、动态视觉、视频编解码这几个方面介绍、分析了计算机视觉的相关知识。计算机成像学主要是涉及数字计算机的图像形成方法,输出的是普通的照片,但是图像的形式有很多。图像理解是使用计算机解释图像,虚拟人眼,输入整个图像,输出特征信息,用以分类、识别、检测等。三维视觉是计算机视觉领域的重要课题,构建立体几何信息,使得信息更加全面。动态视觉是相对于静止而言,通过捕获,分析、感知移动的目标,该技术能捕捉运动速度快的目标,应用广泛。与视觉密不可分的是视频,视频存储占用大,传输也很受限制,因此通过视频的编解码来提高视频的存储、传输效率很有必要。计算机视觉从信息的获取、预处理、处理、解析、传输到使用,每一环节都是很值得研究的领域,很多领域目前还存在瓶颈,任重道远。
2.2.3 自然语言处理
自然语言处理(Natural Language Processing,NLP)技术的产生可追溯到20世纪50年代,主要研究如何运用计算机处理、理解、运用人类语言,它是一门集语言学、数学、计算机科学和认知科学等于一体的综合性交叉学科,又常被称为计算语言学。语言具有规律性、组合性、递归性、比喻性、交互性,这些特性的组合,使得自然语言处理成为一门复杂而富有挑战性的学科。近几年来,随着计算机网络技术和通信技术的迅速发展和普及,自然语言处理技术的应用需求急剧增加,人们迫切需要实用的自然语言处理技术来帮助打破语言屏障,为人际之间、人机之间的信息交流提供便捷、自然、有效的人性化服务。但是,自然语言处理中的若干科学问题和技术难题尚未得到解决,有待于来自不同领域的学者深入研究和探索。
(1)机器翻译。机器翻译(Machine Translation,MT)隶属于计算语言学的范畴,是一门研究如何通过计算机程序将文字从一种自然语言翻译成另一种自然语言的科学。目前,全世界正在使用的自然语言有1900多种,其中,世界上45个国家的官方语言是英语,75%的电视节目是英语,80%以上的科技信息是用英语表达的。有关专家指出,语言障碍已经成为制约21世纪社会全球化发展的一个重要因素。其中,以欧洲为例,整个欧洲有380多种语言。2004年5月1日以前欧盟委员会有11种官方语言,每年为了将各种文件、法规、会议发言等转录和翻译成11种官方语言,就需要耗费约5.49亿欧元的资金(宗成庆,2013)。因而,实现不同语言之间的自动翻译,蕴藏着巨大的经济利益。从理论上讲,研究不同语言之间的翻译涉及计算机科学、语言学以及数学与逻辑学等若干学科和技术,是目前国际上最具挑战性的前沿研究课题之一,具有重要的理论意义。
基于规则的机器翻译主要由分析、转换和生成3部分组成,首先通过解析源语言句子,获得源语言深层结构表示;之后将源语言的深层结构表示转换为目标语言的深层结构表示;最后,生成目标语言句子。基于规则的机器翻译方法高度依赖语言规律,虽然具有一定的通用性,但规则获取成本较高,语言规则的质量过于依赖语言学家的经验和知识,规则的维护、新旧规则的兼容性等都是难以突破的瓶颈问题。基于规则的机器翻译方法,研究者构建了大规模双语语料库,同时期,机器学习技术不断发展,两者的结合极大推动了机器翻译方法的发展。与此同时,以双语语料库为基础,基于实例和基于统计的机器翻译方法被提出并得到了不断发展(邵博,2018)。自20世纪80年代末期以来,语料库技术与统计机器学习方法结合的技术在机器翻译研究中广泛应用,打破了长期以来基于规则的翻译方法一统天下的僵局,机器翻译研究进入了一个新纪元,一批基于语料库的机器翻译(Corpus-based Machine Translation)方法相继问世,并得到快速发展。
(2)语义理解。自然语言处理的最终目的是在语义理解的基础上实现相应的操作,使自然语言处理系统具备像人一样的理解、联想、推理等能力。一般而言,如果没有语义理解的参与,自然语言处理系统很难获得良好的系统性能。然而,自然语言的语义计算十分困难,如何模拟人脑思维的过程,建立语言、知识与客观世界之间可计算的逻辑关系,并实现具有高区分能力的语义计算模型,至今仍是亟待解决的难题。对于不同的语言单位,语义分析的任务各不相同,在词的层次上,词义消歧(Word Sense Disambiguation,WSD)是语义分析的基本任务;在句子层面上,语义角色标注(Semantic Role Labeling,SRL)则是语义分析的基本任务;在篇章层面上,指代消歧(Coreference Resolution)、篇章语义分析等则是目前研究的重点。词义消歧又称词义标注(Word Sense Tagging,WST),其任务是确定多义词在给定上下文语境中的具体含义。词是能够独立表达的最小语言单位,单个词的含义及其在特定语境下的相互作用构成了整个句子的表达,因此,词义消歧是句子、篇章语义理解的基础。从20世纪50年代初期开始,在机器翻译研究中,人们就已经开始关注词义的消歧问题(Ide,1998)。早期词义消歧的研究方法一般较为简单,比较常用的是基于规则的分析方法。从20世纪80年代开始,基于大规模语料库的统计机器学习方法蓬勃发展,并在自然语言处理领域中得到了广泛应用,机器学习方法被广泛应用于词义消歧。
(3)问答系统。问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能运用准确、简洁的自然语言回答用户通过自然语言提出的问题,问答系统是目前人工智能和自然语言处理领域中一个备受关注并具有广泛发展前景的研究方向。从某种意义上说,问答系统是集知识表示、信息检索、自然语言处理和智能推理等技术于一身的新一代搜索引擎。问答系统与传统的信息检索系统在很多方面都有所不同,主要区别可参见表2-1。
表2-1 问答系统与传统信息检索系统的区别
资料来源:宗成庆,2013
一个自动问答系统通常由提问处理模块、检索模块和答案抽取模块3部分组成(图2-22),提问处理模块主要负责对用户的提问进行处理,包括生成查询关键词(提问关键词、扩展关键词等)、确定提问答案类型(人称、地点、时间、数字等)以及提问的句法、语义分析等。检索模块主要根据提问处理模块生成的查询关键词,使用某种检索方式,检索与提问相关的信息。该模块返回的信息可以是段落,也可以是句群或者句子。答案抽取模块则利用相关的分析和推理机制从检索出的相关段落、句群或句子中抽取出与提问答案类型一致的实体,根据某种原则对候选答案进行排序,把概率最大的候选答案返回给用户。
图2-22 问答系统基本结构示意图
资料来源:宗成庆,2013
自然语言处理是一门边缘性学科,是集计算机技术、语言学、数学、计算机科学和认知科学等于一体的综合性交叉学科。自然语言处理的发展,对计算机科学、人工智能技术、语言学等学科都了产生巨大的推动作用,对国民经济的发展、人民生活质量的提高也产生巨大的价值。近年来,我国的自然语言处理学科有了很大的进步,在科学研究、基础应用等方面都取得了令人瞩目的成绩,有力地促进了我国计算机产业的民族化,促进了计算机在我国人民当代语言文字生活中的普及和推广(冯志伟,2012)。
2.2.4 生物特征识别
随着人工智能技术的进步,人们越来越重视身份识别与认证技术的安全性,传统的身份识别技术越来越不能满足用户对安全性的要求,新兴的生物特征识别(Biometric Recognition)现已得到学术界和产业界的广泛关注和充分应用。相对于传统的认证与识别技术(如令牌、密钥、动态口令等),生物特征识别以其独特性、安全性、可靠性、便捷性等优势得到了充分的研究和广泛的应用。目前,生物特征识别中最具代表性的技术主要有指纹识别、人脸识别、虹膜识别、指静脉识别、声纹识别、步态识别等,在身份认证、用户识别、访问控制等安全应用领域发挥着越来越重要的作用(中国电子技术标准化研究院,2017;Liu,2009)。
(1)指纹识别。指纹识别(Fingerprint Recognition)是一种识别人的手指末端正面皮肤上乳突脊(Papillary Ridges,Friction Ridges,也称为摩擦脊)的生物特征识别技术(Maltoni,2009)。指纹识别的主要基本原理是人体手掌的皮肤并不是光滑的,而是由凹凸不平的脊(Ridges)和谷(Valleys)所形成的纹路组成,且每一个人的手指的摩擦脊所形成的指纹是独特的,如图2-23所示。因此,就可以通过这些指纹差异性来识别和认证用户的身份。早在20世纪初指纹识别就被用于识别犯罪分子的身份,通过现场遗留的部分指纹痕迹与指纹库进行对比,侦破刑事案件。近年来,随着指纹识别硬件技术的发展和进步,指纹识别在智能手机终端领域得到大力推广和应用发展。
图2-23 指纹摩擦脊示意图
(2)人脸识别。人脸识别是通过数字图片或来自视频源的视频帧来识别和认证用户的一项生物特征识别技术,是集成了人工智能、机器学习、视频采集与处理、三维识别、皮肤纹理分析等多项专业理论与核心技术的综合性应用。人脸识别的主要原理是人脸特征能够用于唯一性地标识用户身份,而且在不干扰用户日常生活的前提下可以很容易地采集用户的人脸图像数据。通过部署在现实场景或自然环境中的摄像头采集,在一些特殊的身份认证、访问控制场景下,需要专业级摄像头来采集指定用户的人脸信息(Rizvi,2011;Tolba,2006),识别流程如图2-24所示。早在20世纪60年代,研究人员开始研究通过使用计算机来识别人脸的技术,但是鉴于当时的条件限制,并没有得到广泛推广应用。近年来,随着深度学习技术在图像识别领域的广泛研究和发展,人脸识别也取得了巨大的进步,并得到了更广泛的应用。
图2-24 人脸识别的概要流程
(3)虹膜识别。虹膜识别(Iris Recognition)是通过对用户眼睛虹膜的视觉图像进行识别的一种生物特征识别方法。早在1953年F. H. Adler就在临床教科书中写道“事实上,虹膜是如此独特,足以让人们优先选择使用它而不是指纹作为生物识别手段”。虹膜识别的基本原理是环绕瞳孔周围的圆形、彩色的虹膜具有独特性。独特性源自其随机、复杂的结构,如在妊娠期间形成的沟、脊、隐窝、环、电晕、斑等,在1.5岁左右后人类虹膜结构的表观特征就基本保持不变。人眼球的虹膜是独特、稳定的,在一定距离内是可以观察到的,虹膜在眼球中的位置如图2-25所示。虹膜识别广泛应用于身份识别与认证系统。
图2-25 虹膜位置示意图
(4)指静脉识别。指静脉识别(Finger Vein Recognition)是根据人体手指静脉模式的物理特征和数据来识别个体的一种生物特征识别技术。人的手指静脉具有独特的表征属性(Wang,2011)。指静脉识别的准确率高主要与手指静脉模式独特性有关,它已经成为发展速度最快的生物特征识别技术之一。早在20世纪90年代日本日立公司发现了指静脉模式可以用于用户身份认证,2000年以后就被商业化推广应用到不同的产品,如ATM机。他们的研究报告表明该项技术的错误接受率(False Acceptance Rate,FAR)可以低至0.0001%,错误拒绝率(False Reject Rate)仅为0.1%。当前,日本70%的主要金融机构采用了指静脉识别技术(Wang,2011)。指静脉识别的基本原理是使用近红外光谱技术获取指静脉图像。当手指处在760nm波长附近的红外线附近时,其皮下组织中的手指静脉团的结构分布及特征会被采集到,因为血液中的脱氧血红蛋白会吸收光线,产生的静脉图像看起来比手指的其他区域更暗。指静脉识别原理如图2-26(资料来源:(Wang,2011))所示。
图2-26 指静脉识别原理图
(5)声纹识别。声纹(Voiceprint)是指蕴含在人类声音中的语音特征,它能够唯一地标识用户身份。声纹识别(Voiceprint Recognition)是根据不同用户的声音特征模式来辨识用户身份的技术。声纹识别方法的历史最早可以追溯到大约40年前,近年来随着音频采集和处理技术的发展和进步,声纹识别方法得到了进一步的发展和应用,声纹识别的精度也得到了进一步提升。声纹识别的基本原理是人类的发声系统是由气管、声带、喉头、舌头、鼻腔等多种器官和组织构成,这些组织器官的大小、形状及组成结构呈现出较大的用户差异性。因此,每个人所发出的声音都具有不同的特征,使得通过人类个体说话时不同语音特征来区分用户个人成为了可能,如图2-27所示。
图2-27 人类发声系统
(6)步态识别。步态识别(Gait Recognition)是生物特征识别领域内的一项新兴技术,提取能够在用户自然行走状态下准确表征个体姿态间差异的特征数据,进而通过步态识别算法对用户进行身份认证和识别等。通俗来讲,步态识别就是通过不同用户的走路方式和体态来辨识用户身份。步态识别是一项综合机器视觉、传感器硬件、模式识别等多种方法的融合性技术。通常根据数据采集方式的不同可以将步态识别分为3类:基于机器视觉的步态识别(Machine Vision Based)、基于地面传感器的步态识别(Floor Sensor Based)和基于可穿戴传感器(Wearable Sensor Based)的步态识别(Gafurov,2007),如图2-28所示。其中,基于机器视觉的步态识别是目前步态识别领域内准确度最高、应用最广泛的方式。
图2-28 步态识别分类
步态识别的基本原理是步态是用户行走时的一种复杂的行为特征,即走路的姿势。研究表明,人类的步态中包含24种不同的基本细节,将这些细节作为步态模式可以唯一标识用户(Liu,2009)。通过采集一段时间内用户自然状态下行走的视频数据或传感器数据,分析这些数据特征,并建立相关模型,进而基于这些数据和模型对用户进行唯一性身份认证或识别,步态识别流程如图2-29所示。步态识别方法现已广泛应用到众多现实场景,如智能视频监控领域、安防布控、无卡出行、监测与取证、步态检测门禁系统等。
图2-29 步态识别流程
整体而言,生物特征识别系统主要有如下几个阶段:①采集用户的生物特征样本;②从采集的样本中提取和选择最重要、最稳定的特征数据;③将提取的特征数据与数据库中已存储的特征模式数据集进行对比。通常,生物识别系统有两种功能模式:认证阶段和识别阶段。在认证阶段,系统将根据现有数据库中的信息进行逐一对比;然后,决定是否接受和拒绝一个待认证的用户身份。在识别阶段,系统根据数据库中的现有信息进行一对多的数据比对;然后,分配一个身份给待认证用户或给出无匹配身份的认证识别结果。这些生物识别技术在用户识别和身份认证等领域发挥着越来越重要的作用,相对于传统的身份认证方法具有更加可靠、效率更高等优势。因此,基于生物特征识别的技术得到越来越广泛的关注和应用。
2.2.5 人机交互
人机交互(Human-Computer Interaction,HCI)技术是指研究人、计算机以及之间的相互影响,通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。多年以来,人类一直通过鼠标、键盘向计算机发送指令,这种模式被称为WIMP(窗口、图标、菜单和指针)。然而近年来,“计算机”已经从传统的“屏幕-键盘”的形式逐渐扩展到了移动智能手机、家用电器、车载系统以及嵌入式物联网等(Dix,2009)。面对多种多样的人机界面,自然人机交互技术逐渐成为了学术界和产业界研究的热点之一。正如Andy van Dam在IEEE Computer Graphics&Application上所说的:“后WIMP界面不仅要充分利用人类的感官,而且越来越多地基于人类与环境和他人自然互动的方式”(Van,2000)。在这些新型交互技术中,语音、体感以及情绪交互是3种主要的热点技术。
(1)语音交互。语音交互是基于语音输入的一种交互模式,使计算机能够具备同人类进行语音对话的能力,其具有快速、简单、个性化以及低成本等优点。2011年苹果公司发布了第一款语音助手Siri,致力于在交互过程中解放用户的双手。亚马逊公司发布的Echo智能音箱,开启了语音交互智能硬件的时代,各种智能语音产品和语音操作平台层出不穷。语音交互整个过程包括了语音的输入和输出、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。其核心技术主要包括两部分:①语音识别,机器能对人类输入的语音数据进行识别与解释;②语音合成,机器能以语音形式作出相对流畅的合理应答。语音交互技术可以实现语音助手,帮助用户在与计算机交互过程中解放双手,尤其是可以很大程度地造福残障人士,例如听觉障碍用户可以通过语音交互实现语音信息的接收,只需要利用语音识别技术将对方的语音转化成文本,如聋人电话;视觉障碍的用户可以通过语音交互进行文本信息的接收,只需要利用语音合成技术将文本消息转化为语音,如盲人计算机;以及针对那些不方便用手来操作键盘和鼠标等设备的群体,语音交互能够建立一座横跨人机的“桥梁”。
(2)体感交互。体感交互是传统计算机交互发展到多通道人机交互阶段的一个产物,多通道涉及人的多种感觉通道和动作通道(如声音、姿势、表情等输入),相当于为计算机提供更多观察用户的窗口,使得交互趋于高效和精准。相对于传统的WIMP界面交互,体感交互将人体本身作为控制器,利用肢体动作、手势、眼神等向机器发出指令,从而向全自然界迈出了重要一步。体感交互技术主要原理是通过传感器采集人体数据,并计算出人体骨骼关节点,进而根据关节点的位置识别出姿势或者手势,映射为发送给计算机的指令。按照实现方式的不同主要可以分为惯性传感技术和光学传感技术。惯性传感技术的代表性产品有Nintendo公司推出的Wii(Nintendo,2006)(图2-30),通过带有惯性传感器的手柄检测用户手部的移动和旋转等动作,从而实现良好的游戏操控体验。光学传感技术最成功的产品是微软公司推出的基于结构光编码以及人体骨架实时跟踪技术的Kinect(Kar,2010),另外一款针对手部交互的产品Leap Motion(图2-31)能够精细地识别指尖位置和手掌中心来交互式地跟踪用户的双手,随后再利用反向运动学解算出指关节位置。
图2-30 Wii体感手柄
资料来源:https://www.nintendo.com/wiiu/what-is-wiiu
图2-31 Leap Motion
资料来源:https://www.leapmotion.com/
(3)情感交互。随着宠物机器人、护理机器人等一系列智能陪伴机器人的出现,计算机如何取得人类的信任并与人类建立长期的情感交流成为了人机交互领域新的热点之一,人机之间的情感交互变得日益重要。情感交互本质上基于人工情感智能技术,即情感计算(Rana,2017),它针对于研究与应用可以识别、解释、处理、模拟人类情感的系统与设备,最早作为计算机科学中的分支出现在Picard的关于情感计算的论文中(Picard,1995)。计算机学习以解释人类的情绪状态从而使其自身表现来适应这些状态,即对人类情绪自适应交互过程。情感交互过程主要涉及探测和识别用户的情绪信息和生成机器的“情绪”两个方面。探测和识别用户的情绪信息,需要在非解释的前提下捕获与用户的身体状态或行为有关的数据,就像人类观察他人一样。对用户情绪进行反馈或者生成机器的“情绪”要求计算设备满足具备先天的情绪能力或可信的模拟情绪能力,类比于人类的情绪与荷尔蒙含量的起伏以及神经肽相关,机器的“情绪”则与自学习系统的进展状态相关联。人工智能领域的先锋之一Marvin-Minsky曾称机器的“情绪”与人类的“思考”过程相类似(Marvin,2006)。目前,情感交互主要应用于机器与用户会话过程中,用于丰富和促进良好的交互体验(Heise,2004)。