3.2 人工智能在动物识别中的应用研究
我国野生动物种类繁多、分布广泛,其中国家一级保护动物约97种,二级保护动物约320种,野生动物资源已经成为我国重要的战略资源。对野生动物进行监测是野生动物保护管理工作的重要组成,利用红外自动感应相机、无线遥感等技术对野生动物进行图像监测是当前最有效的手段之一。在森林生态系统中,通过野生动物的活动,维持着生态环境的协调,对控制一些动植物种群的消长起着重要作用。对野生动物进行有效的保护,关系着整个生态系统的健康发展。
3.2.1 动物识别技术发展概况
动物资源与生态环境中的食物链关系密切,野生动物在生态环境中起到充当食物、转换能量、清除生物垃圾、控制物种数量等作用,从而最终实现生态平衡(毛慧童,2017),在生态文明建设过程中有着无可替代的作用。
动物识别技术,就是对动物身份的认证方法。传统的动物识别技术主要是依靠有经验的专家或者相关野生动物学、保护区行业的从业人员的专业知识和实践经验,这种方法可以提供野生动物的种群分布、物种多样性等信息,但是存在着人工识别效率低、监测周期长的问题。随着移动终端设备的发展和普及,人们获取、处理动物图像的能力也大幅度提升。研究如何通过动物图像来快速识别动物种类,对于人工智能和数据驱动生态界的变革具有非常重要的意义和价值。国内外的专业研究机构,对面向动物识别的研究进行了广泛的探索,采用机器学习技术对野生动物进行自动检测与识别,成为当前的研究热点,并取得了一定的成果。国内,曾陈颖提出了一种基于BP神经网络的大熊猫识别方法(曾陈颖,2015)。深度学习理论的成熟与大数据的积累,为深度学习的应用提供了实践基础(李力,2017),深度学习在计算机领域已经占据了绝对的主导地位,并逐渐应用到动物识别上,对林业虫害防治等具有指导和帮助作用。
在国外,Okafor等提出一种基于深层学习与视觉词汇袋的野生动物识别方法,该方法使用灰度、颜色信息和不同的空间汇集方法来完成训练过程。但是利用红外自动感应相机监测野生动物时,由于相机布设在野外,拍摄时易受到动物本身的行为、周围环境和气候的影响,成像条件较差,导致识别的准确率低,因此学者开始专注于解决由复杂环境背景导致的低识别率的问题(Okafor,2017)。Villa等在文章中指出:图像包含的复杂背景信息对于识别的效果存在一定的影响,需要依靠准确的分割算法来提高识别准确率(Villa,2017)。Yu等将动物体从待训练图像中手动提取出来,这使得其对自建数据库的识别准确率提高到82%(Yu,2013)。在此基础上,通过应用深度学习理论构建了多种深度学习网络,并在ImageNet数据集上取得了极高的识别准确率。这些深度网络模型包括AlexNet、VGGNet、GoogleNet、DeepResidualNet和DenseNet等,与此同时,这些网络模型也被用于大熊猫、长颈鹿等野生动物的图像识别。对于生态环境的发展、农林业的保护、生物多样性和生态系统的稳固,特别是森林和湿地的保护,都能提供重要的参考价值和推动作用。动物识别技术应用在野生动物种类识别和森林业的鸟类保护之中,都是对生态系统的重要组成部分进行保护,动物自动识别技术将有助于监测和推断物种的变化,对陆地野生动物类、鸟类等动物的保护,动物健康状况的判断,濒危物种的监测,森林虫害防治和生物入侵预防等具有指导和帮助作用。因此动物识别技术将对生态系统的健康发展具有非常重要的参考和指导意义。图3-4所示为国外智能动物识别移动终端App中最具代表的Google Lens。
通过人工智能的发展来看,由于动物信息的复杂性,如野生动物的面部识别追踪因其自身的生长变化会受到影响、鸟类的短时声音信息不能全面描述声纹信息,因此我们将着重用深度学习的方法去探究更有效的特征表达。2014年以来,深度神经网络(Deep Neural Network,DNN)开始被用来作为判别模型和特征提取器,DNN的出现带来了图像识别、语音识别的新一轮突破,也将声纹识别、语种识别、图像识别和其他模式识别问题推到一个前所未有的高度。DNN是一个多层非线性模型,有非常强的复杂特征的描述和表达能力,它的不同层可以表达不同复杂度的特征,可以用于抽象复杂特征的提取,同时它也是一个判别模型,还带有分类信息,可以对生态应用技术研究带来极大的帮助。国内外研究团队相继研发出精确度更高的动物识别技术。智能动物识别平台可以为终端用户提供不同动物的识别和判断。目前,国内智能动物识别平台主要代表为“百度AI开放平台”,如图3-5所示。
图3-4 Google Lens移动终端App
图3-5 百度AI开放平台动物识别功能
3.2.2 动物识别技术发展前沿
我国动物识别技术的典型应用雏形已经清晰呈现,例如上海浦东国际机场的“围界防入侵系统”,它通过埋设在地下的传感器,在机场围栏外面设置了一道传感网,一旦有动物靠近机场,接触到传感器网络的涉及范围,系统就会自动发出识别信号,并且精确地进行定位,再由工作人员进行相关处理,保障机场起飞环境的安全。目前,深度神经网络已在动物图像的识别上广泛应用,科学家使用自动图形切割算法分割野生动物区域,再使用深度卷积神经网络对20种野生动物进行识别,得到较好的识别精度。相比其他深度网络,近年兴起的DCNN(深度卷积神经网络)直接由数据本身得到特征和表达关系的自我学习,对图像具有极强的数据特征抽象能力,因此可以适应环境变化下的对象识别。2016年,开始出现用人工智能深度学习的方法,提出了在自然环境下的面向不同鸟种的多种类鸟声识别方法,并取得了显著的成果,较之前的研究有明显的提升。下面以鸟声识别为例,对动物识别技术做简要介绍。
每种动物通常都会有独特的鸣叫声,自然环境中的每一声鸣叫都代表这一个特定的动物物种,只有非常资深的动物行为学专家才可以通过鸣声判断物种内的类别。动物鸣声的声音空间的竞争性和异质性能够反映生物多样性,通过采集声音数据进行频谱分析可以有效评估生物多样性。但声音数据存在着占用空间大、时间长的特点,因此使用人工智能和相关技术通过适当的算法进行高速智能的声音处理可以帮助科研人员更好地评估生物多样性,进而遏制生物多样性的丧失并保护生态平衡,这样可以有效和经济地部署自然保护地的工作和资源。随着人工智能技术的发展,对声纹识别和语音识别技术进一步研究的需求愈发迫切。
鸟鸣声是鸟类重要的生物特征,也是识别鸟类的重要依据。在比较复杂的自然环境下,仅通过听鸟的叫声来判断鸟的种类是最简单、快速、经济的一种方式。鉴于此,现在最流行的方法是用声音检测的方法来对鸟的种类进行监测。鸟类的鸣叫声通常时间较短、相对高频、环境背景噪声大,如果用现有的成熟声纹识别技术进一步研发鸟鸣识别系统,既是机遇也是挑战:这项技术的发展既可能会使生态保护工作者受益,又可能另辟蹊径实现声纹识别技术上的突破。
鸟种识别在动物识别技术中的研究持续了将近一个世纪。随着人工智能技术的发展,探索鸟鸣识别的可行方法取得了进展。目前,使用卷积神经网络(Convolutional Neural Networks,CNN)进行鸟类识别的探索取得了进展。一般先对鸟类鸣叫声采集、整理,然后运用声纹识别技术进行训练和测试,对鸟声进行加噪操作,在数据中加入噪声,对大量的已知鸟声数据使用卷积神经网络进行训练和测试,得到稳健、高性能的鸟种识别系统。如图3-6所示,展示了基础卷积神经网络模型。通过研究确定某一地区鸟的种类,对其生物多样性和生态环境具有重要的意义。利用人工智能技术,通过声音识别鸟种,已经在国内外的研究中受到重视。
中国鸟类资源丰富,但国内鸟声研究资料匮乏。因此,有必要将不同鸟类的鸣声记录下来,建立我国的鸟声数据库。分析鸟声的时间、地理差异,种间、种内差异等;开展鸟声学习时间的内部机制、选择性学习及影响因子、鸣声学习、地理分布多样性、鸣声的个体识别以及鸣鸟类行为等关系的研究。在鸟声识别技术应用方面,可着重于鸟类入侵监测、航空撞鸟、农林业鸟害的防治,也可以应用于旅游领域(苏秀等,2006)。
3.2.3 人工智能动物识别关键技术
经过20余年的发展,动物识别的关键技术已经由传统的机器学习过渡到了深度学习,形成了一套庞大的人工智能算法:动态时间规整技术,误差反向传播算法,隐马尔可夫模型,高斯混合模型,梅尔倒谱系数,卷积神经网络,基于经验模态分解(EMD)改进的MFCC算法,基于声谱图的纹理内容特征等。
图3-6 卷积神经网络模型
资料来源:余栋等,2014
(1)动态时间规整技术(Dynamic Time Warping,DTW)。一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序,其中各音素持续时间的长短与音素本身以及讲话人的状况有关(魏星等,2011)。为了提高识别率,克服同一个音的发音时间长短不同的问题,采用动态时间规整:对输入语音信号进行伸长或缩短,直到与标准模式的长度一致。动态时间规整可以用于动物声纹识别,将频谱图组成成分进行对比,从而应用在鸟声识别、畜牧业牲畜鸣声识别的人工智能深度学习模型上。关于动态时间规整的形象示意图,如图3-7所示。
图3-7 动态时间规整
资料来源:百度百科,动态时间规整
(2)误差反向传播算法(error Back Propagation,BP)。误差反向传播算法是自动控制上最重要、应用最多的有效算法,是适用于多层神经网络训练的著名算法。通过从神经网络的输出层开始反向传播,调整网络隐藏层参数,理论依据坚实,推导过程严谨,通用性强。使用误差反向传播算法和多元统计分析的方法,可以通过线性回归的方法,利用声音、图像、视频等多方面的数据集,来进行动物识别,在鸟声识别系统、猪脸识别系统等种类识别系统、精确匹配系统中都有着十分广泛且普及的应用。如图3-8所示,描述了BP算法的执行过程。
(3)隐马尔可夫模型(Hidden Markov Model,HMM)。隐马尔可夫模型是用来描述一个含有隐含未知参数的马尔可夫过程的统计模型。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析,例如模式识别(杜世平,2004)。DTW算法和HMM模型结合,可以提升在动物识别中,鸟声识别上的识别效果。HMM超矢量提取流程图如图3-9所示。
图3-8 误差反向传播算法
资料来源:吴恩达等,2011
图3-9 HMM超矢量提取的流程图
资料来源:Novoselov et al.,2014
(4)高斯混合模型(Gaussian mixture model,GMM)。高斯混合模型用高斯概率密度函数(正态分布曲线)精确地量化事物,它是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。GMM模型与联合因子分析(Join Factor Analysis,JFA)结合,这个模型训练方法取得了明显的效果提升,并成为动物识别之中声纹检测的主流方法。GMM和HMM结合,进一步提升了鸟声识别系统的识别效果(王恩泽等,2014)。GMM还可以将场景中前景和背景分离,提取场景背景信息和某一时刻所拍摄图像前景信息,用于动物识别中精确匹配、图像处理和运动目标检测。
(5)梅尔倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)。以梅尔倒谱系数为特征参数,可以用GMM进行种内个体精确识别。这适用于所有声纹数据库充足的动物识别。还有一种基于自适应最优核时频分布理论的动物识别方法,首先对采集的声音信号进行预处理,通过自适应最优核时频分析方法得到时频谱图,然后利用DTW算法进行模板匹配,从而实现对动物的识别(孙斌等,2015)。图3-10列出了MFCC的提取过程。
近些年来,对于特征的提取研究方法,在时域的频率轨迹以及独立音节的监测方面进行很多研究和探索,陆续不断有一些音节检测和正弦分离的算法提出,其中基于HMM的独立音节的分离是目前的主流方法之一。除此之外,一些研究者也提出了一些新的特征的提取方法以及同时基于图像和声音多模态的识别也取得了不错的效果。
图3-10 MFCC提取过程
(6)卷积神经网络(Convolutional Neural Network,CNN)。卷积神经网络是一种深度前馈人工神经网络,是近年发展起来并引起广泛重视的一种高效识别方法,已成功地应用于图像识别。人工神经元可以响应周围单元,可以进行大型图像处理。当前已成功应用到了以声纹信息、图像信息、视频信息为数据集的动物识别上。图3-11给出了全连接层和卷积层的对比。
图3-11 全连接层和卷积层的对比
资料来源:知乎专栏,深度学习笔记
(7)基于经验模态分解(EMD)改进的MFCC算法。通过对鸟鸣声信号进行经验模态分解,得到一系列固有模态函数分量后再进行FFT计算,频域合成后通过Mel滤波器,取其对数能量进行DCT变换,然后对结果作差分得到改进的MFCC参数,再采用GMM进行鸟鸣声的识别,将识别率提高了3.42%。
(8)基于声谱图的纹理内容特征。声谱图的纹理内容如图3-12所示。首先用光谱图进行测试,使用3种傅里叶变体的集合,大大提高了分类性能,并显著改善了用于描述谱图的纹理描述符特征集合,当纹理描述符特征与声学特征组合时,获得进一步的改进。然后使用SVM分类器进行分类操作,用交叉熵验证并计算最终结果,大大提升了动物识别中声纹技术的识别准确率。
(9)基于极限学习机(Extreme Learning Machine,ELM)的有效方法,在非常有限的训练和测试时间内对动物进行种内分类。实验结果表明,与K近邻(K-NN),支持向量机(SVM),神经网络(NN)和深度神经网络(DNN)相比,ELM方法能够在自动编码器预先训练神经网络的前提下,获得最佳的识别性能。并且,与其他方法的系统进行对比得出,ELM方法只需要最短的训练和测试时间。
图3-12 声谱图的纹理内容(以鸟类举例)