1.3 机器学习算法领域发展综述
机器学习应用的领域非常广泛,目前应用比较成熟的领域,包括计算机视觉、自然语言处理、语音识别等。
1.3.1 计算机视觉
计算机视觉是机器学习重点研究和落地方向之一,也是研究得比较早的一个领域。目前,在计算机视觉中,重要的网络结构是卷积神经网络。卷积神经网络也是深度学习技术领域中非常具有代表性的神经网络之一,它在图像分析和处理领域取得了许多突破性的进展。在学术界常用的标准图像标注集ImageNet上,基于卷积神经网络取得了很多成就,包括图像特征提取分类、场景识别等。
卷积神经网络的优点之一是避免了对图像进行复杂的前期预处理过程,尤其是人工参与图像预处理过程。在卷积神经网络中可以直接输入原始图像进行一系列工作,至今已经广泛应用于各类图像应用中,针对动物识别的简单模型结构示例如图1-4所示。
图1-4
卷积神经网络作为视觉的基础性网络结构,从卷积神经网络的提出到目前的广泛应用,大致经历了理论萌芽阶段、实验发展阶段以及大规模应用和深入研究阶段。
1.理论萌芽阶段
1962年,Hubel和Wiesel通过生物学研究表明,从视网膜传递到大脑中的视觉信息是通过多层次的感受野(Receptive Field)激发完成的,并首先提出了感受野的概念。
1980年,日本学者Fukushima在基于感受野的概念基础之上,提出了神经认知机。神经认知机是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到,对于模式的识别不受位置、较小形状变化和尺度大小的影响。
神经认知机可以理解为卷积神经网络的第一版,其核心点在于将视觉系统模型化,并且不受视觉中物体的位置和大小等影响。
2.实验发展阶段
1998年,计算机科学家Yann LeCun等人提出的LeNet-5网络模型采用了基于梯度的反向传播算法对网络进行有监督的训练。Yann LeCun在机器学习、计算机视觉等领域都有杰出贡献,被誉为卷积神经网络之父。
LeNet-5网络通过交替连接的卷积层和下采样层,将原始图像逐渐转换为一系列的特征图,并且将这些特征传递给全连接的神经网络,以根据图像的特征对图像进行分类。
感受野是卷积神经网络的核心,卷积神经网络的卷积核则是感受野概念的结构表现。学术界对于卷积神经网络的关注,也正是从LeNet-5网络的提出开始的,并把它成功应用于手写体识别。目前,卷积神经网络在语音识别、物体检测和人脸识别等应用领域的研究正逐渐开展起来。
3.大规模应用和深入研究阶段
在LeNet-5网络之后,卷积神经网络一直处于实验发展阶段,直到2012年AlexNet网络的提出才奠定了卷积神经网络在深度学习应用中的地位。Krizhevsky等人提出的卷积神经网络AlexNet在ImageNet的训练集上取得了图像分类的冠军,使得卷积神经网络成为计算机视觉中的重点研究对象,并且仍在不断深入。在AlexNet之后,不断有新的卷积神经网络被提出,包括牛津大学的VGG网络、微软的ResNet网络、谷歌的GoogLeNet网络等,这些网络的提出使得卷积神经网络逐步开始走向商业化应用。
从目前的发展趋势来看,卷积神经网络依然会持续发展,并且会产生适合各类应用场景的卷积神经网络。例如,面向视频理解的3D卷积神经网络等。值得说明的是,卷积神经网络不仅应用于图像相关的网络,还可用于与图像相似的网络,例如在围棋中分析棋盘等。
1.3.2 自然语言处理
自然语言处理(Natural Language Processing, NLP)是人工智能和语言学领域的分支学科,探讨如何处理并运用自然语言,对自然语言的认知和理解是让计算机把输入的语言变成符号和关系,然后根据目的再进行处理。
早在20世纪50年代,随着电子计算机的发展,出现了众多的自然语言处理任务,如机器翻译等。1954年,乔治城实验将60多句俄语句子全自动翻译成英语,甚至声称在三到五年内,机器翻译任务将会被解决。然而真正的进展要慢得多。1966年,美国科学院的语言自动处理咨询委员会报告发现十年的研究仍未能达到预期的目标。直到20世纪80年代后期,当第一个统计机器翻译系统被开发出来时,才对机器翻译方面进一步研究。在20世纪80年代之前,比较成功的自然语言处理系统是1959年宾夕法尼亚大学研制成功的TDAP(Transformation and Discourse Analysis Project)系统,它是最早、最完整的英语自动剖析系统。
直到20世纪80年代,大多数自然语言处理系统仍以一套复杂、人工制定的规则为基础。从20世纪80年代末期开始,自然语言处理开始采用机器学习中的算法,一方面是计算速度和存储量大幅增加、大规模真实文本的积累产生;另一方面则是以网页搜索的出现,依赖于自然语言的内容分析、信息抽取等。从20世纪90年代开始,自然语言处理呈现一个研究的浪潮。因此在基于传统规则的处理技术中,逐步引入了更多数据驱动的统计方法,将自然语言处理的研究推向了一个新高度。
从2010年开始,随着深度学习的发展,基于大数据与深度学习的自然语言处理技术在机器翻译、人机对话等场景中开始应用。目前,自然语言处理技术仍在发展,未来依然是较热门的研究方向之一。
在现在能够接触到的大部分场景中都会涉及自然语言的处理,例如语音合成、文档分类、智能客服、机器翻译、自动摘要等。自然语言处理除可以将人类语言转换为机器语言外,还研究将机器语言翻译为人类语言。
1.3.3 语音识别
语音识别(Speech Recognition)技术,也被称为自动语音识别(Automatic Speech Recognition, ASR)或语音转文本识别(Speech To Text, STT),其目标是通过计算机自动将人类的语音内容转换为相应的文字。
语音识别技术发展比较漫长,最早可以推算到1920年代生产的玩具狗“Radio Rex”,当这只狗的名字“Rex”被呼喊时,玩具狗则可以从底座上弹起来,实现了最简单的“语音识别”。然而实际上它并不是一套复杂的计算系统,而是通过声音的共振使得能够识别到“Rex”被呼喊时,弹簧接收到共振峰,从而自动释放。真正的具备计算系统的语音则是从1952年开始的,在20世纪70年代之前,基本属于语音识别技术的奠基阶段,该段时间重要性的发展内容如表1-3所示。
表1-3
从20世纪70年代开始,出现大量的对于语音识别的研究,但研究的主体也主要在小词汇量、孤立词的识别,最开始使用的方法也是基于模板匹配的方式;但是进入20世纪80年代,研究的方式发生了改变,从传统的模板匹配转换到基于统计模型的思路。例如隐马尔科夫模型(Hidden Markov Model, HMM)的理论基础在1970年前后就已经由Baum等人建立起来,随后由卡内基·梅隆大学的Baker和IBM的Jelinek等人将其应用到语音识别当中。
20世纪90年代语音识别技术进入了一个平稳期,经典的语音识别技术框架则是基于GMM-HMM框架的模型,HMM用于描述的是语音的短时平稳的动态性,GMM用来描述HMM每一状态内部的发音特征。同时期人工神经网络也得到了较好的发展,基于人工神经网络的语音识别也有相关研究,但是效果不如经典的GMM-HMM框架。但无论是基于何种方式,距离语音识别的大规模商用依然还有一定差距。
2000年后,语音识别技术也随着深度学习有了技术框架的变迁,2006年Hinton提出深度置信网络,深度神经网络的研究开始兴起。2009年,Hinton将深度神经网络应用于语音的声学建模,在TIMIT上获得了当时最好的结果。随后的2011年,微软借助深度神经网络将大词汇量映射到连续语音识别任务上,大大降低了语音识别错误率。随后的技术框架基本是以DNN-HMM的模型为基础继续语音识别的研究。
语音识别技术的应用包括智能语音客服、智能语音导航、语音笔听写录入等。语音识别技术和其他自然语言处理技术相结合(如机器翻译和语音合成技术),可以构建出更加复杂的应用,例如语音到语音的翻译等。