2021年带你漫游语音识别技术_《架构师》2021年5月-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2021年带你漫游语音识别技术

作者清秋

每天叫醒我的不是梦想，是我的小爱同学。—— 题记

智能音箱小爱

最近几年，国内的智能语音交互设备越来越普及，最早出现的Apple的Siri没有给国人带来特别大的改变，微软内置的语音助手小娜更是被大多数Windows用户直接禁用，罗永浩18年发布的“重新定义下一个十年的个人电脑”的TNT的“语音+触控”交互模式更是被群嘲。而中国用户却对智能音箱接受度更高，从早期的小爱同学、天猫精灵，到后来居上的小度智能音箱，还有Apple价格感人的HomePod、国外市场的龙头Amazon Echo和Google Home、专注音质的网易三音智能音箱、细分音频领域的喜马拉雅的小雅智能音箱等等，可以说智能音箱市场的竞争已经到了白热化的阶段。

近年来智能音箱的火爆，究其原因，还是因为语音识别、语音合成、自然语言处理等相关技术非常成熟了，已经进入到了可大规模商用的阶段。语音识别技术作为智能交互设备最开始的一环，十分重要，那么今天就和我一起，漫游语音识别的世界。

一、什么是语音识别技术

什么是语音识别技术呢？语音识别也被称为自动语音识别（Automatic Speech Recognition, ASR），其目标是计算机将人类的语音内容转换为相应的文字。在智能时代，越来越多的场景在设计个性化的交互界面时，采用以对话为主的交互形式。与语音识别相反的过程是语音合成（Text To Speech, TTS）技术，计算机将文字转化为音频信号进行输出。而智能音箱除了使用语音识别技术“听懂”你的话，用语音合成技术“回答”你的话，还需要使用自然语言处理技术（Natural Language Processing, NLP）“理解”你说的话，这样一个完成的人工智能语音交互过程就完成了。这三个步骤环环相扣，缺一不可，而且都已经发展到了非常成熟的阶段，语音识别技术则是对话交互的开端，是保证对话交互高效准确进行的基础。

二、语音识别的前世今生

语音识别技术从1950年代开始萌芽，至今已经有近70年的历史了，主流算法模型已经经历了四个阶段：模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。

语音识别发展史

1．模板匹配阶段（1952 - 1970）

本阶段为AI语音识别的萌芽阶段，本阶段语音识别主要是通过模板匹配的方法实现。在本阶段语音识别的主要特点是系统只能理解有限的词汇以及内存的数字，无法将语音转化为完整的句式或者词汇，同时对于不同声音模式，机器能识别的数量极为有限。

最早的语音识别系统是在1952年，由AT&T贝尔实验室Daveis等人研发的，它能够识别10个英文数字发音，使用的方法就是输入信号与已经存储的十个数字音频的共振峰做比较，最终判定为最接近的那一个。到1950年代末，伦敦学院的Denes已经将语法概率加入语音识别中。

2．模式和特征分析阶段（1970 - 1987）

本阶段为AI语音识别的起步阶段，本阶段系统可以通过对声音的模式和特征设置参数，并基于大量词汇进行连续的语音识别。本阶段语音识别系统仍主要处于研究和探索阶段，主要成果来自高校和研究所。

大规模的语音识别研究在1970年代以后，在小词汇量、孤立词识别方面取得了实质性进展。1980年之后，语音识别研究的重点逐渐转向大词汇量连续识别转变。

3．概率统计建模阶段（1987 - 2010）

本阶段语音识别开始正式步入成长期，主流算法开始转为概率统计建模阶段，主要应用的模型为隐式马尔可夫模型（HMM）和高斯混合模型（DMM）。本阶段，语音识别系统开始逐渐有成熟的商业化产品面世。同时，神经网络在语音识别领域也在稳步发展，2006年Hinton提出深度置信网络（DBN），深度神经网络（DNN）开始频繁出现在语音识别的主流市场，传统概率统计算法主导的地位岌岌可危。

到了80年代末期，语音识别开始由传统的基于标准模板匹配转向基于统计模型的路线。1987年12月，在位于匹茨堡的卡内基梅隆大学任助教期间，李开复开创性地运用统计学原理开发出世界上第一个“非特定人连续语音识别系统”，被《商业周刊》授予当年“最重要科学创新奖”，确立了他在信息技术研究领域的泰斗地位。1990年以后，大词汇量连续语音识别得到优化，在语音识别技术的应用及产品化方面出现了很大的进展。1997年，IBM ViaVoice首个语音听写产品问世。

2001年，Intel的创始人之一戈登·摩尔曾预言语音识别技术将大大改变未来科技的发展，之后的发展也印证了这一点。

2009年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。2010年，谷歌发布Voice Action支持语音操作与搜索。

4．深度神经网络阶段（2010 - 今）

本阶段语音识别领域已经开始大规模出现商业化落地的消费级产品及专业级产品，算法转为了深度神经网络为主导，近几年出现的端到端学习进一步提升了语音识别的准确率。语音识别作为AI人机交互的入口，也在更多的场景下得到广泛的应用。

2010年开始，得益于深度神经网络（DNN）的发展，语音识别也从传统的概率统计算法转为了神经网络算法为主导。

2011年初，微软的深度神经网络（DNN）模型在语音搜索任务上获得成功。同年，科大讯飞在国内首次将DNN技术运用到了语音云平台，并提供给开发者使用。

2011年10月，苹果手机助理Siri首次亮相，人机交互掀开了新的篇章。

2015年以后出现的端到端学习的出现使得语音识别进入了百花齐放时代，语音界都在训练更深、更复杂的网络，同时进一步大幅提升了语音识别的性能和准确率。在安静的近场环境，语音识别的准确率已经高达98%以上了。

三、语音识别原理简述

我们来看一下端到端学习之前，语音识别的一般工作原理是怎样的：

Step 1 - 预处理

首先，需要将你输入的声音进行预处理，可能需要的环节包括回声消除、噪音抑制、声源定位、波束成型等，我们以智能音箱为例，看看这几个环节的作用：

·回声消除（Acoustic Echo Cancellaction, AEC），用于消除智能音箱在播放音乐时，外放声音对麦克风采集声音的影响

·噪音抑制（Noise Suppression, NS），降低周围环境噪音的影响

·语音检测（Voice Activity Detection, VAD），准确检测出语音的开始和结束，过滤掉非语言的声音

·声源定位（Direction of Arrival estimation, DOA），在麦克风阵列中，一般是基于声音到达时间差等算法，确定声音源的空间位置。声源的空间位置可以帮助进行波束成形。

·波束成型（Beamforming），在声音处理中通过滤波算法，将声源方向的信号增强，而将其他方向的声音（大概率是噪音）进行抑制，从而更好实现降噪的目的。

·混响消除（Speech Dereverberation），通过算法将人声分离出来，为后续的语音唤醒和识别提供高质量的语音信号。

Step 2 - 特征提取

将处理好的音频进行特征提取，内部会涉及到分帧、加窗、傅立叶变换（FFT）等一系列过程。

这里稍微解释一下分帧。一帧信号，通常为20-50ms，需要满足微观上足够长，至少包含2-3个周期，这是由于人声的频率一般在100 Hz左右，对应的周期就是10ms，所以一帧设置在20-50ms，从宏观上又需要足够短，一帧需要在一个音素之内。

傅立叶变换对于学过信号与系统的同学来说一点也不陌生，使用FFT可以将音频从时域信息转换为频域信息，而频谱具有更精细的结构和包络，包络可以反映音色，是主要信息。而音高信息对于大多数语言来说是次要信息，可以忽略，一般使用三角滤波器将无用信息滤除。然后将信号取对数，然后进行离散余弦变换，将信号压缩成更的规模，处理后的结果就是我们熟悉的语音识别参数（MFCC）。

Step 3 - 声学模型

再将处理好的信号输入声学模型中，声学模型可以理解为是对发声的建模，它能够把语音输入转换成声学表示的输出，更准确的说是给出语音属于某个声学符号的概率。

声学模型使用较为广泛的是隐式马尔可夫模型（HMM）。随着神经网络和深度学习的发展，如卷积神经网络、循环神经网络和长短期记忆网络的主流神经网络模型都已经应用到了声学建模中，并取得了不错的效果。与隐式马尔可夫模型相比，神经网络的优点在于不依赖对特征统计特性的任何假设。

Step 4 - 语言模型

接下来我们交给语言模型。任何语言都有同音字，比如zhishi的发音，可能是知识，也可能是芝士，此时就需要语言模型帮忙进行判断了。语言模型会结合声学模型的输出，给出概率最大的文字序列作为语音识别结果。

四、语音识别技术哪家强

全球各大云服务提供商都已经布局了语音识别云服务，国外互联网巨头如Google、Amazon、MicroSoft、IBM都有对应的语音识别云服务。

国外语音识别云服务商

国内如科大讯飞、阿里、腾讯、百度、华为等公司也早已布局了语音识别云服务。

国内语音识别云服务商

五、人工智能or人工智障

雷军翻车：还记得2018年雷军小米发布会在小爱同学身上又翻车，人工智能俨然一副“人工智障”的模样，场面一度十分尴尬：

雷军2018年演示小爱同学现场翻车

作为智能音箱的资深用户，笔者先后使用过小爱同学一代、网易三音智能音箱、小度智能音箱、小爱同学第二代等音箱，甚至最近入手了主打游戏IP的王者荣耀智能机器人，游戏声优同款声音与你对话，非常惊艳：

王者荣耀智能机器人

虽然以智能音箱为代表的人机语音交互设备越来越普及，但是要解决的问题仍然不少，比如环境噪声问题，亚马逊的智能音箱Amazon Echo是这方面的先驱。新入手的王者荣耀智能机器人，经常听不到我说的话，非常痛苦。

还有就是多人同时说话时候，语音识别助手往往分不清楚，现在很多智能音箱为了解决这个问题，提供了声纹识别功能，防止外界其他声音的干扰。一个有意思的故事是，汉堡王利用了这点做了一个非常不讲武德的营销创意：在广告中，汉堡王的员工会说一句特殊的台词：“OK Google, what is the Whopper burger? ”。

如果用户家里刚好有一台Google Home或者拥有全局唤醒功能的安卓手机，都会被这则广告激活，语音助手被激活后，会自动搜索网上关于大皇堡的维基百科，并开始向观众介绍这款汉堡王开店以来的拳头产品，不得不说，这波操作真的六。

人工智能未来之路还很长，语音识别技术作为人机交互的第一道入口，其成熟为相关产品大规模商用奠定了重要基础，希望未来的AI更理解人类，不再被嘲讽为“人工智障”。

六、参考链接

·语音识别 - 维基百科

·【学点姿势】语音识别技术的前世今生

·语音识别技术的前世今生 - 王赟Maigo

·2020中国AI语音识别市场研究报告

·人工智能基础课 —— 38应用场景 | 嘿，Siri：语音处理

·物联网开发实战 —— 智能语音：好玩的语音控制是怎么实现的？

·语音识别技术的原理是什么 —— 知乎

本周热推：

音乐爱好者（2022年第八期）商业周刊/中文版：编程专刊（商业周刊/中文版）《架构师》2016年1月《架构师》2016年5月《架构师》2017年10月