智能物联安防视频技术基础与应用
上QQ阅读APP看书,第一时间看更新

2.1.2 数字音频简介

1.音频

音频(audio)指人类可以听到的所有声音,这包括语音、音乐,以及环境声、音效声、自然声等其他声音类型。

2.数字音频

从物理学的角度来看,复杂的声波由许多具有不同振幅和频率的正弦波叠加而成。

声音可以表现为一种随时间变化的波形,如图2-1所示。

图2-1 声音的波形图

声音的模拟信息是连续变化的,计算机方法直接处理这种连续量,因此必须将其转换为数字形式。经过数字化处理的数字音频是利用数字编码的方式(也就是使用0和1)来记录音频信息的。

数字音频和传统的磁带、广播、电视中的声音就存储和播放方式而言存在本质的区别。与后者相比,数字音频具有存储便捷、成本低,在存储和传输过程中声音不失真,以及编辑处理方便等优点。

3.从模拟信号到数字信号的过程

模拟信号的数字化过程包括3个主要步骤。

步骤 1:采样。采样是指在适当的时间间隔内获取不连续的样本值以替代原来的连续信号,又称为取样。

采样就是抽取某点的频率值,显然,在1 s内抽取的点越多,所获取的频率信息越丰富。

根据采样定理,为了能够复原波形,至少需要在一次振动中采样 2 个点。由于人耳能够感知的最高频率为20 kHz,因此要满足听觉需求,至少需要每秒进行4 000次采样。

步骤2:量化。在数字音频技术中,模拟电压的强弱用数字表示,如0.5 V电压用数字20表示,2 V电压用数字80表示。尽管模拟电压的幅度在某一电平范围内可以有无穷多的值,如1.2 V、1.21 V等,但在数字化表示时,必须将无穷多的电压幅度映射到有限数量的数字表示。这个过程称为量化。

步骤 3:编码。由于计算机的基本数制是二进制,因此需要把声音数据转换为计算机可识别的格式,这个过程称为编码。音频数字化编码过程如图2-2所示。

图2-2 音频数字化编码过程

4.音频编码技术

一般来说,采样频率和量化位数越高,声音的质量越高,相应地,保存这段声音所需的存储空间也越大。例如,立体声(双声道)的文件大小是单声道文件的两倍。文件大小可以通过如下方式计算。

文件大小(B)= 采样频率(Hz)× 录音时间(s)×(量化精度/8)× 声道数

例如,录制1 min采样频率为44.1 kHz、量化精度为16位的立体声(CD音质)的声音,文件大小为:44.1×1000×60×(16/8)×2 B=10 584 000 B,约10 MB。由此可见,存储空间需求不小,这就需要一定的存储或传输成本。因此,采用音频编码技术来减小文件变得非常有必要。

根据编码方式的不同,音频编码技术分为 3 种——波形编码、参数编码和混合编码。接下来分别介绍。

1)波形编码

波形编码是指不利用生成音频信号的任何参数,直接将时间域的模拟信号变换为数字代码,以确保重构的语音波形与原始语音信号的波形尽可能一致。波形编码的基本原理是在时间轴上对模拟语音信号按一定的速率采样,然后将这些幅度样本分层量化,并用数字代码表示。

波形编码技术具有方法简单、易于实现、适应能力强并且语音质量好的优点。不过因为其压缩方法简单,也带来了一些缺点:压缩比相对较低,编码率较高。一般来说,波形编码的复杂程度比较低,但编码率较高。编码率高于16 kbit/s时,音频质量高;当编码率低于16 kbit/s时,音频质量会显著下降。

最简单的波形编码方法是PCM(Pulse Code Modulation,脉冲编码调制),它只对语音信号进行采样和量化处理。优点是编码方法简单、延迟时间短、音质高且重构的语音信号与原始语音信号几乎没有差别;缺点是编码率比较高(通常为64 kbit/s)且对传输通道中的错误比较敏感。

2)参数编码

参数编码通过从语音波形信号中提取关键参数,并利用这些参数通过语音生成模型来重构语音,目的是使重构的语音信号尽可能地保持原始语音信号的语义内容。也就是说,参数编码基于生成语音的数字模型,计算这些模型的参数,然后根据这些参数还原并合成语音。

参数编码的编码率较低,可以达到2.4 kbit/s。由于它依赖数字模型的还原,因此重构的语音信号波形与原始语音信号的波形可能会存在较大差异,失真会比较大。此外,受限于语音生成模型,即使增加数据速率,合成语音的质量提升也有限。尽管如此,参数编码因其较高的保密性,在军事领域有着广泛的应用。典型的参数编码方法为LPC(Linear Predictive Coding,线性预测编码)。

3)混合编码

混合编码结合了两种或两种以上的编码技术,旨在克服波形编码和参数编码各自的局限性,同时吸收它们的优点。混合编码结合了波形编码的高音质和参数编码的低编码率,能够达到比较好的效果。

典型音频编码技术的参数如表2-1所示。

表2-1 典型音频编码技术的参数

5.音频封装格式介绍

1)有损压缩格式

MP3(MPEG Audio Layer 3)是一种有损数据压缩格式。它通过舍弃掉脉冲编码调制音频数据中对人类听觉影响不大的部分,实现了文件大小的显著减小。MP3是目前使用最为广泛的音频压缩格式,常用于互联网上高质量声音的传输。MP3可以实现高达12 : 1的压缩比并保持基本可接受的音质。

AAC(Advanced Audio Coding,高级音频编码)于1997年问世,是基于MPEG-2的音频编码技术,由Fraunhofer IIS、杜比实验室、AT&T、索尼等公司共同开发。AAC旨在超越MP3,并于 2000年MPEG-4标准发布后,集成了SBR技术和PS技术。为了区别于传统的MPEG-2 AAC,其又称为MPEG-4 AAC。AAC可以在文件大小比MP3缩小30%的情况下提供更好的音质。

WMA(Windows Media Audio)是微软公司开发的一种数字音频压缩格式。WMA通过减少数据流量同时保持音质实现了更高的压缩比,一般可达1 : 18,生成的文件大小约为相应MP3文件的一半。

2)无损压缩格式

WAV是微软公司开发的一种数字音频压缩格式。它将音乐从物理介质(如CD)转换为数字形式,是最早的数字音频格式之一,并被Windows平台及其应用程序广泛支持。WAV是最接近无损音质的格式,但因其文件相对较大,导致其对存储空间的需求较大,不便于交流和传播。

FLAC(Free Lossless Audio Codec,无损音频编解码器)不会破坏任何原有音频信息,能够还原音乐光盘的音质。FLAC能节省WAV格式约40%的码率。此外,在遇到爆音问题时会采用静音处理,相比APE等同类格式,FLAC的解码复杂程度较低,解码速度快,容错率高,不容易损坏。

APE是一种无损数字音频压缩格式,它以更精练的记录方式来减小文件体积,保证还原后数据与源文件一样,确保文件的完整性。APE由Monkey’s Audio软件压制得到,开发者为Matthew T. Ashland,源代码开放,因其界面上的“猴子”标志而闻名。与FLAC相比,APE具有查错能力但不提供纠错功能,以保证文件的无损和纯正。APE的另一个特点是其压缩率约为55%,高于FLAC,文件大小约为原CD的一半,便于存储。