2.2 数字音频技术
随着音频技术研究的深入,科学家发现根据人类听觉的特征,只要遵循一定的采样定理,就可以将声音信号真实地还原出来。采样定理的发现为声音从模拟音频信号转变为数字音频信号提供了理论依据。20世纪90年代,国外学者尼葛洛庞帝的《数字化生存》、比尔·盖茨的《未来之路》等著作,以大师的视野预言了数字时代人类的生存与发展之路,也指明了音频技术的发展方向。
2.2.1 数字音频技术的诞生
1928年,奈奎斯特通过实验首次提出这样的观点,在进行模拟信号转换为数字信号的过程中,当采样频率大于信号中最高频率的两倍时,采样之后的数字信号可以完整地保留原始信号中的信息。由于奈奎斯特是最先发现采样规律的科学家,因此采样定理也被称为奈奎斯特定理。
1933年,前苏联工程师科捷利尼科夫首次用公式严格地表述了这一定理,因此在前苏联文献中称为科捷利尼科夫采样定理。1948年,信息论的创始人C.E·香农对这一定理加以明确地说明,并正式作为定理引用,因此在许多文献中又称为香农采样定理。
尽管纳奎斯特的发现奠定了数字音频技术的理论基础,但低成本、小型化的激光器和芯片技术的发展直到20世纪70年代晚期才逐渐成熟,第一代数字音频媒体CD于1982年开始推向消费者。
2.2.2 数字音频的采样
在实际应用中,将模拟音频转换为数字音频时,需要根据针对音质的要求和音频设备的性能,采用不同的采样频率和位深度。
采样频率是指音频信号采样时每秒的数字快照数量,这个速度决定了一个音频文件的频率范围或称为频响带宽。采样率越高,数字波形的形状越接近原来的模拟波形;采样频率越低,数字音频的波形越容易被扭曲,从而背离原始音频,造成频率失真,如图2-5所示。
图2-5 不同采样频率的波形对比
人耳可以听到的声音频率范围为20Hz~20kHz,但实际上,在录放时要想高质量地还原波形的原貌,需要使用超出人类听觉最高频率两倍的频率进行采样才能达到,CD标准采取44.1kHz的采样率正是这个原理。现代高质量的数字音频采样率高达192kHz。常用的数字音频采样率对应的品质和频率范围对比如表2-1所示。
表2-1 数字音频采样率对应的品质和频率范围对比
2.2.3 数字音频的量化
所谓量化,就是指按照一定的数值量把经过采样得到的瞬时幅度值离散化,这个规定的数值量称为位深度,也称为量化精度或量化比特数,它决定了数字音频的动态范围。较高的位深度可以提供更多可能性的振幅值,从而产生更大的动态范围和更高的信号噪声比,提高信号的保真度。不同位深度对应的动态范围如图2-6所示。
图2-6 不同位深度对应的动态范围
采用16 bit(位)位深度的数字音频是最常见的,它能达到CD音质。但有些Hi-Fi音频系统使用32 bit的位深度,而在有些对音质要求较低的场合,如网络电话,也可能使用8 bit的位深度。不同的数字音频位深度对应的声音品质如表2-2所示。
表2-2 数字音频位深度对应声音品质
提示
动态范围是指音频系统记录与重放时最大不失真信号与系统本底噪声之比的对数值,单位为分贝(dB)。
2.2.4 数字音频技术的特点
数字音频信号的采样与量化是连续信号离散化的过程。与模拟信号波形相比,数字信号的波形是方波。经过采样量化后的数字信号波形如图2-7所示。
图2-7 数字信号波形
与模拟音频电路不同,由于数字音频电路一旦过载就会产生无法消除的数字噪音,所以数字音频系统中所有的信号必须保持在某种基准电平值以下。在数字音频电路中表述音频信号的大小除了继续沿用了电平(dB)这一参量外,还使用dBFS这一特殊参量。
数字音频技术提高了声音记录过程中的动态范围和信噪比,保证了声音的复制与重放无损,提高了传输过程中的抗干扰能力,便于加密,并且在编辑处理,以及与其他媒体的结合上更加方便。因此,数字音频技术逐渐成为当代声音处理领域中的主流技术。
提示
离散化是指将连续问题的解用一组离散要素来表征而近似求解的数学方法。
2.2.5 数字音频的编码与压缩
为了便于计算机存储、处理或在网络上进行传输,经过采样和量化后的音频数据还必须按照某种要求与格式将数据进行编码和压缩。
1.编码(Coding)
目前采用的编码方式有多种,脉冲编码调制PCM(Pulse Code Modulation)是一种把模拟信号转换成数字信号最基本的编码方法,它将信号的强度依照同样的间距分成若干段,然后用独特的数字信号(通常是二进制)来编码。
但是用PCM编码后产生的数据量是巨大的,如一张650MB的CD光盘通常只能存储10~14首5分钟左右的歌曲,如果是5.1声道的信号,则1小时的音乐需要1.62 GB的存储空间,这远远超出了CD的容量。这么大的数据量对于音频的存储和传输都造成了困难,因而就需要对采样量化后的数字音频信号进行压缩。
2.压缩(Compression)
压缩的基本指标之一是压缩比,它是指同一段时间间隔内的音频数据压缩前数据量与压缩后的数据量之比。压缩比越大,丢失的信息越多,信号还原时的失真也越大。压缩的目的是为了减少数据量与提高传输率,当数字音频应用于通信与网络时,还受通信信道带宽的制约。因此,在进行压缩时既希望最大限度地降低数据量,又希望尽可能地不对信息造成损伤,达到较好的听觉效果,两者是相互矛盾的,只能根据不同的信号特点和不同的需要折中选择合适的压缩方式。
压缩的方式包括无损压缩和有损压缩两种。无损压缩主要是去除声音信号中的“冗余”部分,将相同或相似的数据根据特征进行归类,用较少的数据量描述原始数据,达到减少数据量的目的。有损压缩是指利用人耳的听觉特性(主要指掩蔽效应),有针对性地简化不重要的数据,达到减少数据量的目的。这样压缩后的数据不能完全复原,会丢失一部分信息。无损压缩和有损压缩各有利弊,无损压缩没有信号的损失,音质好,转化方便,但是压缩比不高,占用空间大,需要硬件支持,而有损压缩虽然在音质上略逊色于无损压缩,但是其压缩比大,能够节省存储空间,也便于传输。
2.2.6 计算机数字音频的文件格式
计算机硬盘上的数字音频文件一般由一个较小的头文件表示采样率和位深度,再加上经过采样和量化后的一长串数字信号组成。
根据不同的编码压缩方式,计算机数字音频形成了不同的音频格式。无压缩音频格式有WAVE、CDA和AIFF等,无损压缩格式有APE、FLAC、LPAC、WavPack、WMALossless和AppleLossless等,有损压缩格式有MP3、OGG、WMA、ACC、VQF和ASF等。下面介绍几种常用的计算机数字音频格式。
1.WAVE
WAVE文件格式是微软和IBM公司开发的一种无压缩声音文件格式,也称声音波形文件,在Windows平台上受到众多应用软件的支持,它的文件扩展名为.wav,使用的是44.1kHz的采样频率,速率为88KB/s,量化精度为16bit。目前所有的数字音频软件都支持这一格式,它也是数字音频编辑软件的操作对象和默认文件保存格式之一。
2.CDA
CDA(Compact Disc-Digital Audio)是激光唱盘CD的文件格式,它的文件扩展名为.cda,采用立体声双声道、44.1kHz采样率、16bit量化精度和PCM编码方式。它包括一个索引文件和音频文件,需要用专门的音频软件才可以播放。CDA文件格式每分钟需10MB以上的存储容量,其特点是音质好,并易于生成和编辑。各种数字音频软件都支持CD播放,专业的数字音频编辑软件都提供了抓取CD音轨的功能,但是由于数据量大,不适合在网络上实时播放。
3.AIFF
AIFF(Audio Interchange File Format)文件格式是Apple公司开发的一种数字音频格式,其文件扩展名为.aif,是Mac计算机所采用的标准音频格式。标准的AIFF格式采用无压缩的PCM编码方式,基于AIFF的AIFF-C和AIFC格式则可以支持多种编码和压缩格式,包括有损压缩和无损压缩。PC平台上的所有音频编辑软件和播放软件都或多或少地支持AIFF格式。
4.APE
APE格式是数字音频的一种无损压缩格式,其文件扩展名为.ape,有时也采用.mac的扩展名。APE格式在不降低音质的前提下,能有限地压缩WAV文件。在音质上,相对于WMA、MP3和AAC等有损压缩格式有着绝对的优势。压缩后的APE文件容量要比WAV源文件小一半,可以用做网络音频文件传输。WAV音频文件可以通过Monkey's Audio软件压缩为APE,现在许多播放软件都支持APE格式文件的播放。
5.MP3
MP3(Moving Picture Experts Audio Layer III)格式是一种有损压缩格式,是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。MP3格式可以提供不同比特率(指每秒音频所需的编码数据位数)的选择,其中128K比特率的MP3音质几乎达到了CD的标准。因为MP3数据量小、音质高的特点,使得它几乎成为网上音乐的代名词。专业的数字音频编辑软件都可以将WAV文件转换成不同采样率、声道与比特率的MP3格式文件。
6.WMA
WMA是由微软公司开发的Windows Media Audio软件编码后的文件格式,其压缩比可以达到18:1,生成的文件大小只有相应的MP3文件的一半,因此WMA格式支持音频流技术,能在仅仅20K比特率的流量下提供可听的音质,可以轻松地实现在线广播,适合在网络上在线播放,几乎所有的Windows平台上的音频编辑工具都对它提供了读、写支持。