1.3 听觉系统感知特点_数字音频水印技术及应用-QQ阅读中文历史网

上QQ阅读APP看书，第一时间看更新

1.3 听觉系统感知特点

数字水印主要利用人类感知系统（视觉和听觉）的冗余实现水印不可感知性，因此数字音频水印技术是依赖人类听觉系统（human auditory system，HAS）的某些特性，来满足嵌入水印的不可感知性的要求。

1.3.1 掩蔽效应

人类听觉系统的一个重要特性是听觉的掩蔽效应。一个较弱的声音（被掩蔽音）的听觉感受被另一个较强的声音（掩蔽音）影响的现象称为人耳的掩蔽效应。掩蔽效应与两个声音的声强、频率、相对方向及延续时间有关。利用掩蔽效应可以用有用的声音信号去除或掩蔽无用的声音信号。图1-1所示为人耳听觉掩蔽曲线，由于A频带音频信号的能量大于相邻频带的音频信号，因此在掩蔽曲线之下的其他频带信号都被掩蔽起来，即使其能量已超越人耳绝对阈值曲线仍然无法被人耳察觉[2]。掩蔽效应可分为频域掩蔽（simultaneous masking）和时域掩蔽（temporal masking）两种。

图1-1 听觉掩蔽曲线

1．频域掩蔽

所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应，又称同时掩蔽[3]。如果一个较弱的声音落在一个较强声音的临界频带中，那么强信号（掩蔽声）就会将弱信号（被掩蔽声）掩蔽掉。通常来说，频域中的一个强音会掩蔽与之同时发声的附近的弱音，弱音离强音越近，越容易被掩蔽；反之，离强音较远的弱音不容易被掩蔽。

2．时域掩蔽

所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时，又称异时掩蔽。异时掩蔽又分为超前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应，则称为前掩蔽（pre-masking）；否则称为后掩蔽（post-masking）。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间，异时掩蔽也随着时间的推移很快会衰减，是一种弱掩蔽效应。一般情况下，超前掩蔽只有5～20ms，而滞后掩蔽却可以持续50～100ms。

图1-2给出了频域掩蔽和时域掩蔽现象。从图中可知，频域掩蔽在掩蔽者持续的时间内一直有效，它是一种较强的掩蔽效应，而时域掩蔽随着时间的推移很快衰减。

图1-2 三种掩蔽现象的强度以及持续时间

1.3.2 MPEG心理声学模型Ⅰ

因为掩蔽阈值与信号声压级有关，使用心理声学模型对水印整形的过程与感知音频编码的量化噪声控制过程相似，所以在采用心理声学模型的水印系统设计中，经常采用已经比较成熟的感知音频编码的心理声学模型。音频水印中常常使用的感知模型主要有MPEG-1心理声学模型Ⅰ和心理声学模型Ⅱ，其中心理声学模型Ⅱ采用了感知熵的概念。使用心理声学模型，最终获得一个全局掩蔽阈值。当量化噪声的声压级等于这个掩蔽阈值时，听觉系统刚好能够感知到噪声，所以这个掩蔽阈值又称为临界感知失真（just noticeable distortion，JND）。音频水印使用临界感知失真来限制嵌入的水印最大能量，当水印的能量被限制在临界感知失真阈值以下时，就能保证水印的不可感知性[4]。本节详细介绍MPEG-1中的心理声学模型的实现过程[5]。

1．计算原始信号的功率谱

用FFT计算声频信号s（i）的信号功率谱密度X（k）。X（k）的计算公式为

（1-1）

式中，h（i）为Hanning窗函数，用来减少边界效应；N为每帧样本数。

2．音调成分和非音调成分的识别

掩蔽者的音调性会影响掩蔽阈值，因此要根据X（k）识别出类音调信号和类窄带噪声信号。一个音调分量是满足如下条件的局部最大值，其余视为噪声分量。

3．计算单个掩蔽者的掩蔽阈值

掩蔽者的掩蔽阈值取决于掩蔽者的声压级、自身掩蔽级和掩蔽函数。类音调信号和类窄带噪声信号的自身掩蔽级是不同的，分别是Y1（zi）和Y2（zi）（单位：dB）：

（1-2）

（1-3）

其中zi是临界频带率。类音调信号和类窄带噪声信号的掩蔽函数Yf（zi，zj）相同：

（1-4）

其中X（zi）是临界频带率为zi的掩蔽者的声压级；Δz=zj-zi，是被掩蔽者与掩蔽者的距离；T1（zi，zj）或T2（zi，zj）是临界频带率为zi的掩蔽者在临界频带率zj处产生的掩蔽阈值。

类音调掩蔽者为

（1-5）

类窄带噪声掩蔽者为

（1-6）

式中，Y1、Y2分别为类音调和类窄带噪声的掩蔽系数；Yf为掩蔽函数。由于随临界频带率之差Δz增大，掩蔽作用降低，所以当Δz＜-3Bark Bark（巴克）是临界频带的单位，1Bark=一个临界频带宽度。频率小于500Hz时，1Bark约等于freq/100；频率大于500Hz时，1Bark约为某个纯音中心频率的20%。或Δz≥8Bark时，不考虑掩蔽，这时设T1（zi，zj）和T2（zi，zj）为-∞。

4．计算全局掩蔽阈值

掩蔽是可叠加的，因而zj处的全局掩蔽阈值Tg（zj）为该点的安静阈值T0（zj）和所有有调、无调成分在该点产生的掩蔽阈值之和，即

（1-7）

5．决定最低掩蔽阈值

在每个子带中，根据总体掩蔽阈值的情况，决定各个子带的最小掩蔽阈值：

（1-8）

音频掩蔽现象及MPEG心理声学模型对数字音频水印技术是十分重要的。大多数音频水印技术为了保证嵌入数据的不可感知性，都直接或间接地利用了音频掩蔽现象。嵌入的水印信息要适应并高度依赖于宿主音频信号，其时域和频域分布由宿主音频信号的时域和频域掩蔽特性决定。水印信号强度随宿主音频信号而变化，比如在静音区的水印信号强度应较小，这保证了嵌入水印信息在具有最大能量的同时不可感知，能量的最大化增强了水印抵抗攻击的能力。