1.2 声音的主观听觉
随着物理声学研究的深入和技术手段的完善,科学家发现人的主观听觉与声音的物理特性是有所差异的,并由此发展出生理声学、心理声学和音乐声学。
1.2.1 响度级与响度
在1.1.2 节中介绍了声压和声强,它们表达了声音的客观参量。但是研究证明,声音信号在人的听觉系统中会被非线性“加工”。为了表达人的听觉系统对声音强弱的感受特点,需要引入听觉感受的半主观量“响度级”与主观量“响度”两个概念。这样,就把声音强弱的客观尺度与在此声音刺激下主观感受的强弱联系起来了。
1.响度级“方”(Phon)
半主观响度级“方”有以下特点:a. 1000Hz声音的声强值(分贝值)等于它的方值;b. 方值随声强级而变,声强级越高,方值越大;c. 不同频率的声音,其方值的增长率各不相同。当声强级较低时,方值曲线近似于听阈曲线,随着声强级的增加,方值曲线趋于平直;d. 方值是用对数来表示的,只能间接反映人对声音的主观感受,不能直接加减。
2.响度“宋”(Sone)
根据心理学的研究结果,人的听觉系统不能分辨出声强值3分贝以内的声音强度变化,但能够判断出声音强度成倍的变化,人们因此规定了新的主观心物量响度“宋”。主观量响度“宋”的定义为:声强级为40dB的1000Hz标准音为1宋,即40方为1宋。
1.2.2 频率与音高
人的听觉对声音频率的感觉为音调的高低,在音乐中简称“音高”。研究证明,当两个不同频率的声音进行比较时,具有决定意义的是它们的比值,而不是它们的差值。而音高与声音频率的关系也大体上成对数关系。音阶频率对照表如表1-1所示。
表1-1 音阶频率对照表
虽然声音的频率是决定音高的主要因素,但声强对音高也起一定的作用。为了表征音高这一主观心物量,需要引入度量音高的单位——美(Mel)。主观量音高的单位美(Mel)的定义为:响度级为40方、频率为1000Hz的标准音,其音高为1000美。
1.2.3 谐波与泛音
在前面的章节中已谈到谐波的问题,谐波和泛音所指的是同一种声学现象,因为分支学科的不同,物理声学中的“谐波”在音乐声学中称为“泛音”。
概括来说,通常乐器在发音时,其弦或空气柱的整体振动会发出较强的音,即基音。同时,还会在弦长或空气柱长的1/2、1/3、1/4、1/5、1/6…等处发出较弱的音,即泛音。泛音是基音的2倍、3倍、4倍、5倍、6倍…等各次谐波,并由此构成了一个泛音列。弦振动的泛音位置如图1-11所示,以C音为基音的泛音列如图1-12所示。
图1-11 弦振动的泛音位置图
图1-12 以C音为基音的泛音列
1.2.4 音色与音质
音色是由声音的波形、泛音和音色包络等诸多要素形成的一种人的主观听觉认知,是人在后天学习养成的一种听觉下意识,是辨别各种声音来源并做出反馈的重要依据。
音色是音乐中能直接吸引人、触动听觉感官的重要表现手段。音乐中的音色分为现实性音色和非现实性虚拟音色两种。人声音色和器乐音色即是现实性音色,它是人们所熟知的客观音色。MIDI电子乐器可以创造出各种非现实性虚拟音色,给人以耳目一新的感觉。
音质也称音品,是指广播、电视、动画、音乐CD和MP3等音响产品中音频质量的客观指标和主观感受,主要指声音的信噪比、清晰度、方位感、空间感、频率均衡度和温暖度等回放效果等。
1.2.5 频响与等响
频率响也简称为频响,是指人的听觉器官或音频设备对声波中各种频率成分的反映能力。人类听觉的频率响应是不平直的,它的特点是当声压级或声强级不同时,人的听觉频响也不同。
1.听觉频响(Frequency Response)
人类的听觉频响特征主要有以下特点:a. 声压级越高,人的听觉频响就会越趋平直。随着声音声压级的降低,人的听觉频响会相应变坏,其中以低频尤甚;b. 低于16Hz~20Hz的声音和高于18Hz~20kHz的声音不论声压级多高,一般人都不会听到。因此可以认为20Hz~20kHz是人类的听觉频带,这个频段的声音称为“可闻声”,也称为“音频”;c. 不论声压级的高低,人都对3kHz~5kHz的声音最为敏感。
2.等响曲线(EquaI-Ioudness contour)
人对同样强度但不同频率声音主观感觉的强弱是不同的,以频率和响度画出一个二维坐标图,当人耳听到的主观响度一致时,其曲线对应于不同频率的声压级是不同的,这就是等响曲线。等响曲线图反映了人类听觉的频响特性,如图1-13所示。
图1-13 等响曲线图
3.监听声压标准
鉴于人耳听觉频率响应的上述特征,我们在进行音频制作和缩混时,应对监听声压级加以控制。基于在85dB声压级上下时不同频率平衡的差别相对较少,通常将85dB这个值作为监听的最佳值。
经验
一般情况下,不要用耳机监听进行缩混,因为耳机经常会产生比预计的要高得多的声压级,可能会影响作品的频率均衡。
1.2.6 方位与空间
人是用两个耳朵聆听声音的,对方位和空间的感觉是依靠双耳完成的,这就是“双耳效应”。人耳对声音的方位和空间大小的定位能力称为听觉定位。
1.方位感
人的听觉对声音方位的定位取决于以下3 点:a. 两耳听觉上的强度差;b. 两耳听觉上的时间差;c. 耳廓(外耳)的作用。
具体而言,双耳间的时间差和相位差是低频水平定位的主要因素,随着频率的提高,双耳间的相位可能相同,这时声级差和音色差就成了水平定位的主要因素。人耳的纵向定位能力较差,只有水平定位能力的1/4~1/3,约在10o~20o之间。
2.空间感
除了可以判明声源的方向外,人耳与大脑还会相互结合去感觉声音出现的声学空间。人辨别声学空间的大小主要依靠对直达声、近次反射声和混响声比率的感觉。
人耳对空间大小的感觉主要取决于以下4个方面:a. 从声源到听者间直线传播的声音因其路线短而最先到达听者,这个声音称为直达声。直达声决定了我们对声源方向和尺寸的感觉,并且携带了声源音色的信息;b. 在直达声到达之后50ms内到达的反射声称为近次反射声。近次反射声与直达声相比,在方向上稍有不同。直达声开始到达与近次反射声开始到达之间的时间为我们提供了关于空间尺寸的信息;c. 迟于直达声50ms以上的反射声到达听者时,经过了许多不同的表面反射,变为来自各方向的声波流,这些密集的空间反射声称为混响声。混响衰减时间为我们提供了关于房间表面坚硬程度的信息;d. 混响声与直达声之间的比例则能够反应听者与声源之间的距离。
提示
声源从发声起衰减到比其低60dB所持续的时间称为混响时间,标记为RT60。
1.2.7 掩蔽效应
掩蔽效应是指一个声音掩盖另一种声音的现象,具体可分为强度掩蔽和频率掩蔽。
1.强度掩蔽
强度掩蔽是指人耳在听到强音时难以听到弱音的现象。当一个较强声音与另一个较弱声音的方向比较接近时,强度掩盖效应最为明显。
2.频率掩蔽
频率掩蔽是指当一种声音的频率与另一种声音的频率比较接近时,人们会难以辨别两种声音的存在。
经验
掩盖效应使后期混音处理中立体声声象的调整与频率均衡显得尤为重要,为了使各种声音都能够清晰得被听到,在立体声音频制作中应精心进行声相方位设置和频率均衡。
1.2.8 哈斯效应
俗话说:“先入为主”,研究证明,人的听觉对延时声的分辨能力是有限的,即当几个内容相同的声音信号相继传到听者的耳朵时,听者不一定能分辨出后到达的延迟声音,人的听觉的这种特殊反应称为“哈斯效应”,又称为“领先效应”,因为哈斯是第一个指出领先效应的人。
哈斯效应(领先效应)的定义为:当两个强度相等而其中一个经过延迟的声音到达聆听者耳中时,如果延迟在30ms以内,在听觉上只能听到来自未延迟的声音,并不会感到延迟声源的存在。当延迟时间超过30ms而未达到50ms时,则在听觉上可以识别出延迟声源的存在,但仍感到声音来自未经延迟的声源。只有当延迟时间超过50ms以后,在听觉上才感到延迟声为一个清晰的声音存在。