上QQ阅读APP看书，第一时间看更新

第2章语音基础

2.1 语音的产生与感知

语音是一种由人的发音器官发出来的，携带言语信息的声波（吴宗济、林茂灿，1987）。语音是语言活动的物质载体，涉及语言的各个方面，在人类负责的语言系统中具有重要的地位。与其他各种声音一样，语音具有声波的物理属性，同时也具有其语言和心理属性。要理解语音特性，有必要了解语音的产生、传播以及感知的基础知识。

现代语音学认为，人类言语交流过程可分为发音-传输-感知三个过程。说话人首先根据大脑指令利用发音器官产生语音，由心理现象转化为生理现象，接着语音通过空气传输到听话人耳中，属物理现象；最后通过听觉器官被听话人大脑所感知，由生理现象转换为心理现象。

2.1.1 语音的产生

语音产生（speech production）指产生语音的呼吸、发声（phonation）和调音（articulation）的系统行为，同时也包括负责各系统间协作、使用的相关神经活动（Crystal,2008:447）。

根据传统的言语声学理论，言语产生包括声源、共鸣和辐射三方面。通过声带振动（浊音声源）、发音器官爆破（瞬音声源）以及发音器官气流摩擦（紊音声源）可形成不同形式的声源，通过改变声道形状进行调音可形成产生各种元音、辅音需要的共振作用，通过改变唇形可带来不同的声音放大效果。

人的发音器官主要由肺、气管、喉（包括声带）、咽、鼻和口组成。肺部的呼吸气流形成发音动力，气流经过气管到达喉头。在需要形成语音浊音时，声带在气流压力的作用下往复开合形成声像蜂鸣一样的嗡嗡声，即声源脉冲。产生的声音通过咽腔进入口腔以及鼻腔，这一系列通道形成声道和鼻道（Pulkki&Karjalainen,2015:82）。人们听到的语音是经过声道调节后的声波，因为双唇、舌头、软腭、小舌、下颚等器官位置变化可引起声道的形状的改变，因此可产生不同的共振，从而形成各种元音、辅音。

2.1.2 语音的物理属性

语音作为一种声音而言，是一种物理现象。声音在空气中以纵波的形式（即传播方向和振动方向一致）传播。利用现代声学仪器和软件，可以方便地分析声音的物理属性。语音和其他声音一样，具有基本的四种声学要素，即音质（音色）、音高、音强和音长（吴宗济，1992:10）。

音质是一种声音区别于其他声音的基本特征，即声音的个性。声道形状变化、声带是否振动、是否送气等多方面的因素都能使音质发生变化。例如通过灵活改变声道形状（嘴唇形状、口腔开合、舌头位置），使得声波在通过声道时，因共振作用而使原来的波形发生不同改变，声音听起来也有所变化。因此，波形决定音质，声音在语谱分析上的表现可揭示音质。对元音而言，两三个共振峰就能代表其音质特点。例如，第一共振峰（F1）可反映舌位高低，第一共振峰越低，舌位越高；而第二共振峰（F2）显示舌位前后，第二共振峰越高，舌位越靠前。不同元音在这两个共振峰上的表现与其在传统的元音舌位图位置是相符的。

音高就是声音的高低。从声学上看，音高与声带振动的频率密切相关，频率越高，音就高。音高还是主观心理量，频率高的声音听起来音调也高。音高特征对汉语等声调语言非常重要，其声调的主要声学特征表现为音高随时间的高低升降变化，是具有区别意义的一个因素。

音强指声音的强弱（响与不响），与声波振幅密切相关，但人耳对声音强弱的主观感受往往与振幅并不完全一致。语音的音高和音强也有一定关系，发音加强的时候，往往声调也多数偏高；而声调变高，声音也会听起来更响。不过音高较低的声音也可能比音高较高的声音更强，比如京剧花脸声音的音强高于青衣，但音高不如青衣（桂灿昆，1985:32）。

音长即时长，指声音自始至终所需的时间长短。在一些语言的语音系统中，时长也有区分作用。例如，英语前元音/i/长于/ɪ/, /æ/长于/e/。汉语元音没有长短之分，但不同声调之间时长有差异。在基于同一音节单独发音的条件下，三声最长，二声其次，四声最短，这种时长差异对声调感知的效果非常明显（如Liu&Samuel,2004）。

2.1.3 语音的感知

语音通过声波的传递到达听话人的耳朵里，听话人需要利用耳朵的机械结构和听觉神经系统，将连续的声学信号分析出一系列离散的语音和语言单位（Crystal,2008:447），这个过程即是语音感知（speech perception）。人耳由外耳、中耳和内耳三部分组成。外耳主要包括耳郭和外耳道，不仅收集外界的声音，而且利用其特别形状对语音频谱进行加强，起到共振作用。声波通过耳道到达鼓膜，振动鼓膜，从而转换为机械运动传到中耳。中耳包括锤骨、砧骨和镫骨组成的机械链。鼓膜传导的振动依次推动这三块听小骨，在其杠杆作用下，与镫骨底板相连、位于内耳入口处的卵圆窗可产生放大若干倍的机械压力，使内耳受到更大振动，相应提高听觉能力。如外来声音特别强大，则听小骨上的肌肉会把三块小骨拉紧，与卵圆窗的接触有所松动，从而减弱振动，避免给内耳带来损伤。

内耳由卵圆窗、耳蜗和半规管组成。半规管的功能是维持身体平衡，与听觉无关。耳蜗是内耳最主要的部分，是一条卷起来的管子，外形像蜗牛，越靠近中心越细。蜗管内部由一层被称为基底膜的薄膜隔开，其上附有很多复杂的毛细胞。成组的毛细胞构成柯替氏器官，该器官直接和听神经相连，听神经在蜗管外汇集成两条很粗的听觉神经，通向大脑。

经过听小骨传导的声波振动到达卵圆窗后，卵圆窗随之将振动传递到蜗管里的液体，使基底膜受到影响，继而对相应柯替氏器官上的神经产生刺激，转化为神经信号，传导到大脑。声波频率不同，则蜗管液体压力也不同，基底膜振幅最大部位也不同。可见，不同部位反映不同频率，频率越高，最大振幅部位越靠近卵圆窗；反之，则越远离卵圆窗，越接近耳蜗最细的部分。因此，从生理角度看，频率的概念就是基底膜柯替氏器官不同部位的振动在大脑里的反应（王士元、彭刚，2006:33）。

除了上述生理机制，大脑的神经心理加工也是语音感知至关重要的机制。发音、声波和听觉三者间的关系不能简单化地理解为特定的声道形状产生特定的语音声波，从而引起特定的听觉，感知为特定的语音。同样的声波听辨结果可能不同，不同的声波也可以听成相同的语音。由于年龄、性别和体型差异，不同发音人所发的声波总存在较大个体差异，但听话人的语音识别不会因此感到困难。

现有研究表明大脑对语音的感知加工有一些重要特点。例如，许多双耳分听实验发现，人对语音的处理往往是左脑主管，表现出右耳优势；而音乐却是右脑主管，表现出左耳优势。但语音的感知加工不能这样简单化地笼统概括。大脑对元音和辅音加工有所不同。两耳在分听元音时，没有明显的单侧优势；但在听辅音时，有明显的右耳优势。就汉语而言，还有声调的感知问题。声调可由音高体现，与音乐有类似之处，但作为语音系统的成分，又有区别词义的功能，所以在双耳分听中也可表现出右耳优势（如刘丽、彭聃龄，2004；牟宏宇、原猛、冯海泓，2014）。

人的大脑对周围事物的感知具有范畴性特点（Strange,1995:5）。一个重要的认知现象是，一个变量如果沿某个维度发生了一系列连续变化，则人们对其感知并非具有连续性，而是以离散的范畴形式进行感知，这种特性在语音感知中也不例外。人能把无限多的语音归纳为有限的音位范畴，如多少个元音、多少个辅音，并划定相应的范畴边界。听觉对处于某个音位范畴内部的不同音的辨别并不敏锐，但对位于边界以外、位于不同范畴的音的区分就比较准确，这些现象在经典范畴性感知实验范式即识别和区分系列实验中表现得十分明显（如Liberman et al.,1957）。

此外，大脑在识别语音时，往往从听觉器官传送来的声波中只选择与语音相关的信息线索。Strange与Shafer（2008）认为，语音的分辨需要对各种声学特征在语谱和时间维度上的参数变化进行区分，语音感知加工即是对这些声学参数进行选择与整合，而听音者对母语语音的感知都有其特定模式。对成人而言，母语语音感知加工可以达到自动化程度，属自动化的选择性感知程序（automatic selective perceptual routines）。

听音者对语音的反应通常总是受自己母语的语音经验所影响。例如，母语里元音较少的听音者与元音较多的听音者相比，辨别复杂元音音质的能力就要差些。例如，英语/i/-/ɪ/的分辨至少涉及两种线索，即音质和音长（Kondaurova &Francis,2008），前者体现在语谱特征（spectral properties）上，一般是前两个共振峰（F1、F2），而后者指时长。在大多数英语发音中，/i/与/ɪ/相比，其F1较低，F2较高，而且时长也较长（Morrison,2008）。但对/i/-/ɪ/的分辨，英语母语者主要是靠语谱特点进行区分，时长因素则只发挥次要作用（Hillenbrand et al.,2000）。

然而，对英语作为外语/二语的学习者而言，分辨/i/-/ɪ/所依赖的线索与英语母语者不同。Kondaurova和Francis（2008）发现，在分辨一系列时长和语谱特征逐渐变化的合成/i/-/ɪ/语音刺激时，母语为俄语和西班牙语的被试完全依赖时长信息。Bohn及Flege（1990）指出，虽然二语学习者被试可正确区分英语前元音对子，但其使用的区分策略与母语者大不一样。Bion等人（2006）在对巴西被试进行语音范畴构成以及语谱特征在英语前元音感知和发音中的作用实验后也发现，尽管部分被试在语音范畴构成上的表现也能达到近似英语母语者的程度，但对语谱特征的依靠程度却与之不同，时长在范畴构建中有重要作用。可见，在分辨/i/-/ɪ/时，对不同线索的倚重程度能可靠地解释英语母语者与外语/二语在感知上的差异。

从上述语音感知机制和特点还可看出，听音者如果对语音辨别存在困难，则问题可能存在于三个环节：① 信号达到耳朵以前就受到干扰和歪曲；② 本人听力受损或大脑受伤；③ 听话者所听到的不是其母语（桂灿昆，1985）。

2.1.4 发音与感知的关系

发音与感知过程既有区别也有联系。从理论上讲，在言语活动中，发音与感知是两个完全不同的过程。正如Scovel（1988:62）所指出，发音是语言中唯一涉及身体参与的部分，特别是要求神经肌肉执行机制的参与。只有发音需要对发音部位的动作和位置进行感觉反馈的能力，而且只有发音需要人们对肌动活动进行时间和顺序上的安排。语言的其他方面并不涉及需躯体实现的问题，所以主要是“认知”或“感知”的性质。

Denes和Pinson（1993:5）提出的言语链对言语交流中的说话和听话活动的关系有更具体的描述。如图2.1所示，说话人首先决定要说的内容，并将这些内容变为语言形式。这时，说话人的大脑中进行着复杂的信息加工，然后用适当的指令沿着运动神经传到舌、唇、声带等发音器官的肌肉，引起肌肉的运动而产生言语声波。言语声波通过空气传播到听话人的听觉器官，所产生的神经冲动沿着听神经传达至听话人的大脑。其后，听话人在大脑里通过复杂的信息加工对来自耳的神经冲动进行解码，将其转化为语言形式。这条由一系列事件串联而成的链条就被称为言语链。另外，言语链中说话人还有一个监控分链，即说话人在说话的同时，也在监听他自己的声音。这种反馈信息不断地将其实际发出的声音与其期望发出的声音作比较，并随时进行必要调整以使说话效果符合自己的意图。

图2.1 言语链（Denes & Pinson,1993:5）

由此可见，人们在发音的同时也要监控自己的声音，即发音活动中也包含感知加工。如果说话人听不到自己的声音，则说出的话可能会出现问题。因此，出生就耳聋或会说话以前就变聋的人学会正常的语言困难较大，而晚年听力机制损害严重的人也可能导致言语能力退化（桂灿昆， 1985:39）。

本周热推：

近代陕籍政治人物理想追求研究域外汉籍研究集刊（第二十七辑）文学世界与族群书写本土化英语写作的多维视角苗族银饰文化产业调查研究