第六章 自然语言特征
一、自然语言的共有特征
当一个群体发展出自己的自然语言的时候,会很自然地形成一些需求,然后发展出约定来适应这些需求。因为不同自然语言自然形成的需求有很多是一致的,所以就会演化出共有的适应这些需求的特征。
本章我们讨论四类共同的特征。我们认为这些特征的根基、作用是普遍的,决定了很多其他语言表象的产生。这四类特征为概念的指向、语境记忆、表达省略和意向表达。我们可以看到,无论是哪种演化形成的自然语言,都会包含这些特征。
概念的指向。如果一个概念没有名称,就需要用其他方式去指向;如果概念本身是一个结构信息,我们就可以通过组成结构信息的元素去指向这个概念,比如对事件概念的陈述;如果概念存在于一个结构信息中,我们就能用结构信息去指向这个概念,这就是从句的来源;如果用以指向一个概念的元素自己也没有名称,我们就需要先设法指向这个元素,于是就形成了多重嵌套的表达。
语境记忆。人类在听一个人的讲话、读一本书,或是自己在讲话时,都会在语言处理过程中保存特定的信息,最短期的记忆比如最近谈及的对象、属性、事件、事件规律等等,这些信息让我们创造表达的省略,读懂对方表达中的省略。较为长期的记忆比如一大段表达中每个信息被重复的次数,这让我们知晓逻辑不那么清晰的表达的重点;表达的信息之间的相互关系,能让AI听到的不再是局部的碎片化的信息,让AI能够带有整体感地复述一大段表达。
表达省略。表达省略分为两种类型,语境省略和常识省略。语境省略也就是因为语境保持了信息,所以可以省略;常识省略也就是因为常识中包含了信息,所以可以省略。省略机制让语言在不会导致误解的前提下变得简洁。
意向表达。人类的表达很少是精确的,无论是语法上还是逻辑上;人类也极少会通过精确的定义去掌握某一词汇。事实上造物主给予人类的自然语言就是建立在不精确和模糊之上的艺术品。从词汇的掌握到词汇的使用,很多都是在意向层面的工作。
本书我们计划搭建的原型机会在一定程度上体现出以上四个方面的特征和能力。接下来我们分别讨论之,为工程层面的构建理清思路。