第二节 语料来源
随着科技的发展和人们对语言规律的认识,语料库调查已经成为语言研究中越来越常用的研究方法。本研究是基于大规模现代汉语语料库展开的,选择什么样的语料库作为语料的来源直接影响到研究的结果。因此,语料库的选取是一个非常重要的问题。
在现代汉语的研究中,可用的现代汉语语料库有:北京大学汉语语言学研究中心的现代汉语语料库(以下简称“北大现汉语料库”)和国家语委的现代汉语语料库(以下简称“国家语委语料库”)。这两个现代汉语语料库各有特点。
(1)语料规模
国家语委语料库的生语料库规模达到1亿字,可供使用的标注语料有5000万字(分词和词性标注)。北大现汉语料库的规模随着时代的发展也在不断地扩大。从2007年的8000万字扩展到了如今的5.82亿字[2]。
(2)语料处理程度
国家语委语料库对词与非词进行了区分,对词性进行了标注,标注语料达到5000万字。北大现汉语料库则是一个生语料库,未进行任何标注。
(3)语料来源及语料年代
国家语委语料库是一个平衡语料库,其内部语料在语料年代、语料学科的来源分布等方面都进行过严格论证,各方面的比例相对均衡。语料主要来自教材、人文与社会科学的语言材料、自然科学的语言材料、报刊、应用文等。北大现汉语料库中的语料来源较为丰富,主要包括口语、史传、应用文、《人民日报》、《作家文摘》、《市场报》、《故事会》、《读书》、《读者》、《青年文摘》、文学、电视电影、网文、翻译作品、戏剧、文学等。
从语料的年代来看,这两个语料库的差距较大。国家语委语料库的语料年代相对较早,其中1993年以前的语料约有7000万字,1993~2002年的语料约有1500万字,2002年以后的语料约有1000万字。由此可见,1993年以前的语料约占国家语委全部语料数量的近3/4。北大现汉语料库中的语料基本上都是1994年以后的现当代语料。因此,从语料的年代上看,北大现汉语料库较贴近当下汉语母语者的语言生活,更能体现现代汉语的特点。
(4)语体分布
国家语委现代汉语语料库对语料的语体有着明确的界定。在其使用数据说明中,曾指出现代汉语语料库在语料的选择上,应当具有区别性特征,“有别于纯口语性”,并指出“该语料库的语料应当是书面语和表义连贯明确、能够用书面语转述的口语语料,并以前者为主,后者为辅”。(肖航,2009,p.4)由此可见,国家语委语料库中的语料倾向于书面语。
北大现汉语料库并未对语体进行明确的说明,但是从来源语料的文章体裁可以看出该语料库在语体上的特点。从单纯的口语语料所占的字节来看,口语所占的比例很小,占全部语料的0.04%。但是如果我们仔细分析就会发现,有几种类型的语料在语体上与生活用语较为接近。例如:电视电影、戏剧、当代文学等类型的语料。以电视电影类语料为例,这类语料主要包括以下几个来源:纪录片的解说词、2002~2005年《百家讲坛》的文本、社会上较流行的几部电视剧的剧本。这些语料都可以看作生活用语的转写形式,在语体上属于中性偏口语。把两个语料库中语料的语体特征进行比较就会发现,北大现汉语料库在语体的分布上与国家语委语料库有着较大的差别。前者基本上属于书面语体,而后者则近似于中性偏口语语体,更接近人们的日常生活用语。
(5)获取方式
国家语委语料库原本提供各种方式的检索,但后来由于种种原因,检索方式变得相对单一。此外,由于语料库正在重新整理过程中,因此我们可以检索的语料只有2000万。北大现汉语料库较容易获得,检索得到的语料可以全部下载,不受限制。
综上所述,从使用者的角度来看,北大现汉语料库的优点较为明显:易获取、可操作。当然,北大现汉语料库的缺点也很明显:无词性标注,语料规模过大为后期数据的处理带来不便。而国家语委语料库是一个有标注的语料库,因此,可以对于兼类词,以及既可以单用又可以构词的语素起到较好的限制作用。但是所能获取的语料相对较少,语料基本上是书面语,语料相对陈旧。
通过初步调查,我们决定选取北大现汉语料库作为本研究语料的主要来源。原因如下。
第一,语体上的适用性。由于本研究以常用单音节手部动作动词为研究对象,而常用单音节手部动作动词在日常生活用语中较为常用。因此本研究选取的语料书面化程度不能太高,在语体上应该为中性或稍偏于口语。而在这一点上,北大现汉语料库具有明显的优势。
第二,语料的时代性。本研究利用语料库的目的是了解常用单音节手部动作动词在现代汉语中的使用情况,为汉语第二语言教学提出建议,因此语料越接近当代汉语母语者的语言越好。北大现汉语料库中的语料基本上都是1994年以后的,与国家语委现代汉语语料库相比,更接近汉语母语者语言使用的真实面貌。
第三,语料检索的完整性。北大现汉语料库检索得到的语料可以完全下载,而国家语委目前可用的语料则仅有2000万,虽然我们不可能对检索所得的语料进行穷尽分析,但是检索语料来源越广泛,分析所得结论的可靠性就越强。
综上所述,本研究决定以北大现代汉语语料库为语料的主要来源,并在此基础上采取适当的方法对检索结果进行抽样分析。