上QQ阅读APP看书,第一时间看更新
1.6 语料来源
本研究所用现代汉语语料库有:(1)北京语言大学的“现代汉语研究语料库系统”,该语料库规模为200万字(从6000万字的粗语料中抽样选取),其中文本的出版和录音时间均为20世纪90年代,区分口语和书面语语料(孙宏林等,1997);(2)北京大学中国语言学研究中心的“现代汉语语料库”,规模为4.77亿字,语料时间跨度较大,从五四运动时期到当代(至2009年)(http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=xiandai);(3)台湾中研院语言学研究所的“中文词汇特性速描系统”,该语料库系统有10亿字,均为当代语料,其特点是可快速提供关键词的句法、搭配等属性的相关信息(http://wordsketch.ling.sinica.edu.tw)。我们以“现代汉语研究语料库系统”为核心语料库,在该语料库信息不足的情况下,提取另外两个语料库的相关信息。
中介语语料库有:(1)北京语言大学的“汉语中介语语料库系统”,该语料库规模为104万字(依据一定标准抽样选自350万字中介语语料),标注了母语背景、学时等级、文体等属性(陈小荷,1997);(2)北京语言大学的“HSK动态作文语料库”,该语料库共430万字,语料为汉语作为第二语言学习者参加汉语水平考试的作文,标注了母语等级、作文分数、是否获得证书等属性(“HSK动态作文语料库”课题组,2009)。