ESP:能源行业语料库研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第三节 语料库的研究范围及构建

一、语料库的研究范围

语料库研究的历史大致可分为三个阶段。第一阶段是18世纪开始至20世纪50年代,这是一段平稳发展的时期,此时对语料库的研究还处在原始手工分析阶段。第二阶段是20世纪50年代至90年代,20世纪50年代后,对语料库的研究短暂中断,60年代是一个转折期,70、80年代,相关研究继续发展,出现了第二代电子语料库。第三阶段是20世纪90年代至今,90年代以后对语料库的研究开始快速发展,逐渐渗透到语言研究各领域[22]

20世纪90年代以来,语料库逐渐由单语种向多语种发展,各种语料库深加工技术层出不穷,语料库在语言研究各领域得到更加广泛的应用。其突出的特点有:语料库建设的规模大、语种多;语料库应用范围不断扩大;网络语料库获得进一步发展。专用语料库也将得到进一步发展。特别是Tim Johns在20世纪90年代初提出“数据驱动学习”(data-driven learning,简称DDL)的观点后,一种新的基于语料库数据学习外语的方法开始挑战传统的以教师和教科书为中心的教学模式和思路[23]

语料库的研究范围非常广泛,如构建语料库分析社会语言学的语言变化趋势的研究[24];比较英、汉两种语言在中动结构的类指与定指上的共性,考察与之对应的语义变化、语用差异,以及在隐含施事方面的深层机理[25];通过语料库构建探索我国的英语新闻中词汇与主题表达之间的相互关系及词汇的使用和语言学特征[26];通过对比参照语料库研究文学文本语言的显著特征,验证在语料库语言学迅速发展前学界所归纳出的言语与思想表达方式的完整性,验证基于直觉判断和理性分析的文学评论的合理性;探索超越验证文学评论的阶段,做到定量分析和定性分析相结合的研究[27]

在教学研究范围中,如探索口译教学的特点,构建面向教学的口译语料库[28];探索口译文本的语篇特征、口译实践策略、口译相关理论和概念的验证与发展,构建多类型、不同性质语料库,促进口译研究与教学的协调发展[29];探索单语语料库与翻译研究相结合,改变传统翻译教学模式的研究[30]

总体而言,我国学者对语料库语言学的研究主要集中于教学、翻译、词汇、语义、词典和语法六方面(约占总数的80%),而细观这几方面的研究更多的是停留在对单词、词组研究的阶段。国外对语料库语言学的研究则已经逐步成熟,成功从对语言词汇的研究上升至对语法、语篇的研究[31]

二、语料库的构建过程

1.语料搜集

语料搜集要考虑语料库的建设目的。如在构建对比语料库时需要考虑搜集语料时采取的原则,如来源相同、发布时间相近、主题内容相似等原则[32]。对于构建特定内容的语料库还要考虑语料的搜集范围,如构建高校英文专业语料库就需要考虑是否搜集国外高校,还是只搜集国内高校的英文网站,还应考虑搜集网站简介、学校宣传册、教学资料等内容是否合适和是否足够实现建设目的[33]

2.语料库信息定义

详细的语料库信息字段应该包括两种:语料外信息字段和语料内信息字段。语料外信息指的是语料内容本身之外的一些信息,不牵涉语料本身,只是一些外部因素的描述。如描述语料载体性质(报纸、杂志、图书、电影、电视、广播)的媒体;描述语料具体来源的媒体名称(网站名、杂志名等);语料发布的时间;语料作者等。语料内信息主要指的是语料内容本身的信息,包括描述语料性质的语体(口语或书面语)、描述语料文体性质的体裁、语料类别(主题类别)、标题、关键字、正文、字数等[34]

3.语料库元信息标注

对语料库中的各类文本进行合理的元信息标注,以便按照用户设定的条件,从语料库中抽取不同类型的双语对齐文本。拟将元信息与文本分别独立保存,即元信息脱离文本本身,便于对文本内语言信息快速检索。

4.语料库的语言学标注

语料库标注是为语料库文本添加解释性信息和语言学信息的活动。标注的具体实施即是对文本某些元素或特征添加预定的标签,通常分为计算机自动标注、计算机辅助人工标注和人工标注三类。在设计过程中,标注方案通常指一系列预定码的标注规则。比如结构标记(即文本外部信息和内部结构信息)、词性赋码、语法标注(包括句法分析、语义标注)、话语标注等[35]

5.语料库的分类原则

语料库的文本分类的研究比较丰富,涉及的领域主要有机器学习、信息检索、模式识别等多个方向。文本分类的研究囊括了词频统计分析、句法分析和语义分析等[32]

6.选择功能匹配的软件工具

元信息检索系统,用于根据用户的设定从语料库中抽取文本;标注文本还原系统,用于析出便于用户阅读的检索词及语境;基于网络的平行语料库检索系统,用于准确、高效地对语料库进行检索[36]