术语学与术语信息处理
上QQ阅读APP看书,第一时间看更新

第一章 引论

第一节 本研究提出的背景

一 术语定义自动抽取的必要性

新科技、新事物、新概念的出现带来了大量的术语。术语用来标记科技、文化、社会生活等各个专门领域中的事物、现象、特征、关系和过程。很多专业领域的术语也是伴随着学科的发展而不断更新的。某种程度上,一个学科领域内的术语集合是该专业领域知识的集中信息载体,是思想与认识的交流工具。

术语定义在术语系统中充当的角色也是极其重要的。术语定义(Term Definition)是对术语所指称概念的语言描述,是连接概念与术语之间的桥梁。研究表明,当术语使用者对一个术语所表达的概念模糊不清时,获取到术语的定义是了解该术语最直接、最简洁、最有效的方式。术语定义抽取就是研究如何从大规模文本中自动获取到术语系统最基本知识的课题。

随着互联网的飞速发展,网络用户所能获取到的信息量一直呈爆炸式增长。统计表明,每天全球互联网的网页数目以千万级的数量增加。伴随着信息量的增加,信息类型也越来越丰富,网络已经成为专业领域知识获取及普通百姓学习、工作、娱乐等各项服务的最主要的信息源。据中国互联网信息中心发布的报告,截至2014年6月中国网民数量达6.32亿人,较2013年年底增加了1442万人,互联网普及率为46.9%,较2013年年底提高了1.1%。2014年上半年中国网民的人均周上网时长为25.9小时,相比2013年下半年增加了0.9小时。这几项指标均反映出中国互联网服务的覆盖率之广与影响力之大。

互联网已经渗入普通百姓的生活中,那么中国网民上网时到底在做什么呢?针对这个问题,中国互联网数据中心与《电脑报》针对中国主流IT用户就上网目的做了一项大规模的调查研究。调查结果显示,浏览新闻与查找信息、与他人沟通、浏览休闲娱乐内容、登录社区是网民上网最重要的四项活动内容,分别占受访者人数的92.2%、80.6%、64.6%、62.0%。该数据反映出网络用户对信息查找的极大需求。

用户进行网络信息查询通常使用搜索引擎。搜索引擎是随着互联网的发展应运而生的,近年来在人们生活中的普及率与影响力越来越大。据数字100市场研究公司的调查统计,在遇到信息查找需求的问题时,82%的网民会直接选择互联网,借助搜索引擎的查询功能实现信息查询的需求。无论是查询旅游路线、学术论文、饭店特色菜还是其他方方面面的信息,人们都会借助搜索引擎,搜索引擎在人们日常生活中的位置越来越重要了。在英文中“Google”一词原来的词性为名词,现在已经被灵活用作动词,比如“If you don't know,you can Google it.”意为“如果你不知道,你可以Google一下。”Google原本是搜索引擎公司名,如今已经泛化为“在Google搜索引擎中查询或其他搜索引擎中查询”的意思。汉语中也有类似的现象,例如“我要百度一下”,“百度”一词也演变成包含有动词“查询”的义项。这两个词的词义演化,也可以从侧面反映出搜索引擎在人们生活中的重要性。某种程度上,搜索引擎已经取代了传统的信息获取渠道,成为最主流的信息查询渠道。

近年来搜索引擎技术与提供的服务都得到了快速的发展,很多网络公司都引入了搜索引擎这项具有极大市场潜力的服务项目。常用的搜索引擎包括百度、360搜索、Google、新搜狗、21CN、微软必应、有道、搜搜、北大天网、雅虎、中国搜索、网易、TOM搜索、QQ搜索、搜狐、新浪等。很多不知名的小搜索网站更是数不胜数。这些搜索引擎提供的服务包括网页、新闻、图片、音频、视频、软件等各种专项搜索。全球最大的中文网站统计分析平台CNZZ在2014年8月的统计数据表明,在所有搜索引擎的使用份额中,百度所占的比重为56.33%,其次为360搜索、新搜狗、21CN、微软必应、Google等搜索引擎。

目前网络搜索引擎的功能已经非常强大,个性化、专业化、功能性的搜索服务也相当完善。例如,针对本书的研究课题,用户如果想查询某个术语的定义,可借助“百度百科”、“智库百科”、“维基百科”、“互动百科”。这些网站提供的查询服务一般可以直接定位到所查询项的术语定义、词语定义或定义性描述。遗憾的是,考察发现即便搜索引擎有如此强大的查询功能,可在处理任何类型的查询问题时它也并非万能的,某些情况下搜索引擎的准确率较低,查询结果无法满足用户的需求。例如,单纯依靠搜索引擎并不能从网络上找到某些术语,特别是新术语的现成的定义或描述性释义,而新术语又呈现出数量大、增速快、范围广的特点。这时用户只能人工从网络海量信息中逐篇、逐段、逐句阅读、辨别、筛选从而检索到这些词语的定义。搜索引擎返回的文本多到成百上千,显然用户不可能逐一对这些文本进行阅读、查询。一般来说,使用者只能在时间、精力允许的范围内对返回的排名靠前的一些网站进行阅读,即便这样也依旧费时、费力,而且一些人为主观因素也影响到检索结果的准确率。尤其是当搜索引擎使用者对查询项输入技巧不熟悉时,如何调整查询关键字或查询问句也会直接影响到返回结果的准确率与召回率。

从网络信息源的角度来看,网络媒体呈现出碎片化的趋势。网络的普及使得普通用户及商家可利用网络平台便捷地发布各种信息。每个人都可以利用某种媒体形式(如论坛、微博)发布信息或通过转载形式传播信息。网络碎片化模式如同一把双刃剑,一方面使每个网络使用者能参与到媒体技术中来;另一方面在网络信息爆炸式增长的同时,信息源的权威性、准确性、完备性都无法完全得到保证。例如,网络中术语定义相关信息的发布者对术语本身的理解未必准确、全面,信息源本身易受发布者主观判断的影响,有的甚至是道听途说。有的包含术语定义的文档其实是商家广告文本中的关于术语的描述,而描述手法更倾向于产品宣传、推广与销售的角度。上述种种原因使得用户查询术语定义仍需要一定的人工查找、阅读、对比、筛选的工作,且最终的筛选结果未必与确切的术语定义相吻合。不恰当甚至不正确的术语定义容易对使用者产生误导,造成对术语概念理解的偏差。

搜索引擎的另一个弊端也是不容忽视的。我们知道,搜索引擎是由人制定的一套规则和算法对互联网信息进行搜索,信息的相关性与重要性是由计算机进行判断的。受商业利益的驱使,一些网站通过购买外链等方法获得较高的排名,导致出现了大量重复性信息或无效页面,用户不得不在搜索结果中再次花费大量的时间人工查找所需信息。搜索引擎的发展与完善伴随着算法的更新。各大搜索引擎多年来不断调整算法,使得搜索结果更为客观、公正,但杜绝一些网站的作弊行为仍有很长的一段路要走。

前边我们谈到,上网用户中有高达92.2%的网民上网的目的是浏览新闻与查找信息,那么搜索引擎能否满足用户的查询需求呢?使用者对搜索引擎的满意程度又是怎样的呢?我们以几个与普通百姓日常生活密切相关的术语为例,来考察影响力最大的百度搜索在处理术语定义方面的功能。

首先实验以“自媒体营销”为查询项,提交至百度搜索引擎。我们发现返回排名靠前的链接包括“自媒体”的相关介绍,以及一些自媒体商家的介绍或者一些个人发表的自己对“自媒体”的理解。至于到底什么是“自媒体营销”,用户需要从相当大篇幅的文本阅读中总结其概念内涵,并且对该概念理解的准确性与完整性也无法得到验证。显而易见,使用者对搜索到的结果是不满意的。

术语代表了专业领域的核心知识,反映出学科的发展动态,与普通百姓的日常生活密切相关。随着汽车走进中国寻常百姓家庭,汽车消费者在购买、使用、维护的过程中接触到大量与汽车相关的术语。消费者对汽车术语越来越感兴趣,也迫切需要准确地了解这些术语的概念内涵,然而对大多数非汽车业界人士来说,很难对这些术语了解得全面、准确。消费者如果借助搜索引擎进行定义查询,结果又是怎样的呢?

我们将“谐波增压”作为查询项提交至搜索引擎。遗憾的是,在阅读了大量的搜索引擎返回的文本后,仍没有找到现成可用的术语定义。检索到的有“百度文库”中的有关“谐波增压”的专业学术论文。一般来说,学术论文篇幅多达几千甚至上万字,且阅读对象一般为该领域专门的研究者与学习者或相关从业人员,再加上通常学术论文的用词专业化与领域化程度较高,包含的领域术语密度较大,故而从该类学术论文中查找到所需定义,对普通用户来说绝非易事。

再举一个与百姓日常生活相关例子。近些年来百姓对房地产行业的关注度非常高,我们以房地产领域的术语“电梯入户”作为查询项进行考察。一般来说,普通使用者对该术语的理解一知半解,多半使用者依据该词的字面意义为基础进行理解,于是围绕该术语产生了很多疑惑。比如,“入户”到底是指什么,电梯入户的房子的安全性,入户电梯的设计原理等问题。我们对20名25—50岁的人群做了一项调查,对“电梯入户”完全理解的仅有两位,其余18位受访者表示,由于对这个概念不了解,会有对电梯入户安全性的顾虑,可能会因为对该术语的不了解,而延迟购买或不考虑购买电梯入户的楼盘。我们借助百度引擎,以该术语为关键词进行查询。从返回结果的“百度知道”中,只查询到几个热心网友发表的个人观点,而且这些观点普遍带有个人主观性,也有所答非所问的现象。其余的返回文本中,有的是各大论坛的网友对该术语的提问及论坛其他网友的回复,从语言形式到实质内容都有很大的随意性与片面性;有的返回文本则是各大楼盘的销售推广文案,侧重于描述“电梯入户”的高端性,缺乏实质内容。在花费大量检索时间后,我们仍无法查询到该术语的确切含义。于是我们借助于百度的图片功能,筛选、查阅、对比了数十张图片,同时借鉴多个文本中对“电梯入户”的描述,才对该术语有了较为明确的理解。

与房地产业相似,近年来人们对理财的关注度不断增加。各种理财模式、理财产品及所涉及的理财术语数不胜数。一些投资者由于对理财术语不完全理解,一味听信销售人员的宣传,造成投资失败甚至血本无归。有的理财专家认为“只有看懂了理财术语,才有理财机会”,可见了解术语对于理财的重要性。例如,对于“年收益率”与“年化收益率”这两个常用理财术语,很多投资者都无法正确区分两者之间的区别,造成对投资预期的错误判断。我们将两个术语分别提交给百度搜索引擎,返回文档只有规范的“年化收益率”的定义;而术语“年收益率”的定义,我们只在“百度知道”中发现了热心网友发表的个人观点。实际上,这两个术语在普通百姓的理财行为中所起到的作用是非常重要的。遗憾的是,我们也无法快速地从互联网中找到确切的术语定义。我们再用“潜在收益率”与“潜在年收益率”、“潜在年化收益率”进行查询实验,搜索引擎返回的结果更不尽如人意。可以预见,在投资者对理财术语一知半解或者根据字面意思主观臆断的前提下,投资的风险性是极高的。

如果说对于上述所提到的术语,用户从网络搜索引擎中无法快速、准确地检索到可用的术语定义,可能是因为这些查询项是相对较新的术语,那么我们以一个语言学中重要的术语“语块”作为查询项加以实验,结果又会是怎样的呢?结果表明,搜索引擎返回的排名靠前的链接都是与“语块”相关的学术论文与书籍。有的返回文本描述了“语块教学法”。在此搜索实验之前,我们没有想到一个出现时间较长的常用术语,其定义竟然在网络海量信息中也很难被检索到,而该语言学术语对于很多语言学研究者、爱好者来说至关重要。

一般来说,当返回链接中缺少现成术语定义时,搜索引擎有时也会返回“百度知道”里对该术语的描述。“百度知道”是全球最大中文互动问答平台,使用的是用户提出问题,通过积分奖励发动其他用户来解决问题的搜索模式。通过这一模式,用户的隐性知识可转化为显性知识,激发了网络用户参与到信息传播过程中的积极性。用户既是知识的使用者,又是知识的创造者。“百度知道”里,术语定义的发布者为普通网络使用者,也就是说,任何个人都可借助互联网平台发布自己对术语概念的解读。可以想象,一旦个人见解出现偏差,就会严重影响甚至误导信息的其他阅读者;同时在没有现成权威术语定义可用的情况下,用户希望能从若干条候选术语定义中,通过对比挑选出一条最优的定义项。遗憾的是,当系统只返回唯一的一条候选定义时,定义的优劣与对错更无从对比,换言之,获取到的术语定义可能只是一家之言。

由此可见,网络使用者完全依赖搜索引擎提供的定义查询功能很多时候是不可靠的。在术语飞速增长的时代,快速、高效、准确的术语定义自动抽取系统的应用前景仍十分广阔。

术语定义抽取属于信息抽取(Information Extraction)的范畴。信息抽取是从文本中自动提取出特定的信息,并进行结构化处理,存储在数据库中供用户查询或做进一步的分析。信息抽取系统的输入一般为原始文本,输出的是结构化的信息。信息抽取在信息的准确率与概念描述的完整性方面有着较高的要求。术语定义抽取是信息获取与知识挖掘领域的重要课题。如何从搜索引擎的返回项中自动筛选、辨析并最终查找到最准确与完备的术语定义是值得术语学界与语言信息处理学界关注的重要课题。基于此,本研究提出了一种从大规模网络文本中自动获取术语定义的抽取策略。

二 术语定义的聚类的意义

在术语系统中术语与术语定义是成对出现的。术语的产生带来了术语定义的出现。面对如此庞大的文本数据,如何将这些术语定义进行分类、组织、存储、加工、整理,是摆在术语学家、语言学家、领域专家面前的一个现实问题。将若干条术语定义按照专业领域划分为不同的类别就是术语定义的聚类(Term Definition Clustering)。术语定义按领域聚类是术语工作的基础工作之一。面对数量激增的新术语,术语数据库需要不断更新,将新术语的各项条目添加进去,从而保持数据库与语言现象的同步发展。在术语数据库升级扩容的过程中,新术语及新术语定义的分类、归档是一项非常必要的工作。

大规模术语定义的领域自动聚类系统不仅有利于领域学科的研究者构建该领域的术语数据库及术语知识的系统化加工,同时领域聚类也提高了术语数据库使用者的查询、检索效率,使得全局性、系统性地研究该领域术语之间概念的层级与语义关系变得更为高效、便捷,也为术语本体学研究者与语言学领域词汇研究者提供了理论与技术支持。

三 术语识别的意义

术语自动识别一直是自然语言处理的一个重要问题。将术语从文本中自动识别出来对于未登录新词语发现、自动分词、机器翻译、多语索引、主题抽取、文档分类、词典编纂、双语对齐、构建领域词汇知识库等语言信息处理各相关领域的研究都具有重要的理论和现实意义。术语是术语系统中的核心元素,术语的自动识别对于了解一个学科领域知识的发展、演化及术语的传播、普及都具有重要意义。术语识别的研究与实践在维护术语概念的一致性、避免术语混用与乱用、分析语言现象的动态发展、规范语言文字的使用等方面都起到了重要的理论支持作用。