实用信息检索
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

任务六 检索效果分析及评估

1.检索效果的评价指标

检索效果是指信息系统检索信息的有效程度,反映了信息系统的检索能力。检索效果包括检索的技术效果和经济效果。技术效果是由信息系统完成其功能的能力确定,主要指性能和质量。经济效果由完成这些功能的价值确定,主要指信息系统服务的成本和时间。

克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了6项评价系统性能的指标,它们是收录范围、查全率、查准率、相应时间、用户负担和输出形式。其中,查全率和查准率是两个最主要也是最常用的指标。检索效果评估相关数据表如表1-1所示。

表1-1 检索效果评估相关数据表

2.查全率和查准率

查全率(Recall Ratio)是指检索出的相关信息量与信息系统中的相关信息总量之比。

查准率(Precision Ratio)是指检索出的相关信息量和检索出的信息总量之比。

它们的定义用下列公式表示:

在上述公式中,前者是衡量系统检索出与课题相关信息的能力;后者是衡量系统拒绝非相关信息的能力。两者结合起来,即表示信息系统的检索效率。检索者的最终目的是要求达到查全率和查准率均为100%,这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系,查全率和查准率关系曲线如图1-3所示。

例如,心理学是包含教育心理学的大概念,把“心理学”作为检索词具有泛指性,能提高查全率(如图1-3中A点所示),但是正因为检索范围的扩大使得查准率因此降低。同样把“教育心理学”作为检索词具有针对性,能提高检索词的专指性,排除相关信息,但是同样也降低了查全率(如图1-3中的B点所示)。可见,查准率和查全率同时提高是不可能的。也就是说,对于任何一个信息系统,在其查全率与查准率之间都存在一个最佳的比例关系,如图1-3中的C点和D点,就是A点和B点两种极端之间的折衷检索,即查全率一般在60%~70%,查准率一般在40%~50%,这是检索的最佳状态。

(1)查全率和查准率的局限性。

查全率和查准率虽然是目前用来衡量检索效果的相对合理的指标,但它们却存在着难以克服的局限性。

查全率的局限性主要表现在:它等于检索出的相关信息与存储信息中的相关信息之比,但很少有人事先确知存储信息中相关信息究竟一共有多少,只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假设”是指检索出的相关信息对用户具有同等价值,但实际并非如此。

图1-3 查全率和查准率关系曲线图

查准率的局限性主要表现在:如果检索结果是题录式而非全问式,那么由于著录的内容简单,用户很难判断检索到的信息是否确切与课题紧密相关,必须寻找到该题录的全文,才能判断该信息是否符合检索课题的需要;同时,查准率中所讲的相关信息,也具有“假设”的局限性。

产生这种局限性的主要原因是在“相关性”这个概念上。“相关性”的概念本身,主观成分颇多。不同的课题,对检索信息相关性的要求不同,即使同一课题,随着时间、地点、条件的不同,对检索信息的相关性要求也会有很大出入。例如,在开始确定一项新的研究计划时,对查全率要求很高,希望不漏掉任何一个重复研究项目的情报;而在进行这项研究的过程中,为了核实或补充某个问题,又需要很高的查准率。因此,前面所说的查全率和查准率,都是相对的,而不是绝对的查全率和查准率。它们只能近似地描述检索效果。在评价检索效果时,必须谨慎使用这两个概念。

在实际检索中需要根据具体的检索课题来调整查全率和查准率。用户常常要经过几次检索来调整符合检索课题需要的查全率和查准率。在多数情况下,应该在查全基础上利用限制检索来逐步提高查准率。

(2)影响查全率和查准率的主要因素。

用户最关心的是检索效果,影响检索效果的主要因素有信息标引的广泛性和用户检索标志的专指性。标引的广泛性是就标引时揭示信息主题基本概念的广度而言的,是支配查全率的重要因素;检索标志的专指性是就检索标志表达主题的基本概念的专指度而言的,是支配查准率的重要因素。

对于一个信息系统来讲,系统内信息储存不全,收录遗漏严重;索引词汇缺乏控制;词表结构不够完善;标引缺乏详尽性,没有网罗应有的内容;信息分类(标引)专指度缺乏深度,不能精确地描述信息主题;组配规则不严密,容易产生模棱两可或歧义现象,这些都是影响查全率和查准率的客观因素。

对于读者来说,影响查全率和查准率的主观因素有检索课题要求不明确;检索工具选择不恰当;检索途径和方法过少;检索词缺乏专指性,检索面宽于检索要求;用词不当;组配错误等。

(3)提高检索效率的措施和方法。

要提高检索效率,可以参考使用以下辅助性措施和方法。

①提高检索工具的质量。数据库收录信息的范围不但要广泛,而且要切合课题检索的要求;著录的内容详细、精准,辅助索引完备;具有良好的索引语言的专指性与网罗性及其标引质量等。

②用户要提高利用检索工具的能力,具备一定的检索语言知识,能选取正确的检索词,并能合理使用逻辑组配符完整地表达信息需求的主题,能灵活运用各种检索方法和检索途径等使检索工具最大限度地发挥作用。例如,全面准确地表达检索要求,合理使用信息、检索点。根据不同检索课题的需要,适当调整对查全率和查准率的要求。

③制定优化的检索策略,尽量准确地表达检索要求,合理调整查全率和查准率。由于查全率和查准率是互逆的,所以,需要根据课题的具体要求来合理调整两者的比例关系。如须了解某项研究的概况则要求查全率高,如须了解某项研究的最新进展,则要求有较高的查准率。总之,选用泛指的检索词,或者尽可能增加与检索主题概念相关的检索词的数量,查全率就高;选用专指性的检索词,或者由若干个检索词组配的专指概念的检索词,查准率就高。只要掌握了这些方法和技能,并在具体检索中合理运用,就能得到满意的检索结果。

关键术语

信息检索,检索类型,检索方法,检索评价,评价指标。

核心提示

1.提高信息检索能力,是获取社会科学知识的最可靠途径。

2.信息检索教育是信息素质相关教育中最受重视的部分,是构成学习者信息能力的重要方面。

3.信息检索是指将信息进行概念分析,依据标引(分类、主题、题名、作者、代码、字段等)组织成信息系统,信息用户则依据标引在信息系统中检索有关部门信息。所以它通常被称为“信息存储与检索”。狭义的信息检索指广义的信息检索的后半个过程。

4.信息检索是通过信息系统来实施的。信息系统包含信息集合的载体和技术设备。按信息的存储媒体和技术手段来分,信息系统有两种:手工检索信息系统和计算机检索信息系统。

5.信息检索内容可划分为信息检索、数据检索和事实检索。

6.信息检索方法有追溯法,包括传统追溯法和引文追溯法;工具法,包括顺查法、倒查法和抽查法;交替法,包括直接交替法和间隔交替法。

7.检索效果的评价指标有查全率和查准率两个最主要也是最常用的指标。

课后练习

1.什么是信息检索?其基本原理、基本方法有哪些?

2.信息检索的基本流程与检索式的构造是什么?

3.信息存取途径及检索策略与步骤是什么?

4.按信息存储的载体与检索使用的手段区分,信息检索系统有哪些类型?

5.文献手工检索工具可以分为哪几种?事实与数据检索工具各自的结构有什么异同?

6.什么是检索效果?检索效果评价的常用指标有哪些?如何对网络检索效果进行评价?

7.如何获取较为准确的漏检文献量?

8.影响查全率与查准率的因素有哪些?