上QQ阅读APP看书,第一时间看更新
第三节 信息检索概述
一、信息检索的基本原理
1.信息检索的概念
信息检索(information retrieval)是把大量文献信息按照一定的方式编制起来,并根据检索课题的需求,从存储的大量信息中查找出有关信息的过程。信息检索包括信息存储(storage)和信息查找(search)两个过程。但是在实际检索工作中,通常所说的信息检索则仅指此过程的后半部分,即根据课题的要求,以科学方法把符合课题的文献信息查找出来的过程。
信息检索根据检索对象不同,包括文献检索(document retrieval)、事实检索(fact retrieval)和数据检索(data retrieval)。通常所说的信息检索主要是指文献检索。文献检索是一种相关性检索,而事实检索和数据检索则是一种确定性检索。但是,它们在原理、方法和实践方面没有本质的区别。可见文献检索这个用语随着社会信息化进程的加快,其内涵也更为丰富和广泛。
信息检索按其检索结果可分为题录检索、文摘检索和全文检索等;按其检索标识可分为分类检索、主题检索、著者检索等;按其检索手段又可分为手工检索和计算机检索。计算机检索以其检索速度快、检索途径多和检索手段灵活等诸多手工检索无可比拟的优越性,现已成为文献检索的主要方式。但是,了解信息检索的基本原理、检索语言、索引方法和信息资源方面的知识是掌握计算机检索的必要基础。
2.信息检索的基本原理
信息检索包括信息的存储和查找这两个过程,它们的实现有赖于检索工具(系统)的存在。信息存储是编制检索工具(创建检索系统)的过程;信息查找是利用检索工具查找出与课题需要的有关文献资料的过程。所以任何检索工具都具有存储文献和查找文献两方面的职能。存储是检索的基础,而检索是存储的目的,两者相辅相成,互为依存。文献检索的核心就是要使检索词在文献的存储与查找这两个过程中所采用的特征标识达到一致。信息检索的基本原理如图1-2 所示。
图1-2 信息检索基本原理示意图
从图1-2 可见,在信息存储过程中,首先要对纳入检索工具中的每一篇文献的各种特征进行主题分析,找出若干个能代表文献内容的主要概念,并用文献检索语言对其加以标引,形成文献特征标识(如分类号、著者姓名、主题词等);然后将有关的文献特征标识著录下来,形成一条文献条目(记录);最后将所有的文献条目再按一定的规则排序,从而形成了具有检索功能的检索工具。
在信息查找过程中,首先要对所检课题进行主题分析,使之形成若干个能代表课题需要的主题概念;然后把这些主题概念转换成文献存储过程中所使用的检索语言,形成检索提问标识;最后利用这些检索提问标识到检索工具中去查找相关的文献。
由此可知,信息的查找过程是与存储过程相对应的逆过程,而连接这两个过程的纽带就是文献检索语言。信息检索的基本原理就是将检索提问标识与存储在检索工具中的文献特征标识进行比较,结果凡是文献特征标识与检索提问标识相一致,或者前者包含了后者,或者符合某些检索规则,那么,具有这些文献特征标识的文献就从检索工具中显示出来,它与检索课题所需要的文献大致相符,最后通过一定的方式去获取原始文献。
二、信息检索的意义
1.提高信息素养,适应知识更新的速度
在改革开放的今天,传统教育培养的知识型人才已满足不了改革环境下市场经济的需求,新形势要求培养的是能力型和创造型人才,具备这些能力的人才首先需要具备自学能力和独立的研究能力。大学生在校期间,已经掌握了一定的基础知识和专业知识,之后的知识更新、积累,都是通过自学完成的。所以掌握一定的检索方法和技能,是培养终身学习能力的前提和条件。
2.提高科研能力,避免重复研究或走弯路
科学技术的发展具有连续性和继承性,任何一个课题从选题、试验直到出成果,每一个环节都离不开信息。研究人员在选题开始就必须进行信息检索,了解课题的研究现状,在短时间内获得与研究课题相关的研究,使科研人员提高工作效率,避免低水平重复研究他人的劳动成果。
3.能够全面地掌握有关的必要信息,增强决策的科学性
掌握一定量的必要信息,是进行研究、搞好工作的首要条件,也是进行正确决策必不可少的前提条件。科学的决策源于对信息资料的充分了解与认识,信息检索是国家、部门、单位和个人等决策者获取信息的重要途径。信息检索能提高决策的科学性,减少决策的盲目性。
三、信息检索语言
检索语言(retrieval language)又称为标引语言或索引语言,是在文献检索领域内用来描述文献特征和表达检索提问的一种专用语言,即根据信息检索需要而创建的统一文献标引用语和检索用语的一种语言。
1.信息检索语言的作用
检索语言是文献信息检索的重要组成部分,检索效率的高低,很大程度上取决于所采用的检索语言的质量以及对它的使用是否正确。因此,检索者有必要学习其中的主要规则、基本原理,减少漏检或误检,提高检索效率。检索语言是信息检索系统存储与检索共同遵循的一种专用语言,它既是汇集、组织、存储文献的标准,也是检索提问时所利用的手段及工具。它规范了信息标引人员和检索人员都要用相同的语言来表达同一主题概念内容,即排除了自然语言中不适合于检索的部分,从而使信息存储和查找两者之间所依据的规则保持一致性,这样才能使文献信息存得进,又取得出,实现了信息检索的全过程。否则,信息检索也就不可能顺利实现,甚至根本不能实现。可见,检索语言是信息标引人员和检索人员之间进行交流的媒介,也是人与检索系统之间交流的桥梁,在信息检索过程中起着语言保障的作用。其特点表现在:①对文献的各种特征加以标引;②对文献内容相同及相关的信息加以集中或揭示其相关性;③对大量文献信息加以系统化或组织化,形成各种标识系统或索引系统;④便于将标引用语和检索用语进行相符性比较。
为了将文献中和科技人员日常使用的自然语言转换成检索时使用的检索语言,并用一定的文字形式予以固定和表达,需要建立检索词典(retrieval thesaurus)。检索词典是文献标引用语和检索用语的语源和依据性文本。它是对各学科中的名词术语、概念、代码、分类号等进行规范化的记录,起着对检索语言规范控制的作用。最常见的检索词典是各种分类表和主题词表。
2.信息检索语言的类型
全世界有数以千计的信息检索语言,但任何一种检索语言,都是表达一系列概括文献信息内容的概念及其相互关系的概念标识系统,可用于对文献信息的内容进行主题标引、逻辑分类或特定信息的揭示与描述。因此,构成各种检索语言的基本原理是一致的,只是在表达各种概念及其相互关系时所采用的方法不同,才形成了不同类型的检索语言,构成了不同的标识系统和索引系统,从而提供了不同的检索途径。
检索语言按照所描述的文献信息特征可分为文献外表特征检索语言和文献内部特征检索语言两种类型(图1-3)。
图1-3 信息检索语言的主要类型
(1)文献外表特征检索语言:
这种检索语言是依据文献外表特征作为文献存储的标识和文献检索提问的出发点而设计的索引语言(系统)。常见的有:①以文献上记载的书名、刊名、篇名等作为检索标识的文献名称索引系统,如书刊目录等;②以文献中署名的著者、译者、编者等姓名或团体机构名称作为检索标识的著者索引系统,如著者索引等;③以文献特有的序号作为检索标识的文献序号索引系统,如专利号索引、科技报告号索引等;④以文献末尾所附的参考文献或引用文献的外表特征作为检索标识的引文索引系统,如引文索引等。
(2)文献内容特征检索语言:这种检索语言主要有以下3 种:
1)分类检索语言:
它是把各种概念按学科性质进行分类和系统排列的一种语言体系。它能集中体现学科的系统性,反映事物的从属、派生关系,是一种等级分明的语言。这种语言一般是用分类号(数字或数字与字母组合)或类名作为检索标识来表达各种概念,使同一学科专业文献集中,提供从学科专业角度查找文献信息的途径(详见本节文献分类法)。
2)主题检索语言:
它是用语词作为检索标识来表达各种概念的一种标识系统。主题检索语言具有专指性和直接性的特点。根据其表达概念的不同形式又分为关键词语言、叙词语言、标题语言和单元词语言,其中应用较多的是关键词语言和叙词语言。
关键词(keyword)是指从文献题目、文摘或正文中提取出来的并具有实质意义的、能代表文献主题内容的、未经或略经规范化处理的词汇(属于自然语言的范畴)。它在检索工具中常以“关键词索引”(keyword index)作为索引标识系统。关键词语言具有灵活性强、易于掌握、查检方便,尤其在计算机检索中广泛应用,并方便查找最新出现的专业名词术语。但其未经规范化处理,用词不统一,因而有时会出现同一主题内容的文献由于使用不同的关键词而被分散,容易造成漏检,影响查全率。
叙词(descriptor)亦称主题词(subject headings),是指能代表文献内容实质的经过严格规范化的专业名词术语或词组。它在检索工具中常以“主题索引”(subject index)作为索引标识系统。主题词语言的主要特点有:①它对一个主题概念的同义词、近义词等适当归并,以保证语词与概念的唯一对应,避免多次检索;②采用参照系统揭示非主题词与主题词之间的等同关系以及某些主题词之间的相互关系,以便正确选用检索词;③根据主题词之间的隶属关系,可编制主题词分类索引,从而选择更专指的主题词;④同一篇文献的每个主题词都可以作为检索词,从而提供多个检索入口点,便于查找。基于主题词特点,则需要构建一部供标引和检索使用的主题词表,以保证对主题词语言的正确使用。最常用的医学主题词表是美国的《医学主题词表》(Medical Subject Headings,MeSH)。
3)代码检索语言:
它是对文献所论述事物的某一方面特征,用某种代码系统加以标引和排列的一种检索语言,如美国《化学文摘》的化学物质分子式索引系统。
3.文献分类法
文献分类法是根据文献知识内容所属的学科性质,分门别类地、系统地揭示和组织文献的一种方法。文献分类法包括等级体系分类法(亦称体系分类法)和组配分类法两种,应用较多的是前者。它是一种直接体现知识分类的等级制概念标识系统,其主要目的是为了满足人们按学科知识体系检索文献的要求。图书馆通常都采用文献分类法来编制分类目录和组织馆藏文献的分类排架。
(1)《中国图书馆分类法》:
《中国图书馆分类法》简称《中图法》,是我国使用最广泛的一种等级体系分类法。它不仅应用于各类型图书馆的藏书排架和组织目录体系,绝大多数的文献检索工具也都是按《中图法》的分类体系编制和提供服务的。
《中图法》中的每一级类目都由分类号(字母与数字相结合的混合制号码)和相对应的类目名称组成。该分类号是用字母代表基本大类(表1-4);在字母后用数字表示大类划分出的各级下位类目;号码的位数(用层累标记制)代表相应类目的分类等级。当一个分类号的数字超过三位时,则加上小圆点“.”便于区分。此外,为了提高类目的专指性,在主分类号后面附加一个复分号作为文献共性区分的标识。以上基本构成了《中图法》的分类体系。
表1-4 《中图法》基本大类(22 个)
在“R 医药、卫生”这个一级类目下又分出17 个二级类目。类目根据概念之间的隶属关系,可以逐级展开,划分出更专指、更具体的类目(每往下分一级,均要标注上一级类目号)(图1-4)。
此外,为了能同时满足文献标引和文献检索的需要,我国在《中图法》和《汉语主题词表》的基础上又编制了《中国分类主题词表》,它是两者兼容的一体化信息检索语言,共收录分类法类目5 万多个,主题词及主题词组配标题21 万余条。
《中国分类主题词表》分2 卷,第1 卷为“分类号——主题词对应表”,第2 卷为“主题词——分类号对应表”。“分类号——主题词对应表”中的每条对应款目分为左、右栏两部分,左栏是分类号、类名和类目注释,其格式与《中图法》基本相同;右栏是对应的主题词和主题词组配标题以及注释。利用该表进行文献分类标引或检索时,主要是利用左栏,由大类到小类逐步缩小范围,从而找到与文献内容相符的类目。这等于使用《中图法》进行分类标引或检索。利用“主题词——分类号对应表”进行文献分类标引或检索,实际上是把它作为《中图法》类目索引使用。当难以确定某个主题概念属于分类体系中的哪个类目时,可从该表入手,先查出对应的分类号,再查“分类号——主题词对应表”进行核对,从而确定具体分类号。
图1-4 “R 医药、卫生”的分类体系
(2)国外著名的等级体系分类法:
①《杜威十进分类法》(Deway Decimal Classification,DDC)。DDC 是全世界使用最广泛的分类法,始创于1876 年,其最新版是2003 年出版的第22 版。它共分为10 个基本大类,采用单纯阿拉伯数字做标记。有关DDC 的详情可在网络上查阅(其网址是:http://www.oclc.org/dewey)。②美国《国会图书馆图书分类法》(Library of Congress Classification,LCC)。LCC 共设21 个基本大类,采用字母数字混合号码标记类目。有关LCC 的详情可在美国国会图书馆网络上的LCC Web 页上查阅(其网址是:http://www.loc.gov/catdir/cpso/lcc.html)。
4.国际疾病分类法
(1)概述:
疾病是指人体在一定条件下,由致病因素所引起的一种复杂而有一定的表现形式的病理过程。疾病的种类很多,且患病部位、致病因素、病理改变和表现的症状也极不一致。疾病分类就是根据疾病的特性,将疾病分门别类,把同类疾病分在一起,并使其成为一个有序的组合系统。对疾病进行分类是深入认识各种疾病的必然结果。因为它不仅对医药卫生单位开展医疗、科研、教学以及搞好病案管理、资料信息和卫生统计等工作是必不可缺的,而且还能为卫生行政部门和科研机构提供有关重要的数据,以期掌握各类疾病在一定时间、空间和人群中的分布特征及其发生、变化的规律性,制订预防保健措施,增进人类健康。
《国际疾病分类》(International Classification of Diseases,ICD)就是按照既定疾病分类标准将各种疾病名称归入相应类目的一种系统。它是对疾病现象进行数量研究和在国际进行医学科研学术交流的基础工具。其目的是为了对不同国家或地区以及在不同时间内收集到的死亡和疾病数据进行系统地记录、分析、解释和比较。同时它还把疾病诊断和其他健康问题的词句转换成字母数字编码,从而易于对数据进行储存、检索和分析。
ICD 是一部已有百年历史、经过多次讨论和修改的国际上统一使用的疾病分类法。国际疾病分类法源于1853 年在布鲁塞尔召开的第一次国际统计学大会,会议提出了制定全世界范围使用的统一疾病名称。1855 年在巴黎召开的第二次国际统计学大会上通过了威廉·法尔提出的138 个项目的疾病分类表。这个分类表虽然未获得举世公认,但其疾病分类的一个重大原则——把全身性疾病和局限于某器官解剖部位的疾病区别开的原则,却一直保存下来。1893 年在芝加哥召开的国际统计学研究大会上,通过了《贝蒂荣死亡原因分类法》,它获得了普遍赞许,并被许多国家和地区所采用。1900 年法国政府在巴黎召开了对《贝蒂荣死亡原因分类法》修订的国际会议,会上通过了《国际死亡原因分类法》,即国际疾病分类法的第一个蓝本。其后每隔10 年左右召开一次国际修订会议。1948 年,联合国世界卫生组织(WHO)接管了国际疾病分类工作,并主持召开了第6 次以后的国际修订会议。自从世界卫生组织接管以后,国际疾病分类工作进入了一个新的发展时期。它从一个局限的死亡原因分类体系扩大成为全面的疾病分类体系。除疾病死亡统计外,开始应用于疾病管理等方面,并自三位数字编码系统向小数点下发展。
目前使用的国际疾病分类法是由世界卫生组织于1993 年编撰的第10 次修订版本(ICD-10),改称为《疾病及有关健康问题国际统计分类》(The International Statistical Classification of Diseases and Related Health Problems),为保持其连续性,简称仍沿用“国际疾病分类”(ICD),但其使用范围不仅局限于疾病和损伤分类的范畴,还扩展到对其他健康问题进行分类。
(2)学习国际疾病分类法的意义:
在世界卫生组织的倡导和推动下,ICD 已为大多数成员国所接受,成为世界性的疾病、损伤和死亡原因分类的统一标准化工具。它对促进世界卫生保健事业、掌握医疗卫生工作动态以及卫生信息的国际交流,起着极其重要的作用。我国是世界卫生组织的成员国,有义务按照ICD系统进行疾病、死亡原因的编码和分类,并向世界卫生组织呈报我国的卫生统计信息。我国于1987 年起正式使用ICD-9 进行疾病和死亡原因的统计分类。1993 年5 月国家技术监督局发布了等效采用ICD-9 编制的“疾病分类与代码”国家标准。为此,我国原卫生部要求县级和县级以上医院采用ICD 编制医院出院病人疾病分类统计报告,并颁发了全国统一使用的、注有ICD 编码的《医院病案首页》,首页中很多项目内容(如各种诊断、手术名称、损伤、根本死因等)都需要临床医生参照ICD 来正确书写。因此,各级临床医生了解国际疾病分类的使用规则是非常必要的。此外,国际疾病分类法中还记载了许多比较新的疾病、损伤、药物及化学物质、手术名称等信息,这对拓宽医学知识及科研课题的开展也有一定作用。
(3)ICD 的主体结构及使用:
ICD-10 现有印刷版和电子版两种形式,在此仅对印刷版本做一简介。印刷版本由三卷(各独立成册)组成。第一卷是ICD 编码的主要内容类目表,第二卷是使用指导手册,第三卷是分类的字顺索引。
第一卷包括三位数类目表、内容类目表和四位数亚目、肿瘤形态学分类、死亡和疾病的特殊类目表、定义和命名条例。其中三位数类目表为核心分类表,是向世界卫生组织死亡率数据库提交报告和一般国际比较用的强制性编码水平。但在国际水平提交报告时,并不强制使用四位数亚目。
三位数类目表(list of three-character categories)共有21 章(大类)(表1-5)。
表1-5 ICD-10 的三位数类目表
续表
每章又列出了数目不等的各节标题,每节标题包括若干个类目,每一类目中都有疾病名称及相应的三位数编码(第一位为英文字母,第二、三位为数字;每一字母都与特定章节有关)。如“高血压病”是“循环系统疾病”(I00-I99)中的一节,其标题下面的类目及编码是:
内容类目表和四位数亚目(tabular list of inclusions and four character subcategories)列出了各章和节的标题及其四位数水平级别的全部类目,实际上它是三位数类目表的详细类目表。在表中所有的四位数字以上的均用“0~9”来表示,并用“·”和前面的三位数分开,表明亚目。其中用“0~7”来表示已列出的疾病,“8”表示“其他”未列出的疾病类目,“9”表示“未特指”疾病类目。如“继发性高血压”的四位数亚目是:
第二卷是指导手册,包括使用说明、编码的规则和指导、统计报告,以及ICD 的发展史。
第三卷是第一卷分类的字母顺序索引,包括三部分:疾病和损伤性质的字顺索引、损伤的外部原因索引、药物和化学制剂表索引。整个索引有关术语和编码6.3 万余条(其中相当一部分是在第一卷没有出现的术语)。各部分索引均按主导词的字顺排列,其下是不同水平的修饰词或限定词。一个完整的索引术语的构成是对主导词与修饰词或限定词采用错行缩格的形式,其后是该术语的编码。因此,通常一个完整的索引术语可能由几行构成。如“继发性高血压”在索引中的著录内容及格式是:
在使用ICD-10 进行编码时,首先根据诊断对象来确定主导词,选择主导词正确与否关系到能否找到准确的疾病编码。其次根据主导词及修饰或限定部分的具体要求,在第三卷的有关索引中查找适当的编码,最后在第一卷的类目中核对编码。
5.医学主题词表
医学主题词表是对医学主题检索语言进行标引和检索的语源和依据性文本。它把医学及其相关学科领域中的名词术语、主题概念等进行规范化的记录,起着对主题检索语言规范化控制作用。因此,了解医学主题词表的结构,掌握其使用方法,是进行医学文献检索的基础。最常用的医学主题词表是美国国家医学图书馆(NLM)编制的《医学主题词表》(Medical Subject Headings,MeSH),简称为MeSH表,是目前最权威、最常用的医学主题词表。PubMed、Medline、SinoMed 等中外文数据库都是采用该词表作为主题词检索的依据。自2009 年起,纸本词表不再出版,而被电子版MeSH Browsers(主题词表查询器,https://meshb.nlm.nih.gov/search)取代,检索更为方便,查询结果也更为直观。
MeSH 所包含的信息主要包括以下类型:
(1)主题词(subject headings):
又称叙词(descriptors),用MeSH 的主体,用以描述文献所论述的对象或中心主题。主题词所论述的内容可以是器官/组织/细胞,疾病,化学物质,有机体,操作,心理学及行为医学,生理过程,卫生保健及其服务等。
(2)树状结构号(tree structures):
树状结构又称范畴表,是将字顺表中的全部主题词(包括类目词)按其词义范畴和学科属性编排的一个分类体系表。将所有主题词分为16 个大类,各自类目下又层层划分,逐级展开,最多可达11 级。有的主题词可能同属于两个或多个子类目,这种主题词后同时列出多个树状结构号,并分别排在其所归属的类目中(详见附表2)。主题词在树状结构表中按树形结构号顺序编排,树形结构号越短,表示概念越泛指,号越长,表示概念越专指,例如:
(3)副主题词(Subheadings):
又称限定词(Qualifiers),是对主题词所探讨的某一方面内容加以限定的词,其作用是增强主题词的专指性。例如:hypertension(高血压)/etiology(病因学)。2017 版副主题词表有80 个副主题词,比上一版减少了“Diagnostic Use”(诊断应用)、“Radiography”(放射照相术)、“Radionuclide Imaging”(放射性核素显像)、“Ultrasonography”(超声检查),增加了“Diagnostic Imaging”(诊断显像)。MeSH 中对每个副主题词的定义做了详细的规范,详见附表1。
(4)款目词(Entry Terms):
又称入口词,不用做正式主题词,是主题词的同义词或相关词,作用是将自由词引见到主题词,如当用户使用cancer of the breast 检索乳腺癌的文献时,MeSH 表会通过cancer of the breast see breast neoplasms指引用户使用主题词breast neoplasms,其中cancer of the breast为款目词,breast neoplasms为主题词。
(5)相关参照(See Related):
相关参照用于揭示主题词之间的相互关系,检索时可以参考使用相关主题词,以扩大检索范围。
四、信息检索工具
信息检索工具是指将所收录的文献信息按一定著录规则编制而成的具有存储、检索和报道文献功能的工具。早期的检索工具主要是指目录、索引或文摘,即是附有检索标识的某一范围的二次文献条目的集合体。
作为任何一种检索工具,都应该有以下特点:①对所收录文献信息的各种特征给予必要的描述,以形成各种文献条目;②对每条文献信息条目进行标引,形成检索标识,以作为排序与检出的依据;③将全部文献信息条目有序化组织成为一个有机整体,使之易于存取;④编制与提供多种检索手段,以便从各个角度查检文献信息。
为了适应检索文献的多种需要,人们在实践中创建了各种类型的检索工具。由于分类标准或使用角度的不同,同一种检索工具可能被划分到不同的类型中。传统的分类标准和划分情况是:按检索文献手段分为手工检索工具和机械检索工具;按收录文献范围分为综合性、专业性、专题性和单一性检索工具;按文献载体或出版方式分为书刊式、卡片式和机读式检索工具。目前检索工具的类型是按其揭示文献的程度来划分,即题录型、文摘型和全文型检索工具。因为这种划分方法反映了文献加工的程度,直接影响到检索工具的质量和检索结果。
1.题录型检索工具
题录(bibliography)是记录或描述以文献外部特征为主的文献条目(包括文献名称、著者姓名、来源出处等简要信息)。题录型检索工具就是以目录的形式并按一定规则编排而成。它所揭示文献内容的程度较浅。
2.文摘型检索工具
文摘(abstract)是在“目录”的基础上再加文献的内容摘要构成的文献条目。文摘型检索工具就是以文摘的形式并按一定规则编排而成。从构成文摘条目的内容上看,文摘既有文献的外表特征,又有内容摘要。所以文摘揭示文献内容的程度远远大于目录,提供较详细的原文信息。
文献型检索工具在名称中通常有“文摘”、“Abstracts”、“Excerpta”等字样。如《中国医学文摘》、Biological Abstracts、Excerpta Medica 等。
3.全文型检索工具
这是近年来新出现的一种类型检索工具,主要是指计算机检索系统中的全文数据库,如中国知网、OVID 全文期刊库等。
全文型检索工具不仅能得到文献的原文内容,而且多数全文数据库还提供全文字段检索,这有利于文献的查全。随着计算机的处理能力和存储容量不断提高和扩大,这种检索工具越来越受到人们的青睐。
五、信息检索的方法与途径
(一)信息检索的常用方法
1.常用法
又称为工具法或直接法,是直接利用文献检索工具来查找文献的方法。在检索工具的选择上,一般应根据课题内容首先利用综合性的检索工具,然后使用专业性的检索工具,两者结合,可提高查全率和查准率。常用法根据时间的范围可分为顺查法、倒查法和抽查法,通常使用倒查法居多,因为倒查法检出的近期文献在论述现代科学成就的同时,往往还引用、论证和概述早期的文献资料,从而可窥见有关课题早期的发展情况。
2.引文法
是利用已有的文献后面的参考文献,由近及远进行追溯查找的方法。此法的优点是直观、方便、不断追溯可查到某一专题的大量参考文献,这是在没有检索工具或检索工具不全的情况下扩大信息源的一种好方法。缺点是检索效率低、查全率低、漏检率高。
3.综合法
又称为循环法、分段法或交替法,是常用法和引文法两种方法的综合。既利用检索工具检索,又利用文献后边的参考文献进行追溯,两种方法交替使用,直到检出信息满意为止,它可得到较高的查全率和查准率。是采用较多的方法之一。
(二)信息检索的途径
信息检索主要是根据文献信息的特征标识来查找文献。不同学科、不同类型的检索工具采用不同的文献特征来标引文献,形成不同的检索语言而提供不同检索途径。最常见的文献检索途径及其检索标识有如下几种:
1.文献名称途径
文献名称途径是以篇名、刊名、书名作为检索标识来查找有关文献。现在它多用于计算机数据库文献检索来代替传统书、刊目录卡片的翻阅。
2.著者途径
著者途径是利用已知著者姓名(包括团体机构名称)作为检索标识进行查检文献的一种途径。它适用于了解国内外某著者或团体机构所发表的文献内容及其所研究课题的最新进展情况。使用著者途径检索文献的关键在于熟悉著者姓名在索引中的编排规则。
3.分类途径
分类途径是利用检索工具所采用的特定分类体系中的分类号或分类类目作为检索标识进行查检文献的一种途径。它能较好地满足按类检索文献的要求,适用于按学科概念检索文献,但其专指性不强。使用分类途径检索文献的关键在于熟悉检索工具所采用的特定分类法。
4.主题途径
主题途径是根据能反映文献主要内容的主题(主要是主题词和关键词)作为检索标识进行查检文献的一种途径。它具有较强的专指性和直接性的特点,适用于查找内容比较具体、专一的文献。但作为检索语言来说,主题词和关键词的检索结果不尽相同。因此,使用主题途径检索文献的关键在于能够选准代表所需文献主题内容的检索词。
此外,某些检索工具根据不同学科、不同类型文献的性质和特点,还具有其独特的检索途径,适用于某些特定专业领域内的文献检索。
六、计算机信息检索
计算机信息检索系统一般由计算机硬件、检索软件、数据库、通信线路和检索终端组成。其中数据库是计算机信息检索系统中的重要组成部分,其质量直接影响检索系统的功能。因此,对数据库的了解是掌握计算机信息检索技术的基础。
数据库(database)是指“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。简而言之,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,是用来存储和查找文献信息的电子化检索工具。
1.信息数据库的类型
数据库的内容和形式非常丰富,几乎包罗万象。用户必须了解数据库的类型,以便根据不同的检索要求选择合适的数据库。对于数据库类型的划分,国内外划分方法各异,现根据数据库所含的信息内容划分为如下几种:
(1)文献型数据库(document database):
文献型数据库的存储信息内容为各种文献资料。早期的文献型数据库主要存储二次文献(如文摘、题录等),故又称为书目型数据库(bibliographic database),如CBMDisc 和MEDLINE 等数据库。这些数据库提供一些简单而基本的信息以及原始文献的线索,指引用户根据文献线索去获取原始文献。近年来,文献型数据库又出现了一种能存储文献全文或节选其中主要部分的数据库,即全文型数据库(full text database)。如中国期刊全文数据库和OVID 全文期刊库等。全文数据库有的有对应的印刷型文本,有的则是纯电子出版物。
(2)事实型数据库(fact database):
事实型数据库中存储的内容一般是用来描述人物、机构、事物等非文献信息源的情况、过程、现象、特性等方面的事实性信息。如医学术语、疾病的诊断方法、药物的用法和不良反应、化合物的结构与化学反应等。例如:美国MEDLARS 中的PDQ(Physician Data Query,医生咨询数据库),为医生提供有关癌症的预防、相关病因、诊断标准、治疗方案以及最近研究进展等信息;PDR(Physicians'Desk Reference,是反映药物处方信息的数据库)。电子版参考工具也属于事实型数据库。
(3)数值型数据库(numeric database):
数值型数据库主要提供一些能够直接使用的数值类信息,包括统计数据、实验数据、人体生理生化的各种数值、疾病发生和死亡数据、化学物质和药物的各种理化参考数等。例如:美国国家生物技术信息中心(NCBI)的GenBANK、美国疾病控制与预防中心(CDC)的Data and Statistics、世界卫生组织的WHOSIS(世界卫生组织统计信息系统)等。
(4)多媒体数据库(multimedia database):
多媒体数据库是文本、图像、视频、音频、动画等多媒体信息的结合体。
2.信息数据库的结构
数据库的结构主要由文档、记录、字段三个层次构成。
(1)文档(file):
文档的概念有两种含义,其一是指大型检索系统中的子数据库,它是根据数据库所属的学科范围和时间年限而定。其二是指构成数据库内容的基本形式。后者按其结构编排和功能的不同,可分为顺排文档(sequential file)和倒排文档(inverted file)。每个数据库都存有一个顺排文档和若干个倒排文档。
在书目型数据库中,顺排文档是若干个记录构成的信息集合。它以文献记录作为信息存储单元,按记录入藏的顺序号从小到大排列,相当于印刷型检索工具的正文部分。顺排文档是数据库的主体,亦称主文档,检索结果的信息都来自顺排文档。倒排文档是将顺排文档中所有记录的各种文献特征标识作为信息存储单元,按其字顺排列,并在每一个特征标识后注明相应的文献记录顺序号。不同的文献特征标识的组合就构成了不同类型的倒排文档,如著者倒排文档、主题词倒排文档等,它们相当于印刷型检索工具的辅助索引部分,亦称辅助文档。检索时,计算机将输入的检索提问词先在指定的倒排文档中找到相匹配的标识词,然后根据该标识词后的记录顺序号到顺排文档中调出相关的记录。可见,倒排文档的作用是供计算机直接检索使用。
(2)记录(record):
记录是构成数据库的一个完整的信息单元,由若干个字段构成。每条记录都描述了与原始文献信息有关的各种特征,这些特征(字段)为判定检索结果是否符合检索需要提供了依据。书目型数据库中的一条记录代表一篇完整的文献;其他类型数据库中的记录则是某种信息单元,如一组理化指数、一种治疗方案等。
(3)字段(field):
字段是构成记录的基本信息单元(数据项),是对原始信息的具体属性进行描述的结果。书目型数据库中的字段是描述文献内外特征的各项标识内容,如标题、著者、文摘、主题词、语种等等。每个字段都有各自的字段标识符(field tag),以供识别其所表达的文献特征,如标题字段的标识符为TI、著者字段的标识符为AU 等。另外在有些数据库中,某些字段是复合字段,如来源字段(LA)有期刊名、年、卷、期、页码等。
七、计算机检索技术
计算机检索技术通常是指把检索词用检索系统规定或允许使用的符号(运算符)连接起来构成的检索提问式,并在数据库的特征标识系统中进行的匹配检索技术。检索系统中常用的检索技术有以下几种:
1.布尔逻辑组配检索
布尔逻辑组配检索是在计算机检索系统中应用最为广泛的检索技术。它用来表达检索词之间或检索式之间的逻辑运算关系。布尔逻辑组配检索主要有“逻辑与”、“逻辑或”和“逻辑非”3 种,其符号分别为“and”、“or”和“not”(有的数据库则分别用“*”、“+”和“-”或“and not”来表示)。它们的逻辑运算关系如图1-5 所示(A 和B 分别代表两个检索词,阴影部分表示命中文献)。
图1-5 布尔逻辑运算示意图
(1)逻辑“与”(AND):
它是具有概念交叉关系或限定关系的一种组配。它要求检索出的文献记录应同时含有检索词A 和检索词B。“逻辑与”的作用是缩小检索范围,提高查准率。如:查找“胰岛素治疗糖尿病”的检索式为:胰岛素AND 糖尿病。
(2)逻辑“或”(OR):
它是具有概念并列关系的一种组配。它要求检索出的文献记录中含有检索词A,或者检索词B,或者同时含有两者均为命中文献。“逻辑或”的作用是扩大检索范围,提高查全率。如:查找“肿瘤”,英文检索式为:cancer or tumor or carcinoma or neoplasm。
(3)逻辑“非”(NOT):
它是具有概念排除关系的一种组配。它要求检索出的文献记录是在检索词A 的记录中去掉含有检索词B 的记录,即排除了不希望出现的文献记录。“逻辑非”的作用是缩小检索范围,提高查准率。但使用“逻辑非”检索时要慎重,因为它会把那些同时含有检索词A 和检索词B 的记录也排除在外,容易造成漏检。
在一个复合检索提问式中,可以用()来改变运算次序。各种布尔逻辑运算符是按照()>not>and>or的次序运算。因此,要正确处理各种逻辑运算符的次序关系,否则检索结果是迥然不同的。
2.截词检索
截词(truncation)检索是利用截词符附加在所截取检索词的局部进行文献检索的一种技术。它具有将同一词干的词全部查出的功能。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。不同的系统所用的截词符也不同,常用的有?、*等。
前截断如:?computer 可以检索出minicomputer,microcomputers 等。后截断如:comput?可以检索出computer,computers,computing 等。中截断如colo?r,可检索出color,colour 等。截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。
3.限定检索
是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,最常用的是限定字段检索,即限制检索词出现在数据库记录中的特定字段。如查找作者wang wei 写的文章,可以输入检索式:au=wang wei。限定字段检索是缩小检索范围、提高查准率的一种重要方式。
4.位置算符
利用逻辑运算符只是对一个记录中的某些检索词进行逻辑组配,而未限定检索词之间的位置关系。然而,某些检索课题要求几个检索词应紧紧相邻,或者同时出现在一个字段或句子中。这样,若不限制检索词之间的位置关系,就可能会产生歧义而影响查准率。对此,用户就要用机检系统中提供的能表示检索词之间位置关系的位置算符来解决这些问题。
所谓的位置算符是要求所组配的检索词应在同一记录中的同一字段内或同一句子内,并规定词间的相互位置而使用的检索符号。不同的检索系统中使用的位置算符不尽相同。例如:检索式为A with B,则表示检索词A 和检索词B 必须同时出现在同一记录中的同一字段内;检索式为A near B,则表示检索词A 和检索词B 必须同时出现在同一记录中的同一句子内。可见,位置算符的作用是“逻辑与”的延伸,更加明确检索词之间的逻辑关系,在一定程度上弥补“逻辑与”造成误检的不足,提高检索结果的准确性和控制检出文献的数量。
5.词组检索
就是将一个词组(通常用双引号""/“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。几乎所有的搜索引擎都支持词组检索,并且都采用双引号来代表词组,如“信息教育”。
八、信息检索效果的影响因素
评价检索效果的最重要的两个标准是查全率和查准率。查全率是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。查准率是指在利用某个数据库检索时,检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。
当检索出的文献数量过少或命中文献不多,不能满足课题需要时,应扩大检索范围,提高查全率。扩大检索结果的主要方法有:①使用上位词或分类号进行扩展检索;②增加同义词或近义词,或用OR 组配;③减少AND 或NOT 的组配;④采用截词检索技术;⑤减少或取消某些限制过严的限定检索。
当检索出的文献数量过多或查准率太低时,应缩小检索范围,提高查准率。缩小检索结果的主要方法有:①选择专指性较强的主题词或进行“二次检索”;②增加AND 连接,进一步限定主题概念;③用NOT 排除与检索提问不相关的文献输出;④增加副主题词;⑤使用限定检索或同字段、同句检索;⑥采用词组精确检索。
(董欲超)