第一节 概述
一、数据
数据(data)是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。
数据不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。
数据的概念十分宽泛,在每个领域,数据都可以有不同的表述。在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。
信息(information)与数据既有联系,又有区别。数据是信息的表现形式和载体,而信息是数据的内涵,信息是加载于数据之上,对数据做具有含义的解释。数据和信息是不可分离的,信息依赖数据来表达。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的。数据是信息的表现形式,信息是数据有意义的表示,数据只有对实体行为产生影响时才成为信息[1]。
数据语义(semantic)是数据“升华”为信息的桥梁。数据的表现形式还不能完全表达其内容,需要经过解释,经过解释的数据就成为信息。例如,40是一个数据,可以是患者的体重,或是患者的体温,还可以是患者的诊疗费用,如果没有解释,这个40并没有实际意义。数据的解释是指对数据含义的说明,数据的含义称为数据语义。有关语义的详细内容,读者可阅读本书相关内容。
随着社会进步和科学发展,特别是进入大数据时代,数据在国民经济、社会生活和国家治理中扮演着越来越重要的角色、发挥着越来越重要的作用。2015年国务院印发《促进大数据发展行动纲要》,将大数据发展上升到国家行动和国家战略层面,未来的时代将是数据时代。
医疗卫生领域数据是社会经济活动中最常用的数据之一。医疗卫生领域数据具有以下特点:①种类繁多:包括人口健康数据、医疗保健数据、公共卫生数据、疾病控制数据、卫生监督数据等;②形态各异:包括数字、字母、符号、图形、图像、语音和光电等;③结构不同:既有连续的模拟量,也有离散的数据量,有结构化的,也有非结构化的。可以说,医疗卫生领域数据是所有数据中最复杂的一类。
例如,医院信息系统应用包括以下常用的数据类型。
1.病历
病历数据通常由数字、字母、符号和图形等组成。病历数据可以有结构化和非结构化两类,目前常用的是非结构化的自由文档的格式(自然语言),或即在一定模板框架下医生可自由编辑书写。
2.医嘱
医嘱数据主要由数字、字母和符号组成。医嘱数据通常可采用结构化表达。
3.检验结果
检验结果数据主要由数字和字母组成,部分检验结果数据需要采用图表和图像表示。数字和字母组成的检验结果数据可采用结构化表达。
4.检查结果
检查结果数据的文字报告通常由数字、字母和符号组成;图片报告则由图像、图形、线条等组成。检查结果的图像通常采用DICOM标准格式。
5.药品
药品数据主要由数字、字母组成。药品数据可用结构化表达。
6.耗材
耗材数据主要由数字、字母组成。耗材数据可用结构化表达。
7.费用
费用数据主要由数字、字母组成。费用数据可用结构化表达。
8.患者管理
患者管理数据包括患者基本信息、挂号、入出转、床位等数据,主要由数字、字母组成,可采用结构化表达。
医疗卫生领域需要使用大量类型和结构不同的卫生数据,为了便于管理和应用,人们需要对数据进行命名、分类、表达、编码等处理,这个处理过程就是数据标准化过程。
二、数据元
从上述对数据的讨论可知,数据需要解释才有使用价值。对数据的定义、命名、建模、分类、编码、赋值等都是对数据的解释。长期以来,人们对数据的解释提出了大量的技术和方法,本部分介绍目前在国内医疗卫生领域广泛应用的数据元模型。
数据元(Data Element)是指由一组属性规定定义、标识、表示和允许值的数据单元。数据单元是信息的基本单位,例如住院病案首页中的病案号、姓名、入院诊断、主要诊断等都是基本的数据单元,为数据单元赋予属性就成为数据元。
建立数据元的目的是建立标准化的数据表达方式和采集、存储格式,以实现数据的正确表达及准确交换,实现数据在形式和内容上的统一,为数据的互联互通和集成共享提供支撑。
卫生信息数据元是应用于医学信息领域的数据元,其概念与通用数据元保持一致,但具有医疗卫生领域的特点,涵盖医疗、卫生、疾控、保健、中医的服务和管理等。用于医疗机构与外部系统进行信息交换,医疗机构系统之间进行信息交换,医疗机构系统内部之间进行信息交换,设计数据模型、数据库的参考等。
数据元是卫生信息的最基本的结构化(标准)单元,每一项医疗卫生业务信息都可由若干数据元组成,例如一张标准格式的病案首页就由190个数据元组成[2]。围绕一定业务主题形成的数据元集合称为数据集,数据元的实际应用通常是以基本数据集的形式实现的。
数据元与医疗卫生信息系统常用的数据字典是有区别的,数据字典通常主要用来解释一个数据库的表、字段等数据结构意义、数据字段的取值范围、数据值代表意义等。数据元与数据库无关,它是由一组属性规定的数据单元,其属性规定来自元数据。
三、元数据
元数据(metadata)是用来定义数据的数据,是描述数据或信息资源的组织、数据域及其关系的信息,又称为数据的数据。
元数据是描述其他数据的数据,或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单、高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
元数据具有以下基本特点。
1.元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境,元数据的开发与利用环境往往是一个变化的分布式环境,任何一种格式都不可能完全满足不同团体的不同需要。
2.元数据首先是一种编码体系。元数据用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别。元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
卫生信息元数据体系构建了卫生信息系统的逻辑框架和基本模型,从而决定了卫生信息系统的数据结构、功能特征、运行模式和系统运行的总体性能。卫生信息系统的运作是基于元数据来实现的。
元数据可以理解为从不同角度,或用不同的属性来定义数据元,即对数据元进行标准化,这些不同的角度或属性形成了各种不同的元数据模型[3]。
除了元数据概念,信息标准化中还会经常用到元模型(metamodel)的概念。与元数据一样,元模型是用来描述其他模型的模型[4]。
元数据早期用于图书资源描述,现在广泛用于不同领域间的资源和互操作性描述。1995年3月在都柏林召开的第一届元数据研讨会上,产生了一个精简的元数据集——都柏林核心元素集(Dublin Core Element Set)。由于它的简练、易于理解、可扩展及能与其他元数据形式进行桥接等特性,使它成为一个良好的网络资源描述元数据集。2003年,都柏林核心元数据元素集(The Dublin Core Metadata Element Set)被国际标准化组织(ISO)批准为国际标准ISO15836 Information and documentation-The Dublin Core metadata element set。我国于2010年修改采用ISO15836,发布了GB/T25100-2010《信息与文献 都柏林核心元数据元素集》,成为国家标准[5]。
基于都柏林核心元素集,国际标准化组织(ISO)和国际电工委员会(IEC),1995年发布了ISO/IEC 11179:1995 Information technology-Specification and standardization of data elements《信息技术-数据元的规范与标准化》,2002年我国等同采用ISO/IEC 11179,发布GB/T18391-2002《信息技术-数据元的规范与标准化》,用于指导国内数据元标准的开发与管理。2004年,ISO/IEC 11179更名为Information technology-Metadata Registries(MDR)《信息技术 元数据注册系统》。2009年,GB/T18391-2002也被GB/T18391-2009《信息技术 元数据注册系统(MDR)》代替。
国内卫生信息数据元标准的开发,遵守的是GB/T 18391《信息技术 元数据注册系统(MDR)》。掌握GB/T 18391描述的数据元模型原理和方法,是做好卫生信息数据元标准的开发的前提。