数据清洗
上QQ阅读APP看书,第一时间看更新

2.1 数据质量

2.1.1 数据质量的定义

1.数据质量介绍

数据无处不在,企业的数据质量与业务绩效之间存在着直接联系。随着企业数据规模的不断扩大,数据数量的不断增加以及数据来源的复杂性的不断变化,企业正在努力处理这些问题。

在大数据时代,数据资产及其价值利用能力逐渐成为构成企业核心竞争力的关键要素。然而,大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心背道而驰。因此,数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质量的数据则必然拉低数据应用的下限。

数据质量一般指数据能够真实、完整反映经营管理实际情况的程度,通常可从以下几个方面衡量和评价数据质量。

(1)准确性

准确性是指数据在系统中的值与真实值相比的符合情况。一般而言,数据应符合业务规则和统计口径。常见数据准确性问题如下。

● 与实际情况不符:数据来源存在错误,难以通过规范进行判断与约束。

● 与业务规范不符:在数据的采集、使用、管理、维护过程中,业务规范缺乏或执行不力,导致数据缺乏准确性。

(2)完整性

完整性是指数据的完备程度。常见数据完整性问题如下。

● 系统已设定字段,但在实际业务操作中并未完整采集该字段数据,导致数据缺失或不完整。

● 系统未设定字段或存在数据需求,但未在系统中设定对应的取数字段。

(3)一致性

一致性是指系统内外部数据源之间的数据一致程度,数据是否遵循了统一的规范,数据集合是否保持了统一的格式。常见数据一致性问题如下。

● 缺乏系统联动:系统间应该相同的数据却不一致。

● 联动出错:在系统中缺乏必要的联动和核对。

(4)可用性

可用性一般用来衡量数据项整合和应用的可用程度。常见数据可用性问题如下。

● 缺乏应用功能:没有相关的数据处理、加工规则或数据模型的应用功能。

● 缺乏整合共享:数据分散,不易有效整合和共享。

除此之外,还有其他衡量标准,如有效性可考虑对数据格式、类型、标准的遵从程度,合理性可考虑数据符合逻辑约束的程度。如对某企业数据质量问题进行的调研显示如下:常见数据质量问题中准确性问题占33%,完整性问题占28%,可用性问题占24%,一致性问题占8%,这在一定程度上代表了国内企业面临的数据问题。

2.企业在数据质量中面临的问题

目前,大多数企业存在的影响数据质量的主要问题如下。

(1)孤立的数据

孤立的数据又称“数据筒仓”,要么属于特定的业务单元,要么包含在特定的软件中。孤立数据的问题是,组织的其他部分无法访问它,因为该软件可能与任何其他内容不兼容,或者业务单元严格控制用户权限。虽然这些数据可能提供有用的,甚至是非常有价值的洞察力,但是它不容易被访问,因而业务不能对它形成一个完整的图景,更不用说从中受益了。

(2)过时的数据

由于不少企业结构庞大而复杂,有多个团队和部门,因此,跨组织收集数据通常是一个缓慢而费力的过程。不过当企业收集完所有数据时,其中一些数据在相关性方面已经落后,因此大大降低了其对组织的价值。

(3)复杂的数据

数据可以来自许多不同的来源和不同的形式。如有的数据来自智能手机、笔记本计算机、企业或个人网站,而有的数据则来自客户服务交互、销售和营销、小型数据库等。这些数据可以是结构化的,也可以是非结构化的,还可以是半结构化的。因此,企业中各种类型的数据也大大影响了其数据质量。

3.常见的数据质量问题

常见的数据质量问题可以根据数据源的多少和所属层次分为四类。

第一类,单数据源定义层:违背字段约束条件(比如日期出现1月0日)、字段属性依赖冲突(比如两条记录描述同一个人的某一个属性,但数值不一致)、违反唯一性(同一个主键ID出现了多次)。

第二类,单数据源实例层:单个属性值含有过多信息、拼写错误、空白值、噪声数据、数据重复、过时数据等。

第三类,多数据源的定义层:同一个实体的不同称呼(比如用笔名还是用真名)、同一种属性的不同定义(比如字段长度定义不一致、字段类型不一致等)。

第四类,多数据源的实例层:数据的维度、粒度不一致(比如有的按GB记录存储量,有的按TB记录存储量;有的按照年度统计,有的按照月份统计)、数据重复、拼写错误。

除此之外,还有在数据处理过程中产生的“二次数据”,其中也会有噪声、重复或错误的情况。数据的调整和清洗也会涉及格式、测量单位和数据标准化与归一化,以致对实验结果产生比较大的影响。通常这类问题可以归结为不确定性。不确定性有两方面内涵,即各数据点自身存在的不确定性和数据点属性值的不确定性。前者可用概率描述,后者有多重描述方式,如描述属性值的概率密度函数、以方差为代表的统计值等。

4.如何提高数据质量

目前,提高数据质量主要从以下几个方面入手。

(1)定义一套标准化的数据规范

提高数据质量的首要任务是定义一套标准化的数据规范,对具体数据项的定义、口径、格式、取值、单位等进行规范说明,形成对该数据项的具体质量要求。依托这套规范作为衡量和提高数据质量的标尺,可在数据采集、加工和应用的各环节对关键数据项进行预防性或监测性的核检。广义的企业级数据字典可以作为数据标准化规范的载体,对企业运营过程中涉及的数据项名称、业务定义和规则等要素进行收录、规范和编制,对数据项描述信息进行标准化处理,统一定义对安全性和数据质量的要求,进而为业务运营提供可靠的数据服务、提高整体数据质量奠定基础。理想情况下广义的企业级数据字典是完备的,企业各系统全部数据项都被数据字典收录,并且不允许存在同名不同义或同义不同名的情况。与此相对,狭义的数据字典通常是针对单一系统的技术属性标准,为单一系统的开发和应用服务。

(2)加大对数据质量的管理

数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。数据质量管理工作遵循业务引领的原则,确定重点质量管控范围,并动态调整阶段性管控重点,持续优化。可按照“谁创建、谁负责;谁加工、谁负责;谁提供、谁负责”的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。

(3)加大对开源工具的应用

开放源码工具(简称开源工具)提供数据质量服务,如解除欺骗、标准化、充实和实时清理,以及快速注册和比其他解决方案更低的成本。不过值得注意的是,大多数开源工具在实现任何真正的价值之前仍然需要一定程度的定制,因此,企业需要专门组织对新老员工的不断培训和学习。

企业要提高数据质量,可以从信息因素、管理因素、流程因素和技术因素等来综合考虑,全面实施。图2-1所示为影响数据质量的几大因素。

图2-1 影响数据质量的几大因素

2.1.2 数据质量中的常见术语

1.测量误差

测量误差是指测量过程中测量结果与实际值之间的差值。测量误差主要分为三大类:系统误差、随机误差和粗大误差。测量误差产生的原因主要归结为四大类:测量装置、环境、测量方法和测试人员。此外,测量误差按其对测量结果影响的性质,可分为系统误差和偶然误差。

2.数据收集错误

数据收集错误是指诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误,如:在特定的物种研究中可能混入相似物种的数据,或在工业数据中将电压值收集成了电流值等。值得注意的是,测量误差和数据收集错误可能是系统的,也可能是随机的。

3.遗漏值

在大型的资料采集任务中,即使有非常严格的质量控制,含有缺项、漏项的记录也可能很容易就达到10%,如在手工输入中遗漏了班级中某个学生的成绩数据等。遗漏值是统计人员和资料获取人员所不愿意见到的,但也是无法避免的。特别是在进行敏感问题的调查时,遗漏值问题就显得更加突出。

4.不一致的值

不一致的值主要是指在人工填写的数据中可能包含不一致的值,如账号和密码因为手误填写错误等。在数据仓库中,无论是什么原因导致的不一致的值都需要检测出来,并且予以纠正或清洗。