1.1.1 数据的含义
“数据”一词最早出现在拉丁语中,含义是“给予的事物”,后来其随着数学和神学进入英语[1]。随着经济社会的发展和技术的进步,出现了很多关于数据的不同认识和定义。
• 联合国欧洲经济委员会(the United Nations Economic Commission for Europe,UNECE)将数据定义为信息的实体表现形式,这一表现形式适用于人工或自动化手段交流、转译或处理[2]。
• 美国国际空间数据系统咨询委员会(Consultative Committee for Space Data Systems,CCSDS)给出的数据定义是以适合于交流、解释或加工的形式化方式进行的可重新解释的信息表示形式。比特序列、数值表、页面中的字符、讲话录音、月球岩石标本等都是数据[3]。
• 国际数据管理协会(DAMA International)认为数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现的形式,是信息的原始材料[4]。
• 曾任国际科学理事会(International Science Council,ISC)信息和数据战略协调委员会(Strategic Coordinating Committee on Information and Data,SCCID)成员的彼得·福克斯(Peter Fox)和瑞·海瑞斯(Ray Harris)认为数据至少包括数字观测、科学监控、传感器数据、元数据、模型输出和场景、定性或观察的行为数据、可视化数据、出于行政或商业目的而收集的统计数据;数据通常被视为研究过程的输入[5]。
• 2019年美国《开放的、公开的、电子化的及必要的政府数据法案》(The Open, Public, Electronic, and Necessary Government Data Act,简称《开放政府数据法案(The OPEN Government Data Act)》)将数据定义为以任何形式或介质记录下来的信息;开放政府数据时特别指明数据需要满足机器可读的条件。
传统意义上的数据是指数值,例如温度为26.6℃、长度为100 m等,但IT领域将数据概念扩大了,数据还包括“Asset”“数据资产”“2020/07/31”等符号、字符、日期形式的数据,以及文本、声音、图形、图像和视频等类型的数据,而且政府文件、出行记录、住宿记录、软件聊天记录、网上购物记录、银行消费记录等也都是数据。
数据存储形式主要有纸质(现实世界实物型)和电子媒介(网络空间(Cyber Space)数字型)两种。一方面,这两种形式无论在规模还是在流通方式上都存在本质区别,例如1 PB的电子数据相当于30个中国国家图书馆2017年的藏书规模,而1 PB规模是大数据领域的一个基础度量。网络空间里面的数据和网络空间外面的数据是有很大差异的,网络空间里面的数据是通过计算机处理的,而网络空间外面的数据是人通过手工或脑力直接处理的。显然,我们很难靠人力去读完30个中国国家图书馆里面的图书,并进行知识整理,但1 PB的数据是大数据技术经常要处理的。另一方面,30个中国国家图书馆的图书资产和1 PB数据的资产无论在度量方面还是计价方面也都是完全不同的。
因此,本书将数据界定如下。
数据:是指网络空间里的所有东西,是网络空间的唯一存在,即电子数据。
网络空间:是指计算机网络、广电网络、通信网络、物联网、卫星网等所有人造网络和设备构成的空间,这个空间真实存在。电脑、手机、移动硬盘等都是网络空间的组成部分。现在,空调、冰箱、自动窗帘、电子门锁等也已经成为网络空间的组成部分。
如果把网络空间比喻成碗,那么网络空间这个碗里装的是“数据”。网络空间里的任何东西都是数据。