联邦学习技术及实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.1 “数据孤岛”的成因

通俗地说,在一个组织中,各级部门都拥有各自的数据,这些数据互有关系却又独立存在于不同的部门。出于安全性、隐私性等方面考虑,各个部门只能获取本部门的数据,而无法获得其他部门的数据。这就好像在信息技术这片大海之中,数据各自存储、各自定义,形成了海上的一座座孤岛,即“数据孤岛”[16~19]。这些“数据孤岛”由于受到内部隐私或者外部法律法规的约束无法进行连接互动,数据库彼此无法兼容。经过对国内外的各类“数据孤岛”现象进行分析,我们将其成因总结为以下三类。

首先,数据管理制度因素。欧洲国家的数据管理现状以英国为典型,英国政府从1980年开始就针对数据管理发布了一系列相关法律法规和政策,特别是对私人数据安全保护、信息管理,以及政府数据隐私管理等领域进行了相关约束,目前已经形成了一套相对完整的数据治理系统。尽管现在英国已经退出了欧盟,但是英国的大部分数据管理方案和数据隐私保护政策框架与欧盟都是相通的。在美国,私人数据和政府数据的管理是分开的。美国从1950年开始建立关于全国犯罪数据的管理系统,这些犯罪数据除了可以用于查询犯罪记录,还对企业招聘、个人背景调查、社会治理和政府计划起到了重要作用。但是,即使在相对完整的数据管理体系之下,如果在各个环节数据无法进行流通,那么最终也依然会演化成“数据孤岛”。虽然我国的大数据产业发展得很快,但是在数据管理与利用、数据安全、信息公开、政府数据开放与隐私保护、网络信息安全等方面目前还没有一套完备的数据管理系统。这也加剧了“数据孤岛”的形成[18,20]

其次,法律法规的约束已经成为世界性趋势。正如1.1节所讲,国内外对数据隐私保护纷纷出台相关法案,力图避免数据泄露带来的恶劣影响。在国内,自2017年6月起实施的《中华人民共和国网络安全法》加大了对个人信息的保护力度,其中严格要求任何个人和组织不得窃取或者以其他非法方式获取个人信息,并且不得非法向他人提供个人信息。在国外,2018年5月有着史上最严个人信息保护法规之称的数据隐私保护的法案《通用数据保护条例》正式出台,将数据保护范围进一步扩大[21]

除了以上两点,业界的一些学者和数据管理人员认为,利益和信任问题是形成“数据孤岛”现象的核心原因[22]。当数据的集中程度过高时就有可能产生大量的数据副本,容易引起数据泄露。假设有A公司和B公司,B公司出于业务1的需求,向A公司购买相关数据,并和A公司签署了合同,在合同中明确规定该数据只能用于业务1的需求。但是当A公司把相关数据给B公司之后,B公司到底如何使用数据,A公司就不得而知了。