联邦学习技术及实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.2 具体实例

从国内的现状来看,数据主要掌握在政府部门、数据运营商、企业三大“数据孤岛”中。数据被独立地存储于各个“孤岛”中,使得数据的共享十分困难。在“数据孤岛”内部,由于数据无法完全地在内部各个组织间流通,还会存在一些小的“数据孤岛”,也就是“岛中岛”现象(如图1-1所示)。这是比较典型的“数据孤岛”现象,还有一些看起来不太明显的“数据孤岛”,比如A公司的数据可能对B公司有用,但是A公司和B公司都不知道,它们自己都没有意识到“数据孤岛”问题,只是独立收集和独立存储着自己的业务数据。数据一旦可以共享,就会对政府部门、数据运营商、企业产生巨大的商业价值。本节将用几个案例详细地介绍“数据孤岛”现象和联邦学习在消除“数据孤岛”方面的优势,而对于可能遇到的挑战难点将会在1.2.4节中详细说明。

图1-1 政府部门“数据孤岛”、数据运营商“数据孤岛”、企业“数据孤岛”示意图

(虚线表示无法流通,彼此独立)

案例一:金融服务的“数据孤岛”

金融服务是提高生活水平、促进生产和消费的重要途径,在社会经济发展中具有重大意义。金融服务所产生的数据包括用户的实名信息、担保信息、借贷信息、还款和催收信息等,这些数据是非常有价值的。例如,借款后失联可认为是欺诈行为;连续在多个金融机构借款,可认为是资金链断裂、拆东墙补西墙的多头借贷行为等。存在这些行为的用户具有比较高的风险,金融机构找出这类用户后阻断放款,可以减少坏账造成的损失,从而降低经营成本,为优质用户提供更优惠的贷款,吸引更多用户实现规模扩张,在为用户提供便利的同时,促进经济健康发展。

然而,对于用户来说,这些数据属于隐私信息,数据泄露将给用户造成巨大的损失。这使得大量金融服务数据只能保存于公司内部,形成金融服务数据的一个个“孤岛”。

案例二:消费行为的“数据孤岛”

经过20多年的发展,在网上购买商品已成为很多人的生活习惯。电商平台提供了各式各样的商品,以及质量保障服务、便捷的送货到家等各种服务。小到各种零食、牙签,大到家用电器都可以在电商平台买到,甚至还能买到房产。2020年,电商平台更成了人们生活中必不可少的一部分,不仅让人们得到了更多的实惠,还降低了交叉感染的风险。电商平台经常会做促销活动以便吸引新客,然而这催生了一批“黑灰产业”用户。他们利用虚假身份和规则漏洞套取非法利益,造成了电商平台的损失。在套取非法利益的同时,这些用户也在电商平台留下了消费行为数据,可作为“黑灰产业”用户的识别依据,据此可以帮助其他互联网服务防止这些用户带来更多损失。然而,消费行为数据也是用户的隐私,只能在电商平台的公司内部保存和使用,这便形成了消费行为的“数据孤岛”。

从上述两个例子中,我们可以看出,“数据孤岛”其实存在于生产消费的方方面面,所产生的数据仅在“孤岛”内部发挥了作用。若各个机构间进行合作,联合利用各方数据,则可以更充分地挖掘数据中蕴含的价值。

(1)在案例一中,金融机构详细地记录了用户的实名信息、担保信息、借贷信息、还款和催收信息等。我们可以通过各家金融机构所记录的用户信息联合建模,辨别高风险用户,以加强对不良用户的放贷管控,使得信用良好的用户可以享受到更好的服务,形成正向循环。

(2)在案例二中,用户在各家电商平台上留下了消费记录,我们可以整合电商平台和其他互联网服务的用户数据,对利用虚假身份套取非法利益的“黑灰产业”用户进行辨别,以减少其他电商平台和互联网服务被非法套利的损失。