1.2.4 解决“数据孤岛”问题的难点与联邦学习的优势
结合目前国内外的企业、组织的数据存储现状和法律法规对数据共享的限制,要解决“数据孤岛”问题主要有以下难点。
(1)数据安全保护。如果我们要解决“数据孤岛”问题,那么需要将分散在不同组织中的数据分享给各方,或各方将数据分享到一个第三方协作平台,但是在这个过程中,除了需要考虑数据泄露问题[23],也要考虑数据有没有可能被第三方协作平台恶意利用。这不仅是数据管理技术的需求,还涉及信任问题。
(2)数据格式与统一。即使我们对第三方协作平台信任,愿意将数据交付给第三方协作平台,这些数据到底能不能用也是一个值得思考的问题。由于数据来源于不同的企业和组织,很可能在数据格式方面不统一[24]。例如,同样是运营收入数据,在不同的企业中可能存在不同的分级方式:在A公司5000~6000可能为一级,在B公司5000~5500可能为一级,那么这些数据在数据融合的时候就会出现问题。
(3)数据传输速度。各方在数据传输过程中还会出现一些问题,如果把数据交付给第三方协作平台,在传输过程中数据的压缩和传输速度都可能不一样,目前还没有一种架构能够保证不同数据源的传输速度完全相同。除了传输速度,大数据时代的海量数据还会带来其他问题,如数据传输的成本。
(4)数据定价难。数据作为一种无形资产,不同于传统资产。它依托于特定的业务场景,可以被流转和复制,并且随着应用场景的变化,数据价值也相应地改变,因而数据资产的定价存在数据产权难以确定、交易标的难以确定、商业价值难以衡量、缺少定价标准等诸多难题。
在机器学习中,我们除了要考虑以上问题,还要考虑模型的准确性、安全性、可解释性等问题,而联邦学习作为一种面向安全的大数据的机器学习技术,和其他技术最本质的区别在于:联邦学习的应用场景十分广泛,并没有特别的领域或者具体算法限制,比如微众银行已经在故障检测、风控管理、智慧城市建设等领域中应用联邦学习技术。从“数据孤岛”问题来看,联邦学习提供了一种解决数据安全和“数据孤岛”问题的可行性方向。以纵向联邦学习为例,联邦学习系统在解决“数据孤岛”问题中主要有以下几个优势。
(1)安全性。通过引入RSA和Hash加密机制,保证了在多方交互过程中只用到交集部分,而差集部分不会产生数据泄露[25],且对梯度和损失计算所需的中间结果进行加密以及额外的掩码处理,以保证真实的梯度信息不会向对方泄露。
(2)无损性。同态加密技术保证了在传输过程中各方的原始数据不会被传输,并且这些加密后的数据具有可计算性[26]。
(3)共享性。相对于单独一方,联合建模机制提高了模型的准确性,同时与数据集中建模相比,保证了模型质量无损和模型的可解释性。
(4)公平性。联邦学习技术保证了参与方的公平性,让各个参与方都能在数据独立的条件下建立联合训练模型。
除了上述几点,正如1.2.2节所述,在联邦学习技术实践应用时,用户还可能从数据中发现更多的数据价值和商机。