1.2.4 解决“数据孤岛”问题的难点与联邦学习的优势_联邦学习技术及实战-QQ阅读男生中文都市网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2.4 解决“数据孤岛”问题的难点与联邦学习的优势

结合目前国内外的企业、组织的数据存储现状和法律法规对数据共享的限制，要解决“数据孤岛”问题主要有以下难点。

（1）数据安全保护。如果我们要解决“数据孤岛”问题，那么需要将分散在不同组织中的数据分享给各方，或各方将数据分享到一个第三方协作平台，但是在这个过程中，除了需要考虑数据泄露问题[23]，也要考虑数据有没有可能被第三方协作平台恶意利用。这不仅是数据管理技术的需求，还涉及信任问题。

（2）数据格式与统一。即使我们对第三方协作平台信任，愿意将数据交付给第三方协作平台，这些数据到底能不能用也是一个值得思考的问题。由于数据来源于不同的企业和组织，很可能在数据格式方面不统一[24]。例如，同样是运营收入数据，在不同的企业中可能存在不同的分级方式：在A公司5000～6000可能为一级，在B公司5000～5500可能为一级，那么这些数据在数据融合的时候就会出现问题。

（3）数据传输速度。各方在数据传输过程中还会出现一些问题，如果把数据交付给第三方协作平台，在传输过程中数据的压缩和传输速度都可能不一样，目前还没有一种架构能够保证不同数据源的传输速度完全相同。除了传输速度，大数据时代的海量数据还会带来其他问题，如数据传输的成本。

（4）数据定价难。数据作为一种无形资产，不同于传统资产。它依托于特定的业务场景，可以被流转和复制，并且随着应用场景的变化，数据价值也相应地改变，因而数据资产的定价存在数据产权难以确定、交易标的难以确定、商业价值难以衡量、缺少定价标准等诸多难题。

在机器学习中，我们除了要考虑以上问题，还要考虑模型的准确性、安全性、可解释性等问题，而联邦学习作为一种面向安全的大数据的机器学习技术，和其他技术最本质的区别在于：联邦学习的应用场景十分广泛，并没有特别的领域或者具体算法限制，比如微众银行已经在故障检测、风控管理、智慧城市建设等领域中应用联邦学习技术。从“数据孤岛”问题来看，联邦学习提供了一种解决数据安全和“数据孤岛”问题的可行性方向。以纵向联邦学习为例，联邦学习系统在解决“数据孤岛”问题中主要有以下几个优势。

（1）安全性。通过引入RSA和Hash加密机制，保证了在多方交互过程中只用到交集部分，而差集部分不会产生数据泄露[25]，且对梯度和损失计算所需的中间结果进行加密以及额外的掩码处理，以保证真实的梯度信息不会向对方泄露。

（2）无损性。同态加密技术保证了在传输过程中各方的原始数据不会被传输，并且这些加密后的数据具有可计算性[26]。

（3）共享性。相对于单独一方，联合建模机制提高了模型的准确性，同时与数据集中建模相比，保证了模型质量无损和模型的可解释性。

（4）公平性。联邦学习技术保证了参与方的公平性，让各个参与方都能在数据独立的条件下建立联合训练模型。

除了上述几点，正如1.2.2节所述，在联邦学习技术实践应用时，用户还可能从数据中发现更多的数据价值和商机。