联邦学习技术及实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.2.3 分布式机器学习对比联邦学习

首先,联邦学习在本质上也是一种分布式机器学习方法,将存储在多个设备或者多个公司中的数据进行聚合,以提升模型效果。但是在传统的分布式机器学习中,各个节点的数据是由一个中心节点进行分配的,因此各个节点的数据呈现以下特点:

(1)各个节点之间的数据是独立同分布的。

(2)各个节点的数据量是相近的。

(3)中心节点对各个节点的数据拥有访问的权限,且在训练时未考虑各个节点之间的隐私窥探问题。

在联邦学习中则要考虑更多、更复杂的情况,比如:

(1)各个节点(联邦参与方)的数据所有者均为自己,训练数据来源更广,因此数据量可能更大,同时这些数据不一定是独立同分布的。

(2)各个节点之间的数据量以及数据质量可能都存在较大差异。

(3)各个节点对自己的数据拥有绝对的自治权,因此需要考虑各个节点的隐私问题和掉线问题。

也就是说,联邦学习为传统的分布式机器学习提出了更多的挑战和愿景,对应的业务场景更加复杂,除了提高训练效率和模型准确性的目标,更加关注参与方的隐私问题。因此,需要结合隐私保护技术,设计更巧妙的方案,在不泄露参与方数据隐私的前提下,激励更多数据拥有者贡献自己的数据,完成模型的训练。