联邦学习技术及实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.6.2 差分隐私

为了避免个人数据被恶意使用或企业的敏感信息被泄露,数据发布者往往会采用一些数据隐私保护技术,例如对数据进行随机扰动或进行匿名化处理等,但是即使数据是匿名化的,也不能完全保证私有隐私数据的安全。例如,当攻击者得到了部分泄露的信息时(常见的攻击方式将会在1.6.4节中介绍),攻击者可以通过合并重叠数据获取到其他的信息,或者通过对多次查询结果的比较获得有效信息。

针对上述信息泄露风险,Dwork等人提出差分隐私[37]。一般来说,满足差分隐私条件的数据集可以抵挡住对隐私数据的任何一种分析,因为差分隐私具有信息论意义上的安全性。差分隐私能够保证攻击者获取的部分数据几乎和他们从没有这部分记录的数据集中能获取的相差无几,因此这部分数据内容对于推测出其他的数据内容几乎没有用处[37~41]。差分隐私技术的最大优点在于即使对于大规模的数据集,也只需添加少量噪声即可实现高度的隐私保护。

在实践方面,苹果公司在2016年6月宣布,将通过差分隐私收集iPhone中的行为统计数据,这标志着差分隐私算法正式在实际生活中应用,我们可以通过差分隐私在获取数据价值的同时保护个人的信息隐私。同时,很多学者和工程师也开始关注差分隐私的发展和应用。尽管苹果公司没有公开具体的技术实现细节,但是我们可以推测苹果公司使用的差分隐私算法可能和谷歌的RAPPOR项目使用的算法很相似,谷歌在Chrome中使用差分隐私随机响应算法收集行为统计数据。除此之外,苹果公司还通过使用本地化差分隐私技术来实现iOS/macOS的用户个人隐私保护,并且计划将差分隐私算法应用于Emoji、查找提示和QuickType输入建议中。