联邦学习技术及实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 联邦学习的研究与发展现状

1.1 联邦学习的背景

1956年夏天,人工智能(Artificial Intelligence,AI)的概念在美国达特茅斯学院第一次被提出,人工智能领域就此诞生。经历了60多年的起起落落,人工智能经受住了时间的考验,逐渐发展成熟。特别是在AlphaGo击败了顶尖的人类围棋玩家后[1],人工智能引起了学术界和工程界对其发展潜力的极大关注,国内外掀起了对人工智能技术研究和应用的高潮[2],甚至在政府管理和城市建设中,也开始使用人工智能技术。

横看国内各行各业,纵观世界发展趋势,人工智能无疑是发展得最迅速的学科,越来越多的精英投身于人工智能的研究与发展中。从2011年至今,随着大数据[3]、边缘计算[4]、大型云计算平台[5]和各种开源框架的发展,机器学习(包括深度学习、强化学习)等人工智能技术以前所未有的速度应用到各个行业,不管是传统的自然科学学科(如地质学、数学等),还是现代新兴的工程应用学科(如金融工程、智能电网信息工程等),都开始引入机器学习技术推动学科发展[6],甚至有人将人工智能技术革命列为人类历史上的第四次工业革命,这足以看出人工智能技术对于人类社会发展和科学创新的重要性。

但是,人工智能技术在为我们带来机遇的同时,也带来了新的挑战。特别是随着大数据的发展,数据的隐私和安全引起了全世界的重视[7]。不管是个人、企业,还是组织,都不希望自己的隐私数据被泄露,但是现有的技术却无法提供良好的数据保护能力。2018年,Facebook因黑客入侵导致2900多万个用户的个人数据泄露,一下子陷入了舆论中,同时也引发了我们每个人对信息安全的思考:我们的隐私数据是否早已泄露,而我们却毫无察觉?为了加强对数据隐私安全的保护,各国开始纷纷出台各类法律法规,希望能够从法律层面规范和保护数据安全。

2018年5月,欧盟发布了新法案《通用数据保护条例》(General Data Protection Regulation,GDPR)以加强对用户数据隐私保护和对数据的安全管理[8]。2019年10月,中国人民银行推出了《个人金融信息(数据)保护试行办法》(初稿)的规定。该规定声明“不得以‘概括授权’的方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意”。金融信息几乎囊括了移动互联网的所有数据,在这样的新要求之下,即使重新签订授权协议,也依然有一大批互联网公司被查、被关停,这无疑给人工智能技术在金融行业的发展迎头一击。

数据使用的限制使得互联网数据分散在不同企业、组织中,形成了“数据孤岛”现象,各方数据不能直接共享或者交换,而面对这个问题,人工智能的学术界和企业界目前并无较好的解决方案来应对这些挑战[9],人工智能的发展开始进入瓶颈期。因此,如何在解决“数据孤岛”问题的同时保证数据隐私和安全,成为各界最关注的事情。正是在这样的背景之下,联邦学习(Federated Learning,FL)横空出世,为信息技术发展带来了新的希望[10]

在联邦学习的概念提出之前,国外已经出现了一系列相关研究工作。早在20世纪80年代早期,研究人员就已经展开了针对数据隐私保护的密码学研究。Vaidya等人首先在使用中央服务器学习本地数据的同时进行保护隐私的早期研究[11]。随着“数据孤岛”问题的凸显,联邦学习在统计机器学习[12]安全多方计算[13]等技术的基础之上发展得日趋成熟,并开始演化出横向联邦学习、纵向联邦学习、迁移联邦学习三大研究范围。2017年4月,谷歌研究科学家McMahan等人发表Federated Learning:Collaborative Machine Learning without Centralized Training Data[14],标志着联邦学习第一次进军机器学习领域,文中介绍了用户可以通过移动设备利用联邦学习训练模型。2019年2月,谷歌基于TensorFlow构建了全球首个产品级可扩展的大规模移动端联合学习系统,并且已经实现了在千万台设备上运行;谷歌还发表了Towards Federated Learning at Scale:System Design[15],并发布了全球第一个联邦学习框架:TFF框架(TensorFlow Federated Framework)。2019年5月,谷歌开发者还特别推出了《什么是联盟学习》的中文漫画对联邦学习进行介绍。除了谷歌,Facebook的PyTorch框架也支持实现隐私保护的联邦学习技术,同时其AI研究小组同步推出了Secure and Private AI课程,讲述了在PyTorch框架下如何使用联邦学习技术。

现在,我们把视线转移到国内,国内的联邦学习虽然起步晚于国外,但是发展迅速。在2018年的中国人工智能大会(Chinese Congress on Artifical Intelligence,CCAI)上,CCAI名誉副理事长杨强教授进行了题为《GDPR对AI的挑战和基于联邦迁移学习的对策》的主题演讲,引入了联邦迁移学习技术的相关研究思路。他提出了一个应对各个国家、组织发布的数据隐私保护法案的新方向,那就是直面数据隐私保护需求,将对数据安全的考虑归入机器学习技术框架中。对数据隐私安全的保护是世界性趋势,我们必须从技术上解决它。联邦学习便提供了这样一种技术,保证了各个企业在无须直接共享数据的前提下实现协作建模。

国内企业纷纷开始进行联邦学习布局。2019年,杨强教授带领的AI团队开源了全球首个联邦学习框架FATE(Federated AI Technology Enabler),作为安全计算框架支持联合AI生态系统,并且发布了《联邦学习白皮书》(Federated Learning White Paper)。百度大脑基于数据隔离技术和安全多方计算,采用联邦学习技术构建了面向企业客户的大数据服务开放平台——“点石”,推进了联邦学习服务生态的发展。在金融风控方面,基于联邦学习框架,京东科技集团研发出联合建模工具——“联邦模盒”,在符合法律法规及监管政策的前提下进行技术探索,并参与由监管部门牵头的对行业标准和规范的研讨。这个工具通过隐私保护的分布式机器学习,可以在隐私数据不出库且不能被反推的情况下提升模型的效果。

目前,正值人工智能发展的关键期,联邦学习技术将为整个行业带来革命性的突破,突破人工智能的发展瓶颈。国内外各大互联网巨头纷纷开始进行联邦学习布局,“数据隐私安全保护”与“数据孤岛”问题即将被解决,联邦学习将为世界展现一个新的、更美好的未来。目前,关于联邦学习的综合性书籍较少,我们希望以通俗易懂的语言为读者描述一个新的透彻的“联邦学习”世界。本书聚焦于国内外联邦学习技术的研究和发展,对联邦学习的基础(包括发展现状、安全计算、统计机器学习等)、方法(包括联邦交集计算、特征工程、横向联邦学习等)和应用(包括联邦学习框架、产业案例等)进行详细的介绍。