前言
写作背景
联邦学习迅速成了产业界的宠儿,很多互联网企业纷纷投入研发资源,并进行市场布局。这项技术于2016年被谷歌提出,在2019年年初被引入国内,在2020年即已出现数十家企业提供的产品,并出现了大规模的商业应用,这种速度在新技术应用中实属罕见。
究其原因,是因为联邦学习可以解决企业之间的“数据孤岛”问题,让企业可以通过使用更多的数据提高AI模型的效果,为用户提供更便捷的个性化服务。同时,在这个过程中数据是安全的,用户的隐私信息不会被输出和泄露,因此这项技术不但不会损害合作企业的利益,而且可以为其带来额外的收益。对于用户而言,他们既可以享受个性化服务质量的提升,又不用担心具体隐私信息的传播,有利而无害,因此愿意授权互联网服务商通过这种安全的方式使用外部数据。对于市场监管而言,这种方式的跨企业数据服务不是直接复制数据,而是需要通过联邦网络,由联邦参与方共同确认才能产生结果,这解决了使用传统方式造成的数据被任意复制、难以监管的难题。
从技术层面来看,联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,涉及面较广,部署实施难度大,很多具体问题需要跨领域的综合知识才能解决。一方面,在人才市场中这种综合型人才十分稀缺,很多项目都面临无人可用的困境。另一方面,越来越多的人关注到联邦学习这个新兴技术,希望系统地掌握联邦学习的原理,并在产业应用中解决具体问题。不幸的是,市面上相关的书籍还很少,网络博文往往不够系统和深入。我们在联邦学习产品化、探索实践的过程中积累了大量经验,撰写了这本关于技术与实战的书,希望帮助读者更好地掌握联邦学习,在符合法律法规及现有监管政策的前提下开展对联邦学习技术的探索。我们也希望与互联网伙伴一起,组建更大的联邦网络,在确保用户隐私数据安全的前提下,为用户提供更优质的服务,促进跨企业大数据行业的健康发展。
如何阅读本书?
本书详细地阐述了联邦学习的相关概念,同时给出了较多案例,适合对联邦学习感兴趣的读者阅读。本书在必要之处给出数学公式,读者在阅读这些小节时需要具备统计学的基础知识。
我们对本书进行了系统性的编排和统筹。本书共12章,包括联邦学习基础、具体的联邦学习算法、联邦学习的产业应用和展望三大部分。各个部分相对独立,读者可依据目标和兴趣进行有选择性地重点阅读。
第1章~第3章为联邦学习基础,旨在帮助读者了解联邦学习的市场背景、技术现状,以及基础的隐私保护技术、机器学习技术和分布式计算技术。建议联邦学习的初学者和求职者重点阅读这个部分,借以梳理清楚联邦学习的基本问题和基本技术。第1章从全局的角度概述了联邦学习的基本问题,用于建立对联邦学习的总体认识,主要由陈玉林和范昊撰写。第2章介绍多方计算和隐私保护,是联邦学习成功地解决数据孤岛问题,实现跨企业大数据融合的关键,主要由周帅撰写。第3章介绍传统机器学习,包括基本概念、方法和效果评价,是联邦学习建立联合模型、有效地利用多方数据解决业务问题的基础,主要由王帝撰写。
第4章~第8章为具体的联邦学习算法,旨在帮助读者了解具体算法的应用背景、特点和扩展方法,进而帮助读者根据需求选择合适的算法,适合联邦学习从业者进行重点阅读。第4章介绍联邦交集计算的相关理论和具体方法,用于提供联邦数据之间的对应关系,主要由王森和何天琪撰写。第5章介绍联邦特征工程的相关理论和具体方法,用于为联邦学习提供符合业务需求的输入数据,同时还可以减少噪声、提高效率等,主要由张一凡撰写。第6章~第8章分别介绍纵向联邦学习、横向联邦学习和联邦迁移学习这三种方案的架构、方法和案例。纵向联邦学习用于解决相同用户在不同企业场景中产生的数据的联合建模问题,主要由陈忠和李怡欣撰写。横向联邦学习用于解决不同用户在相同场景中产生的数据的联合建模问题,主要由敖滨和张润泽撰写。联邦迁移学习用于解决不同用户在不同场景中产生的数据的联合建模问题,主要由王森撰写。
第9章~第12章为联邦学习的产业应用和展望,旨在帮助读者了解联邦学习技术的商业应用现状、挑战、趋势,以及与数据资产和要素市场的关联,据此引发读者进一步思考。该部分较为宏观,涉及面广,适合联邦学习相关的项目管理者重点阅读。第9章介绍了常见的开源架构、训练服务和推理架构,并对具体部署过程中遇到的通信、资源不足等问题给出了优化方案,主要由张德、陈行、闫玉成、孙浩博、黄乐乐、肖祥文撰写。第10章介绍产业案例,包括联邦学习在医疗健康、金融产品广告投放、风控金融等场景中的应用,主要由王博、季澈和石薇撰写。第11章从数据自身价值出发阐述数据资产的相关概念和特征,据此引出联邦学习应用中的激励机制和定价模型,主要由吴极、孙果和周帅撰写。第12章介绍联邦学习的挑战和可扩展性,由陈玉林和陈晓霖撰写。
致谢
本书是很多人共同努力的结果,在此感谢各位作者的辛勤付出。同时,在本书后期的整理和内容统筹过程中,何彦婷、刘云、孟璐、张竹清等同事做出了贡献,在此表示衷心的感谢。
我们也要感谢刘威。通过他的介绍,我们和电子工业出版社的石悦编辑相识,最终达成了合作。在审稿过程中,石悦编辑多次邀请专家给出宝贵意见,对书稿的修改完善起到了重要作用。在此感谢石悦编辑对本书的重视,以及为本书出版所做的一切。
由于作者水平有限,书中不足之处在所难免。此外,由于联邦学习方兴未艾,技术不断完善,新算法层出不穷,本书难免有所遗漏,敬请专家和读者批评指正。
彭南博 王虎
2020年12月