打造破解数据“可用不可见”的武器——华控清交
多方计算技术
多方计算理论(multi-party computation)是由姚期智教授于20世纪80年代最先提出,并从数学上证明了凡是可以在数据明文上进行计算的理论上都可以在密文上直接进行计算,并得出与明文计算完全一致的结果,同时提出了在密文上计算的方法。
近年来,随着数据安全融合的需求呈爆发式增长,多方计算逐步实现了工程化。多方计算是对明文计算的有力补充,适用于高敏感度和高价值关键数据的计算,能够有效化解数据隐私保护与数据融合之间的矛盾。实现多方计算技术的机制包括基于秘密共享、混淆电路、不经意传输、同态加密,以及基于公钥技术和半同态加密等。这些机制都是密码学技术的综合运用,是不完全依赖计算环境安全且保证数据可用的高安全级别数学变换。通用的多方计算是采用重载最基本的加法(或者XOR)、乘法(或者AND)及比较运算达成的,任何计算逻辑均可通过安全的加法和乘法运算复合而成。
多方计算技术是专门为数据安全融合而生的技术,其突出特征是多个参与方可以协同计算一个以各自数据密文作为输入的指定函数,整个计算过程中无须解密还原出数据明文。其安全假设是不信任硬件、不信任软件、不信任人,因此,即使在一方甚至多方被攻击的情况下,多方计算技术仍能保证这些输入不被意外泄露,同时保证计算结果的正确性。随着计算机理论和技术的飞速发展,目前多方计算已经具备了初步实用性,应用手段也正在不断取得突破。姚期智教授领衔创立的华控清交信息科技(北京)有限公司(以下简写为“华控清交”)在这个领域走在世界的最前列,以“数据可用不可见”解决了数据信息泄露问题,以“数据按用途用量使用”解决了数据滥用问题,并且在工程上还实现了密文和明文混合计算及动态数据密文(数据流)计算。华控清交通过多方计算技术,建立了一套允许互不信任的参与方在保护隐私信息且没有可信第三方的前提下,进行协同计算并能得到正确结果的隐私计算体系。以此技术建立的计算平台具有确保输入的独立性、计算的正确性、分布式计算等特征,同时不把各参与方的输入值泄露给参与计算的其他任何成员。在确保数据不会泄露的前提下,打破政府各部门之间、政府与不同行业之间的数据壁垒,连接数据孤岛,为我国加快推进数据要素国家战略奠定基础。
多方计算技术全方位丰富了金融机构在“获客营销-风险防控-监管治理”等全流程运营中可用的数据维度,既保障了各方数据安全,又有效实现了金融业自身的高质量发展。在获客营销方面,基于多方计算的典型应用场景为客户精准画像。金融机构通过与互联网平台及SaaS (软件即服务)企业合作,接入数据安全融合平台,由此获得全方位客户画像,更精准地判断融资主体风险。并且,金融机构还可通过开通线上获客渠道,有效扩大自身目标客户群,在降低信息获取成本的同时打通银行产品营销及贷款融资等业务通道,降低小微企业融资成本。在风险防控方面,多方计算技术可以构建提供隐私查询服务的黑名单共享平台,实现查询金融机构不知道各数据提供方提供的黑名单的具体内容,数据提供方不知道查询金融机构的具体查询条件,各数据提供方相互不知道其他金融机构提供的具体黑名单内容。另外,黑名单查询平台可限制查询方法,但不能获取任何其他查询信息,查询金融机构须被查询机构授权才能解开查询结果密文,获得黑名单具体结果。通过此机制,金融机构将大大提升风控效能。在监管治理方面,多方计算技术可实现基于隐私保护的穿透式监管。在不损害现有监管数据利益格局的前提下,负责系统性金融风险监测的监管机构可通过多方计算技术,对涉及多方交易的行为发起交易真实性核验,在不泄露业务细节的情况下,综合全流程监管信息建立监测分析模型,把资金来源、中间环节与最终投向穿透连接起来,透过金融创新表象全方位、自动化分析金融业务本质和法律关系,精准识别、防范和化解金融风险,强化监管渗透的深度和广度。
获得政务数据的重要性
政务数据在金融、医疗、教育等领域有丰富的应用场景。我国中央及多地方政府已陆续建立起政务大数据共享及融合平台,并针对数据隐私和安全保护的问题着手开展相关制度的建立。有研究显示,政务数据在我国金融机构的风控及决策环节至关重要。然而,鉴于我国当前的相关法律体系尚不完善,保障数据安全和个人隐私是连通政务数据和金融业所面临的主要挑战。对此,基于多方计算技术的数据安全融合平台可在明确各方数据所属权和管理责任的情况下,实现政务数据在金融机构“可用不可见”,在保障政务数据安全的同时,充分释放政务数据在金融领域的应用价值红利。
第一,政务数据开放相关政策的要求。为有效管理并应用政务数据资源,实行及时有效的社会监管和治理,我国自2004年起陆续发布了一系列关于推进数字化政府建设及信息有序共享的政策。近年来,政务数据的开放共享被提升至“国家战略”地位。2015年,国务院印发《促进大数据发展行动纲要》,提出加快政府公共信息资源开放,并要求在2018年年底前建成国家政府数据统一开放平台,率先在金融、信用、交通、医疗等20个领域实现公共数据资源合理适度向社会开放。为响应此纲要,我国自2018年起陆续上线了50余个符合政府数据开放基本特征的中央部委、地级市及以上平台。这些开放数据主要以各机构建立的公开数据信息服务网站形式呈现,但并未融合至统一的共享体系。
2016年,为继续推进政务数据开放共享,国家发改委印发了《关于组织实施促进大数据发展重大工程的通知》,进一步提出构建完善公共数据开放制度和建立统一的公共数据共享平台的基础设施。2020年,中共中央和国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,明确把数据列为生产要素,并提出了加速培育数据要素市场的三点要求:推进政府数据开放共享、提升社会数据资源价值及加强数据资源整合和安全保护,其中把政府数据开放共享作为数据要素市场培育的基础。
第二,金融领域存在应用政务数据的迫切需求。金融业天然具有数字基因,特别是近年来,我国深刻认识到发展金融科技的紧迫性、必要性和重要性,以重点突破带动全局,规范关键共性技术的选型、能力建设、应用场景和安全管控等,取得数据驱动的金融创新发展新突破。2019年8月,人民银行发布《金融科技(FinTech)发展规划(2019—2021年)》,提出将金融科技打造成为金融高质量发展的“新引擎”,并在科学规划运用大数据相关要求中明确提出,打通金融业数据融合应用通道,破除不同金融业态的数据壁垒,化解信息孤岛,推动形成金融业数据融合应用新格局。
在实践中,随着数据挖掘、分析、可视化及人工智能等技术的应用日益增长,多维异构数据间的关联画像得以展现,大幅度激发了数据在金融领域可发挥的价值。依靠海量数据,金融机构得以更全面、准确地分析企业类型和财务状况等风险维度,优化风控模型,降低业务成本,更好地服务需要融资的企业。然而,我国金融业各数据拥有方出于对数据安全的担心,设置针对其他行业数据进入金融领域的数据壁垒的现象仍然十分突出。
目前,金融行业最迫切需要接入的数据之一是政务数据。政务数据具有高权威性、高准确率、高可信度,在金融机构的授信决策中有重要的参考作用。人民银行成都分行营业管理部课题组在一项关于政务数据在金融业开放共享的研究中,调查了成都市21家商业银行对政务数据、征信报告、行为数据和交易数据的重要性评估。结果显示,政务数据是金融机构眼下最迫切需要引入的信息来源,也是除中央银行征信以外在授信管理中最重要的决策依据,其中工商、税务、司法类数据的重要性得分最高。这些商业银行普遍反映,政务数据的重要性远高于已接近市场化运作的第三方数据,但当前政务数据获取渠道不通畅,导致它们的政务数据主要来源仍为申请者自行提供。
海量数据不能用
明文数据特点导致政务数据融合难。明文数据具有其自身特点:复制成本低,几乎可以无限地被复制;使用没有排他性,可同时被多方使用;数据本身的损耗低,在使用过程中还会随时生产出新的数据。这些也常常被称为是明文数据的优势。然而,正是由于明文数据的这些特点,却正好成为明文数据大规模分享的掣肘。传统信息共享方法是基于明文数据,而明文数据一旦被看见就会泄露具体信息,难以限制其用途和用量,难以厘清“责、权、利”。因此在现实中,明文数据一旦泄露便会导致数据滥用问题,数据所有方在分享数据时顾虑重重,尤其是在个人信息及隐私保护要求日趋严格的背景下,不愿、不能、不敢共享数据成为政务数据开放最大的瓶颈。所以,政务数据以明文方式进行融合,仅适合于非敏感、非隐私性信息。随着数据融合共享与数据隐私保护和安全之间的矛盾日益突出,建立保护数据安全隐私的政务数据融合平台,成为下一阶段政务数据开放共享的重点。在政务数据开放共享中,如何既加强对政务数据的保护,又防止政务明细数据造成的安全损失,是摆在各级政府面前的现实难题。
金融领域尚不能很好地应用政务数据。随着大数据技术迅速发展,近年来我国民众的生物信息、金融交易及行为数据等,已基本全部转为数字化形式存储。当前,政府部门、金融集团及互联网平台等汇集了海量数据,包括居民生物信息、位置数据、用户交易及行为数据等,这些数据存储包含大量敏感信息,一旦泄露将直接危害公民权益,甚至影响社会金融稳定和经济安全。因此,出于对数据安全的考虑,政府部门及企业往往选择不开放共享数据,严重造成各行业间的数据壁垒。数据显示,截至2019年,我国共有31个省级行政区出台了231份涉及“政务数据开放”的政策文件,其中有10%提到数据安全、隐私保护和数据开放立法的问题。同时,由于政务数据治理机制不健全,包括数据接口不规范、数据共享规范性和兼容性不足等,整个政务数据产业链仍处于比较无序的状态。相关调研显示,政务数据管理机制的缺失表现主要有二:一是有些政府部门认为数据隐含部门权利,担心共享会导致自身失去数据优势;二是一些政府部门倾向于原有的工作模式,不愿共享,或碍于行政命令仅开放非核心数据。许多地区虽然设立了大数据共享中心的管理部门,但其实质上只负责建设基础系统,并不重视数据治理机制,部门间数据共享的权责界定不清,缺乏有效的监督和激励,导致政务数据的开放共享难以推动。
在这个背景下,金融领域应用政务数据的需求并未得到充分满足。特别是在当前全球面临新冠疫情冲击常态化的过程中,我国大力推出保市场主体、保民生就业稳定等支持小微企业融资的措施,将支持小微企业融资、降低小微企业融资成本作为金融抗疫的重点工作。然而,由于小微企业融资过程中普遍存在信息不对称问题,加之其自身经营风险较大、财务制度不健全,导致金融机构核实小微企业信息成本较高,难以有效评估小微企业贷款风险,所以金融机构有迫切需求,通过融合司法、社保、工商、税务、海关、电力、电信等行业数据,获取更加完善的小微企业画像,破解小微企业信贷过程中出现的获客成本高、信息不对称、定价不精细、风控不完备等问题,从而更精准、更安全、更便捷地提供小微企业融资支持服务,更好地支持小微企业发展。可是,司法、社保、工商、税务、海关、电力等大部分数据都属于政府部门掌管,由于我国政务数据的开放尚处于起步阶段,所以这些数据尚未充分形成有效的社会价值输出。
解决方案:基于多方计算的数据安全平台破解数据难题
基于上述金融业对政务数据的迫切需求,在某区市大数据局的邀请下,华控清交探索开发了一套基于多方计算的政务金融数据安全融合平台,开放给该市金融机构使用,实现了政务数据在金融领域的安全共享及应用。
基于多方计算技术的政务隐私数据共享平台,可实现明文数据的归属和保管责任仍在各提供数据的政府部门,从而有效打破政务数据跨部门集中融合的责权利划分不清问题。在该平台上,金融行业可实现包括人口、宏观经济、信用信息、工商税务等数据的安全融合和应用,但金融机构仅能获得密文数据得到融合后的计算结果。如使用单位需要保存数据结果,其存储和使用均为密文环境,有效防止了内部数据泄露,通过政务数据“可用不可见”的方式,为金融行业全方位应用政务数据奠定了坚实的基础。
在本案例中,华控清交搭建了一套具有创新性、领先性和实用性的数据加密共享应用系统,作为政务数据的归集、处理和共享的支撑平台,能够为该市数据金融风控及城市大脑等建设项目提供底层计算支持。具体来看,该系统具有完整的七大功能模块,包括源数据接入、算法参数接入、密文数据计算、结果数据解密、参与方和数据管理、任务管理、用户及权限管理。同时,在坚持对原有流程做最小改造的原则下,系统结合该市政务数据平台的原有流程,仅增加数据的多方计算选项,高效实现了原有政务数据平台数据的加密共享应用。该平台在实现该市所有政务数据安全归集和安全共享的基础上,将政务数据安全共享给金融机构,从根本上探索出了一条金融机构有效利用政务数据的标杆性道路。
平台设计逻辑
在基于多方计算的敏感数据保护方案中,此政务数据安全融合平台将逐步推广更多领域间的数据汇通模式,针对敏感性高的数据,在原始数据留在所有方本地不汇聚的情况下,实现“数据不搬家”的融合分析。
技术架构
基于多方计算的政务金融数据安全融合平台由6个模块组成(见图1-3):
(1)基础架构层:提供计算、存储、网络等基础设施服务。
(2)数据基础层:提供数据接入、治理、质量评判和标准化服务,并且能够为数据合作参与方提供租户服务。
(3)数据服务层:建立和管理数据目录,支持参与方发布数据服务和算法服务,金融机构(数据使用方)、政府部门(数据提供方)和算法提供方能够订立合约。依托区块链特性,保证数据服务的可追溯及不可篡改性。
(4)数据应用层:根据数据的不同敏感程度对应的安全需求,提供不同的数据合作应用方式。对于高敏感度的数据,提供基于隐私计算的数据安全融合服务。
(5)平台运营层:管理参与方,对数据和算法的使用情况进行统计和分析。
(6)系统管理:提供包括数据存证、审计监管、智能运维、权限管控和身份认证等在内的各项管理功能。
图1-3 基于多方计算的政务数据安全融合平台的整体架构
平台工作流程
政务金融数据融合平台参与模式如图1-4所示。平台主要参与方为政府部门(数据提供方)、金融机构(数据使用方)和算力提供方。政府部门将数据以密文形式接入算力提供方搭建的多方计算平台,金融机构将算法接入平台。平台用算法和数据计算出密文结果,并返回给金融机构。金融机构将密文解密为明文,获得其需要的结果。
图1-4 多方计算平台参与模式
金融机构在使用多方计算平台时,服务流程如图1-5所示,包括:
(1)金融机构提交使用数据的申请。
(2)数据使用申请自动传入多方计算平台,同时,金融机构将应用算法提交到多方计算平台。
(3)政府部门收到数据使用的申请、应用算法之后,经过评审,选择同意该请求。
(4)多方计算平台自动将政府部门提供的数据加密上传到平台,并进入计算过程。
(5)计算完成后,政府部门收到密文结果,审查结果安全之后,密文结果被发送至金融机构,并在金融机构部署的解密节点中解密成明文结果,多方计算过程完成。
图1-5 金融机构使用多方计算平台的服务流程
基于多方计算的政务金融数据融合平台有效释放了数据的使用价值,在各行各业有着广泛的应用前景。特别是在金融领域,该平台能全方位丰富金融机构全流程业务的可用数据维度,既保障各方数据安全,又为金融机构便捷应用政务数据打开了通道。具体来说,平台可以应用的场景包括客户画像、风险防控,以及金融监管等,金融机构通过应用多方计算技术,与平台中涉及的企业合作,各方数据通过自有的数据接口接入平台,使金融机构能通过平台获得全方位的客户画像,更精准地判断客户风险。特别是在当前支持小微企业融资、保市场主体的抗疫常态化背景下,金融机构能通过信息获取有效降低小微企业融资信息不对称,减少小微企业融资成本,助力打好金融抗疫攻坚战。同时,在金融风险防控方面,多方计算技术可构建基于政务数据融合的金融风险共享平台,帮助金融机构大大提升风控效能。在监管治理方面,多方计算技术可实现政务数据平台与金融监管机构平台数据的有效互动,帮助监管机构获得更多维度的监管信息共享,提高政府跨领域、跨行业的治理水平。
基于多方计算的政务数据融合平台定位为公共服务平台,固定资产投入将由政府和平台承担,金融机构仅需承担己方成本。平台旨在实现政务数据向金融赋能,丰富金融行业数据维度,助力金融行业增强风控能力,同时保证政务数据的安全及合规使用,维护金融科技安全,减轻监管方的压力。
代表性应用场景:数据金融风控场景
社保、车辆及交通等数据属于政务数据,在金融机构的产品营销及风控环节有着高参考价值。通过客户的社保、车辆品牌、车险、交通违规记分等信息,金融机构能够更准确地判断客户的收入花销水平、风险承受级别及信用履约能力,据此进行精准获客营销和风险防控。然而,出于隐私和安全考虑,当前金融机构难以获得这些数据。对此问题,多方计算平台的技术可以实现让金融机构只得到依据数据得出的计算结果但看不到数据,在保护客户数据隐私的情况下充分发挥数据的作用,助力金融业的健康发展。平台将接入密文形式的客户数据和金融机构得到所需结果的算法,算法通过审核后将被应用在客户数据上,通过加密计算方法计算出该客户的收入开支水平、风险承担能力及信用履约能力,并返回至金融机构用作产品营销及风控环节的参考。
金融机构利用平台政务数据进行风控的架构如图1-6所示。具体实现过程为:
(1)数据接入节点:客户的社保、车辆及交通数据由各部门加密接入多方计算平台。
(2)算法审核模块:金融机构,即数据使用方在通过多方计算技术使用数据时,会通过样例数据对算法进行审核,金融机构在通过数据使用合规性审核后才能正常使用该算法。
(3)计算节点:金融机构实现对加密数据的计算,通过审批过的算法得到密文的数据计算结果。
(4)数据解密节点:对密文的计算结果进行解密,得到风控结果,并返回至金融机构。
图1-6 数据助力金融业风控架构
基于多方计算的数据安全融合平台将政务数据接入金融领域,是一款具有创新性、领先性和实用性的大数据加密融合平台。该平台能够让金融机构在看不到客户信息的同时充分利用其计算价值,实现高效的获客营销及风险防控工作。具体来说,多方计算技术将实现政务数据融合平台的敏感数据不出库,计算过程零缓存,保障数据应用中端到端的安全,避免平台运营方和数据使用方接触非必要的数据内容,在保证数据安全的同时保留完整的数据价值。另外,该平台可以明确数据控制者角色,清晰划分责任,分离数据归属权和使用权,做到数据可用而不可见,在多方数据融合场景中做到全程可信留痕,确保数据流转和使用可追溯,做到数据合作的公开透明。
基于多方计算技术的政务大数据平台能够实现政务数据在金融业的安全融合,从根本上破解了一直以来的政务数据融合难题,打消了数据价值链的不同环节对数据归属、数据安全和隐私保护的顾虑,从而打通数据价值链,强化大数据和人工智能的专业化分工协作,形成广泛的价值链闭环,为连接数据孤岛创造条件,协助提升金融业的产品营销和风控水平。