银行数字化改革的正确姿势——光大科技
在技术大潮中乘风破浪的银行
现代银行的发展从来不缺乏科技的身影。从20世纪50年代由于磁条技术催生出信用卡开始,一路走来,银行始终被裹挟在技术的大潮中前行。近些年金融科技的诞生和飞速发展,同样也刺激了银行业的变革。有些学者甚至将本轮金融科技推动的银行业变革大潮定义为银行业史上的第三次革命。总之,银行的数字化转型进入一个新的发展阶段,并呈现出三大基本特征。
一是银行数字化转型持续加速。中关村互联网金融研究院统计,2019年中国上市银行金融科技投入规模为1 054.1亿元。其中,建设银行位列首位,紧随其后的是工商银行和农业银行。不仅是资金上的投入,各大行为金融科技也在广纳贤才。在已公布的年报数据中,工商银行的金融科技人员数量和占比较大,建设银行紧随其后。详见表1-1。
表1-1 各上市银行金融科技投入与人才情况
赛迪顾问预测,中国银行业IT (互联网技术)解决方案市场2020—2024年的年均复合增长率为22.07%,预计到2024年,中国银行业IT解决方案市场规模将达到833.63亿元。同时,IDC (互联网数据中心)也认为,预计到2024年,中国银行业IT解决方案市场规模将达到1 273.5亿元。中国银行业协会在2021年3月发布的《2020年中国银行业服务报告》显示,2020年银行业金融机构离柜交易达3 708.72亿笔,同比增长14.59%;离柜交易总额达2 308.36万亿元,同比增长12.18%。多数银行已经开始进行分布式架构改造和系统上云工程,重视建立全行级中台能力和PaaS (平台即服务)平台。部分大中型银行的数字化转型取得了一定成果。
二是“马太效应”逐渐显现。由于机构规模、技术实力等因素的综合影响,不同类型银行的数字化能力差异明显。普华永道分析了37家A股和H股上市银行2019年度的报告数据后发现,2019年度银行的平均科技人员占比达4%,科技总投入占营业收入的比重达2.55%。城商行、农商行以及中小银行的数字化能力相对较低。多数中小银行没有将金融科技作为一个单独的体系推动发展,在数据协同处理方面的能力尤为薄弱。45%的银行对公司级数据管控体系进行监理,但只有14%的银行实现了高程度的数据协同,强者越强、弱者越弱的“马太效应”逐渐显现。
三是数字化转型方式多样,发展结构不一。过去几年,先后有直销银行、民营银行、银行系金融科技子公司等不同类型的数字化转型措施出台;最近几年,开放银行、虚拟银行又成为代表未来银行发展形态的“新物种”;疫情期间,又出现了非接触银行、非接触贷款等“倒逼式”改革成果。种种不同的改革形式和成果既展现了银行对于数字化转型的迫切需求,又表明了银行数字化改革的决心。
在这场数字化转型的浪潮中,银行改革的要点主要集中在三个方面:一是以用户为中心,全面改革服务;二是以技术为中心,全面改革风控;三是以运营为中心,全面改革渠道。金融科技底层技术本身就具备一定的延展性,能够对银行数字化转型的各方面产生影响。但是在所有影响中,最明显、最直接的当数对风控的影响。金融的本质是风险管理,风控是所有金融业务的核心,典型的金融借贷业务都需要数据风控识别欺诈性用户及评估用户信用等级。近两年线上消费信贷借力金融科技实现快速增长,成为银行零售业务的重要突破口,多家商业银行纷纷通过线上渠道拓展消费信贷业务,触及长尾客群。在技术大潮里乘风破浪的银行中,光大科技的智能风控引擎为新时代银行风控体系的建立提供了新思路。
让技术与银行业务“亲密接触”
光大科技打造的以人工智能和大数据技术为基础的智能风控体系,在有效降低风险事件发生概率和损失的前提下,扩展了业务覆盖人群,完善了业务流程。其核心功能是帮助金融机构逐步从规则流程驱动向数据驱动、智能决策进行转变,对以往的复杂业务流程进行重塑和改造,通过数据分析得出对风险管理及业务的洞见,成为决策的智能辅助大脑,更好地推动企业降本增效。
完善的智能分析与决策服务,其价值主要体现在两个方面。一方面,可以帮助金融机构完善智能风控体系。通过技术创新手段加强风控决策引擎能力,提升风控引擎智能化、自动化水平,利用成熟的大数据技术和积累的数据量,以及人工智能等技术推进智能化风控体系建设,促进信贷产品创新,解决业务问题。另一方面,帮助金融机构更好地推动普惠金融的发展,通过智能风控,将大幅提高金融运行效率,降低金融服务的门槛,有助于解决数字普惠金融发展中面临的问题,促使中低收入人群等弱势群体能够享受到公平合理的金融服务。
大数据智能风控是以持续的智能决策引擎为基础,整合客户的实时数据、历史数据、行为数据、外部的人行征信、第三方数据,以支撑智能风控、智能运营为目标驱动,完善远程规则安全运行机制建设,优化策略部署流程,形成标准化、组件化的业务控制规则以及智能化模型,灵活配置整个信贷业务流程的风险防控策略和模型服务,覆盖用户的申请准入、反欺诈、客群风险分类、授信评分、授信额度计算以及贷后客户还款能力行为监控、行为评分以及催收策略各个环节,解决不同的场景需求,进而支持持续的智能化实时决策以及业务快速创新。
与此同时,在与各方合作“助贷”或“联合贷”的模式下,持续的智能化决策引擎可以实现远程规则安全运行,提供在合作伙伴端风控策略安全运行的能力,保障在风控策略自主可控的基础上实现合作业务的开展,达到与合作方联合进行风险控制的目的。智能决策引擎服务于消费金融以及信托普惠金融的“助贷”“联合贷”模式,旨在完善风控业务流程,实现规则流程驱动向数据驱动、智能决策转变,成为风险控制的智能辅助大脑。
完善的大数据智能风控体系主要由三个部分组成:大数据风控、智能决策平台、智能风控模型。
大数据风控
传统金融的风控主要利用信用属性强大的金融数据,一般采用约20个维度的数据,依据评分来识别客户的还款能力和还款意愿。信用相关程度强的数据维度为10个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产、汽车、单位、还贷记录等,金融企业参考用户提交的数据进行打分,得到申请人的信用评分,最后依据评分来决定是否贷款以及贷款额度。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等(见图1-1)。
图1-1 大数据智能风控体系业务架构
大数据风控丰富了传统风控的数据维度。大数据信用评估模型的基本思路是一切数据都和信用有关,在能够获取的数据中尽可能挖掘信用信息。大数据信用评估模型从大数据采集和大数据分析挖掘两个层面,为缺乏信用记录的用户挖掘出信用情况。通过大数据采集技术,挖掘一个借款人的信用情况变得更加多元化,比如一个借款人缺乏银行信用卡数据,但从借款人的航旅出行数据中挖掘出其具备较好的信用资质,同样可以完成借款人的信用贷款审核。通过多源化的信息采集,一方面传承了传统征信体系的金融决策变量,重视深度挖掘授信对象的信贷历史;另一方面能够将影响用户信贷水平的其他因素也考虑进去,如社交网络数据、用户申请信息等,从而实现深度和广度的高度融合。利用数据的关联分析来判断借款人的信用情况,借助数据模型来揭示某些行为特征和信用风险之间的关系,包括以下几种方式:
一是验证借款人身份。借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭住址。可借助国政通的数据来验证姓名、身份证号,借助银联数据来验证银行卡号和姓名,利用运营商数据来验证手机号、姓名、身份证号和家庭住址。
二是分析提交信息识别欺诈。在线上申请时,申请人会按照贷款公司的要求填写多维度信息,如户籍地址、家庭住址、工作单位、单位电话、单位名称等。如果是欺诈用户,其填写的信息往往会出现一些规律,企业可根据异常填写记录来识别欺诈。例如填写不同城市居住小区的名字相同,填写的不同城市、不同单位的电话相同,不同单位的地址街道相同、单位名称相同,甚至居住的楼层和号码都相同,还有一些填写假的小区、地址和单位名称以及电话等情况。若发现一些重复的信息和电话号码,申请人欺诈的可能性就会很高。
三是分析客户线上申请行为识别欺诈。利用反欺诈等技术手段结合人工智能自主学习的能力,自主开发业务系统,建立反欺诈引擎,实时进行数据分析,对借款人的还款能力做出较为精准的评估,同时进行快速反馈。有数据显示,一般在晚上11点以后申请贷款的申请人,欺诈比例和违约比例较高。
四是利用黑名单和灰名单识别风险。市场上有近百家公司从事个人征信相关工作,其主要的商业模式是反欺诈识别、灰名单识别,以及客户征信评分。
五是参考社会关系评估信用情况。物以类聚,人以群分。知识图谱作为关系的直接表示方式,可以将借款人的基本信息和借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里。在贷前可以推导申请人信息与关系网络不一致的地方,进行不一致性验证;也可以利用更有针对性的团伙识别算法,有效识别出申请人是否属于某一团伙,并进一步确认该团伙是否属于欺诈团伙;在贷后失联召回的应用上,对于各类逾期客户,可以通过关联网络查询到申请人的常用联系网络。
智能决策平台
大数据风控并不只是建立在人工智能模型上。事实上,策略规则往往有着比模型更重要的地位。策略是数据与金融理论的结合。在给定的数据集下,很多模型可以得出一个理想的结论,却只是一个黑箱,无法解释得出结论的分析逻辑。传统金融理论虽然有很强的解释力,但在大数据时代,如果放弃了大数据中蕴含的信息,无异于抱残守缺。所以要在挖掘数据结论的同时结合传统理论形成规则,这是最快捷也是最稳妥的方案。风控策略可以在保证业务量的同时降低业务坏账率,控制逾期风险,最终实现公司盈利。
风控审批策略基于数据分析,在申请阶段制定各式各样多维度的策略和规则。其中,多维度数据的策略规则包括:社交及短信维度规则、移动设备维度规则、外部数据源(如征信报告、各种黑名单来源)规则、多维度评分卡规则、行为数据(设备信息、注册时间、登录时间)规则。多维度数据分析呈现了借款人的用户画像,因而要制定多维度完善的审批策略规则,具体策略规则包含:经济能力维度(月收入、工资流水等信息)、App(应用程序)信息维度(贷款App安装个数、短信命中高风险关键词)、基本信息维度(年龄、性别、工龄等信息)、信用历史(征信贷款信息、还款记录)、行为表现(活动轨迹、登录时间、注册时间等信息)。而策略模块要根据产品流程来制定,每一个模块对应解决一个或多个风险点。
策略上线后,需要根据目标变量,如首期逾期、当前逾期、账龄分析、迁徙率来监控此策略的占比与预计的占比是否发生严重偏差,且在正常运行阶段是否全部执行。对上线后的策略,在一定时间后,对于有表现的数据进行策略回顾,看策略调整后的进件量、通过率及贷后表现等。若是想及时查看策略上线后的贷后表现,可以针对FPD (首期逾期率)指标分不同的天数去观测,如FPD4、FPD10、FPD30等。
在策略调松或者放宽时,可以有针对性地回顾豁免出来的客户的进件情况、通过率及贷后表现;在策略调严或者收紧时,可以有针对性地回顾拒绝阈值边缘维度的贷后表现及拟定拒绝的客户数。
常规的审批策略模块,如个人信息验证、准入模块、欺诈判断、黑名单判断、信用风险评估、人工审核、授信、交易风险,需要灵活地部署在决策引擎当中,才能实现自动化决策。智能决策引擎可以将复杂的业务逻辑从业务代码中剥离出来,显著降低业务逻辑实现难度;同时,剥离的业务规则使用规则引擎实现,这样可以使多变的业务规则变得可维护,配合规则引擎提供的良好的业务规则设计器,不用编码就可以快速实现复杂的业务规则,即使是完全不懂编程的业务人员,也可以轻松上手,使用规则引擎来定义复杂的业务规则。业务系统运行过程中难免会发生业务规则变化的情形,有了决策引擎,业务规则部分采用决策引擎实现,这样在系统正常运行的情况下就可以利用决策引擎对业务规则进行修改,从而实现业务规则的随需应变。同时借鉴Rete等算法的优势,结合中式规则引擎的特点,开发一套自己的规则模式匹配算法,从根本上保证规则运行的效率,实现大量复杂业务规则计算时的毫秒级响应。
智能决策引擎提供规则集、决策表、决策树、评分卡、规则流等业务规则设计工具,从各个角度满足复杂业务规则设计的需要。
规则集也叫决策集,是一种由一组普通规则和循环规则构成的规则集合,也是一种使用频率最高的业务规则实现方式。普通规则由变量、表达式、条件值、决策结果组成,是一种由“如果……”、“那么……”、“否则……”三个部分构成的规则。决策表是一种以表格形式表现规则的工具,非常适用于描述处理判断条件较多,各条件又相互组合、有多种决策方案的情况。决策表提供精确而简洁地描述复杂逻辑的方式,可将多个条件与这些条件满足后要执行的动作以图形的形式进行对应。决策树又称为规则树,是智·策规则引擎中提供的另外一种构建规则的方式,它以一棵躺倒的树形结构来表现规则。评分卡使用二维表形式展示目标对象的各个属性,针对不同属性设置不同区段的条件,每个区段条件对应不同的分值,运行时引擎会根据定义的区段条件自动计算目标对象的评分。决策流又称规则流,整个结构类似于工作流,用来对已有的决策集、决策表、交叉决策表、决策树、评分卡、复杂评分卡或其他决策流的执行顺序进行编排,清晰直观地实现一个大的、复杂的业务规则。
而在“助贷”或“联合贷”模式下,要达成与合作伙伴在合法合规前提下实现双方资源共享,实现双方可信的、安全的合作机制,在保障数据安全、保障消费者权益的前提下进行数据共享的目的,还需要打造一套“分布式可信智能决策引擎”,见图1-2。在新技术方面,一方面是通过搭建分布式可信智能决策引擎,用“分布式”技术实现远程规则安全部署、安全运行,提供在合作伙伴端风控策略安全运行能力,保障在风控策略自主可控的基础上,满足数据安全监管、消费者权益保护的要求,实现合作业务的顺利开展;另一方面,“可信”技术可以利用区块链技术中的去中心化存储、可追溯、信息透明且不可篡改,有效实现信用共享等特点,实现风控决策运行的公开化、透明化,同时,对每次业务服务调用的上链过程,大大降低了在协作过程中的信任成本,创造出可靠的合作机制。
图1-2 分布式可信智能决策引擎
智能风控模型
风控模型是在风控策略达到平衡之际,实现风险精分差异化的必备武器。它广义上代表人运用数据构建的风险管理模式,狭义上讲,是运用统计、机器学习甚至深度学习等算法开发的数学模型。一个完整的风控模型搭建全流程应包含样本准备、好坏客户定义、观察期和表现期的确定、变量衍生、训练集和验证集、分箱和WOE转换、共线性检验、模型检验等。
怎样的客户算“好”,怎样的客户算“坏”,这与评分卡真正关心的客户类型有关。比如,一个反欺诈评分卡的“坏客户”定义可能是首逾30天以上(FPD30+),而审批评分卡的定义可能是M3+。而具体逾期多少天算“坏”,就要进行滚动率分析了。
观察期是指用于生成客户特征的时间区间,用来收集信用历史和行为特征等信息,以提炼能预测未来信用表现的预测变量。
观察期过长可能导致大量客户无法获取相应时间长度的数据,大批样本不能进入模型;观察期过短会导致样本无法生成足够多的有效的时间切片变量。表现期是对观察点上客户表现进行监控的时间周期。这些账户根据截至表现点的表现被分类成“好”“坏”。表现期需要有足够的长度,从而保证样本群体分类的稳定性,使客户的逾期行为充分表现出来。但也不能过长,即使可获得很长时间的历史数据,还需要在完整性(有多少个坏样本需要捕捉)和数据质量之间保持平衡。
变量衍生是整个建模过程中最重要的一个环节,往往在同样的数据和维度条件下,这是评分卡模型效果最关键的一步。变量衍生可以简单地根据业务理解进行变量的组合,生成交叉变量,比如,对于不同年龄段的客户的婚姻状况可以给予不同的打分标准;或者,可以利用一些机器学习算法,比如XGBoost,从数据的角度来进行变量衍生。
在进行变量衍生后,可能会产生成百上千个变量,有连续性变量也有分类型(字符型)变量。但是,字符型变量是没有办法直接作为入参参与逻辑回归拟合的,而为了使自变量和目标变量呈正相关的关系,往往会对数值型变量也进行分箱和WOE转换。如果按照原数据入模,会导致评分卡非常不稳定,同时变量的取值和得分的关系也会变得杂乱无章,失去业务上的可解释性。另外,在这一步,根据每个变量的IV值,也可以筛选掉一部分区分能力较弱的变量。
在真正进入建模过程前,还需要预留出一部分样本用作模型的验证,这是为了防止模型的不稳定:在训练集上表现良好,在验证集中却无法很好地预测。最好的方法就是再预留出一部分时间外测试集,选取与建模样本不同时间段的样本再对模型表现进行验证。比如,如果选取审批时间在1 ~ 3月的客户作为建模样本,那么可以将4月的客户作为测试样本来测试模型的效果。
共线性检验也是筛选变量过程中非常重要的一步。共线性指的是模型的变量之间存在较高的相关性,某一个变量可以被其他一部分变量所解释。共线性高会导致回归拟合出来的系数发生严重的偏离。常用的指标为相关系数和VIF (方差膨胀系数)。
模型训练的过程是完全交给程序的过程,它内置传统机器学习及深度学习多种算法,通过不断增加、删减变量,从数据层面挑选使模型的预测能力达到最大的变量组合。最后需要结合共线性检验,不断地调整进入逐步回归的变量,以得到合理的最终入模变量。
模型表现的评估涉及的几个指标包括: KS值、Gini、AUC、Lift。所有变量在建模过程中都针对显著性、相关性、冗余及多重共线性进行测试。如果变量在各维度上不能符合标准,即使会牺牲KS,也将被从模型中剔除。
目前,光大科技的智能风险引擎将多方在资金、流量、科技等方面的能力进行互补和融合,通过搭建智能决策引擎,有效分类客户和识别潜在风险点,提供多维度的风控模型,实现线上客户自动分类,借助机器学习实现模型自我完善,有效剔除高风险客户。该解决方案实现了医美、教育以及互联网金融等多个消费场景领域的现金贷、信用贷产品的授信审批,其中助贷、联合贷产品覆盖了拍拍贷、360、分期乐、京东金融等50多家合作机构,服务客户数有500多万,累计放款金额900多亿元。