前言
电视剧《黑镜》描绘过一幅画面:在未来的某天,当你遇到一个陌生人时,你的眼前将立即显示他的证件信息、身份地位、社会信用,以及一个汇总后的数值评分,你可以根据这个评分来决定如何与他互动。如果是一个评分较低的陌生人向你借手机,你当然可以直截了当地拒绝;而如果你遇到的是一个评分较高的人,你可能更倾向于伸出援手。或许你已经想到了,这就是增强现实技术在人脸识别中的一种完全可以预期的应用。尽管这项应用目前还处于设想之中,但它或许很快就将变成现实。
实际上,如今我们已经有了这样一个评分体系的雏形,这就是人们常提到的征信系统。传统的征信业务由专门机构对个人的历史信用行为进行评估,从而产生他的个人信用报告。在信贷等业务中,在征得个人同意后,业务员可以查询该报告,从而决定是否向其提供贷款。在传统的征信场景下,征信机构主要从国家的银行、证券、商业保险与社保等系统中获取数据,评分则由人工结合机器来完成。这样生成的结果数据较为完整,又比较权威,主要用于个人资产与贷款额度的评估。
近几年,随着大数据时代的来临与互联网金融行业的发展,传统征信业务模式迎来了革命性的变化:大数据征信开始渗透到人们生活的方方面面。在新的征信场景下,一位消费者在购物平台上以分期付款形式完成一次购买后,一双“无形的眼睛”就开始盯着这笔贷款的还款情况——如果这位消费者逾期不还,这一行为将被记录到他的个人征信数据中,直接影响他未来的贷款与消费;而如果这位消费者长期坚持良好的信用行为,他未来的贷款与消费将变得非常便利。支付宝的“芝麻信用分”就是反映个人信用评分的一个范例,如果你具有较高的“芝麻信用”,你就可以便捷地使用免押金租借、零订金预订等服务。
随着国内互联网金融等业务的发展,相关领域对风控技术的需求大大增强,依托于大数据的征信技术也逐渐为人们所重视。在数据侧,万物互联的数据传输模式,使得原先分离的各类行为数据被统一整合。通过不同数据源、不同模态数据的融合,信用的评估范围变得更加广阔,评估结果也变得更加有效。在模型侧,随着算法的不断发展与算力的逐步增强,传统的信用评估算法可以被机器学习,乃至由深度学习算法所取代。平台开发技术的迭代也支持着更精准、更高效的征信系统的出现。
看到这里,或许你会产生一些疑惑:尽管大数据征信听起来十分美好,但背后的技术支持是否到位?如何将一个人在不同互联网平台的数据进行自适应融合?机器学习、深度学习技术是否有能力对信用评估的结果进行准确解读?技术上如何有效地对信用评分、违约风险进行定量评估?最后,如何构建一个征信的原型系统,以对用户友好的形式提供征信服务?这一系列问题,本书或许能帮你找到答案。
本书聚焦于个人层面的信用违约技术研究、风险预警与监控系统的实现,但其中的技术也可以便捷地应用于企业征信。全书由浅入深、循序渐进地讲述了大数据时代下的征信技术,由以下三个部分构成。
第一部分:基础技术研究(第1~2章)。第1章介绍了征信业务中多源、多模态数据的融合方法;第2章主要进行大数据征信模型的归因分析与解释性研究。
第二部分:信用评估技术研究(第3~6章)。第3、4章聚焦于大数据征信场景下时序数据的挖掘与分析,分别提出了一个新颖的时序行为研究模型,以及一个高效的频繁模式、关联规则挖掘方法;第5章以总括的形式对违约风险评估预警技术进行了讨论;第6章从宏观角度分析了不同区域的差异性对于信用情况的影响。
第三部分:信用评估系统研发(第7章)。第7章从全局角度描述了一个信用评估与监控预警系统的实现。
本书第1~5章分别由北京大学张成蹊、吴晖、沈依芸、马建伟、喻彦龙主笔,第6~7章由中国测绘科学研究院刘晓东主笔。全书由北京大学孙圣力统编。鉴于作者现有水平,本书撰写的内容难免存在知识点的缺失或事实性错漏,希望读者不吝批评指正。
作者
2021.6