1.5 AI技术在芝麻分模型中的研究和应用
近几年AI(Artificial Intelligence,人工智能)技术领域里面的深度学习技术受到学界和工程界的广泛关注,在图像、语音、自然语言领域大展身手。深度学习方法的优点之一是在很多问题上能做端到端(End2End)的训练,无须依赖人工特征的提取,从原始数据开始,依托算法直接生成模型。
信用场景:互联网借贷给生活带来便利
小童是刚毕业不到一年的职场新人,每月开销都要精打细算。哪个月不小心,就容易超支。
最近小童的手机坏掉了,老是接听不了电话。苹果公司刚推出了新款手机,作为资深的“果粉”,小童自然不会错过,咬咬牙把仅有的存款都拿去用了。没想到过几天看到信用卡账单,小童有点不知所措了,眼看着就到最后还款日期了,小童有点焦躁。向爸妈要,张不开嘴;向同学借,大家都刚毕业,正是需要钱的时候。
万般着急之下,突然想到支付宝里的借呗,一看额度刚好够,立即提交申请,不到3分钟,钱就打到小童的支付宝账户了。随后他用这笔钱,赶在信用卡最后还款期限之前还上了。
信用场景:信用卡公司两员工利用大数据进行智能化投资
据某网站报道,多年前美国某信用卡行的两名员工通过部分渠道,分析了170多家上市零售公司的信用卡消费情况,并据此预测这些公司的营业收入,然后提前购入看涨期权或看跌期权,3年内投资收益率高达1800%。
随着技术的快速发展,如今的大数据技术,特别是机器学习技术和超级计算能力的运用,可以让投资者拥有具有合法优势的全新一类信息。
据英国《金融时报》2017年年初消息,多伦多数据公司Quandl的创始人兼首席执行官塔默·卡迈勒(Tammer Kamel)表示:“我们正在经历数据爆炸的时代。每个人、每台机器以及每台计算机都在创造数据。直接或间接镶嵌在所有这些数据上的是含金量极高的金块。”
由数据科学家、投资者和人工智能专家在伦敦举行的《新闻周刊》(Newsweek)会议上讨论这种信息革命,结论是我们即将迎来一个引人入胜的新时代,在这个时代可以溯源、收集和分析庞杂的非传统市场相关信息。
当前很多金融公司利用智能投资顾问根据客户的偏好,以及当前市场上的相关数据,进行相关性匹配,其核心即是大数据的沉淀积累与算法模型。
知识导读:AI技术在芝麻分模型中的应用和研究
AI技术除了已知的各种应用外,在芝麻分模型下,AI技术也发挥了重要的作用。在具体介绍AI技术在芝麻信用的探索和应用之前,下面先概要性地介绍一下经典的信用分模型的研发过程。
1. 信用分模型生成步骤简介
国外的信用分起源于金融借贷场景,其衡量的是一个人将来发生金融违约概率的大小。经典的信用分模型的生成过程一般有数据收集、特征提取、模型训练、模型评估、模型部署5个步骤(如图1-21所示)。
前三个步骤决定了信用分模型的性能,在这三者中,数据收集阶段所收集的数据维度的丰富程度及数据的数量,对信用分性能影响最为直接。随着数据源的不断丰富,当用户的信息被各种数据源逐步完整覆盖时,新的数据源对信用分性能边际增益会呈现递减的趋势。
图1-21
这个时候模型性能的进一步提升,主要体现在特征提取和模型训练阶段对数据的深度挖掘能力。在业界多年的商业实践中,特征提取和模型训练这两个环节已经积累了相对成熟的方法论,似乎已经趋于成熟,但是随着最近几年人工智能在算法理论、工程计算等方面获得的长足发展,赋予了特征挖掘以及模型训练这两个环节新的突破点。芝麻信用对此进行了一系列持续的研究,接下来的篇幅将与读者分享芝麻信用在AI技术方面的一些实践。
我们从特征提取阶段谈起。从数据收集到特征提取,是一个从明细原始数据里面提炼有明确业务含义的信息的过程,这个步骤在传统信用模型建设的过程中不可或缺。
因为目前业界应用比较成熟的算法通常为逻辑回归、决策树、随机森林、GBDT等,这些算法通常要求输入变量,特别是按照用户粒度进行汇总的变量,并且这些变量与预测目标有着一定的相关性。
过去,这个过程高度依赖人工经验去设计变量的汇总加工逻辑。传统经验相关性如图1-22所示。
图1-22
经验告诉我们,一个人欠的钱越多,越有可能发生违约。基于这个经验,我们可以从合法收集到的用户借贷信息里面,将尚未偿还的债务进行加总,并且验证加总得到的变量值与违约率的相关性,如果验证出有一定的相关性,则可以将这个变量纳入模型训练的过程中。既然这种特征的生成过程依赖人的经验,反过来也就会受到经验的束缚,人的经验在一定时期内是有限的,下面来看一个利用算法突破这种限制的例子。
芝麻信用拥有种类繁多的用户行为和属性数据,除了跟信用最直接相关的借贷历史数据外,还拥有丰富的网上购物行为数据,是否可以利用用户的网上购物偏好来丰富模型的特征库呢?
基于对各种数据长期的探索和验证,从统计上看,某些看似与履约、诚信度毫不相关的行为偏好之间,实则存在非常紧密的关联性,但用户购物行为多样,商品名称五花八门,商品类目也有成千上万个,如何从海量数据中提取可用于模型的特征呢(如图1-23所示)?
图1-23
人工经验此时显得无能为力,通过对AI算法的理解和研究,我们尝试了LDA算法并成功地从海量用户购买信息里面提取到了可供模型使用的有效特征。LDA (Latent Dirichlet Allocation)是主题模型中的经典方法,是自然语言处理中的一个著名统计模型,算法的数学原理不在此赘述,它假定文档库中的文档隐含潜在的主题,观测到的每个文档都由若干个主题组合而成。作为类比,我们可以把一个用户类比成一个文档,用户的购物偏好即为文档的主题,而用户在淘宝上的购物行为即是构成文档的单词,LDA算法的作用就是从这些单词里面提炼出文档的主题,即从淘宝的购物行为提炼出用户的购物偏好。
在LDA算法具体计算的过程中,我们尝试为算法设定了不同的主题数K=20,50,100,200。一般来说,主题数越大,每个主题的特点越鲜明,但同时数据会变得稀疏,偏向这个主题的用户数会减少,因此在实际应用中K的数目不能太大。以K=100为例,分别提取模型中第11个、第13个、第60个主题按照权重大小排序的顶部15个类目,如图1-24所示。可以看出主题里面的类目聚集性是比较明显的:13号主题的前15个类目中有9个直接和游戏相关,60号主题偏向于购买烘焙用品,而11号主题的高权重类目倾向于儿童读物教材。
图1-24
进一步分析主题(购物偏好)对应的违约率情况,以游戏购物偏好为例(如图1-25所示),倾向性越高的客户风险越高。倾向性高达5%的用户,其违约风险比整体平均数据高5倍左右。
图1-25
综上所述,我们利用LDA算法在用户海量购物数据里面找到了对预测违约非常有效的新特征,这在以人工经验为驱动的传统方式下,是无法发现的。
特征提取这个环节一直以来在评分模型的建设中起着非常关键的作用,决定着下游模型训练阶段的输入,没有好的特征就犹如无米之炊,再好的模型训练技巧也发挥不出来。
上述对LDA算法的介绍,想要传递的是AI技术可以在一定程度上帮助建模人员发现有效特征,突破人工经验的天花板,但是特征提取往往需要投入大量的资源和精力,读者可能会问,这个步骤是必需的吗?是否能省去特征提取这个步骤而获得性能同样优秀的模型?
传统的做法是基于人工经验从原始相关数据里面汇总计算出用户的某些行为特征,AI技术则开辟了另外一条不同的创新道路(如表1-6所示)。
表1-6 传统做法与AI技术的对比
芝麻信用寻找到一种适用于序列数据的深度学习算法来进行端到端的训练。通过算法的选型和实验,发现循环神经网络算法(RNN)能较好地对时间序列数据进行建模,这种算法在语音识别、机器翻译上都有较好的应用。
芝麻信用将RNN算法应用在信用历史数据上挖掘包含时序信息的特征并同时进行模型训练,实现了端到端的风险模型。从效果上来看,相比基于同一份原始数据的使用人工特征训练出来的模型,KS值从40%提升到48%。这在方向上表明,基于深度学习算法的端到端模型,不仅无须人工提取特征,性能也有明显优势,能更充分地挖掘出数据的价值。
相信从未来的视角回看现在,芝麻信用所做的实践只是未来AI技术应用的冰山一角,芝麻信用会保持对AI技术的持续研究和应用落地。
[1]文章来源:《探秘原始社会的物物交换》。
[2]文章来源:吴雪莲,《中国最早的纸币》。
[3]文章来源:Ben Schiller,This Alternative Credit Agency Lets Immigrants Bring Their Credit With Them。
[4]来自东方网:《60岁乌镇志愿者冯培祥:没想到老年生活和“互联网”沾上边》。
[5]来自Ben Schille,FarmDrive:This Kenyan Startup Uses Mobile Phones To Build Credit For Farmers。
[6]来自Ben Schille:Using Mobile Phone Payments To Get People With No Credit History Some Credit。