3.2.3 冠军挑战者
有了规则和模型,如何去验证风控策略的有效性呢?风控人员可以通过回溯规则和模型的结果,在历史数据上离线计算该策略下的逾期率和核准率。但是离线回溯的方式通常有三个问题。
第一,历史上被拒绝的客户的实际贷后表现是无法观察的,这就造成了测算的逾期率存在一定偏差。
第二,机构的风控策略中通常会涉及外部数据源,这些外部数据源可能存在无法回溯的问题,导致无法在历史数据上完全复现当前的风控策略。
第三,由于大环境或者其他策略的影响,历史客群和当前客群存在一定的差异,历史数据上回溯的效果并不能完全代表当前线上的实际情况。因此,支持线上测试是决策引擎中比较重要的功能,而线上测试就离不开“冠军挑战者”技术。
“冠军挑战者”也被称为A/B测试,目的是比较多个实验组策略和当前对照组策略的线上效果,从而找出其中最优的策略。风控人员首先通过离线回溯的方式制定几套实验策略,然后通过决策引擎中的“冠军挑战者”模块部署相应的规则和模型,通过观察一段时间内各个实验组的逾期率和核准率,来决定是否替换当前线上的对照组。“冠军挑战者”背后有如下几个关键的技术点需要保障。
1)样本随机性。实验组和对照组中的样本划分需要保证随机性,尽可能保证实验组和对照组都落在同一个时间段和产品线内,排除客群变化和营销活动对于策略效果的影响。
2)样本互斥性。实验组和对照组中的样本必须保证严格互斥,也就是说不存在样本既在实验组又在对照组中的情况。对于两个完整的决策树规则集,这个要求通常比较好实现;但是如果想比较决策树中节点之间的效果,就要做到每个叶子节点向下划分的样本集互斥,这样才能保证每个实验组都是独立的。
3)样本显著性。实验组和对照组中的样本数量不宜过少,如果样本太少的话会造成策略效果不显著,无法完全相信策略的线上效果。为了获得样本的显著性,风控人员在制定实验的时候需要充分考虑每天的流量,确定每个实验组的样本量和实验运行时间,保证实验结果的有效性。
4)实验完整性。如果只是在策略集中的某几个节点新增实验组的话,还要保证样本流入节点前和流出节点后策略的完整性,这样才能观察到实验前后整个策略集的线上效果。