评分系统评测与监控
评测与监控步骤包括初始和持续的统计验证,制定预警报告,以及得到最终表现报告。
统计验证。必须在评分系统的生命周期内定期对其进行验证和监控,以确保评分系统按开发人员的预期工作——分数阈值设置是否恰当,评分系统运行是否合法合规。使用没有监控的评分系统就像使用没有指针的时钟,它可能在工作,但你怎么知道?
第一步是在评分系统实施之前进行验证。为此,开发人员通常会使用保留样本:在开发评分系统时保留一组随机样本,来验证评分系统在开发样本和保留样本上是否有同样的效果。如果评分系统开发用时很长,使用一组更新的申请样本来验证依据之前一个时期的数据构建的评分系统,效果可能就会更好。一旦评分系统就位开始运行,贷款机构就应该使用几个标准报告来持续验证和监控评分系统,以确保其继续按预期工作。
·要确保分数在统计上有效,请使用K-S值、区分度或其他类似统计指标。
·要确保得分在将来依然有效,请使用群体和特征变量稳定性报告。
·要确保分数阈值适当,请使用历史表现表。
一个评分系统的预测能力通常用两种测度方法来评估:一种是K-S检验,另一种是区分度。K-S检验(以两个数学家柯尔莫哥洛夫和斯米洛夫命名)计算好坏账户的累积分布之间的差异。由于其形状,它有时被称为“橄榄球”图,如图3-2所示。
图3-2 K-S检验
好坏账户之间的累积分布的间隔越大,评分系统就越强大。对于申请评分,通常认为间隔超过30个百分点是可接受的。对于行为得分,可接受的间隔要增加到45个百分点,因为它基于账户已有数据,应该有更好的分辨能力。在图3-2中,间隔达到52(=69-17)个百分点,是非常好的。该图还显示出保留样本(内部曲线),证实了开发样本的有效性,因为两条曲线非常接近。K-S值应该定期计算,如起码半年计算1次。
我们也可以用区分度计算来确定评分系统的有效性。这里,开发人员计算好客户被误判成坏客户的频率(或反过来),或者两者之间有多少重叠,如图3-3所示。
一般来说,两条线相距越远,结果越好。开发人员可以告诉你,如何计算出一个可接受的区分度水平。
图3-3 区分度
预警报告。一旦评分系统实施完成,你必须定期监控:它是否按预期运行?两个重要的预警报告是客群稳定性分析和特征变量稳定性分析。客群稳定性分析将近期实际申请人的分布,按分数段(以月或季度为单位)与预测分布进行比较。报告的样例如图3-4所示。
图3-4 样例
客群稳定性是发现潜在问题的一个很好的早期指标,因为它会告诉你系统构建时基于的那一类客群是否仍然在申请贷款。假设就是,如果客群分布变化,你就知道进入的客群也是不同的。例如,如果贷款机构展开一项针对年龄小于正常年龄的申请人的新营销活动,那么更年轻的可能更有风险的申请人的数量就会增加。通常,这将导致出现更多分数低于分数阈值的申请人(这将导致更低的通过率)。
如果贷款人确实遇到了这种转变,下一步就要检查特征变量的分布,如表3-5所示。
在评分卡中使用的每个特征的分布,应该以时间维度与开发样本的特征变量分布进行比较。在表3-5中,第三季度“未知”收入申请人数量的急剧增加(他们的收入在申请表中未知或未报告)是否表示有问题?它是一个真实的业务转变或只是一个由于其他原因导致的暂时变化?
表3-5 特征变量稳定性:家庭收入
这些报告只提出问题,并不直接解决问题。只有对贷款机构的流程和运营情况进行详细的分析,才能了解变化的原因。
最终表现报告。“真相,全部真相”——对于评分卡,当你得到对比实际表现与预测表现的报告时,最终表现就有了。对于预测风险的评分卡,当获得按分数段区分的实际逾期、核销的报告时,我们就有了最终表现报告。这个报告告诉我们评分系统是否有效。当然,这个报告的缺点是要等到贷后几个月才能获得。如图3-5所示,我们追踪了不同分数段的实际核销情况。如果评分系统有效,核销率将随着分数的增加持续下降。
此报告的样本可以是一定时间段(通常为3个月)内获取的账户,或特定邮件或营销计划获得的所有账户。在同一时期内获得的并且具有相同筛选标准或目标市场的账户,通常被称为同期账户(vintage,如同酿酒商识别一个装瓶年份的方式一样),有些人也称之为同群账户。无论怎么称呼,它都是所有账户表现分析的基石。如果评分和实际结果之间的某些关系看起来不同寻常,那么管理者就应该开始深入分析以发现问题。
图3-5 核销率
使用这些报告监测评分系统的性能,就像给时钟装上了指针,让人们能够读取时间。当然,如果管理人员不按时审阅报告,那工作也是很难开展的。