第10章 逻辑斯谛回归:回应建模方法
10.1 引言
逻辑斯谛回归[1]是将个体分成两个相互排斥类别的常用方法,比如买方与非买方、回应者与无回应者。逻辑斯谛回归是回应建模(response modeling)的主要方法,结果被视为黄金标准。相应地,它是评估新技术优越性的基准(比如机器学习GenIQ模型),而且用于确定通用方法的优点(比如卡方自动交互式检测(CHAID)回归树模型)。在数据库营销应用里,对优先请求的回应是二值因变量(回应者和无回应者),逻辑斯谛回归模型(LRM)用来对个体进行分类——最有可能或最无可能对未来请求做出回应。
为了解释逻辑斯谛回归,我先提供一个关于方法的简要介绍,并给出一个建立LRM的SAS程序。这个程序是建模者解决两组分类问题所需的工具箱里一个受欢迎的附加工具。然后,我用一个案例讲解为一项投资产品请求建立回应模型的过程。这个案例展示了以下几项统计数据挖掘方法:
·logit值散点图。
·用幂阶梯法和突起规则(bulging rule)重新表述变量。
·量度数据的直度。
·评估个别预测变量的重要性。
·评估预测变量一个子集合的重要性。
·比较两个预测变量子集合的重要性。
·评估预测变量的相对重要性。
·选择预测变量的最佳子集合。
·评估预测模型的优度。
·对纳入模型的类别变量进行平滑。
我提出了一个计算调整后相关系数的程序,得出的相关系数实际区间总是小于定义的相关系数区间。数据挖掘是实际担任数据挖掘工程师的建模者需要掌握的技术,它们容易理解、执行和解读。如果建模者想成为自己数据和结果的主人,他们应该掌握这些技能。为了和本章内容保持一致,即将重点放在数据挖掘,我用得更多的是数据挖掘工程师,而不是建模者。但是我确实同意一个精明的建模者也是有经验的数据挖掘工程师。
[1] 逻辑是logit的音译,并不是通常定义的“逻辑”。本书logit与逻辑斯谛交叉使用。——译者注