2.5 总结
数据探索是模型选择中的一个重要环节,首先要分析目标变量的特点,决定模型的选择范围,然后分析自变量中数据分布的特点,通过可视化技术将分布情况以图形化方式展示,不仅可以对样本有直观的认识,也可以大致推断出其与目标变量之间的关系。模型结果出来后,还可以用于验证结果的合理性。在了解数据特点的基础上选择模型可以减少很多工作量。在本例中,如果一开始就清楚目标变量中具有很严重的不平衡问题,就可以直接在模型选择前先对其做平衡处理。
处理样本平衡时要与业务目标结合,检查模型的混淆矩阵,看各分类中的比例是否与业务要求一致,像欺诈这种小概率事件检测中,要注意模型样本数很少的分类易被模型忽略,导致预测准确率虚高,这类业务下平衡数据集并不需要将分类数据均匀分布,通过采样方式减少某一分类样本记录数时,要避免过度采样导致关键样本特征丢失,也要注意不可过多复制单条样本,防止人为放大某一数据特征,对上述情况的预防措施就是使用独立的测试集对模型进行检测,以确定模型真实有效。此外,需要注意某些分析任务中要求目标变量不同类样本平衡具有固定比例时,如性别比要求1∶1等,而企业运营中数据通常是动态的,平衡系数也需要定期手动调节。
模型选择中不要盲目相信机器自动化的选择,由于机器并不熟悉业务,其对于模型的评价指标无法与业务规则相对应,容易导致虚假的高性能模型结果。从本例中还可以看到对模型评价指标解读的重要性,如果不能从评价指标中发现问题,直接应用模型到业务系统中将无法带来有益的作用,发现模型问题的能力也是数据挖掘人员的一项重要实践技能,发现问题后替换模型或对模型不断地调整参数,使其结果逐渐逼近业务目标要求,最终才可能在业务中应用。
逻辑回归模型中的预测或分类是通过回归方程实现的,观察逻辑回归方程的系数,其值为正则说明具有正向影响,在本例中可以看到高管、社会阶层A、社会阶层B、平均收入、投保车险、投保房车险、投保火险等具有较高的正系数值,这与描述性统计结果一致,即高收入中产以上阶层且对家庭中重要资产投过保的用户是移动房车险的重要目标客户群体。相反,社会阶层D、投保寿险、投保身残险的用户基本不会购买此险种。