基于机器学习的数据缺失值填补:理论与方法
上QQ阅读APP看书,第一时间看更新

2.4 本章小结

理解数据缺失机制对于缺失数据的处理有着重要且基础的意义。首先,本章对完全随机缺失、随机缺失和非随机缺失机制进行详细介绍。从发生频率上讲,随机缺失和非随机缺失是现实生活中比较常见的两种数据缺失机制,完全随机缺失并不常见。从处理难易度上讲,完全随机缺失容易处理,而非随机缺失难以处理,一般可将其有条件地转化为随机缺失后再加以处理。

接着,本章阐述了3种缺失数据的处理方法,其中,不做处理方法将缺失值直接参与模型构建,并在建模期间避免对缺失值的直接处理。不完整样本删除法主要包括完全个案分析和可用个案分析,此类方法通过删除数据集中不完整样本得到一个样本量缩减的数据集。相较于前两种处理方法,缺失值填补法为每个缺失值计算合理的填补值,并利用填补值替换数据集中的缺失值,从而构造与原始数据集规模一致的完整数据集。

在上述3种处理方法中,缺失值填补法的研究与应用较为广泛,因此本章对缺失值填补法展开了详细探讨。首先介绍了缺失值填补的一些基本概念,接着从多个角度对填补方法进行分类,旨在对当前的缺失值填补法做一个宏观认识,最后阐述了诸如RMSE、MSE、MAE和MAPE等多种填补性能的度量方式。

鉴于目前的缺失值处理方法众多,在实际应用中,应该针对具体问题选择合理有效的填补方法展开缺失值处理,进而提高数据质量以及后续分析的准确性。