Python数据科学应用从入门到精通
上QQ阅读APP看书,第一时间看更新

1.1.1 数据清洗的概念

数据清洗就是对收集整理的原始数据进行必要的审查、校验和加工处理,把“脏”的数据“清洗掉”,发现并纠正数据文件中的可识别错误,提高数据质量,以便数据可以更好地用于后续分析过程。数据清洗是数据统计分析或开展机器学习项目整个过程中不可缺少的一个环节,其结果质量直接关系到分析效果和最终结论。数据清洗概念示意图如图1.1所示。

图1.1 数据清洗概念示意图