数据准备和特征工程:数据工程师必知必会技能
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 数据清理

扫描二维码,获得本章学习资源

现实的数据是多种多样的,即使它们已经是结构化的,仍可能存在各种问题,如数据不完整、丢失、类型错误、前后不一致等。因此,要进行数据清理(Data cleaning),也译为数据清洗。

有一句流传已久的话:“Garbage in, garbage out”(垃圾进,垃圾出)。对这句话的详细说明,请参考:https://en.wikipedia.org/wiki/Garbage_in,_garbage_out),现在我们也把这句话用于数据科学领域,旨在强调数据本身对结果的影响。

第2章知识结构如图2-0-0所示。

图2-0-0 第2章知识结构