上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 数据清理
扫描二维码,获得本章学习资源
现实的数据是多种多样的,即使它们已经是结构化的,仍可能存在各种问题,如数据不完整、丢失、类型错误、前后不一致等。因此,要进行数据清理(Data cleaning),也译为数据清洗。
有一句流传已久的话:“Garbage in, garbage out”(垃圾进,垃圾出)。对这句话的详细说明,请参考:https://en.wikipedia.org/wiki/Garbage_in,_garbage_out),现在我们也把这句话用于数据科学领域,旨在强调数据本身对结果的影响。
第2章知识结构如图2-0-0所示。
图2-0-0 第2章知识结构