本书重点探讨数据的数学和统计分析,因此在本书的其余部分,我们假设数据是可用的,并以合适的格式进行分析。然而,实际数据科学中很大一部分涉及数据清洗,也就是说,将数据转换成能用标准软件包进行分析的形式。numpy和pandas等标准Python模块可用于重新格式化行、重命名列、删除错误异常值、合并行等。pandas的创造者McKinney在文献[84]中给出了许多实用案例研究。高效的数据可视化方法在文献[65]中得到了很好的阐述。