前言
在计算机科学中,有一句名言:“Garbage in, garbage out”(GIGO)。这句话用到数据科学上也同样成立。另外,数据科学业界中还流传着另一句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”
除了“名言”,很多数据科学实践者的项目经验也一再证明高质量的数据永远是排在第一位的。
然而,现实世界的数据存在不完整、噪声、不一致、错误值、离群值、重复等问题。不仅如此,数据集的特征也是形形色色的,有的特征与项目无关,有的特征彼此强相关,还有的数据集因为特征太多而导致耗费极大的计算资源。诸如此类现象,可以概括为一句话:“理想很丰满,现实很骨感。”
因此,数据准备和特征工程的工作就成为数据科学项目中不可或缺的环节,每个从业者必须熟练掌握相关操作技能,并能耐心地从事这项工作。实践经验表明,数据准备和特征工程会占用项目开发的绝大部分时间。
本书相对于已有的类似书籍而言,在以下方面更具有特色。
●强调工程实践,这也是本书作者所有书籍的共同特点。书中通过大量案例,向读者演示了各种方法的具体实现方式。
●基础与前沿结合。虽然本书在“基础知识”中介绍了相关的基本实现方法,但因为现实项目的复杂性,在具体项目中还会用到各种工具及最新的研发成果,为此专设了“扩展探究”供读者了解更精彩的内容。
●以案例为载体,传授思想方法。数据科学项目需要严谨、科学的思想方法,这些方法并非通过简单说教就能让读者掌握,本书以“项目案例”为载体,不仅讲述操作技法,而且还让读者体验其中的思想方法,并且在“动手练习”中提供了练习项目,供读者检验和巩固所学内容。
为了给读者使用本书提供更多的资源支持,在此推荐本书作者的微信公众号:老齐教室。通过此微信公众号,可以得到如下资源:
●使用本书配套的在线实验平台。在实验平台中,读者可以运行本书的所有源码,应用书中所要求的数据集。
●观看本书配套的视频课程。
●及时获得本书的勘误内容。
●阅读与本书相关的其他技术资料。
●与本书的作者及其他读者进行专业交流。
非常感谢为本书的出版而辛苦工作的各位编辑。
书中内容难免错误,恳请读者不吝赐教。
齐伟