前言
本书目标
本书旨在给读者提供明确的数据挖掘竞赛方案实现流程,并对其中的关键细节进行讲解,除了提供必要的理论知识,还提供了即插即用的代码。通过阅读此书,读者将了解如何为一个数据挖掘竞赛设计方案,明确方案中的各种细节和具体实现方式,并了解如何对方案进行不断打磨和优化。本书还提供了一些具体的实战案例以帮助读者掌握并强化上述内容。数据挖掘竞赛提供了贴近真实场景的数据集,如果想通过实战的方式来学习数据挖掘的技术,本书是一个很好的选择。
同时本书也可以作为一本工具书,它提供了不同类型(包括结构化数据、自然语言处理、计算机视觉、视频理解、强化学习)场景下,从数据输入到获取最终结果全流程中的各种方法和技巧,这些实用方法和技巧能帮助读者在数据集方面获得显著的效果提升,它们不仅可以用在数据挖掘竞赛中,也可以用于科研以及实际的业务中。
读者对象
无论是想在数据挖掘竞赛中获得更好的成绩,还是提升数据挖掘的技能,抑或是希望在实际业务中提升模型效果,本书都将是一个很好的选择。本书适用的读者对象包括但不限于以下相关人员。
数据挖掘竞赛爱好者。
人工智能相关专业在校大学生。
人工智能方向从业人员。
对人工智能感兴趣的读者。
需要注意的是,由于篇幅限制,本书不会从零开始讲解数据挖掘中的知识点,尽管笔者尽可能地以由浅入深的方式讲述全书的内容,但是理想情况下,本书的预期读者应具备一定的机器学习、深度学习以及强化学习的基础,同时还应具备一定的Python使用经验。
如果读者对以下的内容有所了解,就表示大致具备了相应的基础。
机器学习:能区分有监督学习和无监督学习,了解训练集、验证集、测试集三者的区别,以及过拟合的概念。
深度学习:了解前向传播和反向传播、神经网络中常用的激活函数、随机梯度下降的基本原理。
强化学习:了解马尔科夫性质的基本概念、决策环境和环境收益的基本概念、常用的强化学习算法,如DQN、A2C、PPO等。
Python:了解如何在终端执行py文件、如何使用Jupyter Notebook进行交互式编写和运行代码,用过常见的与数据挖掘相关的Python包,如Numpy、pandas等。
本书聚焦如何根据实际的数据场景选择合适的技术,以及如何以更优的方式使用这些技术,以使得读者在具体的数据集上获得更好的结果,而不是花大量篇幅介绍这些技术的原理。例如,本书不会详细介绍梯度提升决策树的算法原理,而是重点讨论在什么场景下适合使用梯度提升决策树,梯度提升决策树的关键超参数有哪些,以及如何更加高效地对这些超参数进行调参等问题。
本书代码说明
书中的代码统一使用了区别于普通文本的字体,并通过阴影背景加以区分。代码中的关键信息通过注释或文本文字的方式进行描述。本书相关资源可通过封底二维码获取。
编写团队成员
本书由许可乐担任主编,除了负责第1~3章的撰写外,还组织了整个编写团队的工作。第4章由戴亨玮负责,第5章由王彦博和陈生共同完成。第6~9章由蔡晓晨负责,最后的第10~11章由黄世宇负责。
致谢
在本书的编撰过程中,有幸得到了许多朋友和同行的宝贵支持与帮助。
首先,特别要感谢何雨橙、高志锋、刘羽中、包梦蛟、方曦、闫括等人(排名不分先后),他们为本书提供了丰富的素材,并且参与了本书内容的审核工作,他们的专业贡献是本书完成不可或缺的一部分。此外,还要感谢清华大学出版社的王秋阳老师,王老师在整个出版过程中提供了专业的指导和建议。最后,感谢所有阅读本书的读者,你们的支持是我们最大的动力。希望本书能为你们提供价值,同时也期待能继续得到大家的建议和反馈。
勘误和支持
由于笔者水平有限,本书难免会有疏漏和不妥之处,恳请广大读者批评指正。
笔者