数据科学与机器学习:数学与统计方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

译者序

“学者贵知其当然与所以然,若偶能然,不得谓为学。”这是中国民主革命先驱孙中山警诫自己并勉励后人的学问之道。

我们正处于数据科学和机器学习蓬勃发展的时代,快速增长的海量数据给我们提供了源源不断的数字资源,日新月异的机器学习技术让我们能从中提取有用的价值,似乎人人都能分享时代发展的成果,又似乎很少有人能说清楚这背后的技术奥秘。在教学实践中,我们看到很多高校争先恐后地开设数据科学与人工智能专业,也发现很多学生自愿放弃传统优势专业,转攻数据科学、机器学习和人工智能等新兴学科。

了解机器学习的读者,一定听说过被无数人奉为经典,又很难啃的“西瓜书”——《机器学习》。“西瓜书”的作者周志华曾经指出,研究的目的是发现新知识、发明新技术,而研发则是利用已有的知识和技术进行研制、开发。由于Python、Scikit-Learn等相关软件的易用性,简单调用现成的机器学习算法确实能够解决一些问题,此谓“知其然”;而要真正把研究做深做精,写出有深度、有价值的好文章,一定要理解实际问题或机器学习算法背后的数学和统计知识,此谓“知其所以然”。

当你不满足于简单应用现成的工具和方法,当你在迷信机器学习方法是黑盒的假设,当你想真正理解数据科学和机器学习的算法思想时,本书就是为你精心准备,让你知其然也知其所以然的理想选择。本书系统地介绍了统计监督学习、无监督学习、回归、分类、决策树和集成学习以及当前最流行的深度学习等内容,其中交叉熵方法、蒙特卡罗方法等很多内容本身就是作者的原创成果,由作者自己介绍最合适。

本书的每一个定理都有严谨的证明,主要算法都通过伪代码描述了输入、输出及详细过程,全书配套简洁实用的Python代码,代码可以通过本书的GitHub主页下载使用。本书每一章都有丰富的配套习题,能够满足你进一步提升自我的需要,部分章节还给出了扩展阅读资料。另外,本书附录部分系统地介绍了线性代数、泛函分析、多元微分、优化问题和概率统计等数学基础知识。本书可以作为高等院校数据科学、机器学习和人工智能等学科高年级本科生或研究生的教材,也可以作为机器学习领域相关从业人员的参考书和工具书。

本书第3章和附录C由解放军信息工程大学刘楠副教授翻译,其余章节由河南工业大学人工智能与大数据学院于俊伟副教授翻译。本书翻译工作得到2021年度河南省重点研发与推广专项(科技攻关)(212102210152)、河南工业大学第二批青年骨干教师培育计划项目的资助。感谢机械工业出版社让我翻译这本优秀的作品。感恩为河南水灾、全国疫情无私奉献的所有人,是他们让我在困境中仍能安静地完成本书的翻译工作。由于译者水平有限,错误和疏漏在所难免,欢迎广大专家和读者提出宝贵意见。

于俊伟

2021年8月