Python数据科学应用从入门到精通
上QQ阅读APP看书,第一时间看更新

前言

Python作为一门简单、易学、易读、易维护、用途广泛、速度快、免费、开源的主流编程语言,广泛应用于Web开发、大数据处理、人工智能、云计算、爬虫、游戏开发、自动化运维开发等各个领域。它是众多高等院校学生的必修基础课程,也是堪与Office办公软件比肩的职场人士必备技能。然而,不少学生或职场人士常常面临一个困境:在数字化转型的大背景和大趋势下,他们认识到学习Python等分析工具的重要性,但在真正学习Python的各种语言规则时,往往体验不到知识的乐趣,只是匆匆翻看几章后就将书束之高阁。造成这种情况的根因在于没有将学习与自身的研究或工作需求结合,没有以解决问题为目标和导向进行学习。对于很多读者来说,学以致用的最佳途径是使用Python进行数据科学应用。在数字化转型浪潮下,数据科学应用已经不再局限于概念普及和理念推广的层面,而是真真切切地广泛应用于各类企事业单位的各个领域。从客户分层管理到目标客户选择,从客户满意度分析到客户流失预警,从信用风险防控到精准推荐……数据科学应用对于企业全要素生产率的边际提升起到了至关重要的作用。基于上述原因,笔者致力于编写这本Python数据科学应用从入门到精通的教学和参考书,将Python与数据科学应用相结合,通过“深入浅出讲解数据科学原理-贴近实际精选操作案例-详细演示Python操作及代码含义-准确完整解读分析结果”的一站式服务,为读者编写一本“能看得懂、学得进去、真用得上”的数据科学应用书籍。我将这本书献给新时代的莘莘学子和职场奋斗者。

本书共分为13章。第1章为数据科学应用概述,介绍数据清洗、特征工程、数据可视化、数据挖掘与建模的概念、重要性、主要内容、应用场景、注意事项等,并解释为何选择Python作为实现工具。第2章为Python入门基础,内容包括Python概述,Anaconda平台的下载与安装,Python的注释,基本输出与输入函数,Python的保留字与标识符,Python的变量和数据类型,Python的数据运算符,Python序列的概念及通用操作,Python列表,Python元组,Python字典,Python集合,Python字符串等。第3章为数据清洗,介绍Python函数与模块、Numpy模块数组、Pandas模块序列、Pandas模块数据框、Python的流程控制语句,以及常见类型数据在Python中的读取、合并、写入,数据检索,数据行列处理,数据缺失值、重复值和异常值处理,制作数据透视表,进行描述性分析和交叉表分析等。第4章为特征选择,介绍特征选择的概念、原则与方法,以及过滤法、嵌入法和包裹法等特征选择方法在Python中的实现。第5章为特征处理,介绍常用的特征处理方式,包括特征归一化、特征标准化、样本归一化等,同时介绍了等宽分箱、等频分箱、决策树分箱、卡方分箱等分箱方法,并讲解了WOE和IV及其在Python中的实现。第6章为特征提取,介绍无监督降维技术主成分分析(PCA)和有监督降维技术线性判别分析(LDA)。第7章为数据可视化,介绍常用的数据可视化涉及图形的绘制,包括四象限图、热力图、直方图、条形图、核密度图、正态QQ图、散点图、线图(含时间序列趋势图)、双纵轴线图、回归拟合图、箱图、小提琴图、联合分布图、雷达图、饼图等。第8章为数据挖掘与建模1——线性回归,主要介绍线性回归算法的基本原理及其在Python中的实现。第9章为数据挖掘与建模2——Logistic回归,主要介绍二元Logistic回归的基本原理,并结合具体实例讲解算法在Python中的实现与应用。第10章为数据挖掘与建模3——决策树,讲解决策树算法的概念与原理、特征变量选择及其临界值确定方法、决策树的剪枝、包含剪枝决策树的损失函数、变量重要性,以及算法解决分类问题和回归问题的Python实现与应用。第11章为数据挖掘与建模4——随机森林,讲解模型融合的基本思想、集成学习的概念与分类、装袋法的概念与原理、随机森林算法的概念与原理、随机森林算法特征变量重要性度量、部分依赖图与个体条件期望图,以及算法解决分类问题和回归问题的Python实现与应用。第12章为数据挖掘与建模5——神经网络,讲解神经网络算法的基本思想、感知机、多层感知机、神经元激活函数、误差反向传播算法、万能近似定理及多隐藏层优势、BP算法过拟合问题的解决,以及算法解决分类问题和回归问题的Python实现与应用。第13章为数据挖掘与建模6——RFM分析,讲解RFM分析的基本思想、RFM分类组合与客户类型对应情况、不同类型客户的特点及市场营销策略,并结合具体实例讲解该分析方法在Python中的实现与应用。

本书的特色在于:一是采用了“入门-进阶-应用”的循序渐进方式来讲解Python与数据科学应用。前两章分别介绍了数据科学应用概述和Python入门基础,使读者能够基本掌握Python与数据科学应用的基础。随后的章节中详细讲解了各类数据科学应用中用到的Python代码,并为每行代码提供了恰当的注释,以帮助读者真正理解代码的含义,并能够灵活应用于自身的科研或应用研究。二是采用了“复杂算法模型简单化、抽象理论概念具象化”的方法来讲解数据科学。通过图像化和案例化的方式,剖析了各种数据科学应用的基本原理和适用条件,使读者能够看得明白、学得进去,避免在复杂的数学公式推导面前耗尽了所有的学习热情,最终望洋兴叹,苦技能虽好却不能为己所用矣。同时,本书也做到了不失专业深度,使读者能够掌握各种数据科学应用方法的精髓,根据自身需要选取方法、优化代码和进行科学调参。三是实现了Python与数据科学应用的深度融合。以学以致用为桥梁实现了Python与数据科学应用之间的高效联动协同,使读者通过学习本书能够同时掌握Python语言和数据科学应用这两大专业利器,达到“一箭双雕”的学习效果,有效提升科研与应用水平。

本书提供了丰富的资源,除了可以在正文中扫描二维码观看教学视频外,还可以扫描下方二维码下载源代码、数据文件、PPT、思维导图和习题答案。

源代码

数据文件

PPT

思维导图

习题答案

如果下载有问题,请联系booksaga@126.com,邮件主题为“Python数据科学应用从入门到精通”。

本书在编写过程中也借鉴了前人的研究成果。此外,本书作者张甜博士于2020年1月师从山东大学陈强教授,在陈教授的指导下系统学习了机器学习课程。

由于作者水平有限,书中难免存在疏漏之处,诚恳地欢迎各位同行专家和广大读者批评指正,并提出宝贵的意见。

作 者

2023年7月