上QQ阅读APP看书,第一时间看更新
本书的主要内容
本书从逻辑上可分为三部分,共12章内容,各部分说明如下:
第一部分(第1~3章),主要介绍数据预处理的基础知识,包括数据预处理的基本概念、工作流程、应用场景、开发环境、入门演练和Python科学计算工具包Numpy、SciPy、Pandas及其实际应用。如果读者已具备一定的数据预处理基础,可以跳过此部分,从第三章开始学习。
第二部分(第3~10章),是数据预处理的实战进阶部分,共计8章。第3章介绍数据采集与存储,主要涉及数据类型和采集方式,其中着重介绍了爬虫技术;第4章介绍不同格式的文本信息抽取和文件读取;第5章介绍了高效读取文件、正则清洗文本信息、网页数据清洗和文本批量清洗工作;第6章介绍了中文分词、封装分词工具包、NLTK词频处理、命名实体抽取和批量分词处理工作;第7章介绍了特征向量化处理,其中涉及数据解析、缺失值处理、归一化处理、特征词文本向量化、词频-逆词频、词集模型、词袋模型和批量文本特征向量化工作;第8章介绍基于Gensim文本特征向量化,涉及构建语料词典、词频统计、词频-逆词频计算、主题模型和特征降维等。第9章介绍了主成分分析PCA降维技术的原理和实际案例;第10章介绍了Matplotlib数据可视化及案例。
第三部分(包括第11章和第12章),是数据预处理的实际应用部分,主要介绍竞赛神器XGBoost的算法原理、应用、优化调参以及数据预处理在文本分类中的实际应用。