更新时间:2023-11-10 18:05:04
封面
版权信息
面向新工科高等院校大数据专业系列教材 编委会成员名单
出版说明
前言
基础篇
第1章 Python基础及网络爬虫
1.1 了解Python语言
1.2 配置安装Python开发环境
1.3 Python基本语法介绍
1.4 互联网、HTTP与HTML
1.5 Hello Spider!
1.6 分析网站
1.7 本章小结
1.8 实践:Python环境的配置与爬虫的运行
1.9 习题
第2章 数据采集与预处理
2.1 数据
2.2 数据分析过程
2.3 数据采集
2.4 数据清洗
2.5 数据集成
2.6 数据转换
2.7 数据脱敏
2.8 本章小结
2.9 实践:使用Python尝试数据的清洗
2.10 习题
第3章 静态网页采集
3.1 从采集开始
3.2 正则表达式
3.3 BeautifulSoup爬虫
3.4 XPath与lxml
3.5 遍历页面
3.6 使用API
3.7 本章小结
3.8 实践:哔哩哔哩直播间信息爬取练习
3.9 习题
第4章 数据存储
4.1 Python中的文件
4.2 Python中的字符串
4.3 Python中的图片
4.4 CSV
4.5 数据库的使用
4.6 其他类型的文档
4.7 本章小结
4.8 实践:使用Python 3读写SQLite数据库
4.9 习题
进阶篇
第5章 JavaScript与动态内容
5.1 JavaScript与AJAX技术
5.2 抓取AJAX数据
5.3 抓取动态内容
5.4 本章小结
5.5 实践:爬取机械工业出版社新书上架信息
5.6 习题
第6章 模拟登录与验证码
6.1 表单
6.2 Cookie
6.3 模拟登录网站
6.4 验证码
6.5 本章小结
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie
6.7 习题
第7章 爬虫数据的分析与处理
7.1 Python与文本分析
7.2 数据处理与科学计算
7.3 本章小结
7.4 实践:中国每年大学招生人数变化的可视化
7.5 习题
提高篇
第8章 爬虫的灵活性和多样性
8.1 爬虫的灵活性——以微信数据抓取为例
8.2 爬虫的多样性
8.3 爬虫的部署和管理
8.4 本章小结
8.5 实践:基于PyQuery爬取菜鸟教程
8.6 习题
第9章 Selenium模拟浏览器与网站测试
9.1 测试
9.2 Python的单元测试
9.3 使用Python爬虫测试网站
9.4 使用Selenium测试
9.5 本章小结
9.6 实践:使用Selenium爬取百度搜索“爬虫”的结果
9.7 习题
第10章 爬虫框架Scrapy与反爬虫
10.1 爬虫框架
10.2 网站反爬虫
10.3 本章小结
10.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题
10.5 习题
实战篇
第11章 实战:根据关键词爬取新闻
11.1 利用Web Scraper工具
11.2 利用Selenium和XPath技术
11.3 本章小结
第12章 实战:爬取科研文献信息
12.1 科研文献数据爬取
12.2 本章小结
第13章 实战:蒸汽平台游戏数据爬取