Python网络爬虫技术与实践

吕云翔张扬杨壮等编著

更新时间：2023-11-10 18:05:04

最新章节：内容简介

封面

版权信息

面向新工科高等院校大数据专业系列教材编委会成员名单

出版说明

前言

基础篇

第1章 Python基础及网络爬虫

1.1 了解Python语言

1.2 配置安装Python开发环境

1.3 Python基本语法介绍

1.4 互联网、HTTP与HTML

1.5 Hello Spider!

1.6 分析网站

1.7 本章小结

1.8 实践：Python环境的配置与爬虫的运行

1.9 习题

第2章数据采集与预处理

2.1 数据

2.2 数据分析过程

2.3 数据采集

2.4 数据清洗

2.5 数据集成

2.6 数据转换

2.7 数据脱敏

2.8 本章小结

2.9 实践：使用Python尝试数据的清洗

2.10 习题

第3章静态网页采集

3.1 从采集开始

3.2 正则表达式

3.3 BeautifulSoup爬虫

3.4 XPath与lxml

3.5 遍历页面

3.6 使用API

3.7 本章小结

3.8 实践：哔哩哔哩直播间信息爬取练习

3.9 习题

第4章数据存储

4.1 Python中的文件

4.2 Python中的字符串

4.3 Python中的图片

4.4 CSV

4.5 数据库的使用

4.6 其他类型的文档

4.7 本章小结

4.8 实践：使用Python 3读写SQLite数据库

4.9 习题

进阶篇

第5章 JavaScript与动态内容

5.1 JavaScript与AJAX技术

5.2 抓取AJAX数据

5.3 抓取动态内容

5.4 本章小结

5.5 实践：爬取机械工业出版社新书上架信息

5.6 习题

第6章模拟登录与验证码

6.1 表单

6.2 Cookie

6.3 模拟登录网站

6.4 验证码

6.5 本章小结

6.6 实践：通过Selenium模拟登录Gitee并保存Cookie

6.7 习题

第7章爬虫数据的分析与处理

7.1 Python与文本分析

7.2 数据处理与科学计算

7.3 本章小结

7.4 实践：中国每年大学招生人数变化的可视化

7.5 习题

提高篇

第8章爬虫的灵活性和多样性

8.1 爬虫的灵活性——以微信数据抓取为例

8.2 爬虫的多样性

8.3 爬虫的部署和管理

8.4 本章小结

8.5 实践：基于PyQuery爬取菜鸟教程

8.6 习题

第9章 Selenium模拟浏览器与网站测试

9.1 测试

9.2 Python的单元测试

9.3 使用Python爬虫测试网站

9.4 使用Selenium测试

9.5 本章小结

9.6 实践：使用Selenium爬取百度搜索“爬虫”的结果

9.7 习题

第10章爬虫框架Scrapy与反爬虫

10.1 爬虫框架

10.2 网站反爬虫

10.3 本章小结

10.4 实践：使用反反爬虫策略抓取新浪体育频道热门新闻标题

10.5 习题

实战篇

第11章实战：根据关键词爬取新闻

11.1 利用Web Scraper工具

11.2 利用Selenium和XPath技术

11.3 本章小结

第12章实战：爬取科研文献信息

12.1 科研文献数据爬取

12.2 本章小结

第13章实战：蒸汽平台游戏数据爬取