上QQ阅读APP看书，第一时间看更新

内容提要

本书主要介绍如何使用Python语言进行网络爬虫程序的开发，从Python语言的基本特性入手，详细介绍Python网络爬虫开发的多个方面，涉及HTTP、HTML、正则表达式、JavaScript、自然语言处理、数据处理与科学计算等不同领域的内容。全书共12章，包括基础篇、进阶篇、提高篇和实战篇4个部分。基础篇包括第 1、2、3 章，分别为 Python 基础及网络爬虫、静态网页抓取、数据存储。进阶篇包括第4、5、6章，分别为JavaScript与动态内容、模拟登录与验证码、爬虫数据的分析与处理。提高篇包括第7、8、9章，分别为爬虫的灵活性和多样性、Selenium模拟浏览器与网站测试、爬虫框架Scrapy与反爬虫。实战篇提供了3个实战项目供读者学习参考。本书内容覆盖网络数据抓取与爬虫编程中的主要知识和前沿技术。同时，本书在重视理论基础的前提下，从实用性和丰富度出发，结合实例演示爬虫程序编写的核心流程，将理论与实践结合，力求提高读者的网络爬虫实操技能。

本书可作为高等院校数据科学、统计学、计算机科学、软件工程等相关专业课程的教材，也可作为Python语言初学者、网络爬虫技术爱好者的参考书。