前言

Python是军刀型的开源工具，被广泛应用于Web开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方面，而且Python的语法简洁易读，这让许多编程入门者不再望而却步，因此，Python在最近几年非常受欢迎，各行各业的技术人员都开始使用Python。

本书内容来自笔者在高校授课的内容，主要介绍如何运用Python工具获取电商平台的页面数据，并对数据进行清洗和存储。本书简化了Python基础部分，从而保证有足够的篇幅来介绍爬虫、数据清洗和可视化的内容。

本书第１版自出版以来受到各界人士的青睐，为了给读者更好的体验，第2版的代码和数据都保存在Gitee上，读者可通过访问笔者的Gitee主页获取资料。第2版在内容上新增了习题、手机App数据的采集方法和Selenium的基础操作，其中习题包含选择题、判断题、填空题、实操题和应用题。

本书采用的Python版本是Python 3.6.2。虽然目前一些高校和开发者在使用Python 2.7，但是Python团队在2020年1月1日停止了对Python 2.7的支持、更新，因此Python 2.X转向Python 3.X是大势所趋。

本书第1章简单介绍Python和相关的IDE，如果读者完全没有Python基础，那么建议选购一本基础书作为辅助。第2～7章介绍爬虫的实例，实现从最简单的爬虫到相对较复杂的爬虫，涉及的爬虫包有requests、Scrapy和Selenium，采集对象有PC网页和手机App。鉴于实例的限制，本书的爬虫内容没有涉及代理服务器和验证码处理等问题。第8章介绍了4个知名网站的采集案例。第9章介绍在Python中如何连接并操作数据库。第10章介绍了NumPy及其用法。第11章详细介绍了pandas的功能，pandas是Python数据清洗和建模中非常重要的库。第12章用两个完整的案例展示了从爬虫到建模的过程。第13章介绍了Python的数据可视化，选用的库是matplotlib和pyecharts，其中详细介绍了pyecharts。

鉴于笔者水平有限，书中不足之处请读者不吝指教。

说明

网络爬虫作为一项技术，更应该服务于社会。在使用该技术的过程中，应遵守Robots协议。同时，需要注意对数据所涉及的知识产权和隐私信息进行保护。另外，在采集数据时，需要注意礼貌，即不频繁地请求网页，以防止给数据提供者的服务器造成不良影响。在使用所采集的数据时，需要注意是否涉及商业利益和相关法律。本书中所使用的案例皆为测试案例，仅供读者学习使用，本书中的URL均做了处理。

读者服务

微信扫码回复：39118

● 获取博文视点学院20元付费内容抵扣券

● 获取本书每章练习题答案

● 获取更多技术专家分享资源

● 加入读者交流群，与更多读者互动