前言
Python是军刀型的开源工具,被广泛应用于Web开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方面,而且Python的语法简洁易读,这让许多编程入门者不再望而却步,因此,Python在最近几年非常受欢迎,各行各业的技术人员都开始使用Python。
本书内容来自笔者在高校授课的内容,主要介绍如何运用Python工具获取电商平台的页面数据,并对数据进行清洗和存储。本书简化了Python基础部分,从而保证有足够的篇幅来介绍爬虫、数据清洗和可视化的内容。
本书第1版自出版以来受到各界人士的青睐,为了给读者更好的体验,第2版的代码和数据都保存在Gitee上,读者可通过访问笔者的Gitee主页获取资料。第2版在内容上新增了习题、手机App数据的采集方法和Selenium的基础操作,其中习题包含选择题、判断题、填空题、实操题和应用题。
本书采用的Python版本是Python 3.6.2。虽然目前一些高校和开发者在使用Python 2.7,但是Python团队在2020年1月1日停止了对Python 2.7的支持、更新,因此Python 2.X转向Python 3.X是大势所趋。
本书第1章简单介绍Python和相关的IDE,如果读者完全没有Python基础,那么建议选购一本基础书作为辅助。第2~7章介绍爬虫的实例,实现从最简单的爬虫到相对较复杂的爬虫,涉及的爬虫包有requests、Scrapy和Selenium,采集对象有PC网页和手机App。鉴于实例的限制,本书的爬虫内容没有涉及代理服务器和验证码处理等问题。第8章介绍了4个知名网站的采集案例。第9章介绍在Python中如何连接并操作数据库。第10章介绍了NumPy及其用法。第11章详细介绍了pandas的功能,pandas是Python数据清洗和建模中非常重要的库。第12章用两个完整的案例展示了从爬虫到建模的过程。第13章介绍了Python的数据可视化,选用的库是matplotlib和pyecharts,其中详细介绍了pyecharts。
鉴于笔者水平有限,书中不足之处请读者不吝指教。
说明
网络爬虫作为一项技术,更应该服务于社会。在使用该技术的过程中,应遵守Robots协议。同时,需要注意对数据所涉及的知识产权和隐私信息进行保护。另外,在采集数据时,需要注意礼貌,即不频繁地请求网页,以防止给数据提供者的服务器造成不良影响。在使用所采集的数据时,需要注意是否涉及商业利益和相关法律。本书中所使用的案例皆为测试案例,仅供读者学习使用,本书中的URL均做了处理。
读者服务
微信扫码回复:39118
● 获取博文视点学院20元付费内容抵扣券
● 获取本书每章练习题答案
● 获取更多技术专家分享资源
● 加入读者交流群,与更多读者互动