Python 3 爬虫、数据清洗与可视化实战（第2版）

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

第2章　数据采集的基本知识

2.1　关于爬虫的合法性

几乎每个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站，可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以被爬取。如果网站有robots.txt文档，就要判断是否有禁止访客获取的数据。

以某电商网站为例，如图2-1所示。该电商网站允许部分爬虫访问它的部分路径，而对于没有得到允许的用户，则全部禁止爬取，代码如下。

以上代码的意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。

图2-1

上一章目录下一章