Scrapy网络爬虫开发实战
上QQ阅读APP看书,第一时间看更新

1.4 上手Scrapy网络爬虫开发

Python软件基金会维护的Python语言代码解释器,可以从Python官方网站https://www.python.org下载。

在Windows下安装Python以后,在控制台输入python命令进入交互式环境。

     d:\data>python
     Python 3.7.2 (tags/v3.7.2:9a3ffc0492, Dec 23 2018, 23:09:28) [MSC v.1916 64 bit
     (AMD64)] on win32
     Type "help", "copyright", "credits" or "license" for more information.
     >>>

由于开源软件的迅速发展,可以借助开源软件简化自然语言处理的开发工作。简单地,可以使用Sublime这样的文本编辑器写Python代码,也可以使用Eric(https://ericide.python-projects.org)或者Microsoft Visual Studio这样的集成开发环境。

Scrapy(https://github.com/scrapy/scrapy)是一个流行的爬虫框架。要安装Scrapy,请在终端使用以下命令:

     pip install Scrapy

Scrapy shell是一个交互式shell,可以在其中非常快速地尝试和调试爬虫代码。通常,我们通过传递网页的URL来启动一个shell,如下所示:

     语法:scrapy shell <url_to_be_scraped>

例如:

     scrapy shell http://quotes.toscrape.com/tag/friends/

获得网页标题:

     In [1]: response.xpath('//title/text()').get()
     Out[1]: 'Quotes to Scrape'

在浏览器中查看网页源代码,可以看到网页标题:

一旦我们学会了启动shell,我们就可以用它来测试爬取代码。在编写任何Python爬虫代码之前,应该使用shell测试网页以进行抓取。Scrapy shell有一些可用的快捷方式,一旦我们启动了shell,它们就可用了。快捷方式介绍如下。

shelp():shelp()命令,显示Scrapy对象列表和有用的快捷方式。可以看到,Request对象代表发送到链接http://quotes.toscrape.com/tag/friends/的GET请求。此外,如果Response对象包含一个200 HTTP代码,表示请求成功,除此之外,它还提到了Crawler和Spider对象的位置。

fetch(URL):“URL”是指向需要抓取的网页的链接。fetch快捷方式接受一个URL,即要抓取的网页,它返回爬虫信息,以及响应是成功还是失败。在下面的示例中,我们有一个有效的URL和一个无效的URL,根据请求的性质,fetch会显示错误或成功代码。

fetch(request):我们可以创建一个Request对象,并将其传递给fetch()方法,为此,需要创建一个Scrapy对象。Request类提及到了所需的HTTP方法、网页的URL、标头(如果有的话)。我们要抓取URL=‘http://quotes.toscrape.com/tag/friends/’的网页,我们需要准备请求对象为:

     fetch(request_object)

终端输入输出为:

view(Response):在默认浏览器中打开网页,网页是作为Request对象或fetch()方法中的URL发送的网页。当我们输入view(Response)时,在上述fetch(Request)之后,网页会在默认浏览器中打开。