Python网络爬虫技术与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.9 习题

一、选择题

(1)list1=[x for x in range(5,2,-1)],则打印list1的结果是( )。

A.[5,4,3]

B.[3,4,5]

C.[2,3,4]

D.[4,3,2]

(2)"ab"+"c"*2结果是( )。

A.abc2

B.abcabc

C.abcc

D.ababcc

(3)以下哪些是爬虫技术可能存在风险( )。

A.大量占用爬取网站的资源

B.网站敏感信息的获取造成的不良后果

C.违背网站的爬取设置

D.以上都是

二、判断题

(1)Robots协议可以强制控制爬虫抓取的内容。( )

(2)HTTP中的GET请求方式用于提交数据。( )

(3)URL包含的信息指出文件的位置以及浏览器应该怎么处理它,所有互联网上的每个文件都有一个唯一的URL。( )

三、问答题

(1)使用XPath定位百度搜索中搜索框和按钮的完整XPath。

(2)requests库相比于urllib库的优势有哪些?