2.8 习题_Python 3 爬虫、数据清洗与可视化实战（第2版）-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.8　习题

一、选择题

1．下列哪个快捷键可以打开网页源代码？（　）

A．【Shift+A】

B．【Shift+U】

C．【Ctrl+A】

D．【Ctrl+U】

2．下列哪个不是文件的编码格式？（　）

A．UTF-8

B．ANSI

C．GBK

D．str

3．下列哪种是Unicode编码的书写方式？（　）

A．a='中文'

B．a=r'中文'

C．a=u'中文'

D．a=b'中文'

4．下列关于Beautiful Soup的表述有误的是（　）。

A．Beautiful Soup不仅支持Python标准库中的HTML解析器，还支持一些第三方解析器

B．Beautiful Soup可将复杂的HTML文档转换成树形结构

C．Beautiful Soup唯一的搜索方法是find_all()

D．Beautiful Soup 3 当前已停止维护

5．Beautiful Soup自动将输入文档转换为以下哪种编码？（　）

A．Unicode

B．UTF-8

C．GBK

D．ASCII码

6．以下哪个选项不是GET方式和POST方式的区别？（　）

A．GET从服务器上获取数据，POST向服务器传送数据

B．GET安全性非常低，POST安全性较高

C．GET执行效率比POST好

D．POST传送的数据量小于GET

7．下列关于爬虫的说法有误的是（　）。

A．请求头是将自身伪装成浏览器的关键

B．大型网站通常都会根据Referer参数判断请求的来源

C．编码问题的存在会使爬虫程序报错

D．请求携带的参数封装在一个字典中，当作参数传给POST或GET

8．爬虫爬取数据的流程包括以下哪些选项？（　）

A．发送请求

B．获取响应内容

C．解析内容

D．保存数据

9．关于网页结构的阐述，下列哪个选项是正确的？（　）

A．<body>表示用户可见内容

B．<div>表示框架

C．<P>表示列表

D．<li>表示段落

10．以下哪些是requests库获取网页的方法？（　）

A．requests.request()

B．requests.get()

C．requests.post()

D．requests.delete()

11．下列哪个选项可以复制路径？（　）

A．copy xpath

B．copy selector

C．copy outerHTML

D．copy element

二、判断题

1．网页一般由三部分组成，分别为HTML（超文本标记语言）、CSS（层叠样式表）和JScript（活动脚本语言）。（　）

2．安装好Python之后，就已经安装了requests库。（　）

3．GET请求获取数据的方式不同于POST，GET请求数据必须构建请求头。（　）

4．POST方式需要权限验证和请求内容，服务器通过权限放行，该方式具有查询和修改数据的权限。（　）

5．requests库返回的数据可以是JSON格式的数据。（　）

6．requests 是用Python语言编写的，基于 urllib，采用 Apache 2 Licensed 开源协议的 HTTP 库。（　）

7．爬虫程序尽可能模拟浏览器发送请求就一定能爬取到数据。（　）

8．导入Beautiful Soup时要先安装bs4库。（　）

9．lxml解析器将文档转换成树形结构。（　）

10．正则表达式\d可以用来匹配数字。（　）

11．正则表达式由一些普通字符和一些元字符组成。（　）

12．在Python中\n表示换行符。（　）

13．如果需要在单引号之前或字符串结尾出现一个反斜杠，则需要用两个反斜杠表示。（　）

14．通过User-Agent可以识别出是浏览器访问网页还是代码访问网页。（　）

15．当遇到反爬虫时，构建请求头的伪装效果优于构建IP池。（　）

三、应用题

用POST方式对某网页标题进行爬取，爬取内容如下图所示。