2.8 习题
一、选择题
1.下列哪个快捷键可以打开网页源代码?( )
A.【Shift+A】
B.【Shift+U】
C.【Ctrl+A】
D.【Ctrl+U】
2.下列哪个不是文件的编码格式?( )
A.UTF-8
B.ANSI
C.GBK
D.str
3.下列哪种是Unicode编码的书写方式?( )
A.a='中文'
B.a=r'中文'
C.a=u'中文'
D.a=b'中文'
4.下列关于Beautiful Soup的表述有误的是( )。
A.Beautiful Soup不仅支持Python标准库中的HTML解析器,还支持一些第三方解析器
B.Beautiful Soup可将复杂的HTML文档转换成树形结构
C.Beautiful Soup唯一的搜索方法是find_all()
D.Beautiful Soup 3 当前已停止维护
5.Beautiful Soup自动将输入文档转换为以下哪种编码?( )
A.Unicode
B.UTF-8
C.GBK
D.ASCII码
6.以下哪个选项不是GET方式和POST方式的区别?( )
A.GET从服务器上获取数据,POST向服务器传送数据
B.GET安全性非常低,POST安全性较高
C.GET执行效率比POST好
D.POST传送的数据量小于GET
7.下列关于爬虫的说法有误的是( )。
A.请求头是将自身伪装成浏览器的关键
B.大型网站通常都会根据Referer参数判断请求的来源
C.编码问题的存在会使爬虫程序报错
D.请求携带的参数封装在一个字典中,当作参数传给POST或GET
8.爬虫爬取数据的流程包括以下哪些选项?( )
A.发送请求
B.获取响应内容
C.解析内容
D.保存数据
9.关于网页结构的阐述,下列哪个选项是正确的?( )
A.<body>表示用户可见内容
B.<div>表示框架
C.<P>表示列表
D.<li>表示段落
10.以下哪些是requests库获取网页的方法?( )
A.requests.request()
B.requests.get()
C.requests.post()
D.requests.delete()
11.下列哪个选项可以复制路径?( )
A.copy xpath
B.copy selector
C.copy outerHTML
D.copy element
二、判断题
1.网页一般由三部分组成,分别为HTML(超文本标记语言)、CSS(层叠样式表)和JScript(活动脚本语言)。( )
2.安装好Python之后,就已经安装了requests库。( )
3.GET请求获取数据的方式不同于POST,GET请求数据必须构建请求头。( )
4.POST方式需要权限验证和请求内容,服务器通过权限放行,该方式具有查询和修改数据的权限。( )
5.requests库返回的数据可以是JSON格式的数据。( )
6.requests 是用Python语言编写的,基于 urllib,采用 Apache 2 Licensed 开源协议的 HTTP 库。( )
7.爬虫程序尽可能模拟浏览器发送请求就一定能爬取到数据。( )
8.导入Beautiful Soup时要先安装bs4库。( )
9.lxml解析器将文档转换成树形结构。( )
10.正则表达式\d可以用来匹配数字。( )
11.正则表达式由一些普通字符和一些元字符组成。( )
12.在Python中\n表示换行符。( )
13.如果需要在单引号之前或字符串结尾出现一个反斜杠,则需要用两个反斜杠表示。( )
14.通过User-Agent可以识别出是浏览器访问网页还是代码访问网页。( )
15.当遇到反爬虫时,构建请求头的伪装效果优于构建IP池。( )
三、应用题
用POST方式对某网页标题进行爬取,爬取内容如下图所示。