上QQ阅读APP看书,第一时间看更新
第2章 Web网站的构成和页面渲染
爬虫与反爬虫的较量总是围绕着Web网站展开,爬虫的主要目的是获取Web网站中的内容。开发者要想限制爬虫获取数据,就需要了解HTML从文档变成内容丰富的页面所要经历的每个阶段,例如网络请求、资源匹配、数据传输和页面渲染等。所以在学习反爬虫之前,我们有必要了解Web网站的构成和页面渲染过程的相关知识。
Web网站由服务器端和客户端组成,服务器端主要负责为客户端提供文件资源提取和数据保存等服务,而客户端则将服务器端的资源转化为用户可读的内容。服务器端与客户端之间的信息交互需要通过网络进行传输,而网络传输会根据对应的网络协议进行,三者之间的关系如图2-1所示。要注意的是,客户端与服务器端必须使用相同的网络协议才能够实现通信。
图2-1 服务器端、客户端与网络协议间的关系
在本章中,我们将了解常见的网络协议、请求与响应、页面渲染等知识。