上QQ阅读APP看书，第一时间看更新

第2章 Web网站的构成和页面渲染

爬虫与反爬虫的较量总是围绕着Web网站展开，爬虫的主要目的是获取Web网站中的内容。开发者要想限制爬虫获取数据，就需要了解HTML从文档变成内容丰富的页面所要经历的每个阶段，例如网络请求、资源匹配、数据传输和页面渲染等。所以在学习反爬虫之前，我们有必要了解Web网站的构成和页面渲染过程的相关知识。

Web网站由服务器端和客户端组成，服务器端主要负责为客户端提供文件资源提取和数据保存等服务，而客户端则将服务器端的资源转化为用户可读的内容。服务器端与客户端之间的信息交互需要通过网络进行传输，而网络传输会根据对应的网络协议进行，三者之间的关系如图2-1所示。要注意的是，客户端与服务器端必须使用相同的网络协议才能够实现通信。

图2-1 服务器端、客户端与网络协议间的关系

在本章中，我们将了解常见的网络协议、请求与响应、页面渲染等知识。