Python网络爬虫:从入门到精通
上QQ阅读APP看书,第一时间看更新

基础篇

第1章 Python基础及网络爬虫

引言

网络爬虫(Web Crawler)有时候也叫网络蜘蛛(Web Spider),是指这样一类程序——它们可以自动连接到互联网站点,并读取网页中的内容或者存放在网络上的各种信息,按照某种策略对目标信息进行采集(如对某个网站的全部页面进行读取)。实际上,Google(谷歌)搜索引擎本身就建构在爬虫技术之上,像Google、百度这样的搜索引擎会通过爬虫程序来不断更新自身的网站内容和对其他网站的网络索引。从某种意义上说,我们每次通过搜索引擎查询一个关键词,就是在搜索引擎服务者的爬虫程序所“爬”到的信息中进行查询。当然,搜索引擎背后使用的技术十分复杂,其爬虫技术通常也不是一般个人开发的小型程序所能比拟的。不过,爬虫程序本身其实并不复杂,只要懂一点编程知识,了解一点超文本传送协议(Hyper Text Transfer Protocol,HTTP)和超文本标记语言(Hyper Text Markup Language,HTML),就可以写出属于自己的爬虫程序,实现很多有意思的功能。

在众多编程语言中,我们选择使用Python 来编写我们的爬虫程序,Python 不仅语法简洁,便于上手,而且拥有庞大的开发者社区和浩如烟海的程序库,能为普通的程序编写提供极大的便利。虽然Python与C、C++等语言相比可能在性能上有所欠缺,但瑕不掩瑜,它的确是目前比较好的选择之一。

学习目标

1.了解Python及其基础知识。

2.熟悉互联网、HTTP与HTML。

3.掌握爬虫的运行原理。

4.掌握Python环境的配置方法。

5.掌握网站分析的方法。