3.1 文件存储_Python 3网络爬虫实战-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

3.1　文件存储

文件是存储数据的基本载体，对文件的操作几乎是所有编程语言都会涉及的内容。而使用Python进行爬虫操作，进行数据的解析，文件操作也是必不可少的内容。本节就先来学习一下文件的存储。

3.1.1　TXT文件存储

TXT文件即文本文件，是一种简单的文件类型，用户可以将数据写入文本文件中，在使用时直接读取文件内容即可。Python支持将数据写入文本文件中，在需要使用时可以使用特定方法直接读取。下面就来详细介绍在Python中如何将数据写入文本文件中，以及如何读取。

使用Python来读写文件是非常简单的操作。可以调用Python自带的open()函数来打开一个文件，获取到文件句柄，然后通过文件句柄就可以进行各种各样的操作。

open()函数的语法格式如下：

    open(name[, mode[, buffering]])

其中，参数name为指定需要打开的文件的名称；参数mode为打开的方式，根据打开方式的不同可以进行不同的操作；参数buffering用于指定打开文件时是否寄存。如果buffering取值为0，就不会有寄存；如果buffering取值为1，访问文件时就会寄存；如果将buffering的值设为大于1的整数，就表明这是寄存区的缓冲大小；如果buffering取负值，寄存区的缓冲大小就为系统默认值。

Mode（打开方式）的类型及区别如表3-1所示。

表3-1　open()函数打开方式类型表

调用open()函数打开文件之后，还需要以下file对象的方法来配合实现对文件的读取操作：

file.read([size])：该方法用于读取文件，若参数size未指定，则返回整个文件，如果文件大小大于2倍内存，就有问题，f.read()读到文件尾时返回""（空字串）。
file.readline()：该方法用于返回一行。
file.readlines([size])：该方法返回包含size行的列表，若size未指定，则返回全部行。
for line in f: print line ：这是一种访问文件的方法，通过迭代器访问。
f.write("hello\n")：该方法用于将指定内容写入文件，如果要写入字符串以外的数据，就先将其转换为字符串。
f.tell()：该方法返回一个整数，表示当前文件指针的位置（就是到文件头的比特数）。
f.seek(偏移量,[起始位置])：该方法用来移动文件指针。偏移量: 单位为比特，可正可负。起始位置为0，表示文件头，默认值；起始位置为1，表示当前位置；起始位置为2，表示文件尾。
f.close()：该方法用于关闭已经打开的文件。

下面将通过一组实例说明如何调用open()函数及file对象的方法来实现对文件的读取操作。

首先将以下文本内容保存为test.txt。

【示例3-1】读取文件内容

以上代码调用open()函数打开文件，然后调用read()方法读取文件内容，并将文件内容输出，最后关闭文件。将以上代码保存为3-1.py，执行该代码的结果如图3-1所示。

图3-1　读取TXT文件内容

除了读取外，更多的是写入操作，因为使用爬虫时，爬取到的内容更多情况下要保存到文件中，这时就要使用到文件的写操作。

下面的代码将演示如何将指定内容写入文件中。

【示例3-2】将指定内容写入文件中

以上代码首先使用写入方式打开文件，如果文件不存在就会自动创建，然后调用write()方法将指定内容写入文件中，之后使用与3-1.py相同的代码重新打开文件，读取文件中的内容并输出。将以上代码保存为3-2.py，执行该代码的结果如图3-2所示。

图3-2　写入文件

除了调用read()读取文件外，还可以每次将文件按行读取到列表中，然后通过对列表进行遍历将内容输出。下面的代码将演示了如何以遍历方式读取文件内容。

【示例3-3】按行读取文件内容

以上代码在打开文件之后，调用readlines()方法将文件内容按行读取到列表中，然后使用for遍历列表并输出所有内容。将代码保存为3-3.py，执行代码的结果如图3-3所示。

图3-3　按行读取文件并遍历

3.1.2　JSON文件存储

3.1.1小节介绍了如何实现TXT文件的存储，这一小节将介绍如何使用Python语言来编码和解码JSON对象。

JSON（JavaScript Object Notation, JS对象标记）是一种轻量级的数据交换格式。它基于ECMAScript（W3C制定的JavaScript规范）的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。JSON格式易于阅读和编写，同时也易于机器解析和生成，能够有效地提升网络传输效率。

JSON支持的数据格式如下：

对象（字典），使用花括号。
数组（列表），使用方括号。
整型、浮点型、布尔类型，还有null类型。
字符串类型（字符串必须要用双引号引住，不能用单引号）。
多个数据之间使用逗号分开。

注意

JSON本质上就是一个字符串。

字典、列表是Python中的特殊数据类型，字典和列表能够转换为JSON数据。在Python中，要想操作JSON类型文件，可以通过导入JSON库来实现。JSON对象常用的方法有两个：

（1）json.dumps：该方法将Python对象编码成JSON字符串。其语法格式如下：

    json.dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True,
allow_nan=True, cls=None, indent=None, separators=None, encoding="utf-8",
default=None, sort_keys=False, **kw)

obj为需要进行编码的Python对象；skipkeys用于指定是否跳过关键字；ensure_ascii指定是否编码为ASCII码。

（2）json.loads：该方法将已编码的JSON字符串解码为Python对象。

下面我们将通过一个实例来说明如何将字典、列表转换为JSON数据。

【示例3-4】将字典和列表转换为JSON数据

以上代码调用JSON的dumps()方法将指定的列表（包含字典）数据转化为JSON字符串。因为JSON在转储（Dump）的时候，只能存放ASCII的字符，因此会将中文进行转义，这时我们可以使用ensure_ascii=False关闭这个特性。将以上代码保存为3-4.py，执行该代码的结果如图3-4所示。

图3-4　将字典和列表转换为JSON数据

在Python中，只有基本数据类型才能转换成JSON格式的字符，即int、float、str、list、dict、tuple。

JSON模块中除了dumps函数外，还有一个dump函数，这个函数可以传入一个文件指针，直接将字符串dump到文件中。

【示例3-5】将JSON数据dump到文件中

以上代码调用JSON的dump()方法将指定的列表（包含字典）数据直接转储到了指定文件中，其中第一个参数为需要转储的数据，第二个参数为打开的文件指针。其中调用open()方法打开文件。将以上代码保存为3-5.py，执行该代码将会在当前目录下生成一个a.JSON文件，其内容如图3-5所示。

图3-5　生成的JSON文件内容

前面介绍了如何将Python数据转化为JSON字符串，另外Python也支持逆向操作，即将JSON字符串加载为Python对象，这时只需要调用JSON的loads()方法即可。下面通过实例来说明。

【示例3-6】将JSON数据字符串加载为对象

    import json
    json_str='[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦",
"price": 9.9}]'
    books=json.loads(json_str,encoding='utf-8')
    print(type(books))
    print(books)

以上代码调用JSON的loads()方法将JSON字符串加载为Python对象，并输出对象的类型及内容。其中，使用encoding参数用于指定加载的编码，这样可以防止出现乱码。将以上代码保存为3-6.py，执行该代码的结果如图3-6所示。

图3-6　将JSON字符串加载为Python对象

Python还支持将文件中包含的JSON数据读取出来，再进行后续操作。调用load()方法打开包含JSON数据的文件指针即可。

在读取前，假设当前目录中有a.JSON文件，其内容如下：

    [{"name": "\u5c0f\u738b", "score": 95}, {"name": "\u5c0f\u660e", "score":
99}, {"name": "\u5c0f\u7ea2", "score": 99}]

【示例3-7】从文件中读取JSON数据

    import json
    with open('a.JSON','r',encoding='utf-8') as fp:
    json_str=json.load(fp)
    print(json_str)

以上代码调用JSON的load()方法从打开的文件中读取JSON数据，并将结果进行输出。在打开文件时需要注意，使用到了encoding参数用于指定加载的编码，这样可以防止出现乱码。将以上代码保存为3-7.py，执行该代码的结果如图3-7所示。

图3-7　从文件中读取JSON数据

3.1.3　CSV文件存储

CSV（Comma-Separated Values，逗号分隔值），有时也称为字符分隔值，因为分隔字符也可以不是逗号。CSV文件是一类文件的简称，它的文件以纯文本形式存储表格数据（数字和文本）。

纯文本意味着该文件是一个字符序列，不包含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔。每条记录由字段组成，字段间的分隔符是其他字符或字符串，常见的是逗号或制表符。通常所有记录都有完全相同的字段序列。通常都是纯文本文件。

Python提供了对CSV文件的支持，这一小节将学习如何使用Python对CSV文件进行读写操作。

对CSV文件进行操作，读取文件内容是基本的操作之一。调用CSV的reader()方法即可实现对CSV文件的读取操作。

在开始编写具体代码前，先在当前目录下建立data.csv文件，其内容如下：

    name,price,author
    三国演义,48,罗贯中
    红楼梦,50,曹雪芹
    西游记,45,吴承恩
    三体,20,刘慈欣

把以上代码保存为data.csv文件备用。

【示例3-8】读取CSV文件

    import csv
    with open('data.csv','r') as fp:
    reader=csv.reader(fp)
    titles=next(reader)
    for x in reader:
        print(x)

以上代码这样操作，以后获取数据的时候，就要通过下标来获取数据。将以上代码保存为3-8.py，执行代码的结果如图3-8所示。

图3-8　读取CSV文件

如果想要在获取数据的时候通过标题来获取，那么可以调用DictReader方法。

【示例3-9】读取CSV文件II

    import csv
    with open('data.csv','r') as fp:
    reader=csv.DictReader(fp)
    titles=next(reader)
    for x in reader:
        print(x['author'],end="\t")
        print(x['name'],end="\t")
        print(x['price'])

以上代码调用DictReader()方法进行读取，之后就可以使用标题方式来获取内容，这里的标题即为首列的标题。将以上代码保存为3-9.py，执行代码的结果如图3-9所示。

图3-9　通过标题来获取CSV文件数据

由于代码3-9.py是用标题形式来读取CSV文件的，因此可以自己决定先显示哪一列。同时也不再以列表形式输出。

写入数据到CSV文件需要创建一个writer对象，主要用到两个方法：一个是writerow()，用于写入一行；另一个是writerows()，用于写入多行。下面分别演示单行写入与多行写入。

【示例3-10】写入CSV文件

    import csv
    headers = ['name','price','author']
    values = [
        ('流浪地球',18,'刘慈欣'),
        ('梦的解析',30,'弗洛伊德'),
        ('时间简史',35,'斯蒂芬·威廉·霍金')
    ]
    with open('book.csv','w',encoding='utf-8',newline='') as fp:
        writer=csv.writer(fp)
        writer.writerow(headers)
        writer.writerows(values)

将以上代码保存为3-10.py，执行代码将会在当前目录生成一个名为book.csv的文件，其内容如图3-10所示。

图3-10　生成的book.csv的内容

除了按行写入CSV文件之外，也可以使用字典的方式写入数据。这时就需要调用DictWriter方法了。

【示例3-11】以字典方式写入CSV文件

    import csv
    headers = ['name','price','author']
    values = [
        {"name":'流浪地球',"price":18,"author":'刘慈欣'},
        {"name":'梦的解析',"price":30,"author":'弗洛伊德'},
        {"name":'时间简史',"price":35,"author":'斯蒂芬·威廉·霍金'}
    ]
    with open('book2.csv','w',newline='') as fp:
        writer=csv.DictWriter(fp,headers)
        writer.writerow({"name":'三体',"price":20,"author":'刘慈欣'})
        writer.writerows(values)

以上代码定义了一组字典列表，然后调用CSV的DictWriter()方法初始化对象，最后调用writerow()方法将字典内容写入CSV文件中。将以上代码保存为3-11.py，执行代码将会在当前目录生成一个名为book2.csv的文件，其内容如图3-11所示。

图3-11　生成的book2.csv的内容

下面将综合前面的内容做一个小练习，自定义一组函数实现对CSV文件的综合操作。

【示例3-12】自定义函数综合处理CSV文件

以上代码综合了对CSV文件的读写操作，并将它们整合到函数中，在实际应用中，用户可以根据自己的需要对系统已有的内容进行扩充，甚至可以自己创建类与模块，以实现复杂的要求。将以上代码保存为3-12.py，执行该代码，将会在当前目录下创建名为classroom2.csv的文件，其内容如图3-12所示。

图3-12　练习对CSV文件的操作

3.1 文件存储

3.1.1 TXT文件存储

3.1.2 JSON文件存储

注意

3.1.3 CSV文件存储

3.1　文件存储

3.1.1　TXT文件存储

3.1.2　JSON文件存储

3.1.3　CSV文件存储