二、什么是远读
远读这一概念,是数字人文建立的基石。计算机的远读与人的细读,既然都是“读”,此“读”能否代替彼“读”呢?清楚其中的差别,不仅能使我们清晰地界定计算方法在人文研究中的作用和地位,而且可以帮助我们重新确立人类阅读的价值。
计算机是为科学计算而创造出来的,它擅长的是“计数”,而非理解。虽经不断的改造和升级,它的计算能力得到极大提升,但它的工作原理仍是计算。要想处理自然语言文本,计算机必须先将文本置换成便于计数的词汇集合,或者用更复杂的代数模型和概率模型来表示文本,这一过程可被称为“数据化”。数据化之后所得到的文本替代物(集合、向量、概率)虽然损失了原始文本的丰富语义,但终究是可以计算的了。理解了以上过程,我们就能明白,尽管计算机能处理海量的语料,能执行复杂的统计、分类、查询等操作,但它并没有理解文本的内容。
在大规模的文本集合上所做的远读,基本上可以归为两类:一是对文本集合整体统计特征的描述,一是对文本集合内在结构特征的揭示。例如,米歇尔等人对数百万册谷歌数字化图书做的词汇统计属于前者,莫莱蒂用图(graphs)、地图(maps)、树结构(trees)分别来展示历史小说的体裁变化、文学作品的地理特征和侦探故事的类型结构属于后者。[7]无论是宏观统计描述还是内在结构揭示,都是超越了文本具体内容的抽象表示,所得结果都是需要解读的。正如米歇尔所说,在巨量文献集合上得到的统计分析结果,为人文材料的宏观研究提供了文本之外的证据(evidence);但是要解读这些证据,正如分析古代生物化石一样,是有挑战性的。[8]解读远读结果所依赖的,仍然是学者在细读文本的基础上所建立起来的对本领域的认知和理解。一句话,计算机远读的结果,还是需要人来读的,人的阅读不可替代。
需要补充说明的是,即便是单篇文档,当我们考察它的文本特征(例如计算一篇文档中所有单字的出现频率),或者分析其内部结构(例如提取一部小说中所有人物的对话网络)时,数据量也会增长到个人无法处理的程度。所以,上述针对文档集合所作的讨论在单篇文档层面也是成立的。
以上理解可以帮助我们消除一些对数字人文的误解。例如,一个普遍存在的对数字技术的期待,或者说对数字人文的评判依据是:看看数字人文能不能更好地回答传统人文学者所关心的研究问题。严格说起来,通过个人细读文本可以回答的问题,或者说人所擅长的工作,就没必要请计算机来画蛇添足。只有当数据量或者数据精度超出了个人阅读理解的能力范围时,才有理由借助计算机来对文献或者文献集合的特征予以量化描述,再提供给人去深入解读。数字人文所提供的,不仅仅是新的工具和方法,更重要的,是它赋予我们提出新问题的能力——我们现在可以问,五千年来全人类用过的最频繁的词是什么。对于计算机科学家来说,这个问题提得过于琐碎;但是对于像米歇尔这样的文化学家来说,透过这类前人想都不会想到的问题,也许可以获得观察超长历史时段文化现象的新视角。