一、数字人文是如何产生的
数字人文的前身是“人文计算”(humanities computing),这一命名反映了人们对此领域的最初认识:将计算机作为一种新的工具应用到人文领域来解决问题。随着计算机技术,尤其是紧随其后的互联网技术在人类生活中全方位的渗透,信息表达和信息传播从传统的纸质媒体向网络平台全面迁移,人们逐渐认识到计算机和网络不仅仅是计算和通信的工具。在金石铭刻、简帛抄写、刻版印刷、机械印刷之后,人类迎来了又一次彻底的媒体革命——数字化、社会化、智能化的电子媒体时代来临了。
作为文字承载物,传统物理媒体是静态的、被动的,而计算机这种电子媒体则是动态的、能动的。在大量的文本被数字化之后,人们自然就不满足于仅仅在电子屏幕上显示字形符号,而是要充分运用数字媒体的计算能力对文本进行操作,哪怕它是一部文学作品。如此,便产生了“人文计算”。计算机最基本也最本质的工作原理就是“计数”(counting)。因此,人文计算早期有代表性的工作就是尝试用计数的方法来解决人文领域的问题,特别是那些原本就有争议的问题。例如,1963年苏格兰人安德鲁·莫顿(Andrew Morton)计算了《圣经·新约》原始希腊文本的每个篇章的常用词及其出现频率,以此作为撰写风格的凭据,进而认为14篇保罗书信中只有4篇是圣保罗自己写的。[4]这样的方法与传统人文学者所熟谙的文本细读、文学批评比起来,似乎过于简单幼稚,因而并不能让熟读《圣经》的牧师信服。计算方法,在“人文计算”时期,是作为人文研究的辅助工具而存在的。
几个世纪以来的人文研究都以细读经典为研究方法。以文学研究为例,在学科愈加细分的学院传统里,文学研究可以按照地域、时段细分为若干子领域,每个子领域都有自己的经典,要求学者专注于自己的专业领域,细读那些文学经典。之所以要按照经典性对作品进行筛选,一个重要的原因在于作品太多,研究者毕其一生都不能穷尽。所以,弗朗哥·莫莱蒂(Franco Moretti)在2000年提出的建立在全部文学文本之上的世界文学研究,[5]显然不是人类可以胜任的工作。人们必须借助计算机对大规模的文本集合进行采样、统计、图绘、分类,进而描述文学史的总体特征,然后再进行文学评论式的解读。莫莱蒂为此提出了一个与“细读”(close reading)相对的概念——“远读”(distant reading)——作为其方法论。虽然细读爱好者们仍觉不妥,但是,除了应用计算机来处理全体文学文本,也找不出其他的办法了。此时,计算方法在人文领域取得了不可替代的独立地位,一种新的人文研究形态应运而生,这就是“数字人文”。
典型的例子还有哈佛大学让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)等人在谷歌数字化的五百万册图书集合上所进行的文化分析学(culturomics)研究。[6]这一文献集合约占到人类现有图书总量的4%,其中仅2000年一年的英文出版物,一个人不吃不喝不睡也要花上80年才能读完。研究者对这一文献集合进行了多种词汇和词频统计,借此分析英语世界200年间的语言现象和文化现象演变。
总结以上讨论,我们认为数字人文产生的背景是:(一)计算机技术和网络技术成为泛在的信息基础设施,形成了数字化的媒体环境;(二)数字化文本积累到相当大的规模,也就是形成了所谓的大数据环境;(三)计算分析工具足够成熟,即便是人文学者也能够运用。今天,数字人文已经快速演化为一个极为宽泛的概念,只要是用到计算机的、在数字化的人文材料上进行的工作都可以冠以“数字人文”之名,涉及文学、艺术、考古、新闻传播、图书馆、博物馆等领域,几乎无所不包。