中韩数字人文论文选集(第一辑)
上QQ阅读APP看书,第一时间看更新

三、可视化为什么重要

回顾前文梳理的线索我们可以看到,远读是数字人文的基石,而可视化又是远读最重要的呈现手段。由此,可视化在数字人文领域的重要性便不言自明了。甚至说数字人文就等同于对人文语料的可视化,也不算太过分。

斯迪芬·詹尼克(Stefan Janicke)等人收集了2005—2015年十年间使用人文语料可视化方法的期刊论文和会议论文共92篇,并总结出六类适用于远读的可视化方法:结构图、热力图、标签云、地图、时间线、网络图。[9]结构图用来展现单篇文档或者整个语料库的层级结构;热力图用来显现文本内的隐含模式出现的频繁程度(如《圣经》中反复出现的句式);标签云展示高频词的相对比例;地图被广泛地用来呈现有地理属性的对象的地理空间分布;时间线适合呈现历史数据随时间的演化;网络图被广泛用来展现文本内或文本间信息对象的复杂关系。下面我们举几个有代表性的例子来说明远读是如何以可视化的方式实现的。

图1来自斯坦福大学的书信共和国(Republic of Letters)项目。该图展现了西班牙王国1600—1810年间360个科学家相互之间以及与外界书信往来的情况。在图中选择一个节点,便可以观察该节点对应的科学家和他人的通信情况;选择一个边,便可以了解两地之间在历史上曾经发生过的交往;选择一个区域,便圈定了相应的考察范围。

图1 1600—1810年间西班牙王国科学家的交流情况

图2 宋元学案知识图谱

图2是北京大学数字人文研究中心根据《宋元学案》所作的宋代理学衍化脉络可视化成果。图中的每一条溪流代表一个学术门派(对应一个学案),它在某个时间点的垂直高度反映了对应时段该学派在世学者的数量,纵览全图我们可以观察宋代理学各门派各学说消长流衍的总体情况。点击其中的一个溪流,就跳转到该学术门派的详细介绍页面。

图3是很有代表性的数字人文可视化作品。斯蒂夫尼·珀萨瓦(Stefanie Posavec)将杰克·凯鲁亚克(Jack Kerouac)二十世纪五十年代的畅销小说《在路上》量化为一颗花树。[10]图中的中心结点是第一章,每个分支表示从第一章发展出的一个章节,由一个章节长出段落的分叉,组成一个段落的句子绘成一片叶子,叶子上的叶脉是对单词的计数,颜色反映了小说的主题(themes)。这幅图准确而又形象地展现了小说的篇章结构和主题演进。

图3 小说《在路上》的远读可视化

尽管不同案例的可视化方式各不相同,但归纳来说,数字人文的可视化,为人文语料提供了一个全局图景。这个图景,在本质上是一个更多特征维度、更细知识粒度的目录和索引。在中国的学术传统中,目录学是入学之门径。清代王鸣盛在《十七史商榷》中说“目录之学,学中第一紧要事”,“必从此问途,方能得其门而入”。唐代目录学家毋煚在《古今书录序》中说“览录而知旨,观目而悉词,经坟之精术尽探,贤哲之锐思咸识”,“将使书千帙于掌眸,披万函于年祀”,其重要性可想而知。在纸质文献时代,目录和索引,实际上就是纸本图书的远读系统。相应地,远读也可以看作是数字文本的可视化目录。它描述了文档集合的全局特征,让研究人员对超大数据集有了整体认知。它揭示了文本内部或文本之间的多维度联系,方便研究人员从地理、时间、频度、联系、主题等角度选择他所关注的研究对象去深入细读。同时,计算机远读得到的对文本的抽象化结果,为研究者理解文本提供了文字之外的材料。可以说,远读的价值,在于帮助我们在海量的数字媒体环境下筛选我们应当去关注的学术问题和有必要去细读的文本。最终,我们还是要老老实实地坐下来细读值得去读的那一部分内容。