前言
随着大数据时代的到来,与之相关的数据分析、数据可视化技术得到了更快的发展,并开始向与我们生活有关的各个领域渗透,其中就包括新闻领域。在大数据发展、“开放数据”潮流兴起和可视化技术渗透的背景下,数据新闻应运而生。这种以“数据”和“可视化”为基础的新型新闻报道模式一经推出,就受到国内外媒体的追捧,成为传媒行业的宠儿。
数据新闻旨在通过搜集、处理、分析数据,挖掘其背后的关联、模式和规律,通过丰富的可视化形式展现新闻内容,述说新闻故事。一次完整的数据新闻实践通常需要经过选题内容策划,搜集、处理、分析数据,可视化,可视化内容的整合呈现(新闻故事叙述)等阶段。其中,可视化是数据新闻实践的重要环节之一。数据可视化这一领域的发展实际上已经过了一段时间,有许多成熟的可视化技术、工具。数据新闻中的可视化对该领域已有的若干可视化技术、工具有所运用,同时也发展和呈现出新闻领域自身的特点。而且,作为实践环节之一,可视化与其之前的数据搜集、处理与分析环节紧密相关,又是其之后可视化内容的整合呈现(新闻故事叙述)环节的基础,起着承前启后的关键作用,因此,对数据新闻中的可视化实践进行讨论是重要和必要的。随着计算机技术的发展和向新闻领域的渗透,数据新闻可视化实践能够运用的工具越来越丰富,对相关从业人员也提出了越来越高的技术能力要求。除若干简单易用的可视化工具外,HTML、CSS、JavaScript等Web前端开发技术,以及基于它们的可视化技术和工具在数据新闻领域的应用与实践也变得更为重要,因此,针对数据新闻的可视化实践需要进行更全面、详细的探讨。
本书以数据新闻的可视化实践为主题,讨论和介绍与之相关的一些内容。其中,以介绍数据新闻中常用、适用的可视化工具及其可视化实践为最主要内容,且主要面向以图片或网页形式呈现的数据新闻。在介绍这些可视化工具时,不仅涉及一些简单易用的工具,还涉及以编程为基础的可视化框架、编程语言在数据新闻可视化实践中的基本应用过程和方法。具体来说,本书分为六章。第1章进行数据新闻与可视化概述,介绍数据新闻的概念、意义、发展与现状,数据新闻的实践流程、数据可视化及其与数据新闻的关系,数据新闻中的常见可视化技术类型,数据新闻的分类,并对数据新闻中常用、适用的可视化工具进行概述。通过上述讨论,厘清数据可视化与数据新闻的区别与联系,强调可视化环节在数据新闻实践流程中所处的承前启后的关键位置及其与其他环节的联系等。同时,本书以可视化环节为中心,将数据新闻实践流程归结为“选题内容策划”“可视化前的数据准备”“可视化”“可视化内容的整合呈现(新闻故事叙述)”四个环节,并围绕后三个环节展开本书后续章节的讨论。第2章介绍可视化前的数据准备——数据的搜集、处理与分析,包括“数据”的概念及数据准备与“可视化”的关系,搜集数据的途径与方法,数据的常见存储格式,数据权威性的验证,数据存储格式的转换、数据清洗、数据分析的一些方法和工具等。其中,重点介绍通过计算机程序(网络爬虫)抓取网页数据(主要是如何用数据来源站点提供的应用程序接口搜集和获取数据)的原理与过程,使用编程语言(主要以Python为例)实现数据存储格式转换的原理与过程,JSON格式与JavaScript的基本语法,以及使用Excel软件进行数据清洗、数据分析的过程。第3~5章按照第1章对数据新闻中常用、适用的可视化工具的分类,通过举例,讨论各类可视化工具及其可视化实践。第3章介绍Adobe Illustrator、Tableau、Excel、Power BI等简单易用的可视化工具及其可视化实践;第4章讨论一些可视化框架与编程语言及其可视化实践,以基于JavaScript的框架D3.js、ECharts的可视化实践为重点;第5章主要面向第1章梳理的数据新闻中常见的可视化技术类型,探讨特定展现形式的可视化实践与工具,包括组合式统计图表的可视化实践与工具Plotly、基于模板的信息图可视化实践与工具、词云的可视化实践与工具、时间轴的可视化实践与工具、地理信息的可视化实践与工具、时变空间的数据可视化实践工具Power Map、网络可视化实践与工具Gephi、高维多元数据的可视化实践与工具、基于计算模型的交互可视化实践工具Tangle。第6章讨论可视化内容的整合呈现,以制作网页形式的数据新闻为例,介绍整合呈现过程的实践方法。
为了给读者一个更完整的印象,本书不仅按照实践流程中的环节来编排章节,更重要的是,全书的举例基本都围绕同一个实例背景。第2~5章根据所讨论的具体内容针对该实例背景的不同部分展开,最后一章对实例进行整合呈现,将前几章的内容加以串联、概括和综合应用,也方便读者理解可视化实践在数据新闻中的重要地位(注:全书所举实例和所用数据仅用于技术讨论)。而且,本书以若干数据新闻中常用、适用的可视化工具及其可视化实践为讨论重点,针对各工具主要通过举例来介绍其可视化实践过程与方法,并不就某个工具展开过于深入的探讨,因为本书希望通过介绍更多可视化工具及其实践过程,使读者在面对具体的可视化需求时能更好地选择适用的工具。此外,本书虽然对一些以编程为基础的可视化框架和编程语言进行介绍,但目的并非让读者精通编程,而是希望借此帮助读者了解编程技术在数据新闻可视化实践中的应用场景、适用性、特点与难度,使他们在需要学习和掌握一种以编程为基础的可视化工具时,知道如何起步,以便应对数据新闻向新闻从业者提出越来越高的技术能力要求这一趋势。同时,也让他们认识到以编程为基础的可视化工具既不是洪水猛兽,也不是万能的,从业者需要根据具体的实践情况选择合适的可视化工具。
本书主要面向从事数据新闻实践和研究的新闻从业者或相关研究者,对相关领域的技术人员也有一定的参考价值,还可作为相关专业本科生、研究生的参考书。
本书出版受北京市教委专项资金、北京印刷学院“新闻与传播专业学位硕士授权点建设”项目资助。同时,本书也是北京市优秀人才培养资助项目“面向传媒行业的数据新闻实践研究”(项目编号:2014000020124G112)的成果之一。本科生杜海燕(就职于澎湃新闻)、叶雅萍、孙文瑾和郑彩妮参与了本书部分可视化软件的调研,在此一并表示感谢。
由于作者水平所限,书中不足和错误之处在所难免,恳请广大读者批评指正。
肖 倩
北京印刷学院
谢海涛
北京科技经济信息联合中心
2020年10月