数据可视化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 数据可视化简介

1.2.1 数据可视化的意义

数据分析是面向决策问题,通过收集相关数据,从数据中获取信息并总结知识的过程。数据分析是为了辅助决策,为决策者提供相关的信息和知识。通常,数据以一定形式进行表达,如以位置、大小、长度、宽度、高度、颜色、形状等直观可见的方式表达,也有经过一些转换和间接方式呈现,如通过汇总、旋转、切片和切块等手段展示出来。这些直接和间接方式,都需要依靠图、表等工具进行视觉上的展示,即进行数据可视化。

相比于包含历史记录、标记等的传统可视化,数据可视化重点关注数据科学和数据分析。在技术方面,随着数据量的激增,传统的可视化不能适应海量、多源、异构、动态、高维数据的挑战,而数据可视化综合了可视化、计算机图形学、人机交互等理论与方法。在展示方面,传统的可视化科学性不太强,有些时候以草图和示意图形式出现,而数据可视化强调科学标准图示的输出,将数据映射为可识别的图形、图像、视频或动画等形式,更吸引眼球,呈现出更精准、更有价值的信息。用户可以通过对数据可视化的感知,借用数据可视化交互手段或工具进行数据分析,进而获取知识[5]。数据可视化借助人类的视觉感知与认知能力,可以有效地传达丰富的、极易被隐藏的信息,对人类分析数据和解决实际问题起到辅助作用。

现代数据可视化除了将数据进行图形可视显示,在有些场景下还需从数据中发现规律并获取新模式,进而通过可视化形式进行展示。现代管理决策需要从海量数据中获取潜在有用的知识。传统统计方法和数据挖掘方法往往对数据进行简化和抽象,在一定程度上进行了压缩解析,隐藏了数据集中的真实细节。而新的数据可视化则可以还原乃至增强数据中的全局结构和计算转换过程的细节。因此,数据可视化经常与统计学、数据挖掘、大数据分析等结合起来,利用数据可视化,洞见模式和知识。

1.2.2 数据可视化的作用

在大数据时代,数据可视化技术作用明显,主要包括观测与跟踪数据、分析数据、辅助理解数据、增强数据吸引力[6]等。

1.观测与跟踪数据

数据可视化能进行历史数据的跟踪。图1-5为截至2020年年底全国人口统计图,我们可以观测历次人口普查数据情况。该图通过柱形直观反映了人口多少及变化,尤其是相对情况。

图1-5 历次人口普查数据

资料来源:国家统计局《2020年第七次全国人口普查主要数据》。

数据可视化也能对平面数据进行跟踪,如百度平台展示的气温数据图,动态地展示了各省级行政区气温。

2.分析数据

图1-6为用户参与数据可视化分析的过程。从图中可以看出数据可视化是连接数据和用户的桥梁,可视化能够将数据更直观地展现在用户面前,提高用户分析数据和获取信息的效率[6]

图1-6 用户参与数据可视化分析的过程

资料来源:林子雨.大数据技术原理与应用:概念、存储、处理、分析与应用[M].3版.北京:电子工业出版社,2021.

3.辅助理解数据

为了辅助理解PageRank中网页重要程度的变化,可以利用如图1-7所示的数据可视化方式来展示计算过程。其中,圆圈表示网页,箭头符号表明网页间的连接关系,三角标识标注当前计算焦点,而圆圈大小则可以直观显示网页的重要程度,即圆圈直径越大,对应的网页重要程度越大。

图1-7 PageRank的计算过程

4.增强数据吸引力

图1-8为同样文字的不同可视化展示方式。图1-8a和图1-8b字母组合、各字母的形状和展示位置都一样,但由于图1-8b将所有的字母“A”用粗体显示。所以,观测者可以更快速地定位图1-8b中字母“A”的位置,辅助统计字母“A”的数量。这就是数据可视化的魅力所在。

图1-8 同样文字的不同可视化展示方式

1.2.3 数据可视化的分类

通常,数据可视化处理的数据为科学数据和半结构化或非结构化数据,因此,数据可视化在广义上可以分为科学可视化和信息可视化两类。科学数据往往是一些可以进行空间描述的数据,即有坐标或者测量数据、仿真数据,如通过计算机模拟等手段获取的数据,通过X射线、CT、核磁共振、超声等手段获取的影像数据。信息可视化处理的对象是一些半结构化或非结构化的数据,如社交网络、网页、文本等。

1.科学可视化

科学可视化是可视化领域相对比较成熟的一个领域[7],其基础理论和方法比较成型,早期关注三维世界现象,数据通常表达为立体或平面形式,常用三维或二维空间形式呈现[8]

科学可视化可分为标量场可视化、向量场可视化、张量场可视化三类[5]

(1)标量场可视化(Scalar Field Visualization)。标量(或作纯量),也被称为“无向”的量,是指那些只具有数值大小而无方向性的物理量,为单一数值,多个标量值构成标量场。如CT照片实际上是一个二维数据标量场,照片的灰度表示密度。将这些数据按一定顺序排列起来,就构成一个三维数据标量场。

标量场可以表示成含有标量值的函数,即fxyz)。可视化函数f的方法有三种:第一种是将数值直接映射为颜色等,如用颜色表示污染严重程度等;第二种方法是将f的点集进行连线或连面,如地图中的等高线;第三种是将标量数据场看成媒介,如利用光源透射该媒介以显示内部结构。

(2)向量场可视化(Vector Field Visualization)。数学中的向量也称为欧几里得向量、几何向量、矢量,是指具有大小和方向的量。在物理学和工程学中,几何向量更常被称为矢量。向量场的每一个采样点是一维向量(一维数组),向量场可视化主要关注其中蕴含的流体模式和关键特征区域。向量场可视化主要应用于计算流体动力学中速度场的可视化。任何涉及流的领域都可以采用向量场可视化,如人口的流动等。

向量场可视化有三种方法。第一种为粒子对流法,可以模拟粒子流动,通过获取轨迹模拟流体模式,包括流线、流面、流体、迹线等具体方法。第二种为影像展示法,即通过向量场转换为纹理图像。第三种为图标编码标识,即通过简易图标,如线条、箭头、方向标志符等标识向量场信息。

(3)张量场可视化(Tensor Field Visualization)。张量概念是向量概念的推广,标量可看作0阶张量,向量可看作1阶张量。张量是一个可用来表示在一些向量、标量和其他张量之间线性关系的多线性函数。

张量场可视化方法分为三类:基于纹理、几何、拓扑的方法。纹理的方法是将张量场转换为静态或者动态图像,即将张量转换为向量,从而用向量场可视化方法处理。几何的方法是刻画某类张量场属性的几何表达,其中的图标法采用某种几何形式表达单个张量,如椭球和超二次曲面;也可以使用超流线法(Hyper Streamline)将张量转换为向量,再用向量场可视化方法处理,如二阶对称张量的主特征方向。拓扑的方法是计算张量场的拓扑特征,将感兴趣区域划分为具有相同属性的子区域,并建立对应的图结构,实现拓扑简化、拓扑跟踪和拓扑显示。

2.信息可视化[3]

信息可视化是通过人类的视觉能力来理解抽象信息的含义,从而加强人类的认知活动。计算机图形学助推信息可视化发展,但相比于传统的计算机图形学,信息可视化可以增强认知能力,通过可视化图形呈现数据中隐含的信息和规律,建立符合人们认知规律的心理映像。

信息可视化面向半结构化或非结构化数据,关注抽象、高维数据。其分析方法与分析数据的类型紧密相关,通常有以下分类。

(1)多维数据可视化(Multidimensional Data Visualization)。多维数据可视化可以处理多变量的高维数据,将其在二维平面上呈现出来。多维数据可视化通常将数据降维到低维空间,使用相关联的多视图来展现不同维度。多维可视化的方法包括基于几何图形、基于图标、基于像素、基于层次结构、基于图结构及多方法混合等。

(2)图形数据可视化(Graphical Data Visualization)。图形是由元素和元素之间连接组成的数据的抽象表现。社交网和地图都是图形数据可视化的具体例子。通常,图形数据可视化可分为静态图形数据可视化和动态图形数据可视化。静态图形数据可视化主要有基于节点链接的图形可视化方法和矩阵可视化方法,这些方法比较直观,且表现力强。动态图形数据可视化是用自然的方式来说明随时间变化事物发生的改变。有人已经通过动画技术对动态图形进行了无数次的可视化尝试,然而,维持一个意境地图并不能帮助我们深入了解动画动态图。因此,如何用静态的方式呈现动态图是一种可行的尝试,即以静态方式编码时间维度,其中时间轴和组图是两种较常见的选择。

(3)时空数据可视化(Spatiotemporal Data Visualization)。时间和空间是描述事物的两个主要因素,时空数据和地理信息数据的可视化显得至关重要。时空数据可视化面向的对象是带有时间与地理位置标签的数据,通常面向线性和周期性两种特征,可以使用不同的可视化方法。对于地理信息数据可视化来说,合理地选择和布局地图上的可视化元素,呈现更多的信息要素是关键。

(4)文本数据可视化(Textual Information Visualization)。随着网络的发展,特别是社交媒体的深度应用,大量的非结构化在线信息等内容数据不断增长,形成海量的文本数据。人们对于视觉的感知和认知速度远远高于文本。通过文本数据可视化技术可以将文本中蕴含的语义特征(例如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直观地展示出来。文本数据可视化方法可分为静态和动态两种。静态文本数据可视化方法主要有基于特征的文本数据可视化和基于主题的文本数据可视化。动态文本数据可视化试图展示随时间变化的文本内容演化模式,如使用云图、主题词裂变图等方式。