大数据可视化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.3.1 可视化的基本步骤

Elsevier的Analytical Services项目致力于寻找提升数据分析和可视化的方式。为了探索数据背后的真相,该项目使用了网络关系图来识别国家间的合作关系,并了解每个合作关系的影响。该项目提供了一份包含5个步骤的数据可视化指南,为希望用可视化形式传播观察结果和解读分析数据结果的人们提供帮助。

1.明确问题

开始创建一个可视化项目时,第一步是要明确可视化项目要解决的问题,即要回答的问题是“这个可视化项目会怎样帮助用户”。清晰的问题有助于避免数据可视化项目把不相干的事物糅合在一起。目的不明确的可视化项目不能澄清事实,反而会引人困惑。

2.从基本的可视化着手

确定可视化的目标后,下一步是基于要展现的数据,选择建立一个基本的图形,它可能是饼图、线图、流程图、雷达图、散点图、表面图、地图、网络图等。不同类型的数据各自有其最适合的图表类型。例如,线图最适合表现与时间有关的趋势或是两个变量之间的潜在关系。当数据集中的数据点过多时,使用散点图进行可视化会比较容易。此外,直方图适合展示数据的分布。

3.确定最能提供信息的指标

确定可视化目标和可视化形式后,下一步需要确定最能提供信息的指标。例如,如果有一个关于某机构出版物数量的数据库,则可视化过程中最关键的步骤是充分了解数据库中每个变量的含义。若想了解此机构在各领域发表了多少文章,出版数量无疑是一个有用的指标。不仅如此,与此领域的研究成果总量、此领域的全球活跃程度等指标对照将会呈现出更多信息,从而提炼出该机构在不同领域的相对活跃指数这一关键指标。

4.选择正确的图表类型

在确定最能提供信息的指标后,选取正确的图表类型有助于用户理解数据中隐含的信息和规律。图表类型的选择依赖于所要处理和展现的数据类型,例如离散数据的数值可清晰计数,适合用柱状图展示,而连续数据的取值可以是任何范围,适合采用曲线图。以步骤3中的相对活跃度指数为例,可以使用雷达图来展现这一指标,如图3-10所示,此机构在G领域的相对活跃指数最高(1.8)。

图3-10 相对活跃指数的雷达图

从本例也可看出,数据的规范化是一个很常见也很有效的数据转换方法,但需要基于帮助用户得出正确结论的目的使用。

5.将注意力引向关键信息

最后,采用确定的图表展现数据可视化结果时,需要将用户的注意力引向关键的信息。可视化项目应该总结关键信息并使之更清晰、直白,而不应该令人困惑。例如,对于含有众多指标的图表,有时仅凭肉眼很难衡量多个指标之间的显著差异,此时需要对关键指标进行放大或采用突出的颜色显示来消除用户的视觉疲劳。