第1篇 大数据基本定义
第1章 可视分析基础与框架
1.1 可视化简介
人眼作为高带宽的感觉处理器,拥有极强的模式识别和信号处理能力。人类对视觉符号的感知速度比数字和文本高多个数量级。可视化(visualization)利用人类视觉感知能力,对数据进行交互式表达,以增强对数据的认知。可视化的应用目的并非仅仅是绘制可视化结果本身,而是使用可视化结果让人洞悉某个物体或事物的规律,包含发现、决策、解释、分析、探索和学习等。因此可视化可以当作一种工具,来提高人们完成某些任务的效率。
可视化的作用可以体现在多个方面,包括信息记录、支持信息的推理和分析,以及信息传播与协同。
①信息记录:是可视化最初也是最重要的作用,可视化结果通常可直接作为图像结果保存下来。
②信息的推理和分析:在可视化结果中,信息以视觉方式呈现给用户。这种直观的信息感知机制直接扩充了人脑的记忆,极大降低了数据理解和分析的复杂度。在包含多源异构的上下文信息时,可视化也可以通过清晰展示证据的方式,帮助用户进行数据关联、理解和推理。
③信息传播与协同:俗语说“百闻不如一见”“一图胜千言”。除了真实的视频和照片之外,目前可视化作为一种传达数据中内涵的复杂信息的方式,广泛存在于各种面向大众的媒体中,例如基本统计图表、信息图或是交互式可视化系统。在达到信息共享的同时,可视化也支持不同用户间的信息共享、共同论证、协作处理和修正等功能。最著名的例子有Fold.It在线网络游戏等。
从历史发展角度看,可视化大致经历了以下几个大阶段。
①17世纪之前:人类使用绘画和手工制品等形式制作可视化作品,代表方式有几何图表和地图等。
②17世纪:随着物理理论和测量设备的发展,制图学理论也随之发展壮大,基于真实测量数据的可视化方法也开始出现。
③18世纪:抽象概念图在地理、经济、医学等领域的发明和应用,使得当时的图表设计开始逐渐向现代的可视化形式靠近。18世纪是统计图形学的繁荣时期,包括折线图、柱状图、饼图等在内的基础图表均发明在这一时期。
④19世纪:随着基础图表在内的可视化工具的发明和完善,统计数据可视化工具逐渐成为数据表达的基础方式之一。同时,在社会学、地理学、医学等学科的统计数据逐渐增多,统计图表开始大量应用于各学科的日常工作之中。
⑤20世纪:20世纪前50年是可视化领域创新发展的低潮期,但统计图形除了在专业学科内得到应用外,在政府、商业等日常生活领域也开始得到普及。人们开始意识到统计图表能够为学科发展、工程实践和日常事务领域带来发现新知识、洞悉数据内涵的机会。自20世纪60年代开始,Jacques Bertin等现代统计图形和可视化领域的奠基人进行了创造性的工作,加上计算机的出现,开启了可视化迅猛发展的时代,如70年代的多维数据可视化方法、John Tukey提出的探索式数据分析基本框架等。自80年代开始,随着个人计算机和图形交互界面的发展,交互式可视化开始成为可视化方向的主流。1987年美国首次召开了科学可视化方面的专业会议,会议报告正式命名并定义了“科学可视化”这一术语,认为可视化有助于统一计算机图形学、图像处理、计算机视觉、计算机辅助设计、信号处理和人机界面中的相关问题。除科学可视化外,自90年代开始的信息可视化也逐渐独立成为与科学可视化并列的研究学科。
信息可视化主要面向抽象、结构或非结构化的数据集合,如表格数据、文本、层次结构数据、图结构数据、多媒体数据(图像、视频)等。现代信息可视化方法发展自统计图表,同时与图形学、视觉设计等学科相关,表现形式主要为二维平面展示。信息可视化的核心资源限制因素包括三方面:计算机的数据处理能力、显示区域和人类的认知能力。由于在不同场景下这三种资源的分配均有不同,因此信息可视化的核心挑战可描述为:如何在给定的数据处理能力、显示区域和认知资源下,设计出能够支持某种分析任务的最优的可视化和交互方案。为了解决这一挑战性问题,近几十年来很多学者致力于提出信息可视化的设计基本框架,其中最具代表性的有流水线模型和Tamara Munzner提出的“What-Why-How”分析框架。