数据挖掘:你必须知道的32个经典案例(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 数据可视化——数据新闻促使英军撤军

2010年10月,《卫报》利用维基解密的数据做出一则数据新闻,新闻发表后引起轰动,最终促使英军做出撤出驻伊拉克军队的决定。这个案例是数据新闻的经典成功之作,掀起了新闻界的新一轮革命,同时也表明了图形展示的力量。本节围绕该案例展开,介绍了数据可视化的重要性,并总结出数据可视化中常见的基础知识。

1.3.1 维基解密带来的海量数据

2006年,阿桑奇创办了以信息自由、揭开事实真相等为宗旨的维基解密网。阿桑奇本人是一名技术顶尖的黑客,以还原历史真相为乐,其做出的最大贡献就是发布了阿富汗战争日志和伊拉克战争日志。维基解密共公开了关于驻阿富汗美军的9.2万份文件,以及关于驻伊拉克美军的近40万份文件。这些文件都是美国的机密,这种行为遭到了美国政府的封杀。

这两份战争日志包括3种形式:“日记挖掘”(Diary Dig)、“战争日志”(Warlog)和BT下载,格式有CSV和SQL两种。“日记挖掘”允许用户搜索材料,并可以按事件或地区等主题浏览。“战争日志”站点允许读者打造自己的事件“分析”,并可以投票,应该对哪些战争日志进行“深入调查”。

维基解密同时还联合谷歌地图,以及英国《卫报》等机构进行了数据可视化处理,以便读者理解战争日志的含义。在两份战争日志中,内容更翔实、影响更广泛的无疑是伊拉克战争日志。

关于伊拉克战争的秘密文档的时间跨度为2004年年初至2009年年末,在这6年时间里,伊拉克战争共造成28.5万人死伤,其中至少有10.9万人死亡。在死亡人数中,包括6.6万名伊拉克平民,近2.4万名“敌人”,逾1.5万名伊拉克安全部队成员及3700多名驻伊拉克美军及联军士兵,这些数字高于早前外界对同期伊拉克战争死亡人数的统计。

文件同时显示,大量伊拉克平民惨遭强奸、虐待,但美军对虐囚行为不闻不问。伊拉克战争日志一经发布,立即引起轩然大波,但美国媒体在报道时刻意避开了关于伊拉克死伤平民的报告,在美国电视台采访阿桑奇时也将重点放在阿桑奇的强奸案上,而非伊拉克战争日志中提到的平民问题。这种回避的态度也从另一方面说明了美军虐杀伊拉克平民的严重性。

阿桑奇从近40万份文件中统计出的死伤人数毕竟只是一行数字,英国《卫报》根据战争日志制作的数据新闻让人更加容易理解。数据新闻可以对公开数据进行挖掘和重整,完成深度报道。国外甚至出现了Narrative算法,使计算机每隔30秒左右就能撰写一则新闻报道。这种技术目前主要运用于金融新闻和体育新闻。

数据新闻的长足发展引发了新闻界的革命,但值得注意的是,数据新闻这种形式仍然立足于海量数据的收集、整理,以及优秀的数据可视化手段,而非高深的数据分析方法。

1.3.2 百花齐放的数据新闻

2010年10月23日,《卫报》利用维基解密的数据制作了一幅精致的地图,地图上将伊拉克战争中所有的人员伤亡情况标注了出来,共计39万多个红点。地图中一个红点便代表一次死伤事件,谷歌地图提供的软件使这幅地图成为交互式的地图,只需用鼠标单击红点,便会弹出与死伤者相关的信息:伤亡人数、时间,造成伤亡的具体原因等。

这39万多的死伤者不仅有美国大兵,也有伊拉克的无辜平民。维基解密总结出来的一条条数据展示在地图上后显得更加触目惊心。这张红点地图所揭示的新闻事实引起英国社会的轰动,并在很大程度上推动了英国做出撤军伊拉克的决定。

这并不是《卫报》第一次成功运用数据可视化的手段制作新闻,2009年,它根据英国下院公布的5500个PDF文档挖掘出关于英国议员开销的数据报道。

在我国,数据新闻也正在变得越来越普及,利用各类新闻数据制作的数据图表具有生动活泼、信息丰富、易解读等优点,被广泛应用于各类新闻报道中。财新网所创办的“数字说”栏目就是这样一个专门用数据做新闻的栏目。

图1.3由两幅相互关联的小图组成,左边图片的主题是华人富豪财富积累途径,右边图片的主题是华人富豪在各行业中的占比,这两幅图均摘自“数字说”栏目,统计数据来源为1577位资产超过20亿元的华人(及其家族)。

图1.3 华人财富来源图

(引自财新网“数字说”栏目)

图1.3左侧图片的制作者考虑了5种不同的财富积累途径,并使用环形图作为信息载体。创业和继承是两种截然不同的财富积累途径,左侧图片按照财富积累途径的不同性质递进地进行罗列。从“完全靠财富继承”开始,按逆时针方向旋转,财富积累途径中的继承成分逐渐减少,创业成分逐渐增多,直到“完全白手起家”为止,构成了一个完整的圆。与直接按照比重大小罗列相比,这种排列方法能够更加突出华人富豪财富积累途径中,创业所占的绝对优势地位。

图1.3右侧则是一张简单的条形图,它递减地罗列了9类华人富豪较为集中的行业。显然,房地产行业以27%的比例独占鳌头,是排名第二的金融、投资行业所占的13%的两倍还多。另外,互联网业也有不俗的表现,作为一个新兴行业,互联网业不仅能够造出富豪,同时也吸引了众多富豪的投资。将这9类行业的比重相加仅为74%,显然,这是由于还有26%的富豪分散在其他行业中。

图1.4同样引自“数字说”的一条数据新闻,这条新闻统计了网上发布的100名外逃贪官的男女比例、年龄分布和职级等信息,图1.4是汇总这些数据后画出的饼图。观察这些图片,容易发现外逃贪官中男性要远多于女性;39岁以下和70岁以上的外逃贪官很少,40~69岁是外逃贪官的主要年龄段,其中又以50~59岁的外逃贪官最多;职级为一把手的外逃贪官也占了将近一半的比重。

图1.4 百名外逃贪官数据概览图

(引自财新网“数字说”栏目)

与图1.3中的环形图相比,图1.4的文字注释非常少,图片吸引了读者绝大部分注意力。这种做法能够加强数据的对比效果,凸显出外逃贪官中男性、一把手的比例之高。但是,由于我们通常更多地注意扇形的弧长而非扇形的面积,因此饼图会削弱相似大小的扇形之间的细微差距,故而饼图只适合表现对比强烈、分类较少的数据。

一则数据新闻想要成功就需要大量翔实可靠的数据及精美的数据可视化手段。成功的数据可视化并不是多么繁复、令人眼花缭乱的图形,而是能够突出重点信息的图形。只要运用恰当,最简洁的图形反而是最有力度的图形,这些要点不仅在制作数据新闻时很重要,数据分析师在制作数据报告时也同样应遵守。

1.3.3 数据可视化小结

数据可视化是一个十分庞大的命题,与数据可视化相关的专业软件有许多,也有许多书籍专门讲述如何做好数据可视化。英国《卫报》的伤亡地图是数据新闻史上的经典之作,“数据说”栏目则是数据图表新闻的新兴代表,本节通过案例解读了散点图、条形图、饼图等基本图形的用法。在数据可视化中,最基本的图形有6种:条形图、折线图、散点图、气泡图、饼图和雷达图。

条形图的用途最广泛,它是最为简洁明了的基本图形。条形图用于二维数据之间的对比,利用条形的长短对比不同数据的差异。对于所有的中小规模数据集,条形图都工作得非常好;折线图同样用于对比二维数据,与条形图不同,它展示的重点不是不同数据的差异,而是数据整体的趋势走向,因此在所有涉及时间的数据都会运用折线图,对于金融数据来说,尤其是这样。

散点图既可以用于对比二维数据,也可以用于对比三维数据。散点图注重多个维度之间的比较,如果拿不准数据集是否适合做回归分析,散点图可以帮助数据分析师看清数据的分布趋势。在聚类分析中,散点图同样能够帮助数据分析师直观了解不同类别的差别;气泡图是散点图的升级版,它不但能够在三维空间里体现出数据的分布,还可以通过气泡的大小体现不同数据的重要度。例如,在词频分析中,一个单词出现的次数越多,这个单词就越大,这就是一种气泡图的经典变形。

饼图不是一种好操纵的图形,饼图最明显的两个局限在于它不能同时展示过多的数据类,也容易缩小不同类别的差距。使用饼图时的通常做法是将一个整圆切割为几个扇形,每个扇形代表一类数据,通过对不同扇形面积的比较来判断不同数据的差异。与条形图不同,人类很难区分出饼图中的细微差异,因此将一个饼图划分为过多的小扇形是没有意义的,同一个饼图中最多不要超过5个扇形。

雷达图也称蜘蛛图,它可以同时比较5维左右的数据,但不能超过6维。此外,雷达图也不能比较太多的数据。这种局限性使得雷达图的用处十分有限,但对于适合使用雷达图展示的数据来说,雷达图能最大限度地展示数据信息。

尽管基本图形只有6种,但这6种图形可以延伸出更多的图形,如条形图就可以延伸出复式条形图、堆栈条形图等,折线图可以延伸出曲线图等。此外,图形的颜色对比、图形线条的粗细、数据标识的摆放等细节同样决定了一幅图形的成功与否,在保证了数据翔实的同时,做好图形的细节是数据可视化成功的重要因素。