Python数据科学应用从入门到精通
上QQ阅读APP看书,第一时间看更新

1.6.2 数据可视化的注意事项

数据可视化图表是多种多样的,那什么是合适的数据可视化图表呢?数据可视化的作用和价值在于能够方便受众者快速理解数据背后反映的故事,从而快速找到数据背后隐藏的现实问题,然后在针对性地去解决问题,因此其成功实施的关键在于充分考虑分析需求、充分考虑数据特点、充分考虑受众的特点和感受,具体来说:

1.充分考虑分析需求

绘制合适的数据可视化图表,首先考虑的就是分析需求,需要搞清楚受众者想要看到什么,得到什么样的信息,而且需要注意的是,受众者的需求不是一成不变的,而是要因时制宜、因地制宜地进行调整。比如某家商业银行总行对各分行实施存款规模增长情况考核,那么某分行行长可能就很想看到其所在分行存款逐日增长情况,展示的可视化报表就应该包括分行存款整体情况的逐日变动时间序列趋势图;如果该分行行长还想要对辖内客户进行分类,就可以绘制四象限图,把客户分为“高存款规模-低增长潜力”“低存款规模-高增长潜力”“高存款规模-高增长潜力”“低存款规模-低增长潜力”4类,针对不同类型的客户,采取不同的营销维护策略等。

2.充分考虑数据特点

每种图表都有自己的适用条件,面向的数据类型也不同。要绘制合适的数据可视化图表,在充分考虑分析需求的基础上,还要充分考虑数据特点。比如时间序列趋势图反映的是变量随着时间的变化趋势,如果数据集中不含时间变量,就无法绘制时间序列趋势图;又比如散点图主要用于观察某变量随另一变量变化的大致趋势,据此可以探索数据之间的关联关系,甚至选择合适的函数对数据点进行拟合,如果数据集中有多个变量,则散点图主要用于考察因变量和各个自变量之间的关系,此时如果绘制自变量之间的散点图就很可能是没有意义的;再比如双纵轴线图用来展示两个因变量和一个自变量的关系,以及两个因变量的数值单位不同时的情形,如果数据集本身就只有一个变量或两个变量,那么就无法实现双纵轴线图的绘制。

3.充分考虑受众的特点和感受

除了充分考虑分析需求、充分考虑数据特点之外,绘制合适的数据可视化图表,还要充分考虑受众的特点和感受。需要搞清楚受众者喜欢什么样的可视化图表风格,是偏好常用的直方图、条形图,还是更偏好具有一定统计学意义的箱图、小提琴图?是喜欢颜色较深的可视化图表,还是喜欢颜色较浅的可视化图表?是乐意看到简洁明了、主体明确的可视化图表,还是乐意看到缤纷炫酷、信息全面的可视化图表?在清楚受众者偏好特点和感受的基础上,绘制出相应的可视化图表。