第一节 数据分析的重要性
我们每天都要面对各种各样的数据,各种数据图表左右着我们日常的判断和决策,其中有政府部门公布的公共管理数据,也有专业机构公布的行业数据,更有心机满满的传销数据,数据结论可靠吗?我们需要分析吗?我们可以从下面三个案例得出结论。
例1-1 南丁格尔玫瑰图
弗洛伦斯·南丁格尔是护理事业创始人和奠基人,是护士精神的代名词,良好的教育让她掌握了扎实的统计学知识。在1853~1856年克里米亚战争期间,南丁格尔随军参与了伤病士兵护理工作,并建立了护理日志。南丁格尔将12个月里士兵死亡数据以图表方式展示出来,3种颜色代表了3种原因死亡的人数。其中,红色表示因受伤过重而死亡的士兵数。蓝色表示死于可预防和可缓解的疾病和治疗不及时的士兵数。黑色表示死于其他原因的士兵数。南丁格尔根据统计结果发现:战斗中阵亡的士兵少于因受伤或缺乏治疗而死亡的士兵数量。枯燥的统计数据常常不受人重视,为了让数据印象深刻,南丁格尔使用色彩缤纷的极坐标饼图,向不擅长阅读统计报告的英国女王展示统计结果。报告最后结论是,克里米亚战争的医疗条件急需改善。简洁明了的统计图让英国女王很快读懂了数据反馈的信息,让她下定决心改善军事医院的卫生条件。事实证明,这一举措,拯救了更多士兵的生命,也奠定了护理工作在医疗中的重要地位,为了纪念她的贡献,我们将这张统计图称为南丁格尔玫瑰图,又名鸡冠花图。这个案例表明:数据分析可以帮助领导者正确决策。
例1-2 美国的征兵海报
1917年,由詹姆斯·弗拉格创作的“山姆大叔”的美军征兵海报提到“权威统计数据表明,纽约市民每年的死亡率为1.6%,而美国海军每年的死亡率仅有0.9%!所以,美国海军驻地是比纽约市更安全的地方!我们需要你,加入我们海军吧!”
政府发布的海报,数据统计是真实的,你相信“权威”的结论吗?纽约市民包括老人、病人和体弱之人的自然死亡率是1.6%,已经很低。美国海军应该都是身体强壮的青壮年,自然死亡率极低,海军中存在0.9%死亡率,可见海军并不安全!把不同背景的数据放在一起比较,就是偷换概念!若数据分析误导人,掉进去的是陷阱。以上的事例告诉我们:数据不分析,结论不可信!
例1-3 圆周率计算错误的统计发现
圆周率π是圆周长与直径的比值。公元前3世纪,古希腊著名学者阿基米德计算出π≈3.14。公元263年前后,我国魏晋时期的数学家刘徽,利用割圆术计算了圆内接正3072边形的面积,求得π≈3927/1250=3.1416。又过了约两百年,我国南北朝时期杰出的数学家祖冲之确定了π的真值在3.1415926与3.1415927之间。其后,记录一个接一个地被刷新,1706年,π的计算越过了百位大关。1872年,英国学者威廉·向克斯(1812—1882)花费了整整20年把π的值算到了小数点后707位。向克斯死后,在他的墓碑上刻下了他一生心血的结晶:π的707位小数。此后一段时间,人们对威廉·向克斯的计算结果深信不疑。[张远南.概率和方程的故事.北京:中国少年儿童出版社,2005.]
又过了若干年,英国数学家法格逊参观威廉·向克斯的墓碑,对其计算结果好奇心,他统计了向克斯π的头608位小数中各数码出现的情况,见表1-1:
表1-1 向克斯计算π的前608位小数中各数字出现的频率
法格逊对向克斯的计算结果产生怀疑。他认为在π的数值式中,各数码出现的概率是等可能的,都应当等于1/10。于是,他用当时最先进的计算工具,从1944年5月到1945年5月,整整算了1年,终于发现:向克斯π的707位小数中,只有前527位是正确的,法格逊基于无理数中各数字出现是等概率的猜想,发现并纠正了向克斯的错误。这个事例告诉我们:数据分析能指引我们新发现的方向。