数据如何误导了我们
上QQ阅读APP看书,第一时间看更新

前言 拨开数据的迷雾

她拉开推拉门,走进了这间布满灰尘的办公室,又和我握了握手。“我是胡安妮塔。”她穿着一件宽大的浅色毛衣,这使她看上去更为瘦小。胡安妮塔在我对面那张折叠椅上坐定了之后,我用西班牙语跟她解释说,我来自荷兰的一所大学,到玻利维亚来是想做一份关于幸福指数和贫富差距的调研。我告诉她,下面我将问她一些问题,了解一下她对自己的生活和国家的看法。

我对这类谈话早已驾轻就熟。塔里哈是玻利维亚的一座小镇,靠近阿根廷边境,而我在这儿采访当地居民已经整整十天了。为了采集到足够的数据,我和摆地摊的妇人聊过天,与种草莓的农民喝过啤酒,还和几个家庭吃过烧烤。之前有一位妇女组织的干事愿意帮我和当地的家政人员,也就是像胡安妮塔这样的妇女取得联系,于是我带着一摞问卷来到了该组织的办公室。

“我们开始吧。”我说,“你今年几岁?”

“58岁。”

“你是哪个族裔的人?”

“我是艾马拉[1]人。”哎哟,我想,她可是当地原住民呢。

我以前还真没碰见过几个。

“你的婚姻状况是?”

“单身。”

“你识字吗?”

“不识。”

“你会写字吗?”

“不会。”

我又陆续询问了她的职业和受教育程度,还有家里是否有手机、冰箱和电视机等问题。

“我每个月赚200玻利维亚诺[2]。”我问到她的收入时她告诉我。这个数字远低于玻利维亚总统埃沃·莫拉莱斯不久前刚提的最低工资标准815玻利维亚诺。“要是我向老板提出涨薪的要求,我怕她会解雇我。所以我现在只能住在‘卡皮塔’里。”我顺手把“卡皮塔”这个词写了下来,但我当下并不明白它是什么意思。之后我才了解到,这是一种小帐篷。

问卷的最后一部分是调研的核心内容,即幸福指数和贫富差距。我在荷兰鹿特丹伊拉斯谟大学的办公室位于教学楼的11层。我在办公室墙上贴着5张用幻灯片制作的图表,每张都代表了一种收入分配的方式。当时我的教授还特意让我再三确认,所有图表的尺寸都一样。

但是,来到玻利维亚调研的第一天我就发现,贫富差距的问题不适用于每个人。我之前采访过摆地摊的妇女,她们就看不懂这些图表的意思,更别提不会读写的胡安妮塔了。所以我决定跳过这部分。

然而,我还没来得及问下个问题,胡安妮塔却开口了,她坐直了身子,说:“你知道玻利维亚是怎样的吗?这个国家有非常多的贫困户,还有极少数的超级富豪。两者之间的贫富差距会变得越来越大。在这里,人与人之间根本就没有任何信任,你说这疯狂不疯狂?”

其实,胡安妮塔在毫不知情的情况下,已经回答了A图表中的问题,同时还回答了我的另外两个问题:对未来的展望和对国民之间信任度的看法。之前我真是小看她了。对此,我感到一丝丝羞愧,但我假装若无其事,继续提问。还剩下最后几个问题。

“请你用数字1—10表示你现在的幸福指数。”

“1。”

“那未来五年内你觉得自己的幸福指数会是?”

“1。”

我想,正是从2012年的那次采访开始,我对数字产生了一丝犹疑。在那之前,我主要是一个“数据消费者”——从报纸或新闻上读到数据,从导师那儿获取研究计量经济学的数据,或是从世界银行和其他组织网站上记录它们的官方数据。

但此刻,我没有可用的现成数据了,我成了一个“数据采集者”。一年之后,我开始攻读博士学位,并选择把数字作为研究课题。但与胡安妮塔的对话却动摇了我。我研究了她的幸福指数,却不能用一个数字来概括她在小帐篷里的生活;我了解了她对贫富差距的看法,却不知道该把答案放进五张图表的哪一张。她说的大部分内容都与数字无关,最终却都是用数字表示的。

胡安妮塔还教会了我其他东西。“我”深深地影响着数据最终呈现出来的面貌。是“我”认为幸福感很重要,因此想将它量化并表现出来;是“我”坐在自己的办公室中选择用抽象的问题与图表做调研;是“我”觉得胡安妮塔不够聪明,无法回答有关贫富差距的问题。是我,是我,是我,全是我。换作其他人拿着一样的问卷,只要观点或者出发点不同,都很可能得出不同的结论。数字本应该是客观的,但那一刻我突然发现,它与研究人员的联系却如此紧密。

结束了和胡安妮塔的谈话后,我在Excel表的第80列记下了有关她的数字:年龄58,月薪200,幸福指数1。这些数据看起来和我往年下载的数据一样简洁,但我突然意识到,这份数据带有欺骗性。

从儿时起,我就特别擅长一切与数字相关的东西。刚刚学会数数不久,我就开始玩点线成图[3]的游戏了。在我人生最早的记忆里,有次在德国黑森林度假,我就用这个方法画出了雪人和云朵。不久之后,祖父母送了我一台带闹钟的收音机。一到晚上,我就盯着那上面的LED灯,把显示出来的4个数字各种加减组合,组成新的数字。数学是我中学时最喜欢的一门课,最后,我也选择了计量经济学作为读博期间的研究方向。我学习了所有经济模型背后的统计学知识,并用它们计算、分析和编程。后来我明白了,小时候玩的点线成图游戏,其实也是在寻找一种数字的组成模式。

不过,数字在我的生活中还扮演着另外一种角色:它给予我支持与慰藉。5岁到26岁的求学生涯里,我收到过许多份成绩单和评估报告。我用上面的数字衡量我在学校的表现:得了低分会让我沮丧不已,而得了高分我就能兴奋得上天。只要考试成绩还算满意,哪怕几天后就把知识忘得一干二净,我也毫不在乎。走出校园以后,我也依旧被数字掌控。从玻利维亚回来后,我看到自己在体重秤上的重量:56千克。我用它算了一下我的BMI指数[4],才18.3,顿时为自己的好身材而骄傲。

被数字驱使、掌控的人可不止我一个。大学里的同事们要是想升职,就必须在科学期刊上发表足够多的论文;在我母亲工作的医院里,大家每年都会紧张地等待《大众日报》上的“全荷兰前100强医院”名单公布;我父亲必须在65岁退休。

后来我才意识到,和胡安妮塔的谈话让我看见了这类数字背后的一些重要的东西。就像我影响了自己采集来的数据一样,别人也影响了我和我周围的人用来指导自己生活的那些数字。大学教授定下了升职的论文数量标准;医生确定了BMI指数的正常值范围;政府决策者则决定了你的退休年龄。

2014年博士毕业后,我决定投身新闻行业,因为和胡安妮塔的谈话让我发觉:这些数字背后的故事,比数字本身更有意思。我在一个叫De Correspondent的新闻网站担任数据分析记者。“分析”一词在这里有双重含义,我不仅要向读者解释这些数据如何得来,同时我也会和他们探讨:我们是否要降低数字在社会生活中的重要性?我们可以不分析数字背后的含义吗?

很快我就发现,自己提出的这些问题是有必要的。因为读者会发给我一些糟糕的问卷调查、模棱两可的科学研究,以及带有欺骗性的图表。这些错误我在读博期间也曾犯过。在做了几次小型报告会和读了别人给我写的评论后,我渐渐发现自己的数据样品并不具有代表性,而且我还混淆了其中的相关性和因果关系。而现在我看到的是,当记者在全球报道新闻时,当政府官员制定政策时,当医生为大众的健康做决定时,他们犯着和我当年一样的错误。这个世界充斥着各种烂透了的数据。

生活中,我们也要和其他各式各样与数字有关的信息打交道。家长收到托儿所发来的自家1岁小孩的情况报告;交警在街上开着数额不一的罚单;优步司机因为评分过低而无法继续开专车。

于是,我渐渐明白:从退休年龄到脸书点击量、从国内生产总值到我们每个人的收入,是数字决定着世界的面貌,并且现在看来,数字的影响力还会持续增加。大数据算法已经像雨后春笋般进入了政府和企业中。慢慢地,人们再也不需要亲自做决策,通通改成由数据模型代劳。

数字似乎已经深深地催眠了我们。一个人写的文字,会很容易受到他人的抨击和批评,但同样一群人,对数字的包容度却比对文字要大得多。同时,在新闻领域做了几年研究之后,我得出了一个结论:数字在我们的生活中已经变得过于重要。数字的导向性已经大到让我们再也无法继续忽视滥用数字的现象。是时候揭开数字背后的真相了。

但是,本书不是要读者去抵制数字。数字本身和文字一样是无辜的,犯错的是数字背后的人。本书讲的就是这些人,讲的是他们的直觉、认知偏差和利益关联。在本书中,你将会看到:心理学家用数字包装种族歧视的观点;世界顶尖性学研究员采集数据的过程其实见不得光;烟草巨头们滥用数据,上百万人为此赔上了性命。

本书也讲我们自己。作为数据消费者,是我们自己选择走入数字陷阱被它欺骗。更严重一点儿说,是我们自己选择被数字牵着鼻子走。数字影响着我们吃什么、喝什么、在哪儿工作、挣多少钱、住哪儿、和谁结婚、投票给哪个党派、能否贷到银行贷款,以及要交多少保险费。数字甚至还影响你是生病了还是痊愈了,是活着还是死了。

就算你觉得自己和数字毫不相干,那也无济于事,因为你肯定和数字有着千丝万缕的联系。

本书将分析揭秘数字的世界,让人人都能辨别正确使用数据和滥用数据的情况。所以,我们要问问自己:我们希望数字在生活中扮演什么样的角色?

是时候为数字正名了:它既不是一切的基石,也不是一无是处,它应该和文字结合使用。

在那张问卷前,我们先回到最初的问题:人类对于数字的痴迷是从何时开始的?想回答这个问题,我们就得从历史上最著名的护士——弗洛伦斯·南丁格尔——开始说起。