人人都在说谎:赤裸裸的数据真相
上QQ阅读APP看书,第一时间看更新

绪论

改革概述

人们说,他必败无疑。

2016年美国共和党初选时,民意调查专家断定特朗普毫无胜算,毕竟特朗普曾冒犯过不少少数群体。民意调查结果显示,几乎没有任何一个美国人赞成这样的行径。

当时,大多数民意调查专家认为特朗普会在普选环节败北。很多拟投票的选民说,考虑到特朗普的言行,他们最终放弃投票。

但当时确实有一些迹象表明特朗普有可能赢得党内初选以及普选——这些迹象源于网络。

我是一名互联网数据专家,每天都会跟踪记录人们浏览网页时留下的数据痕迹。根据人们点击的频度,我努力解读他们真正想要的、真正要做的和他们的真面目。下面我来解释一下我是如何走上这条不寻常之路的。

说来话长(这样一讲,好像是几个世纪前的事了),事情要从2008年总统大选和那个社会科学界争论已久的问题说起:在美国,种族偏见到底有多大的影响?

奥巴马当年是以美国主要政党中第一位非洲裔美国总统候选人的身份参与竞选的。他赢得非常轻松。民意调查结果显示,种族并不是影响美国人投票的因素之一。例如,盖洛普民意测验公司(Gallup)在奥巴马初选前后进行了多次民意调查,结论是什么?美国选民多半不在意奥巴马是黑人。Katie Fretland,“Gallup: Race Not Important to Voters,” The Swamp, Chicago Tribune, June 2008.选举结束后不久,加州大学伯克利分校的两位知名专家使用更加复杂的数据挖掘技术(data-mining techniques)研究了其他调查数据并得出了相似的结论。Alexandre Mas and Enrico Moretti,“Racial Bias in the 2008 Presidential Election,”American Economic Review 99, no. 2 (2009).

而且,在奥巴马任职期间,这也成了许多媒体和众多科研院所的共识。媒体和社会科学家80多年来一直用于了解这个世界的信息资源告诉我们,在判断奥巴马应不应该成为总统时,绝大多数美国人根本不在意他是黑人。

这个国家曾因奴隶制度和种族隔离法而长期备受诟病,如今貌似终于不再以肤色来评判一个人了。这似乎表明种族歧视在美国已经穷途末路了。事实上,有些专家甚至宣称我们已生活在后种族社会(post-racial society)了。2009年11月12日,卢·多布斯(Lou Dobbs)在其节目上说,我们生活在一个“后党派及后殖民主义社会”。2010年1月27日,克里斯·马修斯(Chris Matthews)则在他的节目中称:“各种迹象都表明,奥巴马总统已经超越了种族。”其他例子参见Michael C. Dawson and Lawrence D. Bobo,“One Year Later and the Myth of a Post-Racial Society,”Du Bois Review: Social Science Research on Race 6, no. 2 (2009)。

2012年,当时还是一名经济学研究生的我,对生活感到十分迷茫,对经济学领域的研究也失去了热情,我自信(甚至有些自大)对世界的运作方式和人们在21世纪的所思所虑都有着深刻理解。涉及种族偏见问题时,基于对心理学和政治科学领域的了解,我相信显性种族主义(explicit racism)仅仅局限于极少数美国人——其中大多数人是保守的共和党人,且大都居住在南方诸州。

然后我发现了谷歌趋势(Google Trends)。

2009年,谷歌隆重推出一款数据挖掘工具——谷歌趋势,它可以告诉使用者任何一个词语或短语在不同时间、不同地点的使用频率。谷歌趋势的宣传定位是一种有趣的工具——也许是因为它可以让朋友之间讨论哪位明星最受欢迎,什么样的潮流一下子火了起来。这一工具最初的几个版本还包括一句幽默的警告:人们应该“不想借助这一数据撰写博士学位论文”。这句话立刻激发了我依靠这些数据完成学位论文的积极性。我的数据有很大一部分都源于谷歌趋势。然而,由于该方法只允许比较不同搜索的相对频率,无法报告任何特定搜索的绝对数量,因此我常使用谷歌广告关键词(Google Adwords)加以辅助,这一搜索方式能准确报告每种搜索的频率。在大多数情况下,我也能够利用自己基于谷歌趋势的算法来锐化图片。有关这一点,我在我的博士学位论文《使用谷歌数据的论文》(Essays Using Google Data)和在《公共经济学》(Journal of Public Economics)上发表的论文《种族敌意对黑人候选人的影响:使用谷歌搜索数据的证据》(The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data)中做过论述。我的博士学位论文、论文链接以及对本书提及的所有原始研究使用的数据和代码的完整解释都可参阅我的个人网站sethsd.com。——作者注

当时,对“正派”学术研究来说,谷歌搜索数据似乎并不是恰当的信息来源。与调查不同,谷歌搜索数据的创建并非用于帮助我们了解人类的心灵。人们发明谷歌,是为了了解世界,而非让研究人员了解人类,不过最终结果却是我们上网探求知识时留下的痕迹遭到了很大程度的暴露。

换句话说,人们搜寻信息这一行为本身就是信息。事实证明,他们何时何地搜寻真相、格言、笑话、地点、人物、事件或帮助,可以在很大程度上反映他们真实的想法、欲望、恐惧和职业,其程度之高是任何人都想象不到的。尤其是人们向谷歌坦陈“我恨我的老板”“我喝醉了”“我爸爸打了我”等心境时更是如此。

把词语或短语输入一个小小的白色长方形对话框这一日常行为总会留下关于真相的蛛丝马迹:这个细微的痕迹重复出现数百万次,最终一定会揭示许多深刻的现实问题。我在谷歌趋势输入的第一个词语是“上帝”,我了解到,使用谷歌搜索提及“上帝”一词最多的州有亚拉巴马州、密西西比州和阿肯色州,即《圣经》地带(the Bible Belt),而那些搜索大多发生在周日。这都不足为奇,但有趣的是,搜索数据可以揭示这样一种清晰的模式。我试着搜索了“尼克斯队”,结果显示搜索次数最多的地区是纽约市。这也是毫无疑问的。接着,我又输入了自己的名字,谷歌趋势提示我“很抱歉,搜索量不足”,无法显示结果。因此,我了解到只有在很多人做过相同的搜索之后,谷歌趋势才会提供数据。

谷歌搜索的功能不是告诉我们上帝在南方很受欢迎,不是尼克斯队在纽约市很受欢迎,也不是我在哪儿都不招人待见。任何一项调查都可以反映上述事实。谷歌数据的功能在于,人们会向这个巨大的搜索引擎倾吐他们不会告诉任何人的事情。

就以性(在本书后文中会深入探讨这个话题)为例。那些调查并不足以反映人们性生活的实际状况。我分析过综合社会调查的数据,这项调查被视为反映美国人行为的最具影响力和权威性的信息来源之一。所有计算的详细信息请参见我的个人网站sethsd.com中标名为“Sex Data”(性数据)的文件,也可查阅网址http://gss.norc.org/获取综合社会调查的数据。根据这项调查,谈及异性性行为时,女性会说她们平均每年有55次性行为,其中16%的情况下使用安全套。据此,每年安全套的使用量会多达11亿个。有异性性行为的男性则说,他们每年一共使用16亿个安全套。这两个数字本应是一致的。那么,谁说的是实话呢,男性还是女性?

结果显示他们都没有说实话。根据追踪消费者行为的全球信息与计量公司尼尔森市场调查公司(Nielsen)的数据,每年安全套的销量尚不足6亿个。笔者获取的数据。因此,人人都在说谎,唯一的不同就是说谎程度的大小。

事实上,说谎是一种普遍行为。未婚男性称他们每年人均使用29个安全套,这一数据合计要比美国已婚人士和单身人士这两个人群每年人均购买的安全套总和还要多。已婚人士也夸大了他们的性行为次数。平均而言,65岁以下的已婚男性告诉调查人员他们每周有一次性行为,只有1%的人说他们去年一整年都没有发生性行为。已婚女性称她们的性行为次数要少一点,但也不会少很多。

谷歌搜索为我们呈现了一幅婚内性行为的图像,虽然没那么生动,但我认为其更加确切。在谷歌上,网民对婚姻抱怨最多的就是没有性生活。“无性婚姻”的搜索量要比“不愉快婚姻”多3.5倍,比“无爱婚姻”多8倍。甚至连未婚情侣也会不时抱怨没有性生活。谷歌上“无性关系”的搜索量仅次于“虐待关系”。(需要强调的是,这个数据来源是完全匿名的。当然,谷歌不会公布任何有关特定个体信息搜索的数据。)

谷歌搜索也曾呈现过一幅有关美国的图像,这幅图像与那些调查勾勒出的后种族乌托邦图景有着天壤之别。我还记得自己第一次在谷歌趋势中输入“黑鬼”一词时的情形。我知道这样做很幼稚。鉴于该词有着极端负面的含义,当时我以为相关搜索量肯定很少。可我错了。在美国,“黑鬼”一词或其复数“黑鬼们”的搜索量与“偏头痛”“经济学家”“湖人队”这类词大致相同。我曾怀疑,是不是对说唱歌曲歌词的搜索影响了该结果?事实并非如此。说唱歌曲中使用的词语几乎都是“黑人”。那么,美国人搜索“黑鬼”一词的动机到底是什么呢?他们通常是为查找嘲笑非洲裔美国人的笑话才搜索该词的。事实上,对“黑鬼”的搜索中20%都包含“笑话”一词。其他常见的搜索还包括“愚蠢的黑鬼”和“我讨厌黑鬼”等。

每年这样的搜索有数百万次之多。许多美国人都曾在自己家中做过此类具有种族主义性质的查询。我研究得越多,得到的信息就越令人不安。

在奥巴马首次胜选之夜,大多数评论都在赞扬奥巴马或宣扬其当选的历史性意义,但约有1%的包含“奥巴马”一词的谷歌搜索包含“kkk”kkk即三K党,是美国历史最悠久、最庞大的种族主义组织。——编者注或“黑鬼(们)”。可能这个百分比听起来不是那么高,但是请想想人们搜索这个家庭美满的年轻外来者、这个即将接手美国最具权势的职位的人所给出的万般非种族主义的理由吧。胜选之夜,在美国拥有超高人气的白人民族主义者网站——“风暴前线”(Stormfront)的搜索量和注册量要比平常多10倍。笔者对谷歌趋势数据的分析。同样,我也获取了“风暴前线”全部用户的相关数据,相关讨论详见Seth Stephens Davidowitz,“The Data of Hate,”New York Times, July 13,2014, SR4。相关数据可从我的个人网站sethsd.com中标名为“Stormfront”的数据区下载。在某些州,“黑鬼总统”的搜索量要多于“首位黑人总统”。笔者对谷歌趋势数据的分析。这一分析适用于肯塔基、路易斯安那、亚利桑那及北卡罗来纳等各州。

这样一种黑暗及仇恨心理在传统媒体上已遁于无形,而在人们创建的搜索网站上则显露无遗。

那些搜索和一个种族主义并非主导因素的社会显得格格不入。2012年,我所知道的特朗普多以商人和真人秀演员的身份示人。同其他所有人一样,当时的我并不曾料到他在4年后竟会成为一名一本正经的总统候选人,但那些丑恶的搜索行径和一名经常迎合民众最卑劣倾向的候选人的成功并不违和。(比如他成功打压了移民,成功发泄了内心的愤怒和怨恨。)

谷歌搜索还告诉我们,我们关于种族主义盛行地区的很多想法是错误的。研究调查和传统观念都想当然地认为现代种族主义的重灾区主要是美国南方,并且支持者大多是共和党人,但事实上种族主义搜索率最高的地方包括纽约州北部、宾夕法尼亚州西部、俄亥俄州东部、密歇根州工业区和伊利诺伊州郊区,以及西弗吉尼亚州、路易斯安那州南部和密西西比州。谷歌搜索数据表明,种族主义的正确划分模式不是美国南方与北方,而是东部与西部,在密西西比州以西绝不会碰到这类事情,而且种族主义倾向也并不仅仅局限于共和党人。事实上,共和党人占多数的地区对种族主义的搜索频度并不比民主党人占多数的地区高。换句话说,谷歌搜索帮我们绘制了一幅美国种族主义新的分布图——这幅分布图看起来可能与你所想的大相径庭(见图0–1)。美国南方的共和党人也许更有可能承认自身的种族主义倾向,而很多来自美国北方的民主党人也持相似的态度。

图0–1 种族主义搜索量分布图

事实证明,4年后,这幅分布图对解释特朗普在政治上的成功意义重大。

2012年,我正是凭借自己此前依靠谷歌搜索数据开发而来的这幅种族主义分布图准确地重新评估奥巴马所代表的种族扮演的角色。数据一目了然。在美国种族主义搜索量很大的地区,奥巴马比白人民主党总统候选人约翰·克里(John Kerry)4年前的表现要差很多。这些地区的任何其他因素,包括教育水平、年龄、教会参与度、枪支持有状况,都无法解释个中缘由。种族主义搜索并不能预言任何其他民主党候选人会有糟糕的表现,唯独对奥巴马有用。

这样的结果意味着该因素影响极大。仅仅因为显性种族主义,奥巴马在全美就损失了将近4个百分点的支持率。这个数字要比基于任何调查所能预料的结果都高太多了。当然,凭借某些对民主党而言得天独厚的条件,奥巴马成功当选总统并顺利连任,但是和任何一个依靠传统数据源取得这一成功的人(也就是所有人)相比,他必须要克服更多困难。在流年不利的情况下,足够多的种族主义者会帮助民主党候选人赢得初选,甚至会使大选结果出现反转。

我的这项研究起初曾被5家学术期刊拒之门外。文章最终还是发表了,详见Seth Stephens-Davidowitz,“The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data,”Journal of Public Economics 118 (2014)。关于这项研究的更多详情都能从该文中找到。此外,也可从我的个人网站sethsd.com中标名为“Racism”(种族主义)的数据区获取相关信息。现在回想起来,我依然觉得有些气恼。多位审稿人都说,他们无法相信有如此多的美国人怀有这样恶毒的种族主义思想。这种观点与人们一直以来的说法明显不符。此外,谷歌搜索似乎就是这样一个奇怪的数据集。

既然我们已经见证了特朗普的总统就职典礼,我的发现似乎就更具说服力了。

研究越深入,我就越清楚谷歌搜索网站有很多投票遗漏的信息,这些信息恰恰有助于在其他各主题下了解选举。

有些信息是关于最终谁会投票的。超过半数本不会投票的人在选举即将开始时告诉调查人员,他们想要参与投票,成心扰乱我们对投票结果的预估。然而,在选举开始的几周前,仅凭“如何投票”或者“去哪儿投票”的搜索结果就可以准确预测全美哪些地区将在投票站有大动作。

甚至还可能有关于选民会给谁投票的信息。仅凭人们的搜索内容,真的可以预测他们会为哪位候选人投票吗?很显然,我们不能只研究哪位候选人的搜索频率最高。加州大学洛杉矶分校的金融学教授斯图尔特·加布里埃尔(Stuart Gabriel)说,很多人搜索某位候选人是因为喜爱他,但是有几乎同等数量的人搜索某位候选人是因为讨厌他。我也发现了一条关于人们计划如何投票的惊人线索。有很大一部分与选举相关的搜索中都包含两位候选人的姓氏。2016年特朗普和希拉里·克林顿竞选期间,有些人搜索了“特朗普 克林顿 投票”,有些人则通过搜索“克林顿 特朗普 辩论”查找两人辩论的花絮。事实上,在对“特朗普”的搜索中,有12%包含“克林顿”一词;而在对“克林顿”的搜索中,包含“特朗普”一词的比例超过1/4。

我们发现,这些看似中立的搜索信息很可能会为我们提供哪位候选人更受选民支持的线索。

如何提供呢?当然是看候选人姓氏出现的顺序。我们的研究表明,在一条包含两位候选人姓氏的搜索中,选民更有可能将其支持的候选人姓氏放在前面。

之前的三次总统选举中,候选人在搜索中姓氏排在前面的概率越大,其得票率也就越高。更有趣的是,候选人姓氏的搜索顺序居然可以预见某一特定州将会支持谁。

候选人姓氏的搜索顺序似乎也包含投票可能遗漏的信息。2012年奥巴马和共和党候选人米特·罗姆尼(Mitt Romney)竞选期间,身为资深统计学家及记者的纳特·西尔弗(Nate Silver)就曾准确预测全美50个州的投票结果。我们发现,有些州的民众在搜索中常常把“罗姆尼”放在“奥巴马”之前,而罗姆尼在这些州的表现实际上要比西尔弗此前的预测好很多;在那些常把“奥巴马”放在“罗姆尼”之前进行搜索的州,奥巴马的表现也比西尔弗预测的好。

这一指标也可能包含投票遗漏的信息,因为选民要么是言不由衷、自欺欺人,要么是不愿向民意调查专员吐露自己的真实偏好。也许如果他们2012年称自己尚未决定,却一直在搜索“罗姆尼 奥巴马 投票”“罗姆尼 奥巴马 辩论”“罗姆尼 奥巴马 选举”,那么其实他们自始至终都打算把票投给罗姆尼。

那么,谷歌预测过特朗普会赢得选举吗?其实在了解如何利用谷歌搜索最精准地预测选举结果之前,我们还有很多工作要做,而我也需要更多研究人员的加入。这是一种新型科学,而且我们只有为数不多的选举数据可供分析。当然,我不是说我们眼下(或将来)可以将民意调查这一工具放心大胆地用来辅助选举结果预测。

但是,互联网上有多种征兆表明,特朗普的表现有可能比民意调查的预测要好。

大选期间,有线索表明选民可能更倾向于支持特朗普。非洲裔美国人告诉民意调查人员,他们中的大多数人很可能会反对特朗普,但是谷歌搜索中非洲裔美国人聚居区投票的信息量一路走低。可大选那天,因非洲裔选民投票率低而受损的人却是希拉里·克林顿。

当时甚至还有迹象表明摇摆选民(undecided voters)可能会选择支持特朗普。我和加布里埃尔发现,在美国中西部的几个关键州,“特朗普 克林顿”的搜索量要多于“克林顿 特朗普”,而这几个关键州本来是希拉里·克林顿十拿九稳的。事实上,特朗普之所以能赢得选举,就是因为赢得了那几个关键州的支持。

但我认为,特朗普在初选中一路高歌奏凯,也许可以证明他是位成功的候选人的主要线索,便是我在对奥巴马的研究中所发现的暗藏的种族歧视。谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。

人们常常说谎,对自己说谎,也对别人说谎。2008年,许多美国人告诉民意调查人员,他们早已不在意种族了。8年后,他们却把特朗普选为总统,而这位先生曾在其推特上转发过一条错误言论——黑人要为美国白人的大多数谋杀行为负责;他还曾在一次集会上为其支持者辩护,这些支持者此前殴打了一名参与“黑人的命也是命”的抗议者;他也曾在否认接受过三K党某前领导人的支持时支支吾吾。同是暗流涌动的种族主义,刺伤了当日的奥巴马,却成就了今天的特朗普。

总统初选之初,纳特·西尔弗曾高调宣称特朗普根本没有机会赢得大选。然而,随着选举的不断推进,形势也变得越来越明朗:特朗普得到了广泛的支持。于是,西尔弗决定查看数据,看自己能否搞懂当时是什么情况。特朗普怎么会表现如此抢眼呢?

西尔弗注意到特朗普表现极佳的那些地区共同构成了一幅奇怪的地图(见图0–2)。特朗普在东北部、中西部和南方地区都表现得很好,在西部地区却表现得非常糟糕。西尔弗找了很多因素试图解释这幅地图。是因为失业、宗教、枪支持有、移民率,还是因为特朗普反对奥巴马?

西尔弗发现,与特朗普在共和党内初选时的支持率相关度最高的因素居然是我在4年前的一项发现。2016年2月28日的一条推文称:“我发现与支持特朗普相关性最强的就是在谷歌网站搜索n开头的单词,其他人也这样说。”也可参见Nate Cohn,“Donald Trump’s Strongest Supporters: A New Kind of Democrat,”New York Times, December 31, 2015, A3。特朗普拥趸最多的地区就是“黑鬼”一词的谷歌搜索量最多的地区。这也显示了谷歌搜索中含“黑鬼”一词的比例。要注意的是,我们测量的是谷歌搜索的百分比,因此,在人口众多或搜索量多的地区,百分比并不会高得离谱。请注意,这幅图与支持特朗普的地区分布图之间的某些差异提供了清晰的解释。特朗普之所以失去了得克萨斯州和阿肯色州的支持,是因为这两个州分别是他的两个对手特德·克鲁兹(Ted Cruz)和迈克·赫卡比(Mike Huckabee)的家乡。这是大数据公司Civis Analytics 2015年12月的调查数据。受大选时间及选举形式的巨大影响,实际投票数据的作用会大打折扣。经《纽约时报》许可,这幅选举图可供转载。

图0–2 特朗普共和党内初选支持区域分布图

过去4年里,我每天都在分析谷歌数据。谷歌公司了解到我的种族歧视研究后,还聘我做了一段时间数据专家。而今,我继续作为专栏作家和数据记者为《纽约时报》考察这一数据。几年来的新发现所涉甚广:精神疾病、人类性行为、虐待儿童、人工流产、广告活动、宗教信仰、健康问题,等等。这些话题其实都很大,而这个几十年前并不存在的数据集,短短几年内便为我们提供了看待前述所有话题的全新视角,不可谓不惊人。经济学家及其他社会科学家一直在搜寻新的数据源,毫不客气地说,我确信谷歌搜索数据绝对是有史以来搜集到的人类心理数据集中最出色的一个!

然而,这一数据集并非互联网为当代人提供的了解世界的唯一一种工具。我很快就意识到还有其他数据金矿可挖。我下载了维基百科的全部内容,钻研了脸谱网上的所有资料,挖空了白人民族主义者网站“风暴前线”上的信息。此外,互联网上最大的色情网站之一也提供了全世界匿名人士的搜索和视频播放量的完整数据。也就是说,我早已深入了解现今所谓的“大数据”。不仅如此,我还采访了许多人,如学术界人士、新闻工作者和企业家等,他们也在探索这一新领域。对于他们的许多研究,本书会做讨论。

首先,我得承认我无法准确定义究竟什么是大数据。为什么?因为这本来就是一个模糊的概念。多大才算大?如果18 462个观测值是小数据,那么18 463个就算大数据吗?我更愿意采取一种包容性观点为其下定义:尽管我摆弄的数据大多来自互联网,但我也会考虑其他渠道。我们正在经历各种可用信息数量和质量的双重激增。很多新信息都是从谷歌网站和社交媒体流出的,其中一些是从前尘封于档案柜中的信息经过数字化之后形成的产品,还有一些源自那些致力于市场研究的新资源。本书中的一些研究完全没有使用大的数据集,而是使用一种全新的创造性数据研究法,这种方法在信息过剩的时代是至关重要的。

那么,到底为什么大数据如此强大呢?想想某一天散布在网上的所有信息吧——事实上,对于这样的信息有多少,我们是有一个确切数字的。在21世纪之初的平常日子里,人类每天可以产生2.5×1018字节的数据。“Bringing Big Data to the Enterprise,” IBM, https://www-01.ibm.com/software/data/bigdata/what-is-big-data.html.

这些字节就是线索。

一个女人在某个周四下午倍感无聊,便用谷歌搜索更多的“有趣的素笑话”。她查看邮件,登录推特,然后用谷歌搜索“黑人笑话”。

一个男人心情不大好,便用谷歌搜索“抑郁症状”和“抑郁故事”。他还玩纸牌游戏。

一个女人在脸谱网上看到朋友发布的订婚消息,而她还单身,于是她屏蔽了这位朋友。

一个男人先是用谷歌搜索国家橄榄球联盟和说唱音乐,然后又问了搜索引擎一个问题:“梦到男人和男人接吻正常吗?”

一个女人点击网站BuzzFeed上“15只最可爱的猫”的故事。

一个男人看到了同一个关于猫的故事,但他的屏幕上显示的是“15只最乖巧的猫”,他没有点击。

一个女人用谷歌搜索“我的儿子是天才吗”。

一个男人用谷歌搜索“如何让我的女儿减肥”。

一个女人正和6个最好的女性朋友度假,所有的朋友都在说她们玩得有多开心,只有她偷偷离开,用谷歌搜索“丈夫不在身边的孤单”。

前面那个女人的丈夫也在和6个最好的男性朋友度假。他偷偷溜出来,用谷歌搜索“妻子出轨的迹象”。

这些数据中有一部分包含原本不会被任何人接收的信息。如果把这些信息整合起来,使之保持匿名状态以确保我们永远不会知晓任何特定个体的恐惧、欲望及行为,再加上数据科学,我们就会对人类有一个新的认识——他们的行为、他们的欲望和他们的本性。事实上,尽管听起来有夸大其词的风险,但我越来越相信,数字时代日益普及的新数据将大大拓展我们对人类的理解。我们以为自己看清了一滴池水,可显微镜却为我们展示了更多;我们以为自己看尽了夜晚的天空,可望远镜却为我们展示了更多;我们以为自己看懂了人类社会,可如今的数字数据却为我们展示了更多。这些数据也许就是我们这个时代的显微镜或望远镜吧——有了它们,人们才有可能提出重大乃至具有革命性的见解。

发表这样的言论不仅有夸大其词之嫌,而且有另一重风险——赶新潮。很多人都曾对大数据的影响做过很高的评价,但是他们缺乏证据。

这导致为数众多的大数据怀疑者对更大数据集的搜索不予理睬。作家兼统计学家纳西姆·塔勒布(Nassim Taleb)曾写道:“我不是说大数据中没有信息,事实上它包含很多信息,但问题是,提取信息比大海捞针还难,而这也是主要问题。”Nassim M. Taleb,“Beware the Big Errors of ‘Big Data,’”Wired,February 8, 2013, http://www.wired.com/2013/02/big-data-meansbig-errors-people.

因此,本书的主要目标之一,便是要就大数据能做什么这一问题提供一些缺失的证据。如果你愿意在海里捞针,本书就会告诉你如何才能在越来越广阔的海域里捞到那根针。我希望可以提供足够多的大数据案例,为人类心理及行为提供新的见解,如此一来,你就会逐渐看到真正具有革命性的事物的轮廓。

你现在可能会说:“等一下,赛思,你是说会有一场革命?!你这是在粉饰这些新的大数据集。到目前为止,你只用所有这些惊人的、非凡的、振奋人心的、开天辟地的数据主要告诉了我两件事:第一,美国有很多种族主义者;第二,人们(尤其是男人)夸大了他们的性行为次数。”

我承认,有时候新数据只是证实了显而易见的事情。如果你认为这些发现是显而易见的,等你读到本书第4章,我会向你展示谷歌搜索中条理分明而又无懈可击的证据,证明男人对自己的阴茎大小极为关注且有不安全感。等着吧,到那时你就会明白了。

可以这么说,证明那些你本就怀疑却缺乏证据的事情不可谓没价值,但怀疑某事是一回事,证明它又是另一回事。如果所有大数据能做的只是证实你的怀疑,那么这些数据也就不会那么具有革命性了。幸运的是,大数据能做的远不止于此。数据一次又一次向我证明,这个世界的运转方式与我之前的猜测恰恰相反!这里有一些例子,可能会令你感到更惊讶。

你可能会认为种族主义产生的主要原因是经济的不安全性和脆弱性。你可能会很自然地认为,一旦人们失去工作,种族主义就会加重。实际上,无论是种族主义搜索量还是“风暴前线”的会员数,都不会在失业之际走高。我仔细查看了美国受经济大萧条影响程度不同的地区的互联网种族主义变化情况。无论是谷歌对“黑鬼(们)”的搜索率还是“风暴前线”的会员数,我都对其进行了详细研究。相关数据可从我的个人网站sethsd.com中标名为“Racial Animus”(种族敌意)和“Stormfront”的数据区下载。

你可能会认为,在过度教育的大城市中,人们的焦虑程度最高,城市神经质就是一个著名的刻板印象,但是,用谷歌搜索“焦虑症”或“焦虑救助”的结果反映出,在教育水平较低、家庭平均收入较低、农村人口密度较大的地区,焦虑程度更高。Seth Stephens-Davidowitz,“Fifty States of Anxiety,”New York Times, August 7, 2016, SR2.注意:尽管谷歌搜索的确提供了大得多的样本库,但这一模式仍与调查结果一致。例如,参见William C. Reeves et al.,“Mental Illness Surveillance Among Adults in the United States,”Morbidity and Mortality Weekly Report Supplement 60, no. 3 (2011)。纽约州北部地区对焦虑的搜索率比纽约市更高。

你可能会认为,造成几十人甚至数百人伤亡的恐怖袭击过后,紧随而来的便是迅速蔓延的重度焦虑情绪。从定义来看,恐怖主义应该会引起恐惧感。我查看了反映焦虑的谷歌搜索,测试了一个国家自2004年以来在欧美国家所有重大恐怖袭击事件后的几天、几周和几个月内此类搜索的增长量。与焦虑有关的搜索平均增长量是多少呢?结果是,根本就没增长!

你可能会认为,人们心情低落时搜索笑话的概率更大。相关讨论参见Seth Stephens-Davidowitz,“Why Are You Laughing?”New York Times, May 15, 2016, SR9。相关数据可以从我的个人网站sethsd.com中标名为“Jokes”(笑话)的数据区下载。历史上很多伟大的思想家都曾说过,人类总会用幽默来缓解痛苦。幽默感一直以来都被视为应对生活中的沮丧、痛苦和不可避免的失望的方法。正如卓别林所言:“笑声是滋补品,是缓解和去除痛苦的灵药。”

然而,在人们认为最不开心的周一,笑话搜索量却是一周中最少的,阴雨天的相关搜索量也是所有天气中最少的。重大悲剧发生时,例如2013年波士顿马拉松比赛期间,两颗炸弹造成三人死亡、数百人受伤后,笑话的搜索量也会骤降。实际上,人们在生活平顺(而非不顺)时搜索笑话的可能性更大。

有时一个新的数据集会展现我想都不曾想过的行为、欲望或担忧,很多性癖好就属于这种类型。例如,在印度以“我丈夫想要……”为开头的搜索中,数量最多的是“我丈夫想要我给他喂奶”,这一点过去你知道吗?相关讨论参见Seth Stephens-Davidowitz,“What Do Pregnant Women Want?”New York Times, May 17, 2014, SR6。在印度,这类表达要比其他国家多得多。除此之外,在印度和孟加拉国,女人给男人喂奶这类色情描述的搜索量要比全球其他国家多4倍。笔者对色情网站数据的分析。在看到数据之前,我是无论如何也不会想到这一点的。

男性对自己的阴茎大小耿耿于怀这一事实也许还可以理解,但女性对自己身体最大的不自信之处(按谷歌搜索来看)就很匪夷所思了。基于这项新数据,与男性介意自己的阴茎大小一样,女性可能担忧的是——卖个关子——自己的阴道是否有异味。女性与男性因对自己的私处心存隐忧而进行的搜索,在量上是基本持平的,只不过女性搜索率最高的是气味(以及如何改善异味)。在看到数据之前,我对此当然是一无所知的。相关讨论参见Seth Stephens-Davidowitz,“Searching for Sex,”New York Times, January 25, 2015, SR1。

有时新数据会体现我从前不曾考虑过的文化差异。例如,全世界男人对于妻子怀孕一事的反应截然不同。在墨西哥,与“我怀孕的妻子”相关的搜索词条中排名前两位的是“对怀孕的妻子说的情话”和“为怀孕的妻子作的诗”。Stephens-Davidowitz,“What Do Pregnant Women Want?”.在美国,搜索量最多的词条包括“我妻子怀孕了,现在怎么办”和“我妻子怀孕了,我该做什么”。

尽管包含很多奇怪的事实和一次性研究,但本书绝非这些内容的简单拼凑。因为这些方法很新颖,而且只会变得更强大,所以我会提出一些观点,阐明这些方法该如何发挥作用,以及是什么令其具有开创性。当然,我也会坦承大数据的诸多局限。

不少人对数据革命的潜力怀有热情,但其中一些人的确有些跑偏。大多数倾心于大数据的人总会滔滔不绝地说这些数据集会变得多么多么巨大,这种对数据集大小的执着已经不是什么新鲜事了。在谷歌、亚马逊和脸谱网之前,在“大数据”一词出现之前,一场关于“大而复杂的数据集”的会议就曾在得克萨斯州达拉斯市拉开帷幕。而今,斯坦福大学统计学教授(也是我在谷歌工作时的同事)杰里·弗里德曼(Jerry Friedman)回想起1977年召开的那次会议。一位杰出的统计学家想站起来讲话,他会说自己已经积累了惊人的5GB1GB,即230字节。——编者注数据。又一位著名的统计学家紧接着会站起来说:“上一位发言者说有GB级的数据。那有什么,我有TB1TB,即240字节。——编者注级的数据!”换句话说,这场谈话的重点是你能积累多少信息,而不是你希望用这些信息来做什么,或者你打算回答什么问题。弗里德曼说:“当时我觉得很有趣,好像我们该记住的就是他们的数据集有多大。这样的事至今还在发生!”2015年10月27日,我对杰里·弗里德曼进行了电话采访。

今天仍有很多数据科学家正在积累大量的数据集,却很少阐明其重要性。(尼克斯队在纽约很受欢迎的相关数据便是一例。)太多的企业被淹没在数据中,它们有TB级的数据,却很少有主见。我认为数据集的大小总会被高估。对此,还有一个很微妙却很重要的解释,即一种事物的影响越大,有必要观察它的次数就越少。你只需要触碰一次高温火炉就会意识到它很危险,但是你可能需要喝数千次咖啡才能确定它是否会让你头痛。哪个教训更深刻呢?显然是高温火炉,由于其影响很大,烫手的火炉会在你的意识中迅速闪过,只留下非常少的数据。

事实上,最明智的大数据公司常缩减其数据。在谷歌公司,很多重大决定都是基于其全部数据中极少量的样本做出的。Hal R. Varian,“Big Data: New Tricks for Econometrics,”Journal of Economic Perspectives 28, no. 2 (2014).你不见得总是需要大量的数据才能得到重要的发现,你需要的是正确的数据。谷歌搜索如此有价值的一个主要原因不是这些数据的量有多大,而是人们对谷歌很诚实。人们会对朋友、爱人、医生、调查人员乃至他们自己说谎,但在谷歌网站,他们可能会分享令人尴尬的信息,比如他们的无性婚姻、心理健康问题、不安全感和对黑人的仇恨等。

最重要的是,为了从大数据中获得见解,问题必须问到点上。正如你不能随意用望远镜望向夜空就发现冥王星一样,你也不能下载一大堆数据就指望可以发现人性的秘密。你必须查找有希望的地方,比如在印度以“我丈夫想要……”为开头的谷歌搜索。

本书将会展示如何最合理地使用大数据,并详细解释大数据为什么会这么强大。与此同时,你也会了解我和其他人使用大数据得到的发现,包括:

•有多少男性是同性恋者?

•广告起作用了吗?

•为什么“美国法老王”(American Pharoah)是一匹著名的赛马?

•媒体有偏见吗?

•弗洛伊德式失言(Freudian slips)弗洛伊德式失言,是由精神分析学派创始人弗洛伊德提出的一个概念,指人们不经意地说出自己的真实感受,俗称“说溜嘴”。——编者注是真的吗?

•谁逃税了?

•去哪儿上大学重要吗?

•你能掌控股市吗?

•哪里是抚养孩子最好的地方?

•是什么让一个故事人尽皆知?

• 如果你想要第二次约会,那么你应该在第一次约会时说什么?

……

在探讨这些话题之前,我们需要讨论一个更加基本的问题:我们到底为什么需要数据?为此,我会向各位介绍一下我的祖母。