算法霸权
上QQ阅读APP看书,第一时间看更新

第一章
盲点炸弹
不透明、规模化和毁灭性

1946年8月,一个炎热的午后,克里夫兰印第安人棒球队主帅路·波德鲁正经历着他悲惨的一天。在双重赛的第一场比赛中,泰德·威廉姆斯几乎以一人之力横扫了波德鲁的整支球队。威廉姆斯可能是当时最伟大的击球手,在这场比赛中,他粉碎了三个全垒打,为自己的球队赢得8分。最终,印第安人队以10∶11遗憾输球。

波德鲁不得不采取反击。所以,当威廉姆斯在双重赛的第二场中第一次出现时,印第安人队的球员就立即开始调整各自的场地位置。游击手波德鲁换到二垒手位置,二垒手退到右外场,三垒手换到波德鲁的左边,担当游击手。很明显,波德鲁在想方设法地改变球队的防卫方向,力求截下威廉姆斯的击球。

也就是说,他在像数据科学家一样思考。他分析了原始数据——大多数都是靠观察得到的:泰德·威廉姆斯通常会把球打到右外场。然后,他据此调整了球员的站位。结果,这个策略真的奏效了。外野手接住了威廉姆斯更多的极速平直球(但依然对飞过头顶的全垒打束手无策)。

如果你今天再去看美国职业棒球联盟的比赛,你就会看到,如今,球队在制订防守策略时会把几乎每一个球员都看作威廉姆斯。波德鲁仅仅是观察了威廉姆斯通常的击球位置,而现在的球队经理则精确地知道每个球员以往击每一个球时所在的位置,包括上周的、上月的、整个职业生涯的、面对左手投手时的等等。他们利用这一历史数据分析对手的比赛策略,计算防守成功率最高的球员站位。有时候根据计算结果,全场球员都需要变换位置。

防守转移只是一个更复杂的大问题中的一个小问题。这个大问题是:棒球队可以采取哪些措施将自己获胜的可能性最大化?棒球数据科学家在寻找答案时,仔细检查了他们可以量化的每个变量,并赋予每个变量一个分值。二垒安打比一垒安打的价值高多少?什么时候值得用短打送跑垒者从一垒上二垒?

所有这些问题的答案混杂在一起,组合成了棒球运动数学模型。这些模型中的每一个都包含着各种各样的可能性,包含棒球运动要素——从四坏球、全垒球到球员素质——中所有可测量的关系。模型的目标是寻找最优组合。如果扬基队改为让右手投手应对盎格鲁队的“神鳟”麦克·卓奥特,与使用原来的投手不变动相比,扬基队有多大可能让他出局?这又将如何影响其整场比赛的胜利概率?

棒球运动特别适合建立预测性数学模型。正如迈克尔·刘易斯在其畅销书《点球成金》中所写的,棒球运动一直以来都是数据痴迷者的热门话题。过去几十年,球迷们仔细研究棒球运动员卡片背面的数据,分析C. 雅泽姆斯基的全垒球模式,或者比较罗杰·克莱门斯和杜威·古登的出局总数。但是,从1980年开始,专业的统计学家开始分析这些数字以及大量新数据的真正意义:如何将这些数据转化为胜利,球队主理人如何用最少的钱使获胜的可能性最大化。

“点球成金”现在指针对长期被认为仅受直觉控制的领域开发的统计方法。但是,棒球模型是有益模型,与我们生活中很多领域涌现出来的有害模型即数学杀伤性武器作用相反。棒球模型之所以公平,部分原因在于其模型是透明的。每个人都可以获取作为模型根据的数据,并且或多或少能够理解模型的结果应该怎么解读。确实,一个队的模型中也许本垒击球手的表现权重更高,而另一队的模型则可能没那么看重本垒击球手的作用,因为该队的强击手经常会打出三振出局。但无论如何,在这两种情况下,全垒打和三振出局的实际次数都将展示在大家的眼皮底下。

棒球的统计也比较严谨。棒球专家手中掌握大量数据,而且几乎所有的数据都和球员的表现直接相关。可以说,他们的数据和他们根据模型预测的结果高度相关。这听起来也许平淡无奇,但读完本书我们就会看到,建立数学杀伤性武器的人通常在他们最感兴趣的行为方面缺乏相应的数据。所以,他们将本应通过调查获得的数据替换成间接变量。他们在一个人的邮政编码或语言模式和此人偿还贷款的能力或者胜任工作的潜力之间建立联系。这些联系绝大部分具有歧视性,有些甚至是不合法的。而大多数棒球模型则不使用间接变量,它们只利用最直接的相关信息,如坏球、好球和安打的次数。

最重要的是,新的棒球数据还在不断涌入,每年的4~10月,每天都有十二三场比赛的新数据涌入记录系统。统计学家可以将这些比赛结果和他们开发的模型的预测结果进行比较,以找出模型哪里出了问题。比如,他们可能预测一个左手投手会多次把击球机会让给右手击球手,但在实际的比赛中,左手投手自己击了球。这样的话,统计分析小组就得调整模型,研究哪里出错了。投球手的新曲线球会影响他的数据吗?投球手在傍晚进行的比赛中会有更好的投地表现吗?统计学家可以把了解到的任何信息纳入模型以完善模型。这就是可靠模型的运作方式。可靠模型的开发者会对自己想要理解或者想要预测的所有事情进行反复的核实查证,并且模型必须随着具体情况的改变而改变。

棒球模型中有成千上万个不断变化的量,你也许会好奇,我们为什么能把这种模型和华盛顿特区的教师评估模型进行比较。棒球运动模型追求细节,并且不断更新;不透明的教师评估模型则似乎建立在少量的考试成绩数据之上。后者真的是模型吗?

教师评估模型确实是模型。模型只不过是某个过程的抽象表示,它可以表示棒球比赛结果、石油公司供应链、外国政府的行动或者电影院上座率。不管是电脑模型还是人脑里的模型,模型都会吸收我们知道的相关信息,并据此预测各种不同情况下的反应。我们每个人的大脑中都有成千上万个模型,这些模型告诉我们什么是我们可以期待的,并指导我们做决定。

下面是我每天使用的信息模型。作为三个孩子的母亲,家里的饭由我来做,我丈夫就不说了,他连要往煮意大利面的水里加盐都记不住。每天晚上当我开始做饭时,我的大脑就不自觉地开始分析每个人的口味。我知道我的一个儿子喜欢吃鸡肉(但是讨厌吃汉堡),另一个儿子只爱吃意大利面(最好是加一些弄碎的帕尔玛奶酪)。同时我还得考虑他们每天的口味变化,调整我头脑中的模型。显然,我的模型中有一些不可避免的不确定因素。

输入到我内在家庭饮食模型的是这些信息:我的家人的偏好,我现在有的或者我知道可以买到的食材,还有我自己的精力、时间和决心。输出的是我该如何做这顿饭以及具体做什么。我根据我的家人在吃完饭后的满意程度、他们这顿饭的饭量以及食品的健康程度来评估一顿饭做得是否成功。根据饭的受欢迎程度和被吃掉的量,我会更新可以用于下次做饭的饮食模型。这些更新和调整让我的饮食模型成为统计学家所说的“动态模型”。

我可以很骄傲地说,这么多年以来,我已经非常擅长给家人做饭了。但是,如果我和丈夫准备外出一周,而我想给我妈妈解释我的模型,让她代替我给孩子们做饭,那我该怎么办呢?或者,如果我的那些初次为人父母的朋友想要知道我的做饭方法,那我又该怎么办呢?这时候,我就应该将我的模型具体化、形式化和系统化,也就是说使其更加数学化。如果我有野心的话,我也许可以把它做成电脑程序。

一个理想的程序将包含所有可获得的食品、食品的营养价值和成本,以及一个关于我家人口味的完整数据库:每个人对食品的好恶。但是,我很难坐下来一一列出所有的信息。我有很多关于他们争抢芦笋、不要豆角的记忆,但我很难用一个可理解的公式把它们表述出来。

较好的解决办法就是随时间发展不断地训练模型。每天输入买了什么、做了什么的相关数据,记录家里每个人的反应。我也会录入其他的参数或者约束条件。比如,我会限定只吃当季水果和蔬菜,尽量少做果酱馅饼,但不至于少到遭到家人公开反抗的程度。我还会给模型增加一些规则:这个喜欢吃肉,这个喜欢吃面包和意大利面,这个能喝很多牛奶,还总是吃什么都喜欢抹巧克力酱。

如果我把这件事当成首要工作来做的话,许多个月以后我也许就可以提出一个非常好的模型。我将把脑子里的食品管理系统、我的内部信息模型转化成一个具象化的外在模型。在建立模型的过程中,我扩大了自己对世界的影响力。我构建了一个自动化的“凯西烹饪系统”,任何人都可以操作它,即使我不在场,它也能照常工作。

但是错误总会出现,因为模型的本质就是简化。没有模型能囊括现实世界的所有复杂因素或者人类交流上的所有细微差别。有些信息会不可避免地被遗漏。我也许会忘记在模型中加入一些规则,比如生日当天时垃圾食品的限制可以放松,或者比起用各种方法烹制出来的胡萝卜,我的家人更爱吃生胡萝卜。

因此,要建立一个模型,我们需要对各个因素的重要性进行评估,并根据我们选出的那些重要的因素将世界简化成一个容易理解的玩具,据此推断出重要的事实和行动。我们期待模型能较好地处理一种工作,同时也接受模型偶尔会像一个愚蠢的机器一样存在很多信息盲点。

有时候,这些盲点不重要。当我们在谷歌地图搜索如何去往目的地时,谷歌给出的世界模型就只有道路、隧道、桥梁,而忽略了建筑物,因为建筑物和我们想要的答案无关;当利用航空电子软件指导飞机飞行时,该软件给出的世界模型就只包含风、飞行速度和地面的着陆带,而不会显示街道、隧道、建筑物和人。

一个模型的信息盲点能够反映建模者的判断和优先级序列。谷歌地图和航空电子软件对于信息的选择似乎已经是固定不变的了,但其他模型的信息选择则存在着严重的问题。回到之前那个例子,华盛顿特区学校的教师评估增值模型主要依据学生考试成绩评价教师的教学质量,而忽视了教师对学生的投入度、在专业技能上的钻研度、教学管理方面的成果以及在帮助学生解决私人和家庭问题上的表现等。该评估模型过于简单,为追求效率牺牲了精确性和洞察力。但是,在学校领导层看来,该模型是把业绩明显不佳的几百位老师找出来的有效工具,他们并不介意这意味着模型可能会误解其中一部分人。

我们可以看出,尽管被普遍认为是不公正的,该模型还是能反映出建模者的目标和思想观念。当我在模型中排除了每餐吃果酱馅饼的可能性时,我也是在把我的思想观念强加到我的烹饪模型里。我们会毫不思索地做这件事。我们自己的价值观和欲望会影响我们的选择,包括我们选择去搜集的数据和我们要问的问题。而模型正是用数学工具包装出来的各种主观观点。

一个模型是否奏效也见仁见智。毕竟,不管是正式模型还是非正式模型,关键要素都是其对某事成功或符合标准的定义,这一点在我们探讨数学杀伤性武器的典型特征时还会讲到。我们不仅要问是谁设计的模型,还要问设计模型的人或者组织机构要达成什么目的。比如说,如果是由某个贫困国家的政府来为我的家庭饮食建立模型,则该模型的成功可能指在我们现有食物储备的基础上,以保证我们一家不至于陷入饥饿为前提,尽可能地降低成本。个人饮食偏爱将被很少考虑或者根本不予考虑。相反,如果是由我的孩子建立模型,则成功的特征可能就是每餐都可以吃冰激凌。而我自己的模型会综合考虑资源管理和我孩子们的开心程度,还将参考我自己所确定的健康—方便—丰富—可持续性这一优先级序列。因此,我的饮食模型更为复杂。但是我的饮食模型确实反映了我的个人实际。另外,适用于今天的模型在明天的效果就不一定有那么好了。如果不经常进行更新的话,我的饮食模型就会被淘汰。食品价格会变动,家人的口味也会改变。在孩子们六岁时制定的饮食模型肯定不适用于他们进入青少年阶段的饮食习惯。

内在模型也是如此。你可能会看到这样的现象,祖父母隔了较长的一段时间再去探望孙子或孙女时往往就会出问题。上一趟来时,他们收集了孩子们知道什么、什么会让他们笑、他们喜欢什么电视节目之类的数据,然后在无意识中建立了和五岁的孩子们有关的模型。而一年后再见到孩子们,会面的最初几小时会让他们感到困惑,因为他们的模型失效了。孩子们不再觉得汤姆斯小火车头有意思了。他们需要花些时间重新收集有关孩子们的数据来调整自己的内在模型。

这并不是说,好的模型不可能简单。一些非常有效的模型可能只有一个变量。最常见的家用或办公室火灾探测模型就只测量一个与火灾密切相关的变量:烟的出现。通常来说,这就足够了。但是当建模对象是我们的人类同胞时,只考虑简单的变量就会出问题,或者说会使我们遭遇麻烦。

种族主义在个人层面上可以被视为在全世界数十亿人的大脑中快速运转的预言模型。这种模型是基于有缺陷的、不完整的或是笼统的数据建立的。无论是来自经验还是来自传闻,这些数据都是用来表明某一类人行为恶劣的。这种模型产生了一种二元论的预测,即某一种族的所有人都行为恶劣,非该种族的人则没有这一特点。

不用说,种族主义者不会花大量时间搜集可靠数据修改他们扭曲的模型。他们的模型一旦变成一种信仰,就从此固定不变了。这种模型会生成有害假设,而且很少检测这些假设的有效性,反而满足于那些确认并巩固这些假设的数据,同时忽视反面例证。因此,种族主义是最欠考虑的预测模型,它由随机的数据采集和假性相关所驱动,被制度不公平加以强化,又被证实性偏见加以进一步劣化。这么说来,种族主义和我要在本书里探讨的所有数学杀伤性武器十分相似。

1997年,非裔美国人杜安·巴克,一个已被定罪的杀人犯,在得克萨斯州哈里斯县法庭接受审判。巴克已被证实杀了两个人,陪审团必须要决定最后的裁决是死刑还是终身监禁、保留假释机会。检察官一方奋力争取死刑判决,理由是巴克如果被释放还会再杀人。

巴克的辩护律师带来了一个专家证人,心理学家瓦特·基哈诺,不过对于巴克,他一点儿忙也没帮上。基哈诺曾经研究过得克萨斯州监狱系统的累犯率,在法庭上,他提及巴克的种族与累犯率的相关性。在盘问证人时,检察官抓住了这一点。

“你断定,种族因素,黑色人种,会因为各种各样的原因带来社会上危险行为的增多。对吗?”检察官问道。

“是的,”基哈诺回答说。于是,检察官在做案件总结陈述时强调了这一证词。最终陪审团判定巴克死刑。

三年后,得克萨斯州检察长约翰·康奈发现,上面那位心理学家在另外6个死刑案件中给出了同样的种族论证词,大多数案件发生于他在检察机关工作期间。康奈——其后来于2002年当选美国参议院议员——下令为涉案的7名犯人重新召开不带有种族偏见的听证会。在媒体发布会上他声明:“刑事司法体系中,将种族因素纳入考虑范畴是不合理的……得克萨斯州人希望,也值得拥有人人平等的司法体系。”

这7名犯人中的6名重新接受了审判,但他们再次被判处死刑。法庭裁决,基哈诺的带有偏见的证词不是决定性因素。巴克没有得到重新审判的机会,也许是因为提出种族论证词的己方证人。他仍是死刑犯。

不管在审判时包含种族因素的证词是否被明确提出,很长一段时间里,种族都是影响审判结果的一个主要因素。马里兰大学的一项研究表明,在哈里斯县,包括休斯敦市,对于犯下同等罪行的犯人,检察官判非裔美国人死刑的概率比白人高3倍,判拉美裔美国人死刑的概率比白人高4倍。这种情况并不是得州独有的。美国公民权利联盟的调查显示,犯同样的罪,黑人罪犯的刑期比白人罪犯的长20%。黑人只占据美国总人口的13%,但黑人罪犯占据了美国40%的牢房。

你可能会认为,利用电子化、数据化的再犯风险模型辅助判决能减少偏见对判刑的影响,更有利于实现公正判决。美国24个州的法院正寄希望于此,于是其采用了所谓的再犯模型作为辅助工具。再犯模型被用于帮助法官评估每一个罪犯的危险性。从很多方面来说,再犯模型的开发是一种进步,它使得审判更具一致性,更少被法官的情绪和偏见所影响。另外,再犯模型减少了罪犯的平均刑期,节省了政府开支。(关押一个犯人一年平均需花费31000美元,在康涅狄格和纽约州,该项成本还要翻一倍。)

但问题是,我们是彻底根除了人类偏见,还是只不过用技术包装了人类偏见?再犯模型的开发是一个非常复杂的数学问题,而再犯模型的框架是由大量的假设构成的,其中一些假设本身就带有偏见。而且,瓦特·基哈诺的公开证词在被转录成文字之后,还可以供他人在法庭上阅读和质疑,但一个再犯模型的运作完全是由算法独立完成的,只有极少数专业人士能理解。

一个更普及的用于评估罪犯危险性的模型,叫作LSI–R(水平评估量表),其中包含一个需要罪犯填写的冗长的问卷。其中一个问题,“你之前被定罪过几次”与再犯风险高度相关。其他问题也非常相关,比如“其他人对你这次犯罪起了多大的作用?”“毒品和酒精对你这次犯罪起了多大作用?”

但是,当问题延伸到深挖罪犯的个人生活时,我们很容易想到,有特权背景的罪犯和来自治安差的城市贫民区的罪犯,他们的答案肯定不一样。问一个在舒适郊区长大的罪犯“你第一次遭遇警察”的原因,他也许会告诉你这次入狱就是第一次。相反,生活在贫民区的年轻黑人男性很可能已经被警察拦截过许多次了,即使他们什么错事也没做。纽约公民权利联盟2013年发表的一份研究报告显示,14~24岁的黑人男性和拉丁美洲男性仅占该市总人口的4.7%,但其占被警察“拦截—盘查”总人数的40.6%。在这些被盘查的少数族裔中,超过90%的人都是无辜的,还有一些也许只是犯了未成年酗酒或者携带大麻的轻罪。不像大多数富人孩子,他们总会因为这些小事遭遇麻烦。所以,如果曾在早期“遭遇”过几次警察就表示一个犯人是惯犯,这对穷人和少数族裔是很不公平的。

该问卷还没有结束。罪犯还会被问及他们的朋友和亲戚是否有过犯罪记录。同样,问在中产阶级社区长大的罪犯这个问题,得到否定回答的可能性很高。调查问卷确实回避了种族问题,因为问种族问题是非法的,但是有了每个罪犯提供的大量生活背景细节,这个非法的问题也没必要再问了。

自1995年LSI–R调查问卷投入使用以来,已经有成千上万个罪犯做过这张问卷了。统计师利用所收集的答案设计出了一个模型,其中与再犯率高度相关的问题答案权重更高。罪犯在答完调查问卷之后,模型会基于他们的分数将其划分为高、中、低三种风险等级。在美国的有些州,比如说罗得岛州,这一测试仅用于找出那些正被监禁的罪犯中风险等级高的人,将其送入强化的劳改项目。但是在其他州,包括爱达荷州和科罗拉多州,法官会用模型给出的评分指导量刑。

这是不公平的。这份调查问卷涉及罪犯的出生地和成长环境,还包括他的家庭、所在街区和朋友,而这些细节不应该被视为和刑事案件或者量刑存在相关性。如果检察官企图通过提及被告兄弟的犯罪记录或者其所在街区的高犯罪率去判定被告的话,正义的辩护律师就会大喊:“法官大人,我反对!”而严肃的法官会判定反对有效。这是我们法律系统建立的基础。我们应该因为我们所做的事情而接受相应的审判,而不应该因为我们的身份而被审判。虽然我们不知道这些问题在问卷中所占的确切比重,但可以肯定地说,任何大于零的比重都是不合理的。

很多人会说,像LSI–R这样的数据模型有助于评估罪犯的再犯风险,或者说至少比法官的随意猜测要更精确一些。但是,即使我们暂且不谈重要的公平问题,我们也已经陷入数学杀伤性武器创造的恶性循环之中了。得到“高风险”评分等级的人很可能本来就是失业人员,在其所生活的社区里,他的许多朋友和家人都触犯过法律。得到这一评级是导致其刑期变长的一个原因,而多年和一群罪犯关在一起又增加了他再次犯罪的可能性。等他出狱之后,他又会回到同样的贫穷社区,而这一次还有了犯罪记录,对他而言,找工作变得更难了。如果他因生活所迫不得不再次犯罪,再犯模型就又一次得到了成功验证。但事实上,正是这一模型本身导致了犯人陷入恶性循环,并且进一步巩固了犯人的恶劣处境。这是数学杀伤性武器的典型特点。

这一章,我们已经研究了三种模型。棒球模型基本上是一种健康模型。这种模型信息透明,不断更新,假设和结论大家都可以看到。棒球模型仰赖比赛进行过程中积累的真实数据,而不是替代性的间接变量。而且模型涉及的球员都明白比赛过程,且和模型的目标一致:赢得世界职业棒球大赛。(当然,这并不是说合同期内的球员不会对模型的评估结果发牢骚:“没错,我确实出局200次,但是请看看我的全垒打……”)

就我个人而言,我们讨论的第二种模型,家庭饮食模型,绝对是一种良性模型。如果我的孩子们要质疑模型涉及的某个假设,不管是经济上的还是饮食上的,我都会很乐意回答他们。即使有时候他们看到盘子里的绿色蔬菜会摆臭脸,但他们仍然会承认,大家在家庭饮食上的共同目标是方便、省钱、健康、美味,只不过在每个人自己的模型里,各要素的分量有所不同。(当他们开始自己做饭之后,他们就可以建立自己的模型了。)

我要补充说明的是,我的饮食模型绝对不可能规模化。我并不乐于看到沃尔玛、美国农业部或其他任何大型机构拥护我的模型,并强行将其施加到亿万人的生活中,就像应用那些我们在本书中要讨论的数学杀伤性武器一样。不,之所以说我的饮食模型是良性的,极其重要的一点是因为我的饮食模型永远不会离开我的大脑,不会变成一串固定的代码。

但是,本章最后的再犯模型则与前两者完全不同。让我们迅速做一个简单的数学杀伤性武器判定练习,看看它是否属于此类模型。

第一个问题:如果参与者知道自己是被模型评估的一个对象,或者知道模型的目的是什么,那么该模型还是不透明,甚至是隐形的吗?绝大多数填写强制调查问卷的罪犯都不是蠢蛋。他们多少都会怀疑自己提供的信息将被用来安排自己的监狱生活,比如会被关押更长的时间或更短的时间。他们知道游戏规则。但是监狱官也知道。因此,他们对LSI–R调查问卷的目的只字不提。否则的话,他们知道很多罪犯会弄虚作假,在离开监狱的那天做再犯风险调查问卷时回答得像个模范市民。所以,罪犯需要被尽可能地蒙在鼓里,不被告知自己的风险等级评分。

再犯模型远非个例。不透明、隐形成了这类模型的规则,清晰、透明的模型倒成了例外。我们被模型分类为购物者、沙发懒虫、病人和贷款申请者,而我们自己对此知之甚少,甚至仍在愉快地注册各种把我们当成评估对象的应用程序。即使这些模型是良性模型,不透明还是给人一种不公平的感觉。如果你在进入一个露天音乐会现场之后,导引员跟你说你不能坐在前十排,你会觉得这很不合理。但是如果导引员跟你解释前十排是为行动不便的人保留的,那你的感觉就大不一样了。所以,透明很重要。

然而现实是,许多公司竭尽所能地隐藏它们的模型运算结果,甚至隐藏模型的存在。常见的一个辩护理由就是模型算法包含对它们的业务至关重要的“商业机密”。这是知识产权,如果有必要,公司必须在大批律师和说客的协助下为其维护算法机密性的行为进行辩护。比如谷歌、亚马逊和脸书这样的互联网巨头,它们为自己的业务量身定做的算法价值高达数十亿美元。数学杀伤性武器是个深不可测的黑盒。因此,明确回答第二个问题特别困难:模型违反国民主体的利益吗?简单来说,模型是不是不公平的?它会破坏或毁灭一些人的生活吗?

根据对于这个问题的回答,LSI–R再一次成为数学杀伤性武器的典型。毫无疑问,20世纪90年代建立该模型的人认为,LSI–R是提高刑事司法系统的公平和效率的一个有效工具。它能帮助没有威胁性的罪犯缩短刑期,而这部分罪犯将因此获得更多年的自由时间,同时这也将大大节省美国纳税人的钱,毕竟每年用于监狱运营与管理的财政开支高达700亿美元。但是,再犯风险调查问卷是根据犯人的生活背景细节信息评判罪犯的危险等级的,而该细节信息在法庭上是不被允许作为证据出现的,因此这个模型是不公平的。虽然很多人可能会因此受益,但另一些人也因此受苦。

导致一部分人受苦的关键原因是模型造成的恶性循环。我们看到,再犯模型会根据一个人的成长环境来描述这个人的基本情况,它会自行创建一种使假设合理化的环境。而模型则在此恶性循环的过程中变得越来越不公平。

第三个问题:该模型是否有应用场景呈指数增长的潜力?用统计学家的话来说就是,该模型能否规模化?这听起来可能像是一个书呆子数学家的较真,但是规模化的确增强了数学杀伤性武器的破坏力,使其逐步转变为我们生活中的决定性因素。我们将会看到,不断发展的数学杀伤性武器在人力资源、健康、银行等数不尽的行业快速确立普适准则,继而对我们产生一种非常类似于法律的权威性影响。比如,如果你被银行的模型认定为高风险贷款者,那么所有人都会把你当成赖账不还的人,即使你完全不是这样的人。当这个银行的模型规模化后,就像现在的信贷模型那样,你的一生都将生活在其阴影下,你能否买到公寓、找到工作或者买到车等,都将由这一模型来决定。

就规模化而言,再犯模型再次成为一个典型。大多数州已经投入使用这一评估模型,而LSI–R是其中最常见的一个,至少已在24个州中投入使用了。罪犯为数据科学家提供了一整个活跃的市场。刑罚体系积累了大量数据,因为罪犯比平常人享有更少的隐私权。而且,刑罚体系因为太过于臃肿、低效、高成本、缺乏人性而亟待改进。谁不想要这样一个低成本的模型应用场景呢?

刑罚改革在今天这样一个极化政治世界是一个极为罕见的议题,自由党和保守党在这一议题上有着共同的利益。2015年年初,保守党的科氏兄弟,查尔斯和大卫,与自由党的智库“美国进步中心”合作推进监狱改革,致力于减少监狱人数。但是,我对两党合作加上其他一些团队的共同努力,是否一定能够提高用于监狱的评估模型的效率和公平依然持怀疑态度。即使其他的工具取代LSI–R成为监狱中的主要评估模型,监狱系统仍然是大规模数学杀伤性武器的强大孵化器。

综上所述,数学杀伤性武器共有三个特征:不透明、规模化、毁灭性。这三个特征将在我们之后讨论的案例中有不同程度的呈现。是的,确实存在有争议的地方。比如,你可能会争辩说再犯模型的评级分数不是完全不透明的,罪犯在一些情况下是可以看到自己的评级的。但是这个模型还是太神秘了,罪犯不知道根据他们给出的问卷答案,模型是如何推导出他们的分数的。评分算法是隐藏的。另外,少数数学杀伤性武器似乎不满足规模化的特征,因为它们的规模还不够大,或者至少现在还不会规模化。但它们是蓄势待发的危险物种,可能会在将来的某一天突然开始以指数级的增长速度繁殖。所以我也把它们算在内了。最后,你可能还会指出,并不是所有的数学杀伤性武器都是有害的。毕竟,有些模型把一部分人送进了哈佛,让一些人得到了低息贷款或者找到了工作,缩短了某些幸运重刑犯的刑期。但重点不是有没有人受益,而是有很多人受害。这些数学杀伤性武器关闭了亿万人的机会之门,通常只是因为一些微不足道的理由,而且不予他们上诉的机会。因此,它们仍然是不公平的模型。

还有一个关于算法的事实是:算法能从一个领域跳跃性地应用于另一个领域,而且经常如此。传染病学研究中的模型被用于预测票房,垃圾邮件过滤器的模型被用于发现艾滋病病毒。数学杀伤性武器也是如此。所以,如果监狱中的评估模型得到了成功应用(其实际功劳完全可以归结为人类的有效管理),则它也将像其他的数学杀伤性武器一样延伸到其他领域,给我们带来附带伤害。

以上就是我的观点。威胁还在扩大。对此,金融领域已经为我们提供了一个警世寓言。