从掷骰子到阿尔法狗:趣谈概率
上QQ阅读APP看书,第一时间看更新

4.别相信直觉——概率论帮助侦破“财务造假”

· 本福特定律

法兰克·本福特(Frank Benford,1883—1948)本来是一个美国电气工程师,也是一名物理学家,在美国通用电气公司实验室里工作多年直到退休。这位工程师在50多岁的时候,迷上了一个与概率有关的课题。课题得到的结论便是现在我们所说的“本福特定律”。事实上,本福特定律的最早发现者并不是本福特,而是美国天文学家西蒙·纽康(Simon Newcomb,1835—1909)。纽康于1877年成为美国航海天文历编制局局长,并组织同行们重新计算主要的天文常数。繁杂的天文计算经常需要用到对数表,但那个时代没有互联网,没有阿里云,对数表只能被印成书本存于图书馆中。细心的纽康发现一个奇怪的现象:对数表中包含以1开头的数的那几页比其他页破烂得多,似乎表明计算所用的数值中,首位数是1的概率更高。因此他在1881年发表了一篇文章,提到并分析了这个现象【4】,但没有引起人们的注意。直到57年之后的1938年,本福特又重新发现这个现象。说来令人奇怪,科学定律的发现有时候来自于一些小得不能再小的现象,本福特的发现便是如此:以1开头的数字比较多,这也算是一个定律吗?本福特发现这种现象不仅仅存在于对数表中。也存在于其他多种数据中。于是,本福特检查了大量数据而证实了这点【5】

本福特定律是一个乍听起来有点奇怪并违反直觉的现象,我们举一个例子说明它。

设想某银行有1000多个存储账户,金额不等。比如说,小张有存款23587元、老李1345元、小何35670元、刘红9000元、王军450元……奇怪的本福特定律不感兴趣存款金额本身,而感兴趣这些数值的开头第一位有效数字是什么,有效数字指的是这个数的第一个非零数字。例如8.1、81、0.81的第一位有效数字都是8。比如说,刚才几个人存款数的第一位数字分别是2、1、3、9、4。所以,本福特定律也叫“首位数字定律”。

一个数的第一位(非零)数字可能是1到9之间的任何一个。现在,如果我问,在刚才那个银行的上千个存款数据中,第一位数字是1的概率是多大?

不需要经过很多思考,大部分人都会很快地回答:应该是1/9吧。因为从1到9,9个数字排在第一位的概率是相等的,每一个数字出现的概率都是1/9,在11%左右。

这个听起来十分正常的思维方法,却与许多自然得到的数据所遵循的规律不一样。人们发现,很多情况下,第一个数字是1的概率要比靠直觉预料的11%大得多。数字越大,出现在第一位的概率就越小,数字9出现于第一位的概率只有4.6%左右。各个数字出现在第一位的概率遵循如图1-4-1(a)所示的概率分布。

本福特和纽康都从数据中总结出首位数字为n的概率公式:Pn)=logd(1+1/n),其中d取决于数据使用的进位制,对十进制数据而言,d=10。因此,根据本福特定律,首位数是1的概率最大,log102=0.301,十成中占了三成;首位数是2的概率 log10(3/2)=0.1761;然后逐次减小,首位数是9的概率最小,只有4.6%。图1-4-1(b)所示的是符合本福特首位数法则的几个例子:人口统计、基本物理常数、斐波那契数、阶乘。

图1-4-1 本福特定律(首位数定律)及其应用实例(彩图附后)

本福特收集并研究了20229个统计数据,分成20组,包括如河流面积、人口统计、分子及原子质量、物理常数等多种来源的资料。数据来源虽然千差万别,却基本上符合本福特的对数法则,见表1-4-1所示的数据表。表中的最后一行数值,是根据本福特的对数规则计算得到的每个数字出现于首位的概率,读者可以将它与真实数据相比较。

表1-4-1 本福特从大量数据中得到的首位数字概率表 %

本福特定律适用范围异常广泛,自然界和日常生活中获得的大多数数据都符合这个定律。尽管如此,但毕竟还是有其应用范围,主要是受限于如下几个因素:①这些数据必须跨度足够大,样本数量足够多,数值大小相差几个数量级;②人为规则的数据不满足本福特定律,比如说按照某种人为规则设计选定的电话号码、身份证号码、发票编号,为造假而人工修改过的实验数据等,都不符合本福特定律。彩票上的随机数据也不符合本福特定律。

· 如何理解本福特定律

尽管本福特和纽康都总结出了首位数字的对数规律,但并未给出证明。直到1995年美国学者泰德·黑尔(Ted Hill)才从理论上对该定律做出解释,进行了严谨的数学证明【6】。虽然本福特定律在许多方面都得到了验证和应用,但对于这种数字奇异现象人们依旧是迷惑不解。到底应该如何直观理解本福特定律?为什么大多数数据的首位数字不是均匀分布,而是对数分布的?

有人探求数“数”的方法,来直观地理解本福特定律。他们的意思是说,当你计算数字时,顺序总是从1开始,1,2,3, …,9,如果到9就终结的话,所有数起首的机会都相同,但9之后的两位数10至19,以1起首的数则大大多于其他数字。之后,在9起首的数出现之前,必然会经过一堆以2,3,4, …,8起首的数。如果这样的数法有个终结点,然后又重新从1开始的话,以1起首的数的出现率一般都应该比较大。

可以用这种理解方法来解释街道号码(地址)一类的数据。一般来说,每条街道的号码都是从1算起,街道长度有限,号码排到某一个数就终止了。另一条街又有它自己的从1开始的号码排列,这样的话,看起来,1开头的号码是要多一些的。但这种解释也太不“数学”了!况且,这种理解无法说明另一类数据为什么也符合本福特定律。比如说,“物理常数”的集合、出生率、死亡率等,就不是从1开始计算到有限长度就截止的那种数据了。

另一种解释是认为本福特定律的根源是由于数据的指数增长。指数增长的序列,数值小的时候增长较慢,由最初的数字1增长到另一个数字2,需要更多时间,所以出现率就更高了。举个例子来深入说明这个道理,考虑你有100美元存到银行里,年利是10%。在25年中,你每年的存款金额将是(美元,只保留了整数部分):

100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985

这是一个指数增长的序列。在这组数据的25个数中,首位数字为1的有8个(32%);2的4个;3的3个;…9的只有1个(4%)。那是因为从首位为1增加到首位为2,经过了更长的时间(8年);从首位为2,只经过4年就变成了首位为3;而首位为9的话,下一年就不是9了。所以,指数增长规律的数列的确符合本福特定律。

读者也许会有疑问:你上面的数列选择从100开始,1打头的比较多,如果从别的数字开始,规律是否会改变呢?你可以试验一下,从别的数开始得到的数列,也一样符合本福特法则。比如说,将以上银行金额乘以2之后得到的序列:

200、220、242、266、292、322、354、390、428、472、518、570、628、690、760、836、918、1010、1112、1224、1346、1480、1628、1790、1970

以1开头的有8个,9开头的只有1个,仍然是1起头的数目最多。或者,你也可以将美元换算成人民币(比如说:乘以6.7),得到的数据仍然会遵循本福特定律,这些事实说明本福特定律具有“尺度不变性”。

· 帮助侦破“数据造假”

不管你如何诠释本福特定律,它是一个客观存在,并且十分有用!由于大多数财务方面的数据,都满足本福特定律,因此它可以用作检查财务数据是否造假。

美国华盛顿州曾侦破过一个当时最大的投资诈骗案,金额高达1亿美元。诈骗主谋凯文·劳伦斯及其同伙,以创办高技术含量的连锁健身俱乐部为名,从五千多个投资者手中筹集了大量资金。然后,他们挪用公款来满足自身享乐,为他们自己买豪宅、豪华汽车、珠宝等。为了掩饰他们的不法行为,他们将资金在海外公司和银行间进行频繁转账,并且人为做假账,给投资者造成生意兴隆的错觉。所幸当时有一位会计师感觉不对头,他将七万多个与支票和汇款有关的数据收集起来,将这些数据首位数字发生的概率与本福特定律相比较,发现这些数据通过不了本福特定律的检验。最后经过了3年的司法调查,终于拆穿了这个投资骗局。2002年,劳伦斯被判坐牢20年。

2001年,美国最大的能源交易商安然公司宣布破产,并传出公司高层管理人员涉嫌做假账的传闻。据说安然公司高层改动过财务数据,因而他们所公布的2001—2002年每股盈利数据不符合本福特定律(图1-4-2)【7】。此外,本福特定律也被用于股票市场分析、检验选举投票欺诈行为等。

图1-4-2 安然公司数据和本福特定律

(图片来源:华尔街日报【7】

美国税务局也利用本福特定律来检验报税表,揪出逃税、漏税行为。据说有人曾经用此定律来检验美国前总统克林顿在任10年内的报税数据,不过没有发现破绽。

概率论由研究赌博问题而诞生,又在不断地提出和解决各种有趣的赌博问题中发展起来。下一节中将介绍大数定律以及更多与赌博有关的概率问题。