大话机器智能:一书看透AI的底层运行逻辑
上QQ阅读APP看书,第一时间看更新

1.1.3 统计思维的诞生

从前的科学家们认为,这个世界上是存在简单而通用的真理的。欧几里得仅仅通过5条简单公理,就推导和构建了基于公理化体系的几何学。牛顿提出3条简洁的运动定律,解释了宇宙中各种天体和物体的运动力学原理。麦克斯韦用4个微分方程解释了所有的电磁活动。爱因斯坦在此基础上提出了相对论,不仅使用了更加简洁的公式,还进一步论证了时间、空间、质量、能量和运动之间的关系。

1.决定论与确定性

长久以来,科学家们都在尝试用简洁的公式描述这个复杂世界的规律。18世纪,以拉普拉斯为首的科学家们认为,宇宙中任意时刻的状态都能被完全预测,自然界和人类社会存在客观规律和因果联系。只要深入研究,无论是事物的状态,还是人的行为,都可以根据先前的条件做出准确的预测。也就是说,世间一切万物都受到严格的因果律支配。这种观点也被称为决定论

当时,很多科学研究确实取得了显著成果。牛顿只用少数几个精确定义的运动定律就准确描述了行星、卫星、小行星和彗星等天体运动,焦耳只用一个简单的公式就描述了能量守恒原理。这些研究成果在揭示规律的同时,还能做出非常精准的预测。此外,人们开始利用定量的化学实验来发现物质基本规律。达尔文的自然选择学说为生物演化提供了理论指导。人们甚至试图将科学研究方法拓展到社会学、政治学、心理学等领域。

这些科学研究取得的显著成果给当时的人们带来了极大的信心。于是,很多人以为,这是发现了神的旨意,要进一步寻找和揭示这些规律,只需提高测量工具的精确程度。

2.现实世界与不确定性

可是,现实世界极为复杂。即便是今天,科学家们也无法只用几个简单的数学模型就能精确地描述现实世界的所有细节。首先,影响这个世界运行的变量不计其数,与其将所有影响世界运行的参数和公式全部考虑一遍,不如采用一些针对随机事件的处理方法来解决问题。其次,随着科学研究的深入,人们发现观察越是微观,越是无法得到确定的结果。比如科学研究发现,组成物质最基本单位的粒子会呈现波状运动,它们似乎没有固定的位置。如果一开始就不知道某个物体在哪里,那么又如何预测它将去向何处呢?

量子力学 量子力学是物理学的分支学科,由德国物理学家普朗克在1900年首先提出,它代表了能量的最小单位。量子力学认为能量在传播过程中不是连续的,而是“一份一份”的,具有一个最小单位。中有一个测不准原理,由德国物理学家海森堡提出,它描述的是:我们不可能同时知道一个粒子的位置和它的速度。假设知道了粒子的速度,就不可能知道它的位置。它在什么地方以什么面貌出现,完全是一种概率,因为测量动作会不可避免地搅扰被测粒子的运动状态,即测量本身会影响测量结果。这个现象至少说明,微观世界的粒子行为与宏观物质很不一样。

过去,科学家根据收集到的数据,提出一个特定模型的假设。这个模型看上去符合手里的各种数据,可以用于预测实验结果。但是现实世界存在大量不确定性因素,导致任何模型都无法做到完全正确。为了适应新的观测数据,人们只能不断地修正已有的模型,甚至增加对特殊情况的处理和仅适用于特定条件下的扩展。渐渐地,模型变得越来越复杂,直到不再适用。

3.统计革命拉开序幕

既然无法构建一个完全精确的模型来解释现象,那么该如何是好?为了探索和认知这个世界,一部分人开始转换思路,创造性地提出了一种新的数学研究方法,引发了一场科学革命,这就是统计学

统计学是在19世纪科学研究取得巨大进步的时期发展起来的。当时有数学家提出,天文测量值包含微小的误差,这种误差可能由大气条件或人为错误造成的,误差可能具有某种概率分布。这一观点拉开了统计革命的序幕。

拉普拉斯虽然坚持决定论,但他也积极投入到统计学研究。不过他在《概率的哲学探究》中曾表明自己的观点。在他看来,任何微小事件都应遵循大自然法则,即便是自由意志,也不会是没有动机的。只是由于我们的无知,因此暂时不得不把它归为偶然。拉普拉斯很多关于概率方面的研究,目的都是在为了揭示这一规律。

不过随着更多精确的测量,决定论模型的预测值与实际测量值之间的差距变得越来越大。当人们进行更精确的天体运动测量时,拉普拉斯所预想的观测误差不仅没有减少,反而呈现出更大的变化幅度。最终,决定论的观点并不能支撑科学研究。与此同时,卡尔·皮尔逊提出一系列现代统计学的概念和方法,进一步巩固了统计学的地位。

与决定论不同的是,统计学从一开始就承认了不确定性的存在。它接受误差对结果造成的影响,并把它们作为前提条件进行数学建模和分析。

统计学是一门很古老的学科,人们对它的研究可以追溯到古希腊的亚里士多德时代,迄今已有2300多年的历史。可在过去很长一段时间,并不存在专门的统计学学科,也没有什么数学工具来系统性地讨论和研究统计问题。甚至是400年前,大部分人仍以本能来应对日常生活中的不确定性。

后来,有人发明了赌博游戏。他们通过精心的设计来引导和欺骗大众做出糟糕的选择。赌徒从偶然性中寻求刺激和幸运,赌场却从概率优势中赚取金钱。在大数定律的操控下,赌徒的钱包毫无随机性可言。随着对这些赌博游戏背后数学原理的深入研究,数学家们建立了一门今天被称为概率论的数学科学分支。

不仅仅是赌博,当保险机构希望能够尽可能准确地估算人寿保险的保费时,人们开始关注死亡率的统计数据。保险的本质是把大众的钱聚集起来,共同对抗人生中遇到的各种不确定性。正是由于赌博、保险这些问题的出现,让帕斯卡、费马、惠更斯、哈雷、棣莫弗、伯努利、拉普拉斯、高斯等一大批数学家和科学家开始关注不确定性带来的问题,提出和完善了现代统计学的方法和理论。

《大英百科全书》给统计学的定义是:“一门收集数据、分析数据并根据数据进行推断的艺术和科学”。统计学是处理经验数据不可缺少的数学工具,它的应用范围十分广泛,涉及医学、自然科学、社会科学、心理学、经济学等。生活中的衣食住行、待人接物、经验教训、处事直觉,都蕴含了丰富的统计学原理。科学研究的背后更是离不开统计学的身影。

4.统计学应用:如何计算地球的年龄

曾经在很长一段时间里,科学家们都在努力回答一个世纪难题:地球的年龄到底有多大?显然,地球年龄一定超过了人类文明的时间。想要知道地球的年龄,要么靠猜,要么找到一种可行的测量方法。

根据宇宙大爆炸的理论,138亿年前宇宙起源于一个奇点,一切物质都是从这个奇点剧烈膨胀所产生的。早期的宇宙具有极大的密度和极高的温度。在大爆炸后的几秒,宇宙物质由电子、中子、质子以及它们的反粒子与辐射组成。随后,宇宙不断膨胀、逐渐冷却,其中也包括我们居住的地球。

几千年来,科学家一直希望推算出地球的年龄,但苦于找不到靠谱的测量方法。直到20世纪,英国物理学家、化学家卢瑟福在研究放射性元素时,发现任何一块放射性物质衰变掉一半的时间(称为半衰期)总是相同的。尽管物质中每个原子的生存时间具有随机性,可能只有几秒,也可能长达几个世纪,但如果把物质看成一个整体,那么它所包含的所有原子的衰变速率是固定不变的,这种固定的时间变化规律,完全可以当作一种时钟系统。也就是说,只要测量某种物质现在包含的放射量,再测出它的半衰期,就能够反推出该物质的年龄。科学家们正是借助半衰期的发现,才能准确推算出地球的年龄(约46亿年)。在此之前地球的年龄基本靠猜测。

半衰期具有典型的统计学意义,它体现出了个体随机性和总体确定性之间的联系。换句话说,即便我们无法准确掌握每个个体的随机情况,也可以利用统计规律来推算出总体状态

[1] 量子力学是物理学的分支学科,由德国物理学家普朗克在1900年首先提出,它代表了能量的最小单位。量子力学认为能量在传播过程中不是连续的,而是“一份一份”的,具有一个最小单位。