第二节 统计学与数学的关系
统计学是关于研究对象的数据资料搜集、整理、分析和解释,以显示其总体特征和统计规律的学科。统计学的英语为statistics,一般认为其产生于西方国家。统计学起源于国情调查。若仅仅是与数据调查有关,统计学的开始可以追溯到古希腊的亚里士多德时代;若以数学方式记述统计数据的统计学,其开始可以追溯到17世纪;若以概率论为基础的统计学,则其开始可以追溯到19世纪晚期。
1900年以后,统计学突飞猛进的发展让世界发生了改变。虽然统计学理论和方法很多,但其指导思想和精髓是概率论与数理统计,它们在不同学科的具体应用就产生了工业统计学、农业统计学、生物统计学、医药统计学、卫生统计学等学科,见图1-1。
在近代,统计学的应用领域不断扩展,并出现了一些相应的边缘学科,图1-1仅列出了它们的主要应用,而其影响范围比这要广泛得多。哲学家耶安·哈金指出,统计学是人类的伟大发明。
在高中阶段,统计学通过“数学”教育着每一代人。由于统计学发展历史中充满了数学背景,因此基本定型的数理统计学教科书中充满了数学味极强的定义、引理、定理、推论,以及贯穿其中的纯粹数学推导和证明。很多人认为统计学是“数学的一个分支”。
图1-1 统计学核心内容和应用
数学和统计学都是我们用来模拟和理解世界的工具,但它们以非常不同的方式实现。事实上,统计学不是数学,但学习统计学需要较好的数学基础,统计学的思想与数学完全不同,甚至没有联系。主要的体现在以下几个方面:
1.数学和统计学是根本不同的思维方式 数学总是遵循固定的定义-定理-证明的结构。数学创造了理想化的现实模型,一切都是清晰的和确定的;统计学是对不确定性的研究,统计学认为所有的知识都是不确定的,但只要有足够多的数据,正确的模型就可以从噪声中分离出信号。统计学在处理有许多未知的混杂因素时成为一个强有力的工具。
数学是一个美丽的学科,它能从复杂的系统中提炼出本质,用简洁的公式和定理表达这种本质。一旦我们发现了系统遵循的数学规律,它们便是可以无限泛化的,牛顿定律和万有引力定律完美地预测了天体的运动规律。但是,数学在处理错误和不确定性方面就会显得笨拙。
当游戏规则不确定时,从数据中学习是一个很好的选择,统计学就会闪耀出它的光芒。但是,统计学只适用于现有数据的样本空间;当超出了过去训练数据的范围进行预测时,大多数模型都表现得不好。
2.统计学与数学的本质不同 统计中的数学本身不能形成一个完整的逻辑体系,其中有大量的人为因素或主观因素在起作用,这是不符合纯粹数学本质的。
数学是一个“是非明确”的理想世界,它自我形成严格的封闭逻辑体系;只要逻辑正确,数学研究最多得不出结果,但不会犯错误。这也是以演绎为主的数学魅力之所在。
统计模型的假定都是对现实世界不同程度的简化,统计的结论不可能是确定的,根据这些结论所做出决策是存在风险的,统计学家不能替代现实中各领域专家做出决策。
统计学是一门综合性很强的边缘学科,它不是数学,更不是经济学。教育部将统计学归为理学门类,是独立于数学的一级学科。