机器学习(第2版)
上QQ阅读APP看书,第一时间看更新

2.1.2 常见概率分布

常见的概率分布有连续分布和离散分布两类,其中连续分布包括均匀分布、正态分布、t分布、卡方分布和F分布等,离散分布包括二项分布、0-1分布、泊松分布等。

(1)均匀分布是指概率的分布是等距的,分为连续型和离散型两种,可以认为前者是一条等距点构成的曲线,后者是一个个独立的点。

(2)正态分布即高斯分布,是自然界最常见的一种概率分布,是具有两个参数μσ2的连续型随机变量的分布,参数μ是遵从正态分布的随机变量的均值,参数σ2是此随机变量的方差,因此正态分布记作N(μ,σ2)。它具有以下特征。

① 集中性:正态曲线的高峰位于正中央,即均值所在的位置。

② 对称性:正态曲线以均值为中心,左右对称,曲线两端不与横轴相交。

③ 变动性:正态曲线由均值所在处开始,分别向左右两侧逐渐下降。

④ 均值μ决定正态曲线的中心位置,标准差σ决定正态曲线的陡峭程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。

(3)t分布即学生t分布(Student's t-Distribution),用于根据小样本来估计呈正态分布且方差未知的总体的均值。它的分布曲线形态与自由度df大小有关,自由度df越小,t分布曲线越平坦,曲线中间越低,曲线双侧尾部翘得越高;而自由度 df 越大,t 分布曲线越接近正态分布曲线,当自由度df无穷大时,t分布曲线为标准正态分布曲线。

如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。总体均值是对两个样本均值差异进行显著性测试的t检验的基础。t检验改进了Z检验,不论样本数量大小都可应用。因为Z检验用在小的样本集上会产生很大的误差,所以样本集很小的情况下一般用t检验。

(4)卡方分布(Chi-Square Distribution,X2-Distribution)是指若有k个独立的标准正态分布变量,则称其平方和服从自由度为 k 的卡方分布。它是一种特殊的伽马分布,在假设检验和置信区间的计算中应用广泛。由卡方分布可延伸出皮尔逊卡方检验,常用于以下情况。

① 验证样本集的某一属性分布与整体分布之间的拟合程度,例如验证某校区中男女比例是否符合此学校整体学生的男女比例。

② 两个随机变量独立性验证,例如人的肥胖与心脏病的关联性。

(5)F分布(F-Distribution)是一种连续概率分布,但它是一种非对称分布,有两个自由度,且位置不可互换,被广泛应用于似然比率检验。

(6)二项分布(Binomial Distribution)是n个独立的伯努利(是或非)试验中成功的次数的离散概率分布。实际上,当n=1时,二项分布就是0-1分布,它是统计变量中只有性质不同的两项群体的概率分布。所谓两项群体是按两种不同性质(如硬币的正面和反面)划分的统计变量,是二项试验的结果,两项分布也是两个对立事件的概率分布。它的前提条件是事件独立,单次试验为相互对立的两个结果。

(7)0-1分布是n为1的二项分布,指取值是0或者1,只先进行一次事件试验,该事件发生的概率为p,不发生的概率为1-p

(8)泊松分布(Poisson Distribution)适合于描述单位时间内随机事件发生的次数的概率分布,例如服务器在一定时间内收到请求的次数、银行柜台接待的客户数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数等。