统计学习理论与方法:R语言版
上QQ阅读APP看书,第一时间看更新

1.1 基本概念

由随机试验E的全部可能结果所组成的集合称为E的样本空间,记为S。例如,考虑将一枚质地均匀的硬币投掷三次,观察其正面(用H表示)、反面(用T表示)出现的情况。则上述掷硬币的试验之样本空间为

S={(TTT),(TTH),(THT),(HTT),(THH),(HTH),(HHT),(HHH)}

随机变量(Random variable)是定义在样本空间之上的试验结果的实值函数。如果令Y表示投掷硬币三次后正面朝上出现的次数,那么Y就是一个随机变量,它的取值为0,1,2,3之一。显然Y是一个定义在样本空间S上的函数,它的取值范围就是集合S中的任何一种情况,而它的值域就是0到3范围内的一个整数。例如,YTTT)=0。

因为随机变量的取值由试验结果决定,所以也将随机变量的可能取值赋予概率。例如针对随机变量Y的不同可能取值,其对应的概率分别为

对于随机变量X,如下定义的函数F

Fx)=PXx},-∞<x<∞

称为X的累积分布函数(Cumulative Distribution Function,CDF),简称分布函数。因此,对任一给定的实数x,分布函数等于该随机变量小于等于x的概率。

假设ab,由于事件{Xa}包含于事件{Xb},可知前者的概率Fa)要小于等于后者的概率Fb)。换句话说,Fx)是x的非降函数。

如果一个随机变量最多有多个可能取值,则称这个随机变量为离散的。对于一个离散型随机变量X,定义它在各特定取值上的概率为其概率质量函数(Probability Mass Function,PMF),即X的概率质量函数为

pa)=PX=a

概率质量函数pa)在最多可数个a上取非负值,也就是说如果X的可能取值为x1x2,…,那么pxi)≥0,i=1,2,…,对于所有其他x,则有px)=0。由于X必定取值于{x1x2,…},因此有

离散型随机变量的可能取值个数要么是有限的,要么是可数无限的。除此之外,还有一类随机变量,它们的可能取值是无限不可数的,这种随机变量就称为连续型随机变量。

对于连续型随机变量X的累积分布函数Fx),如果存在一个定义在实轴上的非负函数fx),使得对于任意实数x,有下式成立

则称fx)为X的概率密度函数(Probability Density Function,PDF)。显然,当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。

由定义知道,概率密度函数fx)具有如下性质

  • fx)≥0
  • 对于任意实数ab,且ab,则根据牛顿-莱布尼茨公式有

在上式中令a=b,可以得到

也就是说,对于一个连续型随机变量,它取任何固定值的概率都等于0。因此对于一个连续型随机变量,有

概率质量函数和概率密度函数的不同之处就在于:概率质量函数是对离散随机变量定义的,其本身就代表该值的概率;而概率密度函数是对连续随机变量定义的,且它本身并不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才能得到概率。

对于一个连续型随机变量而言,它取任何固定值的概率都等于0,也就是说考察随机变量在某一点上的概率取值是没有意义的。因此,在考察连续型随机变量的分布时,我们看的是它在某个区间上的概率取值。我们更需要的是其累积分布函数。

以正态分布为例,做其累积分布函数。对于连续型随机变量而言,累积分布函数是概率密度函数的积分。如图1-1(a)中横坐标等于1.0的点,它对应的函数值约为0.8413。如果在图1-1(b)中过横坐标等于1.0的点做一条垂直于横轴的直线,根据积分的几何意义,则该直线与其左侧的正态分布概率密度函数曲线所围成的面积就约等于0.8413。

图1-1 标准正态分布的PDF和CDF

用数学公式来表达,则标准正态分布的概率密度函数为

所以有

这也符合前面所给出的结论,即累积分布函数Fxi)是xi的非降函数。

继续前面的例子,易得

上面这个式可以解释为:在标准正态分布里,随机变量取值小于或等于1.0的概率是84.13%。这其实已经隐约看到分位数的影子了,而分位数的特性在累积分布函数里表现得更为突出。

图1-2 累积分布函数及其反函数

分位数是在连续随机变量场合中使用的另外一个常见概念。设连续随机变量X的累积分布函数为Fx),概率密度函数为px),对任意α,0<α<1,假如xα满足条件

则称xαX分布的α分位数,或称α下侧分位数。假如满足条件

则称X分布的α上侧分位数。易见,,即α下侧分位数可转化为1-α上侧分位数。中位数就是0.5分位数。

从分位数的定义中还可看出,分位数函数是相应累积分布函数的反函数,则有xα=F-1α)。图1-2所示为正态分布的累积分布函数及其反函数(将自变量与因变量的位置对调)。根据反函数的基本性质,它的函数图形与原函数图形关于x=y对称,关于这一点,图中所示的结果是显然的。

累积分布函数就是其值在分布中百分等级的映射。如果累积分布函数CDFx的函数,其中x是分布中的某个值,计算给定xCDFx),就是计算样本中小于等于x的值的比例。而分位数函数则是累积分布函数的反函数,它的自变量是一个百分等级,而它输出的值是该百分等级在分布中对应的值。这也就是分位数函数的意义。

累积分布函数通常是可逆的,这一点非常有用,后面我们在介绍蒙特卡洛采样法时还会再用到累积分布函数及其反函数。

当随机变量XY相互独立时,从它们的联合分布求出X+Y的分布常常是十分重要的。假如XY是相互独立的连续型随机变量,其概率密度函数分别为fXfY,那么X+Y的分布函数可以如下得到

可见分布函数FX+Y是分布函数FXFY(分别表示XY的分布函数)的卷积。通过对上式求导,我们还可以得到X+Y的概率密度函数fX+Y如下

设随机变量XY相互独立,,则由上述结论还可以推得Z=X+Y仍然服从正态分布,且有。这个结论还能推广到n个独立正态随机变量之和的情况。即如果,其中i=1,2,…,n,且它们相互独立,则它们的和Z=X1+X2+…+Xn仍然服从正态分布,且有。更一般地,可以证明有限个相互独立的正态随机变量的线性组合仍然服从正态分布。