统计学习理论与方法:R语言版
上QQ阅读APP看书,第一时间看更新

1.5 经验分布函数

设(X1X2,…,Xn)是总体X的一个样本。如果是关于样本(X1X2,…,Xn)的函数并满足如下条件:它总是取样本观察值(x1x2,…,xn)按从小到大排序后第i个值为自己的观测值。那么就称,…为顺序统计量。顺序统计量可以简记为

特别地

分别为样本的最小值和最大值。并称为样本的极差。

此外,还可以定义

为样本的中位数。

基于顺序统计量,我们就可以来讨论经验分布函数(Empirical Distribution Functions,EDF)当概念了。设x1x2,…,xn是总体X的一组容量为n的样本观测值,将它们按从小到大的顺序重新排列为,…,对于任意实数x,定义函数

则称Fnx)为总体X的经验分布函数。它还可以简记为,其中x1x2,…,xn}表示x1x2,…,xn中不大于x的个数。

另外一种常见的表示形式为

其中,I是指示函数(indicator function),即

因此,求经验分布函数Fnx)在一点x处的值,只要求出随机变量Xn个观测值x1x2,…,xn中小于或等于x的个数,再除以观测次数n即可。由此可见,Fnx)就是在n次重复独立实验中事件{Xx}出现的频率。

图1-9 经验分布函数的图形

经验分布函数Fnx)的图形(如图1-9所示)是一条呈跳跃上升的阶梯形曲线。如果样本观测值x1x2,…,xn中没有重复的数值,则每一跳跃为1/n,若有重复l次的值,则按1/nl倍跳跃上升。图中圆滑曲线是总体X的理论分布函数Fx)的图形。若把经验分布函数的图形连成折线,那么它实际就是累积频率直方图的上边。这和概率分布函数的性质是一致的。

根据大数定理可知,当试验次数增大时,事件的频率稳定于概率。那么,当试验次数增大时,表示事件{Xx}出现频率的经验分布函数是否接近于事件{Xx}出现概率的总体分布函数呢?这个问题可由格利文科定理(Glivenko Theorem)来回答。

格利文科定理:设总体X的分布函数为Fx),经验分布函数为Fnx),则有

该定理揭示了总体X的理论分布函数与经验分布函数之间的内在联系。它指出当样本容量足够大时,从样本算得的经验分布函数Fnx)与总体分布函数Fx)相差的最大值也可以足够小,这就是用样本来推断总体的数学依据。