2.4 数据清洗中的统计学基础
6 数据清洗中的统计学基础
统计学主要包括描述性统计、推论统计和随机变量及其分布,本节主要讲述上述相关基础知识。
描述性统计,是指运用制表、分类、图形以及计算概括性数据来描述数据特征的各项活动。描述性统计是指对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。推论统计是指在抽样调查中,从样本的统计值来推论总体的参数值,以及根据抽样的结果对调查前所做的假设做出拒绝或接受的判断的方法。随机变量表示随机试验各种结果的实值单值函数,随机变量及其分布主要有二项分布、均匀分布和正态分布等。
1.集中趋势
集中趋势又称“数据的中心位置”,它是一组数据的代表值。集中趋势就是平均数(Average)的概念,它对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。
(1)均值
均值,也叫作平均数,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。值得注意的是,均值是统计学中的一个重要概念,它是反映数据集中趋势的一项指标,在日常生活中经常用到,如平均速度、平均身高、平均产量、平均成绩等。
(2)中位数
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。值得注意的是,中位数只能有一个。
(3)众数
众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平,一般用M表示。也是一组数据中出现次数最多的数值,有时众数在一组数中有多个。例如,1,2,3,3,4的众数是3,而1,2,2,3,3,4的众数是2和3。
2.离散趋势
离散趋势是在统计学上描述观测值偏离中心位置的趋势,它反映了所有观测值偏离中心的分布情况。
(1)极差
极差又称全距,是指一组数据的观察值中的最大值和最小值之差。用公式表示为:极差=最大观察值-最小观察值。极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。两组数据的最大值和最小值可能相同,于是它们的极差相等,但是离散的程度可能相当不一致。由此可见,极差往往不能反映一组数据的实际离散程度,它所反映的仅是一组数据的最大的离散值。
(2)方差
方差是各个数据与其算术平均数的离差平方和的平均数。在概率论中,方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。统计学常采用平均离均差平方和(总体方差)来描述变量的变异程度。总体方差计算公式:
式中,σ2为总体方差;X为变量;μ为总体均值;N为总体大小。
(3)标准差
标准差又称均方差,是离差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。简单来说,标准差是一组数据与其平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
(4)协方差
协方差用于衡量两个变量的总体误差。如果两个变量的变化趋势一致,也就是说,如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。值得注意的是,方差是协方差的一种特殊情况,即当两个变量是相同的情况。
(5)四分位数间距
四分位数是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三四分位数与第一四分位数的距离又称四分位数间距。四分位数间距与方差、标准差一样,通常用于表示统计资料中各变量的分散情形。四分位数间距常和中位数一起使用,并经常用于箱式图中。
(6)变异系数
变异系数(CV)又叫相对标准差(RSD),是原始数据标准差与原始数据平均数的比。标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如,一个总体的标准差是10,均值是100;另一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后者的标准差是前者标准差的2倍,似乎前者的分布集中,而后者的分布分散。但前者用标准差来衡量的各数据的差异量是其均值的1/10;后者用标准差来衡量的各数据差异是其均值的1/100。可见,用标准差与均值的比值大小来衡量不同总体数据的相对分散程度更合理。
3.参数估计
参数估计是统计推断的一种,它是根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,参数估计分为点估计与区间估计;从构造估计量的方法看,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。
(1)点估计
点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。点估计的目的是依据样本X=(X1,X2,…,Xi)估计总体分布所含的未知参数θ或θ的函数g(θ)。一般θ或g(θ)是总体的某个特征值,如数学期望、方差、相关系数等。因此点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。
(2)区间估计
区间估计是参数估计的一种形式。它是在点估计的基础上,通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。例如,估计一种药品所含杂质的比率在1%~3%之间;估计一种合金的断裂强度在1000~1400Mpa之间等。
置信区间是一种常用的区间估计方法。所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间。它是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。因此,置信区间展现的是这个参数的真实值有一定概率落在测量结果周围的程度,其给出的是被测量参数的测量值的可信程度。例如,对于一组给定的数据,定义Ω为观测对象,W为所有可能的观测结果,X为实际的观测值,那么X实际上是一个定义在Ω上,值域在W上的随机变量。这时,置信区间的定义是一对函数u(.)和v(.)。
4.假设检验
假设检验也称为“显著性检验”,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。它是统计推断中用于检验统计假设的一种常见方法。假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生。在这个方法下,首先对总体作一个假设,这个假设大概率会成立,如果在一次试验中,试验结果和原假设相背离,也就是小概率事件竟然发生了,那就有理由怀疑原假设的真实性,从而拒绝这一假设。
假设检验的基本步骤如下。
1)建立原假设H0和选择假设H1,预先选定检验水准(置信度),一般α=0.05。
2)选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z-检验、t-检验、卡方检验等。
3)根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。
5.随机变量分布
随机变量是指随机事件的数量表现,人们可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,电子元件的寿命,一台机器在一定时间内出现故障的次数,在实际工作中遇到的测量误差等,都是随机变量的实例。按照随机变量可能取得的值,可以把它们分为离散型分布与连续性分布两种基本类型。其中,离散型分布常见的有0-1分布、二项分布、泊松分布、几何分布等;连续性分布常见的有均匀分布、指数分布、正态分布等。下面介绍二项分布、均匀分布和正态分布。
(1)二项分布
二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。具体而言,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其他各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验。
(2)均匀分布
均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。值得注意的是,若a=0并且b=1,所得分布U(0,1)称为标准均匀分布。
(3)正态分布
正态分布也称“常态分布”或“高斯分布”,是连续随机变量概率分布的一种。它是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态分布曲线,两头低,中间高,左右对称,因其呈钟形,因此又称为钟形曲线。图2-10所示为正态分布曲线图。
图2-10 正态分布曲线图