上QQ阅读APP看书,第一时间看更新
第二节 基本统计量
一、算术平均数
平均数(average)是统计中应用最广泛、最重要的一个指标,用来说明一组变量值的集中趋势、中心位置或平均水平。它常作为一组资料的代表值,使资料简明概括,便于进行组间的比较。
平均数的应用是以同质为基础,但同质的概念是相对的,需根据研究目的来决定。不同质的事物,需在合理分组的基础上,分别求平均数,才可分析比较,否则是毫无意义的。
常用的平均数有算术平均数、几何平均数、中位数和百分位数及众数等,前三种较为常见。
均数是算术平均数(arithmetic mean)的简称,总体均数用希腊字母μ表示,样本均数用拉丁字母 表示,是一组变量值的数值上的平均,即算术平均数是获得结果之和除以结果个数。
式中 ∑是希腊字母,为求和符号;x为变量值;n为变量值个数(样本含量)。
均数的应用:①均数可用来描述一组变量值的平均水平,具有代表性,因此变量值必须是同质的。②均数适用于呈正态分布的资料,因为它位于分布的中心,最能反映分布的集中趋势。而对于偏态分布资料,均数则不能很好地反映分布的集中趋势,可用几何均数、中位数等描述。③均数只能反映数据集中趋势,对服从正态分布的资料,应把均数与离散趋势指标标准差结合起来,可全面地反映其分布的特征。
根据长期的控制样本结果计算出来的平均值可给出统计上可靠的结果,通常作为控制样本的靶值。
二、几何均数
如果资料呈偏态分布,资料中的少数数据过分偏离中心线,算术均数对这批资料的集中趋势或平均水平的代表性则较差,因为个别过分偏离中心线的数据使算术均数偏向一边。例如有数据3、4、5、6、17,数据大部分在3~6,但算术均数却是:
这显然不能很好地代表这批数据的中心位置。有些偏态资料,若将数据转换成对数就能使资料分布对称,计算时可先将数据转换成对数,计算其对数值的算术均数,然后再取反对数,就能较好地代表这批资料的平均水平,这样算得的平均数称为几何均数。在医学上,如某种传染病的潜伏期及血中某种抗体的滴度等资料常用几何均数来表示它们的平均水平。
不分组资料计算几何均数的公式如下:
实际工作中,当n>3时,用公式(2-2)计算就感不便,可以用对数形式进行计算:
若为分组资料,则计算公式为:
上述公式中:
G——几何均数;
x 1,x 2,…,x n——所有变量值相乘;
n——变量值个数(即∑f);
∑lg x——各变量值对数之和;
∑f lg x——各组组中值的对数与频数乘积之和;
lg -1——求反对数。
对于按倍数变化的数据,几何均数具有计算平均倍数的意义。如血清按比例稀释时,计算结果为平均稀释倍数。
三、中位数
除了算术均数、几何均数以外,中位数(median)也是一种表示集中趋势或平均水平的指标。
把变量值按大小次序排列,居于中间位置的那个数值就是中位数。对于分布大致对称的资料,中位数十分接近于算术均数。而当变量值的分布很偏,与正态分布相差较大时,用中位数表示它们的集中趋势比用算术均数更合理。计算方法如下:
(一)未分组资料
当n为奇数时,变量值按大小次序排列后,第 位数,即 ,就是中位数M d。
当n为偶数时,中位数计算公式为:
(二)分组资料
按频数分布表计算的中位数公式为:
式中:M d——中位数;
L——中位数所在组的下限;
W——中位数所在组的宽度;
f——中位数所在组的频数(例数);
n——总频数;
C——中位数所在组的前一组的累计频数(cumulative frequency)。
四、百分位数
百分位数(percentile)也是一种常用来描述计量资料特征的统计指标。它是指将n个观察值从小到大依次排列,再把它分成100等份,对应于r%位的数值即为第r百分位数,常用P r来表示。中位数实际上是第50百分位数。过小样本,计算百分位数所得结果误差较大、不稳定,应慎用。
(一)不分组资料的计算方法
把变量值按大小次序排列好,按所要求百分位数之百分数乘以n+ 1,即为所求百分位数所在之位置,即第r百分位数。
如需计算第5百分位数(P 5),即为第 (n+ 1)个变量值。当n= 150时,则第5百分位数为第 个变量值(即为x 7.55),这时,如第7个变量值x 7= 15,第8个变量值x 8= 17,则可由补插法求得x 7.55= 15+(17-15)×0.55= 16.1。
(二)分组资料的计算方法
式中:P r——第r百分位数;
L——第r百分位数所在组的下限;
W——第r百分位数所在组的宽度;
f——第r百分位数所在组的频数;
n——总频数;
C——第r百分位数所在组前一组的累计频数。
五、四分位数
如果P为0.25或0.75,相当于把整个范围按概率分为相等的四部分,这样的数被称为四分位数(quantile),其中有两个数很重要:x 0.25被称为下四分位数(lower quantile,LQ)或第一四分位数(first quantile,Q 1);x 0.75被称为上四分位数(upper quantile,UQ)或第三四分位数(third quantile,Q 3)。这两个四分位数连同中位数,都可用来度量随机变量的位置状况。其中LQ与UQ所界定的范围包含约一半的数据,常用来表示数据的主体部分。
(一)第一四分位数
第一四分位数(sample 1 st quantile,Q 1或LQ)可将数据集划分为两个部分,其中小于等于此数的数据约占整个数据集的25%,大于等于此数的数据约占整个数据集的75%。它的准确计算方法是:首先将样本按从小到大的顺序排好,记其中第i名者为X (i)。对于给定的n,先求出 ,其整数部分记为k,其小数部分记为f(当然0≤f<1)。
例如,n= 40, = 10.25,k= 10,f= 0.25,所以Q 1一定介于X (10)与X (11)之间,而且有Q 1= X (10)+ 0.25(X (11)-X (10))。样本量较大时,邻近次序统计量间的差距很小,可以取f= 0.5,因而可以近似有
Q1=(X(k)+ X(k+1))/2
式中,k是 的整数部分。
(二)第三四分位数
第三四分位数(sample 3 rd quarti1e,Q 3或UQ)可将数据集划分为两个部分,其中小于等于此数的数据约占整个数据集的75%,大于等于此数的数据约占整个数据集的25%。它的准确计算方法是:对于给定的n,先求出 ,其整数部分记为k,其小数部分记f(当然0≤f<1)。
例如,n= 40 ,所以Q 3一定介于X (30)与X (31)之间,而且有Q 3= X (30)+ 0.75(X (31)-X (30))。样本量较大时,邻近次序统计量间差距很小,可以取f= 0.5,因而可以近似有
式中,k是 的整数部分。
六、方 差
计算公式如下:
总体方差
样本方差
由上式可知:方差考虑了总体中每个变量值x与总体均数μ之差(x-μ),称为离均差。由于x-μ有正有负,而总和为0,即∑(x-μ)= 0,这样仍不能反映变异度的大小,故将离均差平方后再相加,即∑(x-μ) 2,称为离均差平方和。但∑(x-μ) 2的大小,除了与变异度有关外,还与变量值的个数N的多少有关,即使两总体的变异度相同,N大则∑(x-μ) 2亦大。为了消除这一影响,取其均值。
在实际工作中总体方差不易得到,常用样本方差s 2作为总体方差的估计值。由于各个离均差都经过平方,原来的度量单位等都变成了平方单位而使用不方便,所以表示数据离散程度时,常不用方差,而用标准差。
七、标准差
标准差(standard deviation,符号为σ,s):
计算公式如下:
总体标准差
由式(2-15)可见,标准差即方差的开平方,单位与变量值单位及均数单位相同。变异度越大,则离均差平方和越大,标准差越大,即σ越大。故标准差越大,说明个体差异越大,均数的代表性越差。
在实际工作中,总体均数不易得到,常用样本均数x作为总体均数μ的估计值;用样本标准差s作为总体标准差σ的估计值,则
由于用 代替μ,∑(x- ) 2比∑(x-μ) 2小,用n代替N, 计算标准差常比实际σ偏小,为了克服这一缺点,英国统计学家W.S.Gossett于1908年建议用n-1来代替分母中的n。当n很大时,n-1与n相差甚微、亦可用n作分母。式(2-16)中n-1称为自由度,其意义是随机变量值能“自由”取值的个数。
标准差表示结果分布的宽度。质量控制误差限(控制限)通常是建立在实验室自己结果的标准差基础上。
标准差的应用:①表示变量值的离散程度。标准差越大,变量值分布越散,均数的代表性越差,即s越大 代表性越小,反之亦然。但当资料的度量单位不同或均数相差较大时,两组资料的标准差不能直接相比。②结合均数描述正态分布特征。根据正态分布曲线下面积的规律,可以通过 ±s的倍数形式来概括描述变量值的分布,对这组资料的频数分布做出概括性的估计。③根据正态分布原理,可应用于求参考值范围,即 ±1.96s计算出总体观察值的95%的变量值所在范围的界限,确定医学参考范围;还可用制订的范围做质量控制标准。④标准差还可以用来计算变异系数及结合样本含量计算标准误。
八、极 差
极差(range,简记R):是一组数值中最大值与最小值的差值。单位与变量值相同。极差越大,变异度越大,各变量值离均值越远,数据越分散,均数的代表性越差,反之亦然。
极差是最简单的一种离散趋势指标,应用广泛。但以极差反映变异度,较为粗略。因为:①除了最大和最小值外,不能反映其他数据的变异度;②当样本含量不同时,样本含量越大,遇到较大或较小极端值的机会就加大,极差可能越大,故样本含量悬殊时不宜比较其极差;③即使样本含量不变,极差的抽样误差亦较大。
在正态分布资料中,极差与标准差之间有比例关系,其比值随样本含量n而改变,可用于估计标准差,并进行一些假设检验。
九、四分位间距
两个四分位数之间的距离是描述随机变量离散状况的非常重要的参数。
四分位间距(interquartile range,IQR)等于第三四分位数与第一四分位数的差值,即
它代表了居中的50%的数据的范围。同总体参数的含义相同,样本四分位间距越大,表明数据间的离散程度越大;四分位间距越小,表明数据间的离散程度越小。
以上四个描述离散状况的统计量各有优劣。总的来说,标准差最为常用,它对离散状况有较好的代表性;但它与样本量关系不密切,样本量大或小时都可以使用,n大于6时标准差要比极差好,但标准差的缺点是对异常值敏感。方差与标准差相似,因量纲为原量纲的平方而不太方便使用,但有时它的可加性又是一个很大的优势。极差与样本量关系密切,对异常值又敏感,但它的计算简单,当n较小时代表性已足够。四分位间距与样本量关系不密切,且对异常值不敏感,是所有离散状况度量的统计量中最稳健的。
十、变异系数
变异系数(coefficient of variation,简记为CV):是用百分数表示的标准差与平均值之比,计算公式为:
极差、标准差与变量值的单位相同,而变异系数是两个数值之比,没有单位,更便于资料间的分析比较。常用于:①比较均数相差悬殊的几组资料的变异度,如相同度量衡单位指标的不同时间的纵向比较。②比较度量衡单位不同的多组资料的变异度,即做相同时间不同指标的横向比较。③变异系数还常用于比较多个样品重复测定的误差。
十一、Z-分数
Z-分数(Z-score)或标准差指数(standard deviation index,SDI)指的是测定结果偏离均值多少倍的标准差。计算公式2-19所示。
Z-分数表示为结果在不依赖浓度分布中所处的位置。其可应用于室内质量控制和室间质量评价计划中。
十二、偏度与峰度
只用反映位置状况和离散程度的参数来描述随机变量的分布仍然不够完善,如果能增加反映随机变量分布形状的参数,就更能完整地呈现随机变量分布的特性。偏度和峰度是两个最常用的描述数据分布形状的参数。
(一)偏度
偏度(skewness)是对随机变量分布不对称性的度量,总体参数偏度用β s表示。其计算公式为:
式中,μ为分布的均值;σ为分布的标准差。
它的含义是:当分布完全对称时,β s= 0。正态分布对称,所以它的偏度就为0(图2-1B);反之,β s= 0时,分布并不一定对称,但一般说有某种对称性。当β s>0时,分布称为正偏,它的分布中高于均值的“尾”部向右侧延伸严重(图2-1C),当β s<0时,分布称为负偏,它的分布中低于均值的“尾”部向左侧延伸严重(图2-1A)。大多数偏态分布都是正偏,负偏分布在实际工作中很少出现。
样本统计量偏度用b s代表。计算公式为:
图2-1 偏度示意图
(二)峰度
峰度(kurtosis)用来度量随机变量分布中间部分的陡峭程度及两端尾部的厚重程度,也可以简单地当作分布平坦性的度量,总体参数峰度用β k表示,计算公式为:
式中,μ为分布的均值;σ为分布的标准差。
我们理解峰度含义的时候需要注意,比较两个分布的峰度时,二者必须有相同的均值和相同的方差,否则比较的不是峰度而是方差。可以参考图2-2,各分布都有相同的均值及方差。当数据为正态分布时,其峰度为0。正峰度表示数据分布比正态分布中间顶峰更峭、两尾更重;负峰度表示数据分布中间比正态分布顶峰更平、两尾更轻。负峰度常在均匀分布类型或多个不同均值的混合正态总体中出现。
样本统计量峰度用b k代表。计算公式为:
图2-2 峰度示意图