4.2 符号检验
有学者曾经利用统计学的方法对《红楼梦》一书的原作者和续者是否是同一人这个问题展开了研究。研究人员针对《红楼梦》中人物对四书的褒贬态度进行了比较,把褒、中性、贬三种态度分别用1、0、-1来表示,然后用符号检验法来进行判断。例如,在原书第三回中,贾宝玉曾说:“除四书外,杜撰的太多,偏只我是杜撰不成?”这里对四书是褒扬态度,因此用1表示。此外,研究人员还统计了47个虚词在各章中出现的频率和句子长度,用符号检验法做出了前八十回和后四十回不是一人所写的判断。
符号检验是一种使用正负号来检验不同假设的非参数检验方法,它可以检验的假设主要是涉及单一总体中位数的假设和配对样本数据的假设。当我们执行符号检验时,即认为样本已经被随机的选取了,而且我们并不要求样本数据来自一个具有特殊分布的总体。
符号检验最核心的思想就是分析数据中正负号出现的频率,并确定它们是否有显著的差异。例如在《红楼梦》的例子中,如果前八十回中,出现了100次对孔子及其著作或褒或贬的评价,其中有51次是褒扬,49次是贬损,从常识来看我们并没有十足的把握断言作者对孔子及其著作的态度是褒扬的,因为100次态度表现中,51次褒扬并不显著。但如果有99次态度表现都是褒扬的,这就显得很显著了。给定一组数据,如何从统计学角度给出评判,符号检验就是一个值得推荐的选择。
在后文的描述中,我们规定x表示频率较小的符号出现的次数;n表示正负号合在一起的总数。符号检验是以二项分布为基础的一种假设检验,尽管它并不依赖于样本数据的分布类型,但是我们会设法用一个正号或者负号来对每个样本观察值进行评判。如果差异不显著,那么正号与负号的个数应大致各占一半。这就符合一个成功概率等于0.5的二项分布。于是便可以用二项分布的公式来计算精确的统计量,并由此获得P值。但是当n较大时,就要用正态分布来近似。因为又是二项分布的随机变量,所以当n较大时,通常规定是当n>25时,可近似地认为在原假设前提下,正负号统计结果的分布服从正态N(0,1)分布。但是由于正态分布是连续分布,所以要连续修正,此时统计量为
再由此统计量来获得P值。
需要说明的是,当一个单尾检验中应用符号检验时,如果一个符号的出现频率显著地多于其他符号,但样本数据却和原假设一致,更加审慎的考量就不可或缺,以免得出错误的结论。如果数据从感觉上和原假设一致,那么就不能拒绝原假设,也不要继续进行符号检验了。任何时候都不应该盲目依赖于计算的结果,利用与统计无关的理性分析总是必不可少的。
下面首先通过一个例子来说明利用符号检验对单一总体中位数进行检验的基本步骤。联合国对世界上66个大城市的生活消费指数(以纽约市某年的消费指数作为基准100)按自小至大的次序排列如表4-13所示,其中北京的指数为99。
表4-13 世界主要城市消费指数
可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体。现在的问题是:这个总体的中位数是多少?北京是否在该水平之下?在本例中,总体分布是未知的,比较适合运用符号检验。
假定用M来表示总体中位数,这意味着样本点X1,X2,…,Xn,取大于M的概率应该与取小于M的概率相等。所研究的问题,可以看作是只有两种可能:大于中位数M,标记为“+”;小于中位数M,标记为“-”。令S+为得正符号的数目,以及S-为得负符号得数目。
易知S+或S-均服从二项分布Binomial(66,0.5)。则S+和S-可以用来作为检验的统计量。
对于左侧检验H0:M=M0;H1:M<M0,当零假设为真的下,S∗应该不大不小,S∗是S+和S-中较小的。当S∗过小,即只有少数的观测值大于M0,则M0可能太大,目前总体的中位数可能要小一些。如果p(S∗<x)<α,则拒绝原假设。其中的α是显著水平。
图4-1 拒绝域与非拒绝域
对于右侧检验H0:M=M0;H1:M>M0,当零假设为真的下,S∗应该不大不小。当S∗过大,即有多数的观测值大于M0,则M0可能太小,目前总体的中位数可能要大一些。如果p(S∗>x)<α,则拒绝原假设。
双侧检验对备择假设H1来说关心的是等于正的次数是否与等于负的次数有差异。所以当p(S∗<x)+p(S∗>x)小于显著性水平则拒绝原假设。
针对当前所讨论的例子,做单尾检验,则备择假设为M<99。通常,备择假设采用我们觉得有道理的方向。因为只有一点为99,舍去这一点,于是n从66减少到65。而x=23,在原假设下,二项分布的概率p(S+<23)。如果很小就可以拒绝零假设。上面这个概率就是该检验的P值。在这里的例子中,可以算得
在α=0.05的单尾检验中,临界值z=-1.645,检验统计量z=-2.232 625是落在了否定区间中,如图4-1所示。因此,拒绝原假设。也可以用下面的R代码来计算P值。
如果不采用近似计算的方法,则可以使用下面的R代码来计算P值。
在原假设前提下,目前由该样本所代表的事件的发生的概率仅为1.24%,所以不大可能。换言之,北京的生活指数不可能小于世界大城市的中间水准。
再来看一个双尾检验的例子。某企业生产一种钢管,规定长度的中位数是10m。现随机地从正在生产的生产线上选取10根进行测量,结果如下
9.8 10.1 9.7 9.9 9.8 10.0 9.7 10.0 9.9 9.8
中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10m,则生产过程需要调整。这是一个双侧检验,应建立假设
H0:M=10; H1:M≠10
为了对假设做出判定,先要得到检验统计量S+或S-。将调查得到的数据分别与10比较,算出各个符号的数目:S+=1,S-=7,n=8。在R中执行符号检验的代码如下。
即P值为0.070 312 5,大于显著性水平0.05。表明调查数据支持原假设。即生产过程不需要调整。
前面我们为单尾检验和双尾检验各给出了一个例子。但是在科学研究中一直有一种倾向于双尾检验的传统。这是因为你断言正确的单尾备择假设在相反的方向是不具备任何效力的。即使你认为或者希望这种效力可以在一个方向上有效,这种确认与你拒绝深入探究这种效力作用在相反方向上的可能性仍然是两回事。偏爱双尾检验的传统是一个良好的默认选项。单尾检验也有它的存在的意义,正如本节中所给出的例子那样,但是研究人员也有责任解释清楚为什么某个单尾的备择假设是合适的。仅仅让数据落在正确的一侧仍然是远远不够的。
如果使用之前介绍的参数检验方法来对世界主要城市消费水平的例子进行处理,将会得到下面这样的结果。从中可以看出,我们获得了一个更加极端的P值。相比而言,符号检验往往不像参数检验那么灵敏,尽管如此,两种检验都得出了拒绝零假设的结论。符号检验没有将样本数据看作是极端的,因为它只使用关于数据方向方面的信息,而忽略了数值的大小。之后将要介绍的威尔科克森符号秩检验在很大程度上弥补了这一不足。
根据统计资料的符号,还可以对配对样本数据进行假设检验。两个样本既可以是互相独立,也可以是相关的,也就是说,既可检验两总体是否存在显著差异,也可检验是否来自同一总体。符号检验通过两个相关样本的每对数据之差的符号来进行检验,从而比较两个样本的显著性。如果两个样本差异不显著,正差值与负差值的个数应大致各占一半。如果两者相差太远,就有理由拒绝原假设。下面通过一个例子来说明利用符号检验对配对样本数据进行检验的基本步骤。
细颗粒物,又称PM2.5,是指环境空气中当量直径小于等于2.5μm的颗粒物。它能较长时间悬浮于空气中,其在空气中含量浓度越高,就代表空气污染越严重。虽然细颗粒物只是地球大气成分中含量很少的组分,但它对空气质量和能见度等有重要的影响。与较粗的大气颗粒物相比,细颗粒物粒径小,面积大,活性强,易附带有毒、有害物质,且在大气中的停留时间长、输送距离远,因而对人体健康和大气环境质量的影响更大。通常认为城市中细颗粒物的浓度要较周边郊区更高,为了证实这一论断,科研人员开展了相关研究。研究人员每隔一定周期,分别测定某城市中心地带与其郊区的PM2.5浓度,结果如表4-14所示。
表4-14 细颗粒物测定结果
根据问题描述,提出原假设和备择假设如下:
H0:城市和郊区的细颗粒物浓度没有差别。
H1:原假设是错误的。
将表中的配对样本数据一对一比较,如果差值为正,则用符号“+”标记,否则记以“-”标记,如两者相等,就记为“0”。清点计数后可知S+=15,S-=4和n=19。然后在R中进行显著性检验,代码如下。
于是拒绝原假设,得出城市和郊区的细颗粒物浓度存在差别这个结论。正如前面曾经讨论过的,更多时候我们倾向于采用双尾检验。在此基础上分析二个指标谁高谁低,应当借助一些非统计上的理性分析来得出最终的结论。从本题所提供的数据来看,城市里细颗粒物浓度高于郊区的情况更加普遍,最终我们可以认为城市里的细颗粒物浓度更高。
现在来解答读者可能还存疑的一个问题,即当n>25时,所用的检验统计量的基本原理。前面我们讲过,当n>25时,检验统计量z是建立在对p=1/2的二项分布的正态近似基础上的。对于二项分布而言,当np≥5和n(1-p)≥5都成立时,二项分布的正态近似时可以接受的。而且对于二项分布而言,μ=np且。因为符号检验假设p=1/2,所以只要n≥10,便可以满足前提条件np≥5和n(1-p)≥5。另外,由于假设p=1/2,还可得到μ=np=n/2和。因此
就变成了
最后,为了实现连续性修正,我们用x+0.5来代替x。如此便得到了本节给出的检验统计量表达式。