上QQ阅读APP看书,第一时间看更新
第三节 分类变量的统计分析
先将研究对象按其性质或特征进行分类,再分别清点每一类的个数,这样所得到的资料称分类变量资料,也称计数资料。
一、分类变量的统计描述
(一)常用相对数
对分类变量资料,常运用相对数指标来进行统计描述。相对数(relative number):是两个有关联的数据之比,用以说明事物的相对关系,便于对比分析。常用的相对数指标很多,按联系的性质和说明的问题不同,可分为:率(rate)、构成比(constituent ratio)、相对比(relative ratio)。
1.率
率是某现象实际发生数与可能发生某现象的总数之比。用以说明某现象发生的频率或强度。常以%、‰、1/万、1/10万等比例基数表示。常用的率有发病率、患病率、死亡率、病死率、治愈率等。率的计算方法:
率=某现象实际发生例数/可能发生该现象的总数× K
(式3-17)
K为比例基数,取100%、1000‰、1万/万或10万/10万。
例3-14:计算试验前后某县较富裕乡镇(铅厂镇和扬眉镇)居民的高血压患病率,数据见表3-4。
表3-4 某县居民高血压患病情况 *
*根据标准,收缩压低于140的用0表示,即不患高血压;收缩压等于或高于140的用1表示,即患高血压。
根据公式(3-17),代入数据:
2.构成比
表示事物内部某一构成成分在全部构成中所占的比例或比重。用于反映客观事物内部的结构。计算公式:
(式3-18)
例3-15:分别计算某县上堡乡居民的男女性别构成比,数据见表3-4。
利用公式(3-18),代入数据:
3.相对比
表示两个有联系的指标之比。如A、B两个指标之比,说明A为B的若干倍或百分之几,通常用倍数或百分数表示。A、B两个指标性质可以相同,也可以不同,可以是绝对数,也可以是相对数或平均数。
计算公式:
相对比=A指标/B指标(或×100%)
(式3-19)
例3-16:比较某县较富裕乡镇居民试验前、后高血压患病率的相对比。
根据配对已知某县较富裕乡镇居民试验前、后高血压患病率分别为6.2%和3.8%。
根据公式(3-19),代入数据:
即某县较富裕乡镇居民试验前高血压患病率是试验后的1.63倍。
4.应用相对数应该注意的问题:
(1)防止概念混淆,分析时不要把构成比当作率;
(2)计算相对数时,应注意观察的单位数不能太小,必须要有足够的观察单位数作为分母,计算的率才是稳定的;
(3)对分组资料计算合计率时,不能简单地把各组率取平均数,而应分别将分子和分母合计,再求出合计率;
(4)率或构成比的比较应注意可比性。在比较相对数时,除了欲对比的因素之外,其余的影响因素应尽可能相同或相近;
(5)对样本相对数的比较应作假设检验。由于样本率或样本构成比存在抽样误差,如果通过样本推断总体率或总体构成比有无差异,必须进行差别的假设检验。
(二)率的标准化方法
例3-17:调查某地甲、乙两个社区某病的患者数,调查人数和患者数分别如下表所示,试比较两个社区的患病率。见表3-5。
表3-5 甲、乙两个社区某病的患病率比较
上表的资料表明,甲、乙两个社区某病的患病率都是男性高于女性,而且无论男性还是女性,都是乙社区的患病率高于甲社区。但是,从合计栏看来,甲社区的粗患病率为53.8%,乙社区的粗患病率为47.5%,似乎甲社区的患病率高于乙社区。怎么会出现这样的矛盾呢?因为两个社区的调查人数的性别构成比例不一样:甲社区的男性调查人数多于女性调查人数;而乙社区正好相反,女性调查人数多于男性调查人数。这种情况下,两个社区的粗患病率是没有可比性的,只有通过采用统一的标准消除其内部构成上的差别之后,才能进行比较,这种消除内部构成差别,使总体率能够直接进行比较的方法就叫作率的标准化法。采用统一标准调整后的率为标准化率,简称为标化率(standardized rate)。
二、标准化率的计算步骤
(1)直接法计算:
计算甲、乙两个社区的标准化患病率,结果见表3-6。其步骤如下:①选定“标准人口”:本例,将甲、乙两个社区人口数合并,作为“标准人口”,其中,男性调查人数 N 1=300+100=400例,女性调查人数 N 2=100+300=400, N= N 1+ N 2=400+400=800;②分别计算“标准人口”的预期患者数:对于甲社区,男性和女性的患病率分别为 P 1=60%和 P 2=35%。将甲社区用“标准人口”计算,预期患病率人数分别为 N 1 P 1=400×60%=240和 N 2 P 2=400×35%=140,预期患者数之和为380。类似地,乙社区的男性和女性的预期患者数为260和167,预期患者数之和为427;③分别计算甲、乙两个社区的标准化患病率:对于甲社区,标准化患病率 P′=预期患者数之和/标准人口数=380/800×100%=47.5%;对于乙社区,标准化患病率 P′=预期患者数之和/标准人口数=427/800×100%=53.4%。经标准化后,乙社区的患病率高于甲社区。
表3-6 直接法计算甲乙两个社区某病的标准化患者数(人)
(2)间接法计算:
如果在观察人群中,不知道各年龄组的发病(或死亡)率,而是利用标准人口的年龄别率与观察人群中相对年龄组人数相乘,求出年龄组预期发病(或死亡)人数的和,再与实际数相比,得出标化发病(或死亡)比[(standardized incidence ratio,SIR)或(standardized mortality ratio,SMR)];最后乘以标准人口总发病(或总死亡)率,得出该人群的标化发病(或死亡)率。该计算法就称为间接法。
至于选用哪种标化法较好,主要决定于手头掌握资料的情况而定。一般认为直接法是以标准人群年龄别人口数为基准,分母大,所以比较稳定;而间接法用的是标准人群年龄别的发病率,分母是各组的接触人数,数量相对少而不稳定。
三、分类变量的统计推断
(一)率的抽样误差和总体率的估计
1.率的抽样误差
由于抽样的原因所造成的样本率与总体率的不一致或者样本率之间的不一致,就是率的抽样误差。率的抽样误差可以用率的标准误来表示,计算公式如下:
(式3-20)
其中, σ p为率的标准误, π为总体率, n为样本含量。因为实际工作中很难知道总体率 π,故一般采用样本率 p来代替,而上式就变为
(式3-21)
2.总体率的可信区间
由于样本率与总体率之间存在着抽样误差,所以需要由样本率对总体率进行区间估计,当样本含量 n足够大,且样本率 p和(1- p)均不太小,如 np或 n(1- p)均≥5时,样本率的分布近似正态分布,则总体率的可信区间可由下列公式估计:
总体率( π)的95%可信区间:
p±1.96 S p
(式3-22)
总体率( π)的99%可信区间:
p±2.58 S p
(式3-23)
例3-18:试根据某县扬眉镇居民试验前高血压样本患病率估计扬眉镇居民试验前高血压总体患病率。
资料见表3-8中扬眉镇试验前高血压患病情况,可得试验前样本高血压患病率 P=3/40=0.075,代入公式3-21中计算得出:
因此,某县扬眉镇居民试验前高血压总体患病率的95%可信区间:
p±1.96 S p =7.5%±1.96×0.42% =(6.68%,8.32%)
当样本含量不大时,例如n≤50时,可直接查表得到总体率的可信区间。
(二) χ 2检验
1.定义
χ 2(卡方)检验(Chi-square test)是用途很广的一种假设检验方法,特别在分类资料统计推断中有很重要的应用,包括:两个率和两组构成比比较的卡方检验;多个率或多组构成比比较的卡方检验以及分类资料的关联性分析等。
2. χ 2检验的用途
(1)两个率或两组构成比的比较;
(2)多个率或多组构成比的比较;
(3)两个分类变量的关联性分析;
(4)频数分布的拟合优度检验;
3. χ 2检验的基本公式
式3-24中 χ 2检验的基本公式,可适用于各种情况。
(式3-24)
其中, A为实际频数(actual frequency),即某结果的实际发生频数。 T为理论频数(theoretical frequency), ν为自由度, R为行数, C为列数。
理论频数的计算公式:
(式3-25)
其中, n R表示相应行的合计, n C表示相应列的合计, N为总例数, T RC表示某个实际频数相对应的理论频数。
4.四格表的卡方检验(Pearson Chi-square test)
例3-19:比较某县较富裕乡镇(铅厂镇和扬眉镇)和较贫困乡镇(金坑乡和上堡乡)居民试验前高血压患病率是否有差异。
资料见表3-8。
(1)建立检验假设,确定检验水准
H 0: π 1= π 2,即较富裕乡镇和较贫困乡镇居民高血压患病率相同
H 1: π 1≠ π 2
α=0.05
(2)计算统计量:列出四格表(表3-7):
表3-7 某县较富裕乡镇和较贫困乡镇居民高血压患者数(人)
对于四格表,通常运用专用计算公式计算,公式为:
(式3-26)
其中, a、 b、 c、 d分别表示四格表的四个实际频数, n为总例数= a+ b+ c+ d。
根据公式(3-26),代入数据:
(3)确定 P值,做出推断:
首先计算其自由度 ν=( R-1)×( C-1)=(2-1)×(2-1)=1。再查 χ 2分布界值表(附表6),可知,
,故0.02< P<0.05。在 α=0.05的水平上拒绝 H 0,接受 H 1,可以认为两总体率不同。
四格表 χ 2检验的检验应用条件:任何一个格子的理论数大于或等于5,且样本例数大于或等于40,即 T≥5且 n≥40。
当任何一个格子的理论数1≤ T<5且 n≥40时,用校正四格表卡方检验计算公式:
(式3-27)
5.配对四格表的卡方检验(McNemar Chi-square)
例3-20:比较某县金坑乡居民试验前后高血压患病率是否有差异。资料见表3-8。
本例可以用配对资料的卡方检验来处理。
(1)建立检验假设,确定检验水准。
H 0: B= C,即试验前后高血压患病率相同
H 1: B≠ C,即试验前后高血压患病率不同
α=0.05
(2)计算统计量:
见表3-8。
表3-8 某县金坑乡居民试验前后高血压患者数(人)
当 b+ c≥40时,可用以下专用公式计算:
(式3-28)
当 b+ c<40时,可用下式进行连续性校正:
(式3-29)
对于本例,因为 b+ c=6+1=7<40,所以需要作连续性校正。
按公式(3-29):
(3)确定P值,做出推断:
自由度 ν=1,查 χ 2临界值表得 ,即0.1< P<0.2。故,在 α=0.05的水平下,不拒绝 H 0,尚不能认为某县居民试验前后高血压患病率不同。
6.独立样本的行×列表的卡方检验( R× C table Chi-square test)
例3-21:某县金坑乡、上堡乡、铅厂镇和扬眉镇四个乡镇居民的试验前高血压患病情况如表3-9结果,试比较其高血压患病率有无差异。
表3-9 四个乡镇居民试验前高血压患病患者数(人)
本例可以用行×列的卡方检验来处理:
(1)建立检验假设,确定检验水准
H 0: π 1= π 2= π 3= π 4,即四个乡镇居民的试验前高血压患病率相同
H 1:四个乡镇居民的试验前高血压患病率不等或不全相等
α=0.05
(2)计算统计量:
独立样本 R× C表的卡方检验用于 R个率或 R组构成比的比较,其卡方值的计算式可使用前述基本公式,但用通用公式计算更为方便,两个公式完全等价。
(式3-30)
按公式(3-30),代入数据计算得:
(3)确定 P值,做出推断:
查卡方界值表可知: 0.25< P<0.5,在 α=0.05的水平上不拒绝 H 0,尚不能认为四个乡镇居民的试验前高血压患病率不同。
例3-22:试比较某县金坑乡、上堡乡、铅厂镇和扬眉镇四个乡镇居民的性别、构成比是否有差异。资料见表3-8。
本例可以用行×列的卡方检验来处理:
(1)建立检验假设,确定检验水准
H 0: π 1= π 2= π 3= π 4,即四个乡镇居民的性别构成比相同
H 1:四个乡镇居民的性别构成比不等或不全相等
α=0.05
(2)计算统计量(表3-10)
表3-10 四个乡镇居民性别构成(人)
按公式(3-30),代入数据计算得
(3)确定 P值,做出推断
ν=(4-1)×(2-1)=3,
查卡方界值表得: ,故0.05< P<0.1,在 α=0.05的水平上不拒绝 H 0,尚不能认为四个乡镇居民的性别构成比不同。
应用行×列表 χ 2检验注意事项
(1) R× C表应用: χ 2检验时,各格子中的理论频数 T不应小于1,并且 T<5的格子数不应超过总数的20%。当出现以上情况,可采取如下方法处理:①增加样本量,使理论频数增加;②结合专业知识,增加或删去理论频数太小的行或列,或者将理论频数太小的行或列与性质类似的行或列合并。
(2)多个样本率比较,若统计推断为拒绝 H 0,接受 H 1,可认为总体率有差别,不能认为任意两个总体率之间均有差别,要进一步推断哪两两总体率之间有差异,需要进一步进行多个样本率的多重比较。
(袁兆康)