第二节 统计描述方法
在医学科研中,统计分析方法分为统计描述和统计推断;其中,统计描述可以采用统计指标或统计图表。
一、统计指标
选用统计指标描述研究资料的方法需要根据资料类型来确定。定量资料的描述性指标的选择主要根据资料的分布类型来定。定量资料按其频数分布特征一般分对称分布和偏态分布资料,其中最常见的正态分布就是对称分布中的一种。偏态分布资料根据拖尾方向不同有正偏态分布和负偏态分布之分。正态分布定量资料的综合描述指标是均数±标准差,即x±s。偏态分布定量资料的综合描述指标是中位数和四分位数间距,即M和Q。正偏态分布和负偏态分布的定量资料的描述指标是相同的,所以在分析时没有必要去区分。
二分类资料的描述性指标一般是率、比(构成比、相对比),常用的率有阳性率、生存率、有效率和好转率等,常用的比则有研究对象的性别构成、出生性别比例、死亡构成比、相对危险度和优势比等。多分类资料的描述性指标一般是构成比。
线性相关分析的统计指标一般使用Pearson相关系数或Spearman相关系数,线性回归分析采用回归方程来描述。生存分析使用中位生存时间及四分位数间距来描述。
二、统计图表
统计表与统计图是描述研究对象一般特征的另一种常用表达方法,相对于描述性指标而言,统计表与统计图具有直观,更便于相互之间进行比较的特点。
(一)统计表
统计表(statistical table)是以表格的形式简明地表达事物间数量关系的一种形式。它不仅可以代替冗长的文字叙述,而且便于阅读和相互之间的比较。
统计表由标题、标目、线条和数字等组成,其基本的格式如表3-1所示。
表3-1 标题(何地、何时、何事)
1.统计表的基本要求 在编制统计表时,必须规范、简洁,设计合理、可读性强、便于比较,符合统计学要求。
(1)内容:要简单明了,在一张统计表中至多反映一个或两个主题,如有多个主题需要反映,应该制定多张统计表来表达。
(2)标题:要求简明扼要,主题思想和目的性明确。一般应包括时间、地点和内容。位置应该在表的正上方。在标题的前面,一般还有表序号。
(3)标目:分为横标目和纵标目。横标目位于表的左侧,一般说明每一行的对象;纵标目是统计指标,位于表的上部,说明每一列的内容。
统计表的主词和宾词要安排恰当,一般主词放置在横标目的位置,宾词放置在纵标目位置;判断统计表设计是否恰当,一般可以通过按以下顺序依次读其“主词-宾词-数字”,看能否构成一句完整通顺的句子。同类的或要比较的事项,尽可能列在一起,便于分析研究和对比。
(4)线条:统计表的线条一般是“三线式”:标题下的顶线,纵标目与数字之间的隔线和最底下的底线。有的采用“四线式”,即在三线式的基础上,加上合计栏上的一条横线。所有的斜线和竖线均不需要。
(5)数字:统计表中的数字一律用阿拉伯数字,小数的位数应该对齐。暂缺或未记录用“…”表示,没有数字的空格用“-”表示,数字为零者填“0”。
(6)备注:不是统计表的必要组成部分,应该写在表底线的下方,可长可短,字号也可以根据实际情况进行调整,一般若正文设5号字,备注设为小5号。
2.统计表的基本类型 统计表根据分组变量(横标目)的数目多少可以分为简单表和复合表。含一个分组变量的统计表称为简单表;含有两个或两个以上的统计表称为复合表。如为了表达某县2010.7~2012.6流动人口与户籍人口结核病患者分布情况,可以选用复合表,如表3-2所示。
表3-2 某县2010.7~2012.6流动人口与户籍人口结核病患者构成
(二)统计图
统计图(statistical chart)是应用非常广泛的统计描述方法,通过点的位置、线段的升降、直条的长短或面积的大小等方法来表达数据与变量的关系。统计图辅以简洁的文字说明,就可以直观地反映统计数据所蕴涵的内在信息,并可大大提高统计报告的可读性。
1.统计图的基本要求 主要包括标题、标目、图例、刻度等内容。
(1)标题:高度概括统计图所表达资料的时间、地点和主要内容,要求简单扼要,一般放在图的正下方,在标题前加图序号。
(2)标目:分为横标目和纵标目,分别表示横轴和纵轴数字刻度的意义,一般有度量衡单位。
(3)图例:在一张统计图中有两个或两个以上的对象进行比较,一般要加上图例。图例说明统计图中各种图形所代表的对象。图例的位置比较灵活,应以整幅图的平衡美观为原则,一般放在图的右上角或放在图与标题之间的下方中间位置。
(4)刻度:指坐标系中的坐标尺度。刻度数值按从小到大的顺序排列,纵轴由下至上,横轴由左至右;其纵横坐标的比例尺度可以不同。一般横坐标可以不从0开始,纵坐标一般从0开始,散点图和气泡图除外。统计图的纵横比例一般为5∶7或7∶5,但是许多软件做出的图纵横比例是1∶1,在绘制时,可以在编辑状态进行调整。
2.统计图的常用类型 统计图的种类很多,常见的统计图有直方图、直条图(条图或棒图)、圆图、饼图、百分条图、箱式图、误差图、统计地图、普通线图、半对数线图和散点图等。资料的类型不同,研究目的不同,其相应的统计图也不同。定性资料可选用的统计图有直条图、圆图、百分条图、统计地图等。定量资料可选用的统计图有直方图、普通线图、半对数线图和散点图等。因此,掌握各种统计图的特征,有助于正确选用统计图。
(1)直方图(histogram):用于描述连续变量的频数分布。横轴表示被观察指标,纵轴表示频数或频率,以直条的面积代表各组段的频数或频率。如某医院某段时间收治消化道疾病患者的年龄分布,见图3-1。
图3-1 某医院消化道疾病患者的年龄分布
(2)直条图(bar graph):也称条图或棒图,以等宽直条的高度表示相互独立的资料的指标大小。一般纵轴表示统计指标,用绝对数和相对数均可;横轴表示分组标志的变量。在一幅图中有多个分组因素时,需加上图例,主要是用于比较各组相互独立统计指标的大小。常用的有单式条图(simple bar)、复式条图(clustered bar)和分段条图(stacked bar)。直条尺度必须从0开始,且等距,否则会改变对比组的比例关系。各直条的宽度相等,间隔一般与直条等宽或为其一半。如某部队某年各类人员结核菌素皮试反应情况见图3-2。
图3-2 某部队某年各类人员结核菌皮试反应情况
(3)圆图(circle chart):以圆的总面积表示事物的全部,以扇形的面积大小表示事物内部各组成部分所占的比重或分布情况。没有坐标轴,一般以相当于时钟12点时针位置为起点,各扇面按大小顺时针方向排列。不同扇面采用不同颜色或花纹加以区别,需要用图例说明各种颜色或花纹代表的类别。如2011年浙江省健康教育专业人员专业构成,见图3-3。
图3-3 2011年浙江省健康教育人员的专业构成
(4)饼图(pie chart):以几何体的体积大小表示事物内部各组成部分所占的比重或分布情况。圆图和饼图没有坐标轴,必须用图例加以区分各部分。与图3-3相对应的饼图见图3-4。
图3-4 2011年浙江省健康教育人员的专业构成
(5)百分条图(percent bar graph):亦称百分比条图,以均匀直条的总长度表示100%,其中直条的长度表示事物内部各组成部分所占的比重或分布情况。百分条图特别适合做多个构成比的比较,将不同组别、不同时间或不同地区的某分类指标的构成比平行地绘制成多个百分条图,可以方便地比较其构成差异。2011年浙江省健康教育专业人员分布见图3-5。百分条图、圆图或饼图可以统称为构成图。
图3-5 2011年浙江省健康教育人员的专业构成
(6)箱图(box-plot):又称箱式图(box-and-whisker diagram),是一种描述连续性变量分布特征的统计图,可用来表达定量资料的5个特征值,即扣除异常值和极值以外的最小值、P25、P50、P75和扣除异常值和极值以外的最大值。由P25-P75构成图形的“箱”,由扣除异常值和极值以外的最小值P25和最大值P75构成“箱子”上下的两条“触须”。异常值(outlier)又称离群值,是指大于1.5倍四分位数间距Q的数值,在箱式图中常用圆圈“。”表示。极值是指大于3倍四分位数间距Q的数值,在箱式图中常用星号“*”表示。箱图用于多组定量资料的分布描述和比较。横坐标为各组的名称,纵坐标为定量资料的均数和分位数值。不同铅接触作业者尿铅含量分布见图3-6。
图3-6 不同铅接触作业者尿铅含量分布
(7)误差条图(error bar):是一种描述均数、标准差、标准误和总体均数可信区间等指标的统计图。常用于实验性原始数据分布(图3-7)和研究结果(图3-8)的表达和比较。
图3-7 不同铅接触作业者尿铅含量分布情况
图3-8 不同铅接触作业者尿铅含量的总体水平分布
(8)线图(line graph):用直角坐标系中线段的升降来表示两个连续型变量中一个数值变量随着另一个数值变量变化而变化的趋势,相邻两点以线段连接。常用的有单线图、多线图和垂线图,其中前两者是用一条或多条折线来描述一个或多个数值变量的变化趋势,后者反映几个变量在同一时期差距的大小。线图纵轴一般以0为起点,否则需作特殊标记或说明。不同指标或类别应该使用图例加以说明。如2005—2012年浙江省全人群肺结核发病率的变化趋势图,见图3-9。
图3-9 2005-2012年浙江省全人群肺结核发病趋势图
(9)半对数线图(semi-logarithmic line graph):用于表示两个连续型变量中一个随着另一个变化而变化的速度。绘制半对数线图时,纵轴尺度取对数尺度,横轴尺度是算术尺度。半对数线图和普通线图可以统称为线图或折线图。如2005—2012年浙江省全人群肺结核发病率的半对数线图,见图3-10。
图3-10 2005-2012年浙江省全人群肺结核发病率的半对数线图
(10)散点图(scatter plot):是一种以点的分布表示两个连续型变量之间相关情况的统计图。根据散点图中各点的分布走向和密集程度,可以大致判断变量之间相互关系的类型。若两个变量之间有自变量和因变量之分,通常把自变量放在横轴,把因变量放在纵轴上。某交通点二氧化氮与汽车流通量之间的关系见图3-11。常用的有简单散点图、重叠散点图、矩阵散点图、三维散点图和个值散点图。
图3-11 某交通点二氧化氮与汽车流通量之间的关系
(11)统计地图(statistical map):是一类具有特殊用途的统计图,它以地理或行政区划(如县市或乡镇)为基本单位,将某个指标(如人口数、某种疾病的发病率或患病率等)按照大小分级,并采用图形化元素(如不同点、线条或颜色)绘制在地图上,用来描述该指标的数值在地域上的分布特征,如反映疾病或环境污染物等的地域分布。如2012年浙江省5岁以下儿童死亡地域分布情况,见文末彩图3-12。
此外,还有一些与统计方法关系紧密的统计图,例如生存分析中的生存曲线图、meta分析的森林图和倒漏斗图,序贯分析的检验区域图,诊断试验的ROC曲线图,时间序列分析的序列图,趋势面分析中的等高线图、判别分析的类别分布图,聚类分析的谱系图和空间统计分析的克里格内插生成的预测图等特殊分析图,一般需结合相应的统计方法来解释。
(三)统计表与统计图应用中的注意事项
1.统计图表的制作规范 统计表一般采用三线表或四线表;不同类型的数据要有纵标目,需要时还得加上度量衡单位;表中列出相应的观察例数。统计表的制作最好采用Mi-crosoft Office Word软件中插入表格的方法来完成,若采用绘制表格的方法,容易形成标题和表中文本和数据分家的情况,不便于排版。
2.统计图的制作 一般可以采用统计软件来制作并在相应软件中进行编辑,但是个别的统计图需要采用特殊软件处理,如气泡图可以使用Microsoft Office Excel软件来制作,带标签的散点图可以使用Stata软件来制作,统计地图可以使用Epi Map软件或ArcGIS软件来制作。
3.统计图的选用 一般按照研究目的和资料类型来选用正确的统计图,如箱图一般适用于实验数据分布特征的描述和表达,而误差图主要用于对研究结果的表达和比较,为了解释结果方便起见,误差图中最好采用总体均数的95%可信区间。