临床检验质量控制技术(第3版)
上QQ阅读APP看书,第一时间看更新

第一节 统计学的几个基本概念

一、总体与样本

1.总体(population)
指同质的研究对象中所有观察单位研究指标变量值的集合。如对某地儿童体温参考值进行研究,研究对象是该地区正常儿童,观察单位是每个儿童,变量值为体温测量值,该地全体儿童的体温值即构成总体,该总体是建立在某地14岁以下的正常儿童的同质基础上。总体通常限定于特定的时间与空间范围之内,且为有限数量的观察单位,称为有限总体;有时总体是假设的,没有时间和空间限制,观察单位数是无限的,称为无限总体。
2.样本(sample)
医学实践与研究中,要直接研究无限总体通常是不可能的,即使是有限总体,由于人力、物力、时间、条件等限制,要对其中每个观察单位进行研究或观察,也是不可能的,而且也不必要。此时只需从总体中随机抽取部分观察单位,由其变量实测值构成样本,用样本指标推断总体特征。例如用一滴外周血的化验结果,代表一个人的全血成分。这种推断是以样本的可靠性和代表性为基础,不需经过严谨的实验设计。样本的可靠性主要是保证样本中每一观察单位属于同质总体。样本的代表性使样本能充分反映总体的实际情况,这就要求抽样遵循随机化原则,使每个观察单位被抽得的机会相等,避免主观取舍及偏性的影响;同时还要保证足够的样本量,即保证足够的观察单位个数。
3.参数(parameter)
统计学上描述总体变量的特征称为参数。如总体均数、中位数和众数等描述总体的中心位置或集中趋势;总体标准差、极差、四分位数间距等描述总体的离散趋势等。但总体参数通常未知,需以样本统计量来估计总体参数。如以样本均数( )推算总体均数(μ),以样本标准差(s)推算总体标准差(σ)等。值得注意的是,选择统计量作为参数估计值时,通常选择无偏、有效且一致的估计量,即对总体变量渐进无偏估计量。

二、变量与资料

确定总体之后,研究者应对每个观察单位的某项特征进行测量和观察,这种能表现观察单位变异性的特征称为变量(variable)。变量的测得值称为变量值(value of variable)或观察值(observed value),由变量值构成资料(data)。例如,以人为观察单位调查某地某年7岁正常儿童的生长发育状况,性别、身高、体重等都可视为变量,性别有男有女,身高可高可矮,体重可轻可重,不同个体不尽相同,这种个体间差异称为变异。这些变异来源于一些已知的或未知的,甚至是某些不可控制的因素导致的随机误差。变量的观察结果可以是定量的,例如身高的厘米数;也可以是定性的,例如儿童属男属女。按变量定量或定性的属性,可将资料分为以下几种类型:
1.计量资料(measurement data)
又称定量资料(quantitative data)或数值变量(numerical variable)资料。为测定每个观察单位某项指标的大小而获得的资料。其变量值是定量的,以数值大小表示,一般有度量衡单位。
2.计数资料(enumeration data)
又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。为将观察单位按某属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阴阳性,家族史的有无等。可分为以下两种情况:
(1)二分类:
如检查某单位工作人员血清的乙型肝炎表面抗原,以每个工作人员为观察单位,结果可报告为乙型肝炎表面抗原阴性或阳性两类,两类间相互对立,互不相容。
(2)多分类:
如观察某人群的血型分布,以人为观察单位,结果可分为A型、B型、AB型与O型,为互不相容的四个类别。
3.等级资料(ranked data)
又称半定量资料(semi-quantitative data)或有序分类变量(ordered categorical variable)资料。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。如观察某人群某血清反应,以人为观察单位,根据反应强度,结果可分-、±、+、++、+++、++++六级。
统计分析方法的选用与资料类型密切相关。在资料分析过程中,根据有关专业理论指导,各类资料间可以互相转化,以满足不同统计分析方法的要求。

三、误  差

误差(error)泛指实测值与真值之差,按其产生的原因和性质可粗分为随机误差(random error)与非随机误差(nonrandom error)两大类,后者又可分为系统误差(systematic error)与非系统误差(nonsystematic error)两类。
1.随机误差
是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。例如,在实验过程中,在同一条件下对同一对象反复进行测量,虽极力控制或消除系统误差,但每次测量结果仍会出现一些随机变化,即随机测量误差,以及在抽样过程中由于抽样的偶然性而出现的抽样误差。
随机误差是不可避免的,其数值可大可小,符号可正可负,且呈一定规律性的变化。但由于造成随机误差的影响因素太多、太复杂,以致无法掌握其具体规律。随着科学的发展与社会进步,有些随机误差可能会逐渐被认识而得以控制。随机误差呈正态分布,可用医学统计学的方法进行分析。
2.系统误差
是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生的原因往往是可知的或可掌握的。例如,可能来自于受试者抽样不均匀,分配不随机,可能来自于不同实验者个人感觉或操作上的差异,可能来自于不标准的仪器,也可能来自于外界环境非实验因素的不平衡等。因而应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施加以消除或控制。
3.非系统误差
在实验过程中由于操作者偶然的失误而造成的误差。例如,仪器失灵、抄错数字、点错小数点、写错单位等,亦称为过失误差(gross error)。这类误差可通过认真检查核对予以清除,否则将会影响研究结果的准确性。

四、频率与概率

1.频率(relative frequency)
一个随机试验有几种可能的结果,在重复进行试验时,个别结果看上去是偶然发生的,但当重复试验次数相当大时,可观察到某种规律出现。在重复多次后,出现某种结果的比例称之为频率。
2.概率(probability)
概率是描述随机事件发生的可能性大小的一个度量。假设在相同条件下,独立地重复n次试验,随机事件A出现f次,则称f/n为随机事件A出现的频率。当逐渐增大时,频率f/n始终在某个常数附近作微小摆动,则称该常数为随机事件A的概率,可记为P(A),简记为P。在实际工作中,当概率不易求得时,只要观察单位数足够多,可将频率作为概率的估计值。但在观察单位数较少时,频率的波动性很大,用于估计概率是不可靠的。
随机事件概率的大小介于0与1之间,即0≤P≤1,常用小数或百分数表示。P越接近1,表示事件发生的可能性越大,P越接近于0,表示事件发生的可能性越小。P= 1表示事件必然发生,称为必然事件;P= 0表示事件不可能发生,称为不可能事件。这两类事件具有确定性,不是随机事件,但可视为随机事件的特例。统计分析中的很多结论都是基于一定可信程度下的概率推断,习惯上将P≤0.05称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为很可能不发生。