第2章 实验误差分析及数据处理
2.1 实验误差分析
在实验测量过程中,由于实验方法和实验设备的不完善,测量仪表和人观察的偏差以及环境的影响,实验的测量值与客观存在的真实值之间不可避免地存在一定的差异,这种差异即为实验数据的误差。通过实验误差分析,可以认清误差的来源及其影响,并设法排除数据中所包含的无效成分,还可进一步改进实验方案。在实验中注意哪些是影响实验的主要方面,这对正确组织实验方法、正确评判实验结果和设计方案,从而提高实验的精确性具有重要的指导意义。
2.1.1 真值及平均值
测量误差=测量值-真值 (2-1)
真值也称理论值,是指某物理量客观存在的确定值。由于测量仪器、测量方法、环境、人员及测量程序等都不可能完美无缺,实验误差难以避免,故真值是无法得到的。
由于真值是无法测定的,故只能在实验中无限地增加测量次数,根据误差的分布规律,即当正负误差出现概率均等时,再经过仔细推敲消除系统误差,将其多次测量值求平均值,让测量值无限接近真值。在分析实验数据及误差时,一般用以下几种值代替真值:
(1)理论真值
理论真值是由理论证实而得知的值。如平面三角形内角之和为180°;计量学中经国际计量大会决议的值,像热力学温度单位——绝对零度等于-273.15K;以及一些理论公式表达值等。
(2)相对真值
在化工过程中,经常会在测量时候使用高精度级的标准仪器来代替普通的仪器,像这样所测得的数据称为相对真值。如:高精度的涡轮流量计相对于普通的孔板流量计而言就是真值;高精度的铂电阻温度传感器相对于普通的温度计而言就是真值。
(3)平均值
在没有系统误差的前提下,将多次测量值相加再取平均,得到的数值用来代替真值。然而,实际上实验的测量是有一定次数限制的,根据这些有限次数的测量求出的平均值也只是近似地接近真值,也称为最佳平均值。
目前常用的平均值有以下几种方式:
①算术平均值 算术平均值是最常见的一种平均值。凡测量值的分布服从正态分布,利用最小二乘法原理可以证明,在一组等精确度的测量中,算术平均值是最佳或者说是最值得信赖的值。
(2-2)
式中 x1,x2,…,xn——各次测量值;
n——测量的次数。
②几何平均值 几何平均值是将一组n个测量值连乘并开n次方求得的平均值。即
(2-3)
③均方根平均值
(2-4)
④加权平均值 若某组实验值是用不同方法或是由不同的实验人员测得的,则这组实验数据中的不同值的精度或可靠性不一致,在这种情况下,为了突出可靠性高的数值,则宜采用加权平均值。
(2-5)
式中 w1,w2,…,wn——各次测量值对应的权重。
⑤对数平均值 在化学反应、热量和质量传递中,其分布曲线具有对数的特性,在这种情况下表征平均值常用对数平均值。比如气体膜传热实验,填料吸收塔的传质系数的测定实验等。设两个变量分别为x1、x2,其对数平均值
(2-6)
变量的对数平均值总小于算术平均值。当1<x1/x2<2时,算术平均值和对数平均值相差不大,引起的误差不超过4%,这时对数平均值可以用算术平均值代替。
上述介绍的各种平均值,目的是要从一组测定值中找出最接近真值的那个值。平均值的选择主要决定于一组观测值的分布类型,在化工原理实验研究中,数据分布较多属于正态分布,故通常采用算术平均值。
2.1.2 误差及误差分类
误差产生的原因很多,总结起来有三个方面:①由于观测者感觉器官鉴别能力、技术水平、工作态度及状态都对测量结果的影响而产生的误差;②由于仪器本身在设计、制造、安装、校正等方面精密程度不同,因而观测值的精确度也必然受到一定的限制;③由于温度、湿度、压强、大气折光等外界因素发生变化,对观测结果产生的影响也会随之变化。通常我们所说的观测条件就是把这三方面因素综合起来,它的好坏直接影响观测结果的准确程度。
根据误差产生的原因及其性质可分为系统误差、偶然误差和粗大误差。
(1)系统误差
系统误差是指在实验测量中由未发觉或未确认的因素所引起的,在同一组实验测定中,影响结果或偏大或偏小。换句话说,实验条件固定,系统误差自然而然也就确定了;相反实验条件一旦改变,系统误差也就随之改变。产生系统误差的原因主要有:
①由于测量仪器不良,本身存在偏差。如仪器刻度不精确,仪表零点未校正或者标准本身存在偏差等。
②周围环境的改变,偏离校准值。如外界温度、压力、湿度等变化引起的偏差。
③测量不当与偏向,如近似的测量方法或近似的计算公式等引起的误差。
④实验人员的习惯操作与偏向,如读数偏高或偏低等引起的误差,记录某一信号的时间总是滞后、判定滴定终点的颜色每个人不同等因素所引起的误差。
我们经常用精确度一词来表征系统误差的大小,系统误差越小,准确度越高,反之亦然。由于系统误差是测量误差的重要组成部分,消除和估计系统误差对于提高测量准确度就十分重要。一般系统误差是有规律的,其产生的原因也往往是可知的或找出原因后可以将其清除掉。至于不能消除的系统误差,我们应设法确定或估计出来,见表2-1。
表2-1 单次测量和多次测量的确定及评估
(2)偶然误差
偶然误差又叫随机误差,在已经消除了系统误差的前提下去测量,由某些不易控制的因素造成的,测量过程中所测定的数据在倒数一位或者倒数两位数字上仍有差别,然而这些差别没有规律性可循,时而大时而小,时而正时而负,我们把这样的误差称为偶然误差。偶然误差产生的原因很复杂,没有控制和补偿的措施,因而也就没有办法消除。但是,偶然误差完全遵守统计规律,误差的大小及其正负的出现完全可以由概率推算。因此,在实验过程中要测得更接近真值的数据,就需多次测量并利用其测定的结果求算平均值,从而减小偶然误差对实验的影响。
(3)粗大误差
粗大误差也叫过失误差,是由于实验人员在实验过程中粗心大意、操作不正确等原因引起的与事实完全不符的误差。该误差跟偶然误差类似,也无规律可循,但是如果加强对实验的管理,实验人员提高自身的责任感、多方警惕、细心操作,粗大误差是完全可以避免的。常见的粗大误差准则如表2-2所示。
表2-2 常见的粗大误差准则
综上所述,我们可以认为系统误差和过失误差总是可以设法避免的,而随机误差是不可以避免的,因此最好的实验结果应该只含有偶然误差。
2.1.3 误差表示方法
(1)绝对误差
测量值X和真值A0的差值称为绝对误差,通常称为误差。记为:
D=X-A0 (2-7)
真值A0一般是无法求得的,因而上述公式(2-7)只有理论意义。在数据处理中我们常用高一级标准仪器的显示值来代替真值A0,用A来表示定义实际值。因为高级别标准仪器存在的误差相对较小,也就是说A虽然不等于A0,但跟X比起来更接近于A0。我们通常把X与A之间存在的误差称为仪器显示值的绝对误差。用下面的公式表示:
d=X-A (2-8)
称仪器显示值的绝对误差d的相反数为修正值,用C表示,记为:
C=-d=A-X (2-9)
通过检定,可以由高一级标准仪器给出被检仪器的修正值C。利用修正值便可以求出该仪器的实际值A。即:
A=X+C (2-10)
绝对误差虽很重要,但仅用它还不足以说明测量的准确程度,换句话说,它还不能给出测量准确与否的完整概念。
(2)相对误差
相对误差能衡量某一测量数据的准确程度,一般用δA来表示。可表示为显示值绝对误差d与被测量的实际值A的百分比值,称为实际相对误差。记为:
(2-11)
如果在相对误差中的实际值A用仪器的显示值X代替,称为显示值相对误差。记为:
(2-12)
如果没有特殊说明,我们在计算时多采用显示值的相对误差。
(3)引用误差
引用误差是指仪表示值的绝对误差与量程范围之比,通过引用误差的计算,可以划分仪表精确度等级。
(2-13)
式中 d——示值绝对误差;
Xn——标尺上限值-标尺下限值。
(4)范围误差
范围误差是指在一组测量中的最高值与最低值之差,在此作为误差的变化范围。使用中常应用误差系数的概念。
(2-14)
式中 K——最大误差系数;
L——范围误差;
α——算数平均值。
(5)算术平均误差
算术平均误差是经过多次测量,把每次测量值的误差求出来,而后求的平均值。公式为:
(2-15)
式中 n——测量次数;
di——第i次测量的误差。
(6)标准误差
标准误差也称为均方误差。其定义为:
(2-16)
式(2-16)使用于无限测量的场合。实际测量工作中,大多数的测量次数是有限的,其计算公式为:
(2-17)
标准误差不是一个具体的误差,σ的大小只说明在一定条件下等精度测量集合所属的每一个观测值对其算术平均值的分散程度,如果σ的值愈小则说明每一次测量值对其算术平均值分散度就小,测量的精度就高,反之精度就低。
算数平均误差和标准误差的计算式中第i次误差可分别代入绝对误差和相对误差,相对得到的值表示测量集合的绝对误差和相对误差。
上述的各种误差表示方法中,不论是比较各种测量值的精度还是评价测量结果的好坏,均以相对误差和标准误差为优选,在文献中标准误差的使用率会更高。
2.1.4 精密度、正确度和准确度
测量的质量和水平,可用误差概念来描述,也可用准确度等概念来描述。为了指明误差的来源和性质,通常用以下三个概念。
①精密度 可以衡量某物理量几次测量值之间的一致性,即重复性。它可以反映随机误差的影响程度,精密度高表示随机误差小。如果实验的相对误差为0.01%,且误差纯由随机误差引起,则可认为精密度为10-4。
②正确度 是指在规定条件下,测量中所有系统误差的综合。正确度高表示系统误差小。如果实验的相对误差为0.01%,且误差纯由系统误差引起,则可认为正确度为10-4。在我国的分析资料中一般不采用正确度而采用准确度表征测量中系统的误差。
③准确度(或称精确度) 它表示测量中所有系统误差和随机误差的综合。因此,准确度表示测量结果与真值的逼近程度。如果实验的相对误差为0.01%,且误差由系统误差和随机误差共同引起,则可认为准确度为10-4。
为说明它们间的区别,往往用打靶来作比喻,如图2-1所示:图(a)为系统误差大,而随机误差小,即正确度低而精密度高;图(b)为系统误差小而随机误差大,正确度高而精密度低。在实际测量中没有像靶心那样明确的真值,而是设法去测定这个未知的真值;图(c)为系统与随机误差都小,即准确度高。
图2-1 精密度、正确度和准确度关系图
学生在实验过程中,往往满足于实验数据的重现性,而忽略了数据测量值的准确程度。绝对真值是不可知的,人们只能定出一些国际标准作为测量仪表准确性的参考标准。随着人类认识运动的推移和发展,可以逐步逼近绝对真值。在一组测量中,精密度高的正确度不一定高,但准确度高,则精密度和正确度一定都高。
2.1.5 仪器的精确度与测量值的误差
(1)给出精确度等级类的仪器
这些仪器的精确度常采用仪器的最大引用误差和精确度的等级来表示。仪器的最大引用误差的定义为:
(2-18)
式中仪表显示值的绝对误差指在规定的正常情况下,被测参数的测量值与被测参数标准值之差的绝对值的最大值。对于多档次仪表,不同档次显示值的绝对误差和量程范围均不相同。当仪表显示值的绝对误差相同,则量程范围越大,最大引用误差越小。目前,我国生产仪表的常用精确度等级有0.005、0.02、0.05、0.1、0.2、0.4、0.5、1.0、1.5、2.5、4.0等。如果某台测温仪表的基本误差为±1.0%,则认为该仪表的精确度等级符合1.0级。
(2)不给出精确度等级类的仪器
此类仪器的精确度计算公式为:
(2-19)
式中名义分度值指测量时读数能够读准的最小分度所代表的数值。
(3)测量值的实际误差
用上述方法所确定的测量误差,一般总是比测量值的实际误差小得多。这是因为仪器没有调整到理想状态,如不垂直、不水平、零位没有调整好等会引起误差;仪表的实际工作条件不符合规定的正常工作条件,会引起附加误差;仪器经过长期使用后,零件发生磨损,装配状况发生变化等,也会引起误差;可能存在操作者的习惯和偏向所引起的误差等。总而言之,测量值实际误差大小的影响因素是很多的。为了获得较准确的测量结果,需要有较好的仪器,也需要有科学的态度和方法,以及扎实的理论知识和实践经验。
2.1.6 误差的性质及传递
在化工原理实验中通常直接测量或间接测量得到有关的参数数据,这些参数数据的可靠程度如何?如何提高其可靠性?因此,必须研究在给定条件下误差的基本性质和变化规律。
(1)误差的正态分布
如果测量数列中不包括系统误差和过失误差,从大量的实验中发现偶然误差的大小有如下几个特征:
①绝对值小的误差比绝对值大的误差出现的机会多,即误差的概率与误差的大小有关。这是误差的单峰性。
②绝对值相等的正误差或负误差出现的次数相当,即误差的概率相同。这是误差的对称性。
③极大的正误差或负误差出现的概率都非常小,即大的误差一般不会出现。这是误差的有界性。
④随着测量次数的增加,偶然误差的算术平均值趋近于零。这叫误差的抵偿性。
根据上述的误差特征,可疑误差出现的概率分布如图2-2所示。图中横坐标表示偶然误差,纵坐标表示各误差出现的概率,图中曲线称为误差分布曲线,以y=f(x)表示。其数学表达式为:
(2-20)
式(2-20)称为高斯误差分布定律亦称为误差方程。式中σ为标准误差,h为精确度指数,σ和h的关系:
(2-21)
图2-2 误差分布曲线
若误差按函数关系分布,则称为正态分布。σ越小,测量精度越高,分布曲线的峰越高越窄;σ越大,分布曲线越平坦且越宽,如图2-3所示。由图可知,σ越小,小误差占的比重越大,测量精度越高。反之,则大误差占的比重越大,测量精度越低。
图2-3 不同σ的误差分布曲线
(2)测量集合的最佳值
在测量精度相同的情况下,测量一系列观测值M1、M2、M3、…、Mn所组成的测量集合,假设其平均值为Mm,则各次测量误差为:
(2-22)
当采用不同方法计算平均值时,所得到误差值不同,误差出现的概率亦不同。若选取适当的计算方法,使误差最小,而概率最大,由此计算的平均值为最佳值。根据高斯分布定律,只有各点误差平方和最小,才能实现概率最大。这就是最小乘法值。由此可见,对于一组精度相同的观测值,采用算术平均得到的值是该组观测值的最佳值。
(3)有限测量次数中标准误差σ的计算
由误差基本概念知,误差是观测值和真值之差。在没有系统误差存在的情况下,以无限多次测量所得到的算术平均值为真值。当测量次数为有限时,所得到的算术平均值近似于真值,称最佳值。因此,观测值与真值之差不同于观测值与最佳值之差。
令真值为A,计算平均值为a,观测值为M,并令d=M-a,D=M-A,则
∑di=∑Mi-na ∑Di=∑Mi-nA (2-23)
因为
∑Mi-na=0 ∑Mi=na (2-24)
将式(2-23)和式(2-24)代入∑Di=∑Mi-nA中,即得
(2-25)
将式(2-25)代入di=Mi-a中得
(2-26)
将式(2-26)两边各平方得
对i求和
(2-27)
(2-28)
根据标准误差的定义
(2-29)
式中,代表观测次数为无限多时误差的平方和,故当观测次数有限时,
(2-30)
(4)可疑观测值的舍弃
由概率积分知,随机误差正态分布曲线下的全部积分相当于全部误差同时出现的概率,
即:
(2-31)
若误差x以标准误差σ的倍数表示,即x=tσ,则在±tσ范围内出现的概率为2Φ(t),超出这个范围的概率为1-2Φ(t)。Φ(t)称为概率函数,表示为
(2-32)
2Φ(t)与t的对应值在数学手册或专著中均附有此类积分表,读者需要时可自行查取。在使用积分表时,需已知t值。由图2-4和表2-3给出几个典型及其相应的超出或不超出|x|的概率。
图2-4 误差分布曲线的积分
表2-3 误差概率和出现次数
(5)函数误差
上述讨论主要是直接测量的误差计算问题,但在许多场合下,往往涉及间接测量的变量,所谓间接测量是指与直接测量的量之间有一定的函数关系,间接测量值就是直接测量得到的各个测量值的函数。其测量误差是各个测量值误差的函数。
①函数误差的一般形式 是指在间接测量中,一般为多元函数,而多元函数可用式(2-33)表示:
y=f(x1,x2,x3,…,xn) (2-33)
式中 y——间接测量值;
xi——直接测量值。
由台劳级数展开得
(2-34)
或
(2-35)
它的最大绝对误差为:
(2-36)
式中 ——误差传递系数;
Δxi——直接测量值的误差;
Δy——间接测量值的最大绝对误差。
函数的相对误差δ为
(2-37)
②某些函数误差的计算
a.函数y=x±z的绝对误差和相对误差
由于误差传递系数,,因此函数y=x±z的最大绝对误差
Δy=±(|Δx|+|Δz|) (2-38)
相对误差
(2-39)
b.函数形式为,x、z、w为变量。
误差传递系数为: (2-40)
则该函数的最大绝对误差为:
(2-41)
最大相对误差为:
(2-42)
现将某些常用函数的最大绝对误差和相对误差列于表2-4中。
表2-4 某些常用函数的误差传递公式
2.1.7 有效数字及运算规则
有效数字就是实际测得的数据。在科学与工程中,到底该用几位有效数字来表示测量或计算结果,并不是一个数值中小数点后面位数越多越准确。实验中,从测量仪表上所读数值的最后一位数字往往是仪表精度所决定的估计数字。即一般应读到测量仪表最小刻度的1/10位。数值准确度大小由有效数字位数来决定。
(1)有效数字的确定
一个数据,其中除了起定位作用的“0”外,其他数都是有效数字。如0.0037只有两位有效数字,而370.0则有四位有效数字。一般要求测试数据有效数字为4位。要注意有效数字不一定都是可靠数字。如测流体阻力所用的U形管压差计,最小刻度是1mm,但我们可以读到0.1mm,如342.4mmHg;又如二等标准温度计最小刻度为0.1℃,我们可以读到0.01℃,如15.16℃,此时有效数字为4位,而可靠数字只有三位,最后一位是不可靠的,称为可疑数字。记录测量数值时只保留一位可疑数字。
为了清楚地表示数值的精度,明确读出有效数字位数,常用指数的形式表示,即写成一个小数与相应10的整数幂的乘积。这种以10的整数幂来记数的方法称为科学记数法。如:75200,有效数字为4位时,记为7.520×105;有效数字为3位时,记为7.52×105;有效数字为2位时,记为7.5×105。又如:0.00478,有效数字为4位时,记为4.780×10-3;有效数字为3位时,记为4.78×10-3;有效数字为2位时,记为4.7×10-3。
此外,在计算过程中涉及的一些特殊常数,如π,等,我们一般视其有效数字为无限多位。
(2)有效数字运算规则
①记录测量数值时,只保留一位可疑数字。
②当有效数字位数确定后,其余数字一律舍弃。舍弃办法是四舍五入,即末位有效数字后边第一位小于5,则舍弃不计;大于5则在前一位数上增1;等于5时,前一位为奇数,则进1为偶数,前一位为偶数,则舍弃不计。这种舍入原则可简述为:“小则舍,大则入,正好等于奇变偶”。如:保留4位有效数字,5.14285→5.143。
③在加减计算中,各数所保留的位数,应与各数中小数点后位数最少的相同。例如将24.65,0.0082,1.632三个数字相加时,应写为:24.65 +0.01 +1.63=26.29。
④在乘除运算中,各数所保留的位数,以各数中有效数字位数最少的那个数为准;其结果的有效数字位数也应与原来各数中有效数字位数最少的那个数相同。例如:0.0121×25.64×1.05782应写成0.0121×25.6×1.06=0.328。上例说明,虽然这三个数的乘积为0.3283456,但只应取其积为0.328。
⑤在对数计算中,所取对数位数应与真数有效数字位数相同。