第三节 统计基础知识
一、总体与样本
1.总体与个体
在一个统计问题中,称研究对象的全体为总体,构成总体的每个成员称为个体。
统计学的主要任务
(1)研究总体是什么分布?
(2)这个总体(即分布)的均值、方差(或标准差)是多少?
2.样本
从总体中抽取部分个体所组成的集合称为样本。样本中的个体有时也称为样品,样本中所包含的个体的个数称为样本量,常用n表示。
简单随机样本需满足的条件:
(1)随机性。总体中每个个体都有相同的机会入样;
(2)独立性。从总体中抽取的每个个体对其他个体的抽取无任何影响。
随机样本X1,X2,…,Xn可以看做n个相互独立同分布的随机变量,每一个的分布与总体分布相同。分布愈分散,样本也很分散;分布愈集中,样本也相对集中。
(3)分组样本
对363个零售商店调查周零售额(单位:千元)的结果如表1-3所示:
表1-3 周零售额的调查结果(单位:千元)
(4)有序样本、极差
设x1,x2,…,xn是从某总体随机抽取的一个样本。将它们按从小到大的顺序排列为x(1)≤x(2)≤…≤x(n),这便是有序样本。
样本极差R=x(n)-x(1)
【例题1.3.1】设X1,X2,…,Xn是简单随机样本,则有( )。[2006年真题]
A.X1,X2,…,Xn相互独立
B.X1,X2,…,Xn有相同分布
C.X1,X2,…,Xn彼此相等
D.X1与(X1+X2)/2同分布
E.X1与Xn的均值相等
【答案】ABE
【解析】满足随机性和独立性的样本称为随机样本,随机样本中每一个样本都与总体同分布,所以X1,X2,…,Xn有相同分布,所以X1与Xn的均值相等。
二、频数(频率)直方图
1.直方图的作法
为研究一批产品的质量情况,需要研究它的某个质量特性X的变化规律。为此,从这批产品(总体)中抽取一个样本(设样本量为n),对每个样本产品进行该特性的测量(观测)后得到一组样本观测值,记为x1,x2,…,xn,这便是通常说的数据。
为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。
(1)首先从给出的数据中找出其最大值xmax与最小值xmin,计算它们的差R=xmax-xmin,R称为极差,也就是这组数据的取值范围。
(2)根据数据个数,即样本量n,决定分组数k和组距h;
一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,表1-4是可以参考的分组数。
表1-4 直方图分组组数选用表
选择k的原则是要能显示出数据中所隐藏的规律,级数不能过多,但也不能太少。
每一组的区间长度,称为组距。组距可以相同也可以不同,而区间长度相同的情况用得比较多。在区间长度相同时,当组数确定后,区间长度(即组距)可以用下式计算:
h=R/k
通常取为最小测量单位的整数倍。
(3)确定组限,即每个区间的端点及组中值。为了避免一个数据可能同时属于两个组,通常将各组的区间确定为左开右闭的:
(a0,a1],(a1,a2],…,(ak-1,ak]
通常要求a0<xmin,ak>xmax,在等距分组时,a1=a0+h,a2=a1+h,…,ak=ak-1+h。各组的组中值。
(4)计算落在每组的数据的频数及频率。
确定分组后,统计每组的频数,即落在组中的数据个数ni以及频率fi=ni/n,列出每组的频数、频率表。
(5)作频数频率直方图。
在分组不完全等距的情形,在作频率直方图时,应当用每个组的频率与组距的比值fi/hi为高作为矩形,此时以每个矩形的面积表示频率。
2.直方图的观察与分析
图1-25 常见的直方图的形状
(1)对称形——中间高,两边低,左右基本对称的情况,在正常生产中许多质量指标呈现这种形状。
(2)偏态形——常见的有两种形状,一种是峰偏在左边,右面的尾巴较长;另一种是峰偏在右边,而左面的尾巴较长。造成这种图的原因是多方面的,有时是剔除了不合格品后作的图形,也有的是质量特性值的单侧控制造成的,譬如加工孔的时候习惯于孔径“宁小勿大”,而加工轴的时候习惯于轴径“宁大勿小”等。
(3)孤岛形——往往表示出现某种异常,譬如原材料发生了变化,生产过程发生了变化,或有不熟练的工人替班等。
(4)锯齿形——可能由于测量方法不当,或者是量具的精度较差,也可能是因分组不当引起的。
(5)平顶形——往往是由于生产过程中有某种缓慢变化的因素造成的,譬如刀具的磨损等。
(6)双峰形——往往是将两台不同精度的机床生产的或两个不同操作水平的工人生产的或由两批不同原材料生产的产品的数据混合所致。
3.数据变换可改变直方图的形状
三、统计量
1.统计量的概念
为了把样本中包含的零散的信息集中起来反映总体的特征,需要对样本进行加工,一种有效的方法就是构造样本的函数,不含未知参数的样本函数就称为统计量。
2.描述样本集中位置的统计量
(1)样本均值
样本均值又称样本平均数,记为,它是样本数据x1,x2,…,xn的算术平均数:
(2)样本中位数
样本中位数是表示数据集中位置的另一种重要的度量,用符号Me或表示。样本中位数定义为有序样本中位置居于中间的数值,即:
(3)样本众数
样本众数是样本数据中出现频率最高的值,常记为Mod。样本众数的主要缺点是受数据的随机性影响比较大,有时不惟一。
3.描述样本分散程度的统计量
(1)样本极差
样本极差即是样本数据中最大值与最小值之差,用R表示,。
样本极差只利用了数据中两个极端值,因此它对数据信息的利用不够充分,极差常用于n不大的情况。
(2)样本方差与样本标准差
样本方差定义为离差平方和除以n-1,用s2表示:
样本方差的正算术平方根称为样本标准差,即:
在具体计算时样本方差计算公式为:
(3)样本变异系数
样本标准差与样本均值之比称为样本变异系数,记为CV:
样本变异系数是在消除量纲影响后的样本分散程度的一种度量。
四、抽样分布
1.抽样分布的概念
统计量的分布称为抽样分布。
注意:每一个统计量都有一个抽样分布;不同的统计量可得不同的抽样分布。
2.样本均值的抽样分布
(1)当总体分布为正态分布N(μ,σ2)时,其样本均值的抽样分布(精确地)为,的均值为,标准差。
(2)当总体分布不为正态分布时,只要其总体均值μ与总体方差σ2存在,则在n较大时,样本均值的抽样分布近似于,的均值为,标准差。
3.三大抽样分布
(1)t分布
设x1,x2,…,xn是来自正态总体N(μ,σ2)的一个样本,则有:
对样本均值施行标准化变换,则有:
当用样本标准差s代替上式中的总体标准差σ,则上式u变量改为t变量,标准正态分布N(0,1)也随之改为“自由度为n-1的t分布”,记为t(n-1),即:
自由度为n-1的t分布的概率密度函数与标准正态分布N(0,1)的概率密度函数的图形大致类似,均为对称分布,但它的峰比N(0,1)的峰略低一些,而两侧尾部要比N(0,1)的两侧尾部略粗一点,参见图1-26。当自由度超过30后,两者区别已很小,这时可用N(0,1)代替t(n-1)。
图1-26 N(0,1)与t(5)的概率密度曲线
尾部概率P(x>3)=0.00135,P(t>3)=0.02
(2)分布
设x1,x2,…,xn是来自正态总体N(μ,σ2)的一个样本,则其样本方差s2的n-1倍除以总体方差σ2的分布是自由度为n-1的分布,记为,即:
自由度为n-1的分布的概率密度函数在正半轴上呈偏态分布,参见图1-27。
图1-27 的概率密度函数
(3)F分布
设有两个独立的正态总体N(μ1,σ2)和N(μ2,σ2),它们的方差相等。又设x1,x2,…,xn是来自N(μ1,σ2)的一个样本;y1,y2,…,ym是来自N(μ2,σ2)的一个样本,两个样本相互独立。它们的样本方差比的分布是自由度为n-1和m-1的F分布:
其中n-1称为分子自由度或第1自由度;m-1称为分母自由度或第2自由度。F分布的概率密度函数在正半轴上呈偏态分布,参见图1-28。
图1-28 F(n-1,m-1)的概率密度函数