妙趣横生的统计学:培养大数据时代的统计思维(第四版)
上QQ阅读APP看书,第一时间看更新

1.2 抽样

我们仅能依靠观察总体中的每个成员来了解总体参数的真值。例如,想知道你所在学校学生的精确平均身高,你需要对每个同学进行测量。这种对总体中每个成员进行数据收集的方法称为普查。然而,进行一次普查通常很不切实际。在某些情况下,总体太大,收集每个成员的数据既耗时又费力。在另一些情况下要排除普查,因为它会干涉研究目标。例如,涉及检验销售前的棒棒糖的质量,我们不能运用普查的形式,因为那样的话,每个棒棒糖都要检验,就没有完整的棒棒糖可以出售了。

不是所有的价值都能被计算,不是所有能计算的都具有价值。

——阿尔伯特·爱因斯坦(Albert Einstein)

普查是指对总体中所有样品进行数据收集。

大多数统计研究都可以不进行普查。一般情况下,我们从样本中收集数据(而不是对总体中的每个个体进行收集),并通过样本统计量推断总体参数。当然,仅当样本中的个体对总体具有代表性或依据研究的特性进行数据选取时,这个推断才是有意义的。也就是说,我们要寻找总体的代表性样本。

代表性样本是具有总体本质属性的样本。

例1 有关身高的代表性样本

假设你要统计你所在学校全部学生的平均身高,以下哪个更可能是该研究的代表性样本?男子篮球队成员还是你统计课班级里的同学?

答案 男子篮球队不是研究身高的代表性样本,因为它只包含男生且男子篮球队成员一般比同龄人高。你所在统计课班级的同学的平均身高更接近所有同学的平均身高,所以你所在统计课班级里的同学比男子篮球队成员这个样本更具有代表性。

许多药物研究是测试新研发药物是否有效的。美国医学协会杂志发表过一篇文章,其中表明研究结果为药物有效的论文比药物无效的论文更容易发表。这个公共偏差使得所发布的药效结果比实际药效更容易让人相信。