R语言在统计中的应用
上QQ阅读APP看书,第一时间看更新

第1章 绪论

导入案例

为什么是相反的结论

张先生是一位从事实验的工作者,为了研究动物对颜色的喜好,他将10只小白鼠关在一个笼子内,并在笼子的两侧各安装一个门,一个门涂成红色,另一个门染成蓝色. 当他同时打开两个门时,他发现10只小白鼠中有7只从蓝色的门逃出,另外3只从红色的门逃出. 因此,他断定,小白鼠更喜欢蓝色. 他的同事李先生看了他的报告后,对他说,这个结论不正确,小白鼠从哪个门逃出,可能是随机的.

张先生又接到一个测试某种药品是否有毒的试验. 他将这种药喂给10只小白鼠,结果有3只死了,他想说,这种药品有毒. 但他想起李先生的话,小白鼠的死亡可能是随机的. 他带着这个结果去问李先生,李先生明确地告诉他,这种药品确实有毒.

为什么同样的实验结果会得出两个完全相反的结论呢?张先生有点糊涂了.

这个问题正是本书要回答的问题. 问题的回答应从两方面考虑:一是如何建立合理的统计模型;二是如何对数据进行计算与分析,以及对计算结果做出合理的解释.

本章要点

  • 统计、统计学与统计模型的介绍.
  • R语言与R软件.

什么是统计学?根据《兰登书屋大学字典》(The Random House College Dictionary)的定义,统计学是“对用数字表示事实或数据进行收集、分类、分析以及解释的科学”. 简而言之,统计学就是数据的科学.

什么是R?R是进行统计分析、绘图以及统计编程的平台,是进行统计分析的重要工具,是现今最受欢迎的数据分析和可视化软件. 同时,它还是一款免费的开源软件,从这一点来说,它比其他软件更有意义. 目前,R已成为学习统计学的必备工具.