大话统计学(溢彩实训版):基于R语言+中文统计工具
上QQ阅读APP看书,第一时间看更新

前言Preface

百闻不如一见,兵难隃度,臣愿驰至金城,图上方略。

——《汉书·赵充国传》公元前61年

千言不如一图。(One picture is worth a thousand words.)

——F. R. Barnard 1921

没有图画或对话的书,有什么用?(What is the use of a book without pictures or conversations?)

——刘易斯·卡罗《爱丽丝梦游仙境》1865

统计学因为计算机的普及,在教程与教学方法方面有结构性的改变,尤其是有关“数学计算”或“图形显示”的课程。这些教程应该附有应用软件的使用以配合教学。

“统计学”就是有数学计算与图形显示的课程。本书附有《中文统计》软件,在Excel上安装“加载项”操作,还有R语言——以数据分析为主要目的的程序语言。

统计软件并非计算机辅助教学(CAI),因为它们并非“教你学会统计”,而是你“学会了统计”以后再来用它。有了统计软件以后,大多数的统计问题,只要选择统计功能(菜单),输入数据,就可以得到答案。虽然R语言没有菜单,但是绘图功能强,又有强大的支持软件包。使用统计软件要注意下列应用:

■ 能够判断统计数据应该(适合)用哪一个统计方法(模型)。

■ 了解并解释统计方法计算结果(答案)的意义。

学习要有地图,学习地图会告诉你:你在这里(here),要往那里去(where),如何去(how),会得到什么(what),为什么这样走(why)。其中,here是当前课程,where是目的,how是方法模型,what是答案,why是假定条件(为何适用这个方法)。

1980年Wonnacott统计学第1章开头引用一句话:

“He uses statistics as a drunken man uses lampposts —for support rather than for illumination.”

“人们利用统计,就好像醉汉利用路灯,是为了支撑,而不是照明。”

还有一个醉汉与路灯的故事:

一个醉汉在夜晚的路灯下找东西,有个路人问他在找什么,醉汉说:“钱包”。路人就帮他找,两个人找了很久,但就是找不到。路人问:“你确定是掉在‘这里’吗?”醉汉说:“我不知道掉在‘哪里’。”路人问:“为什么要在‘这里’找?”醉汉说:“因为‘这里’有路灯比较亮。”钱包是答案,路灯是统计模型,‘哪里’是用哪个模型。

利用统计学,要注意是否符合假定条件,不要削足适履,不要因为“这个”方法比较熟悉、比较容易用,就要用它来找答案,结果找到的答案根本不对。

Statisticians, like artists, have the bad habit of falling in love with their models.

——George Box

统计学者像艺术家,有坏习惯:爱上他们的模型(模特儿)。

1976年统计学者、时间序列专家George Box说:

所有的模型都是错误的,但是有些是有用的。(All models are wrong, but some are useful.)

40多年后的现在,这两句话应该改为:

所有的模型都是基于错误的。统计学是为了照明。

本书目标是统计学的航拍机、学习地图和交通工具,可以站在更高的视野,看得广,走得对,跑得快。《大话统计学》不是说大话的统计学,而是让读者可以“大声说话”的统计学。因为图表很多,所以也是“大画统计学”,但不是“漫画统计学”,而是能让老师和计算机对话“对话统计学”。

本书特色

1.本书前后连贯,有前言、总论、结语。最后结语有统计问题分类、统计概念复习。

2.各章之间先后呼应。例如:从概率到抽样,从描述到推断,从检验到因果。

3.每章也有连贯,开头有引言、概念图,结尾有流程图、思维导图。

4.书中有许多阶层图、分类图、关联图、步骤图、流程图,以及因果表、比较表、决策法则表等。

5.《中文统计》软件是在Excel (2016—2019版本适用)环境下,安装一个“加载项”,输入统计数据资料,就可以得到统计结果。《中文统计》软件仅提供给教师和购买本书的读者使用。

6.《中文统计》的功能列表(菜单),配合本书章节设计。输入原始数据(观测值),可进行描述或推断统计的计算。如果只有样本容量、样本平均数、方差、比例等数据,有“快速估计”或“快速检验”,可以得到推断结果。

7.每章有例题、习题,为了节省篇幅,放在互联网供下载。

8.补充教材,如分组资料描述统计、Bootstrap估计法、非参数统计补充、多因素方差分析、多元回归等,也放在互联网。

9.因为配合计算机程序,包括Excel函数和R语言,所有的统计公式和计算步骤,都很清楚地一一列举出来。由于强调应用导向,所以多数公式没有证明。

10.再版增加时间序列的Holt指数平滑ETS模型和Box自回归ARIMA模型。

11.增加R语言应用,可以和《中文统计》对照,加强学习效果。

12.全彩印刷,可视化与可读化。

《大话统计学》有了地图和交通工具(计算机软件),就可以快速地到达目的地。但是,如果一路直达目的地,会错过沿途美妙的风光,所以,初学者还是要先走过一趟(通过自己的计算了解过程),再利用交通工具(计算机),检查结果的正确性。

衷心感谢清华大学出版社责任编辑栾大成先生及各位编辑同仁的大力支持和协助,使本书能够顺利出版。感谢台湾大学资管所陈静枝教授和彭怀德等多位硕士协助编程《中文统计》。

由于作者的疏失,难免有错误和疏漏之处,恳请各位专家和读者,提出批评和建议,以便修订和改进,谢谢。

陈文贤 谨识

《中文统计》安装说明

1.请扫码下载:文件夹内含有(1)Stats文件夹和(2)Stata.xla加载宏。

2.将Stats文件夹和Stata.xla加载宏复制到C:\STAT。

3.开启Excel(2016,2019):“开始”按钮“文件”菜单“Excel选项”按钮“信任中心”选项“信任中心设置”按钮“受信任位置”选项“添加新位置”按钮输入:C:\STAT\“确定”按钮。

4.Excel“文件”菜单“选项”按钮“加载项”选项“转到(G)”按钮勾选“分析工具库-VBA”选项“确定”按钮。

5.Excel“文件”菜单“打开”选项选择“C:\STAT\Stats.xla”勾选“我已合法取得本书”选项“确定”按钮。

6.Excel“加载项”选项《中文统计》选项开始使用。

表《中文统计》软件的菜单

R语言安装说明

1.下载R软件,到www.r-project.org。

2.在R主页左上角Download下单击CRAN。

3.CRAN链接,选择一个镜像Mirrors链接地址,如China选项下的清华大学

https://mirrors.tuna.tsinghua.edu.cn/CRAN/

4.选择Download R for Windows[或Download R for Linux, Download R for (Mac) OS]。

5.如果选择Download R for Windows,单击base基础包。

6.单击Download R 4.0.3 for Windows,下载执行文件R-4.0.3-win.exe,安装R。

7.启动R,出现R的提示符>,开始R的命令内容。

8.R的#表示文件批注,程序不会执行。

9.一行多个表达式可以使用;号隔开,一个表达式可分成多行。

10.“+”表示尚未输入完成,接续上一个命令,可按“Esc”键离开。

11.“↑”键可自动重复上一个命令,如果打错一个命令行,可以按此方法修改。

12.对象(数据)名称是英文和数字加底线或句点,第一个字符是英文,大小写有差异。

13.创建对象用<-或=号,以“()”括住命令直接显示数据。

14.文件路径可写成“C:/R/babies.txt”或“C:\\R\\babies.txt”。

15.下载R程序包(packages),输入“> install.packages("arules")”选择一个镜像链接。

16.调用已安装的包,输入“>library(arules)”。

17.>if(!require(zoo)){install.packages("zoo")};library(zoo)#若尚未下载R包,则下载并调用。数据的衡量尺度有定比尺度、定距尺度、定序尺度、定类尺度。R语言是以面向对象为主的程序设计语言,R的数据对象属性有数值(numeric)、整数(integer)、因子(factor)、逻辑(logical)和字符串(character),数据对象结构有向量(vector)、因子(factor)、矩阵(matrix)、数据框(data.frame)、数组(array)、列表(list)、时间序列(time series)等。

     > install.packages("zoo")  # 下载并安装R 程序包 zoo
     > library(zoo)             # 每次重新执行 R 要调用library载入包
     > if(!require(zoo)){install.packages("zoo")} ; library(zoo)
                                      # 若尚未下载R 包,则下载并调用
     > search()                  # 了解目前 R 工作空间已调用的 library
     > AB <- read.csv("C:/STAT/Chap2_1.csv",header=F)
                                      # 读入Excel数据 Chap2_1.csv,命名称为 AB
     > str(AB)                   # 查看 AB 的数据结构,输出结果如下:
     ‘data.frame’:   30 obs. of  1 variable:
      $ V1: int  25 32 35 35 35 36 40 42 44 46 ...
     > CD <- as.matrix(AB)       # 将数据框对象 AB 转换为矩阵对象 CD
     > AB <- as.data.frame(CD)   # 将矩阵对象CD 转换为数据框对象 AB
     > write.csv(AB, file= "C:/ STAT/Chap2_1.csv")
                                      # 保存AB 为Excel 数据命名为Chap2_1.csv
     > aTSA::MA()                # 调用包 aTSA 函数 MA

R语言的数据对象介绍,请见《大话数据科学》(清华大学出版社,2020年)。

统计学R语言程序包::函数

本书资源下载

本书资源分两组:自学资源教师资源

自学资源包含:R语言代码、各种数据源、例题和习题、部分习题解答,另外还提供了本书附加电子书,共计223页内容,电子书用来配合图书,无须单独阅读,教材正文相关位置提醒阅读时再去参考。

扫码获取自学资源包:

教师资源包含:高清思维导图和可编辑的PPT课件。教师资源便于老师授课,其学习功能已经分散到书中。自学读者或者学生,无须下载。

关注“书圈”

注意:教师资源仅提供给“书圈”公众号输入书号下载。

本书读者群

本群不定期更新本书勘误表。学习上遇到的困难,本书的错误等问题,都可以在本群讨论。

QQ群:924729834