贾俊平《统计学》考研真题(含复试)与典型习题详解(第6版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第3章 数据的图表展示

3.1 复习笔记

一、数据的预处理

1.数据审核

即检查数据中是否有错误。

(1)原始数据主要从完整性和准确性两个方面去审核

①完整性审核:主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等;

②准确性审核:主要是检查数据是否有错误,是否存在异常值等。

对于异常值要仔细进行鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留。

(2)二手数据着重审核数据的适用性和时效性

①首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,不能盲目生搬硬套;

②对于一些时效性较强的问题,如果所取得的数据过于滞后,就可能失去研究的意义。

2.数据筛选

即根据需要找出符合特定条件的某类数据。可借助计算机自动完成。

3.数据排序

数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。

排序后的数据称为顺序统计量。

二、品质数据的整理与展示

1.分类数据的整理与图示

(1)频数与频数分布

①频数与频数分布

频数是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布。

②列联表和交叉表

由两个或两个以上变量交叉分类的频数分布表也称为列联表。

二维的列联表(两个变量交叉分类)也称为交叉表。

③比例(构成比)、百分比和比率

比例是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。将比例乘以100得到的结果称为百分比,用%表示。比率是样本(或总体)中各不同类别数据之间的比值。其比值可能大于1。

(2)分类数据的图示

①条形图

指用宽度相同的条形的高度或长短来表示数据多少的图形。可以横置或纵置,纵置时也称为柱形图。条形图有简单条形图、复式条形图等形式。

②帕累托图

指按各类别数据出现的频数多少排序后绘制的条形图。通过对条形的排序,容易看出哪类数据出现得多,哪类数据出现得少。

③饼图

指用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。

④环形图

把饼图叠在一起,挖去中间的部分就是环形图。

环形图与饼图类似,但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,从而有利于构成的比较研究。

2.顺序数据的整理与图示

分类数据的频数分布表和图示方法,如频数、比例、百分比、比率、条形图和饼图等,也都适用于对顺序数据的整理与显示。但一些适用于顺序数据的整理和显示方法,并不适用于分类数据。对于顺序数据,还可以计算累积频数和累积频率(百分比)。

(1)累积频数和累积频率

①累积频数:将各有序类别或组的频数逐级累加起来得到的频数。其累积方法有两种:

a.向上累积:从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数);

b.向下累积:从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数)。

②累积频率或累积百分比:将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。

(2)顺序数据的图示

根据累积频数或累积频率,可以绘制累积频数分布或频率图。

三、数值型数据的整理与展示

1.数据分组

(1)数据分组的概念和目的

数据分组是根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,分组后的数据称为分组数据。

数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。

(2)数据分组的方法

①单变量值分组:把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用;

②组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。

在连续变量或变量值较多的情况下,通常采用组距分组。

(3)分组和编制频数分布表的具体步骤

①确定组数

一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。

②确定各组的组距

组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。

注意:为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。

③根据分组整理成频数分布表

(4)组距分组的注意事项

①组距分组需要遵循“不重不漏”的原则

“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。

为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。

a.对于离散变量,可以采用相邻两组组限间断的办法解决“不重”的问题;

b.对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。

②组距分组要避免出现空白组(即没有变量值的组)或个别极端值被漏掉

在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。开口组通常以相邻组的组距作为其组距。

(5)等距分组、不等距分组

在组距分组时,如果各组的组距相等,则称为等距分组;如果各组的组距不相等,则称为不等距分组。

(6)组中值

组中值是每一组中下限值与上限值中间的值,即

在组距分组时,通常用组中值作为该组数据的一个代表值。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。

2.数值型数据的图示

条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有一些图示方法,这些方法并不适用于分类数据和顺序数据。

(1)分组数据:直方图

①直方图:用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。

绘制该图时,在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。

②直方图与条形图的区别

a.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义;

b.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列;

c.条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

(2)未分组数据:茎叶图和箱线图

①茎叶图

茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。

通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点等。

绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。

茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

②箱线图

a.箱线图

由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

b.箱线图的绘制方法

先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。

(3)时间序列数据:线图

如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。

注意:绘制线图时,时间一般绘在横轴,观测值绘在纵轴。一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。

(4)多变量数据的图示

①散点图

散点图是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据(xiyi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点图。

②气泡图

可用于展示三个变量之间的关系。绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。

③雷达图

是指显示多个变量的常用图示方法,也称为蜘蛛图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度。

四、合理使用图表

1.鉴别图形优劣的准则

(1)一张好图应具有的基本特征

①显示数据;

②让读者把注意力集中在图形的内容上,而不是制作图形的程序上;

③避免歪曲;

④强调数据之间的比较;

⑤服务于一个明确的目的;

⑥有对图形的统计描述和文字说明。

(2)五种鉴别图形优劣的准则

①一张好图应当精心设计,有助于洞察问题的实质;

②一张好图应当使复杂的观点得到简明、确切、高效的阐述;

③一张好图应当能在最短的时间内以最少的笔墨给读者提供最大量的信息;

④一张好图应当是多维的;

⑤一张好图应当表述数据的真实情况。

2.统计表的设计

(1)统计表的构成

①表头:应放在表的上方,它说明的是统计表的主要内容。

②行标题和列标题:通常安排在统计表的第一列和第一行,它表示的主要是所研究问题的类别名称和变量名称,如果是时间序列数据,行标题和列标题也可以是时间,当数据较多时,通常将时间放在行标题的位置。

③数字资料:行标题和列标题的其余部分是具体的数字资料。

④表外附加:必要时可以在统计表的下方加上表外附加,主要包括数据来源、变量的注释和必要的说明等内容。

(2)设计和使用统计表时的注意事项

①要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式。

②表头一般应包括表号、总标题和表中数据的单位等内容。

总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。

如果表中的全部数据都是同一计量单位,可在表的右上角标明;若各变量的计量单位不同,则应放在每个变量后或单列出一列标明。

③表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两边不封口;列标题之间在必要时可用竖线分开,而行标题之间通常不必用横线隔开。总之,表中尽量少用横竖线。

表中的数据一般是右对齐,有小数点时应以小数点对齐,而且,小数点的位数应统一;对于没有数字的表格单元,一般用“—”表示;一张填好的统计表不应出现空白单元格。

④在使用统计表时,必要时可在表的下方加上注释,特别要注意注明数据来源,以表示对他人劳动成果的尊重,以备读者查阅使用。

3.2 课后习题详解

一、思考题

1.数据的预处理包括哪些内容?

答:数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。

(1)数据审核就是检查数据中是否有错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。

(2)数据筛选是根据需要找出符合特定条件的某类数据。

(3)数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。

2.分类数据和顺序数据的整理和图示方法各有哪些?

答:(1)分类数据的整理方法:首先列出分类数据所分的类别,然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表。

图示方法:条形图、帕累托图、饼图和环形图。

(2)分类数据的频数分布表和图示方法,如频数、比例、百分比、比率、条形图和饼图等,也都适用于对顺序数据的整理与显示。但一些适用于顺序数据的整理和显示方法,并不适用于分类数据。对于顺序数据,除了可使用分类数据的整理和显示技术外,还可以计算累积频数和累积频率。

图示方法:累积频数分布图和环形图。

3.数值型数据的分组方法有哪些?简述组距分组的步骤。

答:(1)数据分组的方法有单变量值分组和组距分组两种。

①单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且变量值较少的情况下使用。

②在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。

(2)组距分组步骤:

①确定组数。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。

②确定各组的组距。组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。

③根据分组整理成频数分布表。

4.直方图与条形图有何区别?

答:直方图与条形图的区别:

(1)条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。

(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。

(3)条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

5.绘制线图应注意哪些问题?

答:绘制线图时应注意:

(1)时间一般绘在横轴,观测值绘在纵轴;

(2)一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7;

(3)图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解;

(4)一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。

6.饼图和环形图有什么不同?

答:环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示。饼图只能显示一个样本或总体各部分所占的比例,而环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。

7.茎叶图与直方图相比有什么优点?它们的应用场合是什么?

答:(1)茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。

(2)直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

8.鉴别图表优劣的准则有哪些?

答:鉴别图形优劣的准则有:

(1)一张好图应当精心设计、有助于洞察问题的实质;

(2)一张好图应当使复杂的观点得到简明、确切、高效的阐述;

(3)一张好图应当能在最短的时间内以最少的笔墨给读者提供最大量的信息;

(4)一张好图应当是多维的;

(5)一张好图应当表述数据的真实情况。

9.制作统计表应注意哪几个问题?

答:制作统计表时要注意以下几点:

(1)要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。当然.由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式。

(2)表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W 要求。如果表中的全部数据都是同一计量单位,可在表的右上角标明。若各变量的计量单位不同,则应放在每个变量后或单列出一列标明。

(3)表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两边不封口;列标题之间在必要时可用竖线分开,而行标题之间通常不必用横线隔开。总之,表中尽量少用横竖线。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一;对于没有数字的表格单元,一般用”—”表示;一张填好的统计表不应出现空白单元格。

(4)在使用统计表时,必要时可在表的下方加上注释.特别要注意注明数据来源,以表示对他人劳动成果的尊重,以备读者查阅使用。

二、练习题

1.为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.较差;E.差。调查结果如表3-1所示。

表3-1 家电行业售后服务的质量表

要求:

(1)指出上面的数据属于什么类型。

(2)用Excel制作一张频数分布表。

(3)绘制一张条形图,反映评价等级的分布。

(4)绘制评价等级的帕累托图。

解:(1)服务质量的等级属于顺序数据。

(2)制作频数分布表,如表3-2所示。

表3-2 服务质量等级评价的频数分布

(3)绘制评价等级的条形图,如图3-1所示。

图3-1 评价等级的条形图

(4)绘制评价等级的帕累托图,如图3-2所示。

图3-2 评价等级的帕累托图

2.某行业管理局所属40个企业2002年的产品销售收入数据,如表3-3所示。

表3-3 40个企业2002年的产品销售收入数据 单位:万元

要求:

(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。

(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。

解:(1)编制频数分布表,如表3-4所示。

表3-4 40个企业按产品销售收入分组表

(2)按先进企业、良好企业、一般企业、落后企业进行分组(如表3-5所示)。

表3-5 某管理局下属40个企业分组表

3.某百货公司连续40天的商品销售额如表3-6所示。

表3-6 某百货公司连续40天的商品销售额 单位:万元

要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。

解:编制频数分布表,如表3-7所示。

表3-7 某百货公司日商品销售额分组表

绘制直方图,如图3-3所示。

图3-3 直方图

4.利用表3-8的数据构建茎叶图和箱线图。

表3-8

解:构建茎叶图和箱线图,如图3-4、3-5所示。

图3-4 茎叶图

图3-5 箱线图

5.为了确定灯泡的使用寿命,在一批灯泡中随机抽取100个进行测试,所得结果如表3-9所示。

表3-9 灯泡使用寿命 单位:小时

要求:

(1)利用计算机对上面的数据进行排序。

(2)以组距为10进行等距分组,整理成频数分布表。

(3)根据分组数据绘制直方图,说明数据分布的特点。

(4)制作茎叶图,并与直方图作比较。

解:(1)利用Excel排序后的结果,如表3-10所示。

表3-10 100只灯泡使用寿命的排序

(2)编制频数分布表,如表3-11所示。

表3-11 100只灯泡使用寿命的频数分布

(3)绘制灯泡使用寿命分布的直方图,如图3-6所示。

图3-6 灯泡使用寿命分布的直方图

(4)构建灯泡使用寿命分布的茎叶图,如图3-7所示。

图3-7 灯泡使用寿命分布的茎叶图

从灯泡使用寿命分布的直方图和茎叶图可以看出,灯泡使用寿命基本上是对称分布的。直方图和茎叶图所反映的分布特征是一致的,但茎叶图的好处是保留了原始数据的信息。

6.一种袋装食品用生产线自动装填。每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。下面是随机抽取的100袋食品,测得的重量数据如表3-12所示。

表3-12 食品重量 单位:g

要求:

(1)构建这些数据的频数分布表。

(2)绘制频数分布的直方图。

(3)说明数据分布的特征。

答:(1)构建食品重量的频数分布表,如表3-13所示。

表3-13 食品重量的频数分布表

(2)绘制食品重量的频数分布的直方图,如图3-8所示。

图3-8

(3)从直方图可以看出,食品重量的分布基本上是对称分布。

7.表3-14是一种金属零件重量的误差数据。

表3-14 单位:g

要求:

(1)以10为组距构建零件重量误差的频数分布表。

(2)绘制直方图,说明零件重量误差分布的特征。

解:(1)构建频数分布表,如表3-15所示。

表3-15

(2)绘制直方图,如图3-9所示。

图3-9

从直方图可以看出,零件重量误差的分布基本上是对称的。

8.表3-16是北方某城市1—2月份各天气温的记录数据。

表3-16 北方某城市1—2月份各天气温数据 单位:°C

要求:

(1)指出上面的数据属于什么类型。

(2)对上面的数据进行适当的分组。

(3)绘制直方图,说明该城市气温分布的特点。

解:(1)属于数值型数据。

(2)将数据用5作为组距进行分组,得到频数分布表,如表3-17所示。

表3-17 频数分布表

(3)根据表3-17绘制的直方图,如图3-10所示。

图3-10 北方某城市1—2月份各天气温直方图

从直方图可以看出,该城市l~2月份气温的分布基本上是对称的,温度在—10℃~—5℃之间的天数最多。

9.表3-18是某考试管理中心对2005年参加成人自学考试的12000名学生的年龄分组数据。

表3-18

要求:

(1)对这个年龄分布作直方图。

(2)从直方图分析成人自学考试人员年龄分布的特点。

解:(1)绘制成人自学考试年龄分布的直方图,如图3-11所示。

图3-11

(2)从直方图可以清楚地看出,成人自学考试人员年龄的分布为右偏,也就是年龄在20~24岁的人占绝大比例,而年龄在40岁以上的人所占的比例很小。

10.下面是A,B两个班学生的数学考试成绩数据:

A班

B班

要求:

(1)将两个班的考试成绩用一个公共的茎制成茎叶图。

(2)比较两个班考试成绩分布的特点。

答:(1)构建两个班考试成绩的茎叶图,如图3-12所示。

图3-12 两个班考试成绩的茎叶图

(2)从茎叶图可以看出,A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。

11.对表3-19的数据绘制散点图。

表3-19

解:绘制散点图,如图3-13所示。

图3-13 散点图

12.甲乙两个班各有40名学生,期末统计学考试成绩的分布如表3-20所示。

表3-20 甲乙两班期末统计学考试成绩

要求:

(1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。

(2)比较两个班考试成绩分布的特点。

(3)画出雷达图,比较两个班考试成绩的分布是否相似。

解:(1)绘制对比条形图,如图3-14所示。

图3-14 甲乙两班期末统计学考试成绩条形图

绘制环形图,如图3-15所示(内环为甲班的成绩)。

图3-15 甲乙两班期末统计学考试成绩环形图

(2)对比条形图可以看出,甲班考试成绩在中等水平的人数较多,而优秀和良好的人数则较少,不及格的人数也比乙班要多。乙班则不同,考试成绩为优秀和良好的人数较多,而中等以下的人数则较少。这说明乙班学生的平均成绩比甲班要好。从环形图的百分比中也可以清楚地看出这一点。

(3)绘制两个班考试成绩的雷达图,如图3-16所示。

图3-16 甲乙两班期末统计学考试成绩雷达图

从雷达图的形状可以看出,两个班考试成绩没有相似性。

13.2005年4月北京亚运村汽车交易市场的汽车销售数据,如表3-21所示。

表3-21 汽车销售量 单位:辆

要求:

(1)画出国产汽车和进口汽车销售量的对比条形图。

(2)画出国产汽车和进口汽车销售量的环形图。

解:(1)绘制国产车和进口车销售量的对比条形图,如图3-17所示。

图3-17 国产车和进口车销售量的对比条形图

(2)绘制国产车和进口车销售量的环形图,如图3-18所示。

图3-18 国产车和进口车销售量的环形图

14.已知1995~2004年我国的国内生产总值数据,如表3-22所示(按当年价格计算)。

表3-22 我国的国内生产总值 单位:亿元

要求:

(1)用Excel绘制国内生产总值的线图。

(2)绘制第一、二、三产业国内生产总值的线图。

(3)根据2004年的国内生产总值及其构成数据绘制饼图。

解:(1)绘制国内生产总值的线图,如图3-19所示。

图3-19 国内生产总值的线图

(2)绘制第一、二、三产业国内生产总值的线图,如图3-20所示。

图3-20 第一、二、三产业国内生产总值的线图

(3)绘制2004年国内生产总值构成的饼图,如图3-21所示。

图3-21 2004年国内生产总值构成的饼图

15.1997年我国几个主要城市各月份的平均相对湿度数据如表3-23所示。试绘制箱线图,并分析各城市平均相对湿度的分布特征。

表3-23 1997年我国几个主要城市各月份的平均相对湿度

资料来源:《中国统计年鉴1998》,10页,北京,中国统计出版社,1998。

解:绘制各城市各月份的平均相对湿度的箱线图,如图3-22所示。

图3-22 各城市相对湿度箱线图

从箱线图可以看出,各城市的月平均相对湿度有较大差异。离散程度较大的城市主要是北京和长春(箱子较大);离散程度较小的是成都、广州和武汉(箱子较小);相对湿度最大的城市主要有成都、广州、南京和武汉(中位数较大);相对湿度最小的城市是兰州(中位数较小);相对湿度分布比较对称的城市主要是北京、武汉、广州和兰州等(中位数大体上在箱子中间,最大值和最小值与箱子的距离大体相等);相对湿度不对称的城市主要有南京、郑州等;相对湿度存在极值的城市主要是长春和西安。

3.3 典型习题详解

一、单项选择题

1.饼图的主要用途是( )。

A.反映一个样本或总体的结构

B.比较多个总体的构成

C.反映一组数据的分布

D.比较多个样本的相似性

【答案】A

【解析】饼图是用圆形及圆内扇形的角度来表示数值大小的图形。它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。

2.某公司共有员工80人,其构成的饼图如图3-23所示,则中级管理人员数为( )人。

图3-23 公司结构构成图

A.4

B.8

C.14

D.54

【答案】B

【解析】职工总数为80人,中级管理人员占10%,其人数为80×10%=8。

3.样本或总体中各不同类别数值之间的比值称为( )。

A.频数

B.频率

C.比例

D.比率

【答案】D

【解析】比例是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构;比率是样本(或总体)中各不同类别数值之间的比值。比率可以是一个样本(或总体)中各不同部分的数量对比。

4.下列各项中,适合于比较研究两个或多个样本或总体的结构性问题的是( )。

A.环形图

B.饼图

C.直方图

D.茎叶图

【答案】A

【解析】环形图可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。因此,环形图可显示多个样本或总体各部分所占的相应比例。

5.在连续变量或变量值较多的情况下,通常采用的分组方法是( )。

A.单变量值分组

B.组距分组

C.等距分组

D.连续分组

【答案】B

【解析】在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。

6.对数据进行分组时,采用等距分组还是不等距分组,取决于( )。

A.变量值的多少

B.次数的多少

C.研究现象的特点

D.组数的多少

【答案】C

【解析】在组距分组时,如果各组的组距相等,则称为等距分组;如果各组的组距不相等,则称为不等距分组。有时,对于某些特殊现象或为了特定研究的需要,也可以采用不等距分组。

7.组距数列中每组上限是指( )。

A.每组的最小值

B.每组的最大值

C.每组的中点数值

D.每组的起点数值

【答案】B

【解析】组限是指数列中每个分组两端表示各组界限的变量值。每组有两个组限:数值最小的为组的下限;数值最大的为组的上限。

8.在坐标轴中,横轴刻度表示直方图的( )。

A.频数

B.组中值

C.组距

D.组限

【答案】C

【解析】直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。绘制该图时,在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率。这样,各组与相应的频数就形成了一个矩形,即直方图。

9.各组的组中值代表组变量值的( )。

A.一般水平

B.最高水平

C.最低水平

D.随机水平

【答案】A

【解析】组中值是指组距数列每组下限与上限之间中点位置上的数值,近似地代替每组变量值的一般水平。

10.某同学统计学考试成绩为80分,应将其计入( )。

A.成绩为80分以下人数中

B.成绩为70~80分的人数中

C.成绩为80~90分的人数中

D.根据具体情况来具体确定

【答案】C

【解析】采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现。为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。按照“不重”原则,该同学统计学考试成绩为80分应计入成绩为80~90分的人数中。

11.在编制组距数列时,当资料中存在少数特大和特小的变量值时,宜采用( )形式处理。

A.开口组

B.等距

C.闭口组

D.不等距

【答案】A

【解析】在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。开口组通常以相邻组的组距作为其组距。

12.组距、组限和组中值之间的关系是( )。

A.组距=(上限-下限)÷2

B.组中值=(上限+下限)÷2

C.组中值=(上限-下限)-2

D.组限=组中值÷2

【答案】B

【解析】组距是一个组的上限与下限的差。它可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。

13.对于大批量的数据,最适合于描述其分布的图形是( )。

A.环形图

B.茎叶图

C.直方图

D.饼图

【答案】C

【解析】直方图通常适用于大批量数据,ABD三项通常适用于小批量数据。

14.下列关于茎叶图的说法,错误的是( )。

A.茎叶图保留了原始数据的信息

B.对于大批量的数据最适合采用茎叶图

C.对于小批量的数据最适合采用茎叶图

D.对于未分组数据可采用茎叶图

【答案】B

【解析】茎叶图是反映原始数据分布的图形。它由“茎”和“叶”两部分构成,其图形是由数字组成的,它类似于横置的直方图。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

15.为描述身高与体重之间是否有某种关系,适合采用的图形是( )。

A.雷达图

B.气泡图

C.散点图

D.箱线图

【答案】C

【解析】散点图是用二维坐标展示两个变量之间关系的一种图形。题中只有两个变量,即身高和体重,因此可用散点图来描述。A项是显示多个变量的常用图示方法;B项是展示三个变量之间的关系的图示方法;D项是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的。

16.为了研究多个不同变量在不同样本间的相似性,适合采用的图形是( )。

A.环形图

B.茎叶图

C.雷达图

D.箱线图

【答案】C

【解析】雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。雷达图也可以研究多个样本之间的相似程度。

17.5家公司的月销售额(万元)数据分别为:29,26,25,23,23。下列哪种图形不宜用于描述这些数据?( )

A.茎叶图

B.散点图

C.条形图

D.饼图

【答案】B

【解析】散点图是展示两个变量之间关系的一种图形,而本题中只有一个变量即月销售额数据。

18.图3-24是描述一组数据的一个图形,这个图是( )。

A.饼图

B.直方图

C.散点图

D.茎叶图

图3-24

【答案】D

【解析】茎叶图由“茎”和“叶”两部分组成,其图形是由数字组成的。19.与直方图相比,茎叶图( )。

A.没保留原始数据的信息

B.更适合描述分类数据

C.不能有效展示数据的分布

D.保留了原始数据的信息

【答案】D

【解析】茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。茎叶图适合描述未分组数据。

20.下列图形中,适合描述顺序数据的是( )。

A.直方图

B.茎叶图

C.环形图

D.箱线图

【答案】C

【解析】顺序数据的图示方法有累积频数分布图和环形图。ABD三项适合描述数值型数据。

21.将某企业职工的月收入依次分为2000元以下、2000元~3000元、3000元~4000元、4000元~5000元、5000元以上几个组。第一组的组中值近似为( )。

A.1000

B.1500

C.2000

D.2500

【答案】B

【解析】组中值是上限和下限之间的中点数值,它是代表各组标志值一般水平的数值。对于开口组的组距和组中值的确定,一般以其邻近组的组距为准。所以第一组的组中值=上限-邻组组距/2=2000-1000/2=1500。

22.某连续变量的分组中,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为( )。

A.185

B.215

C.230

D.260

【答案】C

【解析】缺上限的最大组的组中值=最大组的上限+相邻组的组距/2。题知,末组相邻组的上限即为末组的下限值200,相邻组的组距/2=200-170=30。所以,末组的组中值=200+30=230。

23.直方图与条形图的区别之一是( )。

A.条形图的各矩形通常是连续排列的,而直方图则是分开排列的

B.直方图的各矩形通常是连续排列的,而条形图则是分开排列的

C.直方图主要用于描述分类数据,条形图则主要用于描述数值型数据

D.直方图主要用于描述各类别数据的多少,条形图则主要用于描述数据的分布

【答案】B

【解析】直方图与条形图的区别包括:①条形图是用条形的长度表示各类别的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距;②直方图的各矩形通常是连续排列,而条形图是分开排列;③条形图主要是用于展示分类数据,直方图主要用于展示数值型数据。

24.统计表的行标题表示各组的名称,一般应写在统计表的( )。

A.上方

B.左方

C.右方

D.均可以

【答案】B

【解析】统计表一般由四个主要部分组成,即表头、行标题、列标题和数据资料。表头应放在表的上方;行标题和列标题通常安排在统计表的第一列和第一行;表的其余部分是具体的数据资料。

25.填写统计表时,当发生某项不应有数字时,应用( )符号表示。

A.0

B.-

C.×

D.…

【答案】B

【解析】统计表中同一栏数字应对准位数,要有统一的精确度。如果缺少某项数字时,用符号“…”表示;当不存在某项数字时,用符号“-”表示。

二、多项选择题

1.在组距数列中,组距大小与( )。

A.全距的大小成正比

B.全距的大小成反比

C.只与全距大小有关

D.组数多少成正比

E.组数多少成反比

【答案】AE

【解析】组距=(最大值-最小值)/组数=全距/组数,因此组距大小与全距的大小成正比,与组数多少成反比。

2.在组距数列中,组中值( )。

A.是上限与下限的中间的值

B.在开口组中可参照相邻组来确定

C.在开口组中无法计算

D.是用来代表各组标志值的一般水平

E.就是组平均数

【答案】ABD

【解析】在开口组中,组中值可以计算,其公式为:首组的组中值=首组的上限—邻组的组距/2;末组的组中值=末组的下限+邻组的组距/2。组中值是上限与下限的中间的值,不是组平均数。

3.从形式上看,统计表由( )组成。

A.表头

B.行标题

C.列标题

D.数字资料

E.宾词

【答案】ABCD

【解析】统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料,此外,必要时可以在统计表的下方加上表外附加。

4.下列各项中,不适合描述分类数据的有( )。

A.条形图

B.饼图

C.帕累托图

D.茎叶图

E.箱线图

【答案】DE

【解析】对于分组数据的直方图和未分组数据的茎叶图、箱线图,这些图示方法并不适用于分类数据和顺序数据,而主要用于描述数值型数据。

5.下列关于数据分组的说法,正确的有( )。

A.数据分组的组数一般与数据本身的特点及数据的多少有关

B.对于数据分组的组数并没有什么要求,可以任意分组

C.一般情况下,一组数据所分的组数不应少于5组且不多于15组

D.如果组数太少,数据的分布就会过于集中

E.一般情况下,一组数据所分的组数应大于10组

【答案】ACD

【解析】组数一般与数据自身的特点及数据的多少有关。由于分组的目的之一是观察数据分布的特征,因此组数的多少应适中。组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这些都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数不应少于5组且不多于15组,即5≤K≤15。

6.对于分组数据的组中值的计算方法有( )。

A.闭口组组中值=(上限+下限)/2

B.开口组末组组中值=下限+上限/2

C.开口组首组组中值=上限-下限/2

D.开口组首组组中值=上限-邻组组距/2

E.开口组末组组中值=下限+邻组组距/2

【答案】ADE

【解析】组中值,各组的上限和下限之间的中点叫组中值。组中值的计算方法是:

组中值=(上限十下限)/2

开口组的组中值计算方式是:

首组的组中值=最小组的上限-相邻组的组距/2

末组的组中值=最大组的下限+相邻组的组距/2

组中值代表着各组内变量值的一般水平,是各组变量值的代表值。

7.一张好的图形应具有的特征是( )。

A.显示数据

B.避免歪曲

C.强调数据之间的比较

D.应当是多维的

E.有对图形的统计和文字说明

【答案】ABCE

【解析】一张好的图形应具有以下基本特征:①显示数据;②让读者把注意力集中在图形的内容上,而不是制作图形的程序上;③避免歪曲;④强调数据之间的比较;⑤服务于一个明确的目的;⑥有对图形的统计描述和文字说明。

三、简答题

1.简述直方图和茎叶图的区别。

答:(1)直方图虽然能很好地显示数据的分布,但不能保留原始的数值;茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。

(2)在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

2.在等距数列中,组距和组数具有什么关系?如何计算组中值?

答:等距数列由于各组组距相等,因此,组距=全距÷组数。组中值用来反映各组实际变量值的一般水平,即取各组变量变化的中间值。

组中值=(上限+下限)÷2

实际中,对于开口组的组中值,一般是用相邻组的组距作为开口组的组距,因而其组中值的计算公式为:

对于缺上限的开口组:组中值=下限+邻组组距/2

对于缺下限的开口组:组中值=上限-邻组组距/2

四、计算题

1.某家商场为了了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。其学历表示为:1:初中,2:高中或中专,3:大专,4:本科及以上。调查结果如表3-24所示。

表3-24

(1)上表中的数据属于什么类型?

(2)制作一张频数分布表。

(3)绘制一张条形图,反映顾客的学历分布。

解:(1)表中的数据属于顺序数据。

(2)制作频数分布表,如表3-25所示。

表3-25 频数分布表

(3)绘制条形图,如图3-25所示。

图3-25 条形图

2.已知一组15名工人的资料,如表3-26所示。

表3-26 工人资料

要求:

(1)按照性别、文化程度和技术级别分别对数据进行分组。

(2)以组距为10岁、20岁以下、60岁以上各为一组,编制频数分布表。

解:(1)按照性别进行分组,如表3-27所示。

表3-27

按照文化程度进行分组,如表3-28所示。

表3-28

按技术等级进行分组,如表3-29所示。

表3-29

(2)编制频数分布表,如表3-30所示。

表3-30

3.抽样调查某地区50户居民的月消费品支出额数据资料,如表3-31所示(单位:元)。

表3-31

要求:

(1)试根据上述资料编制频数分布表。

(2)编制向上和向下累积频数、频率分布表。

解:(1)编制次数分布和频率分布表,如表3-32所示。

表3-32 居民户月消费品支出额频数分布和频率分布表

(2)编制向上累积和向下累积频数以及频率分布表,如表3-33、3-34所示。

表3-33 居民户月消费品支出额向上累积表

表3-34 居民户月消费品支出额向下累积表

4.抽样调查某省50户城镇居民平均每人全年可支配收入资料,如表3-35所示。

表3-35 居民年人均可支配收入 单位:百元

要求:

(1)试根据上述资料编制频数分布表;

(2)根据所编制的频数分布表绘制直方图。

解:(1)由题中数据可得频数分布表,如表3-36所示。

表3-36 频数分布表

(2)利用Excel可绘制直方图,如图3-26所示。

图3-26 直方图

5.某旅游公司接待来自美国的旅行团共44人,准备向每位成员赠送一件文化衫,其尺寸有大、中、小三种,成员体重的数据如下(单位:磅):

103 175 118 95 159 99 128 119 160 126 159

169 155 88 173 94 159 127 88 108 144 154

108 139 173 184 105 113 95 148 103 163 96

162 154 82 103 79 141 142 135 182 90 1l2

(1)构造此组数据的茎叶图。

(2)说明该图的特点。

解:(1)此组数据从小到大排序如下:

79 82 88 88 90 94 95 95 96 99 103 103

103 105 108 108 112 113 118 119 126 127 128 135

139 141 142 144 148 154 154 155 159 159 159 160

162 163 169 173 173 175 182 184

构建茎叶图,如图3-27示。

图3-27 茎叶图

(2)此图特点既保留了所有的原始数据,又直观地显示了数据的分布,首位是1的三位数多于首位是0的两位数。

6.某公司招收推销员,要测定男女推销员的推销能力是否有差别,便随机抽选了8人,经过一段时间的销售测试,取得数据如表3-37所示。

表3-37

比较男女推销员销售额数据的分布,并用描述数据集中趋势的测度值说明男女推销员销售额的差异。

解:由已知得到男女销售额的箱线图如图3-28所示。

图3-28 男女销售额箱线图

箱线图中的横线代表的是中位数,上下边框分别为上下四分位数,上下横线为极端值。经计算男女推销员销售额的均值和中位数如表3-38所示。由此可知,整体上女推销员的销售额略高于男推销员。

表3-38