2.2 实例二——散点图
2.2.1 散点图的功能与意义
作为对数据进行预处理的重要工具之一,散点图(Scatter Diagram)功能深受专家、学者们的喜爱。散点图的简要定义就是点在直角坐标系平面上的分布图。研究者对数据制作散点图的主要出发点是通过绘制该图来观察某变量随另一变量变化的大致趋势,据此可以探索数据之间的关联关系,甚至选择合适的函数对数据点进行拟合。
2.2.2 相关数据来源
【例2.2】为了解某高校新入学男生的身高及体重情况,某课题组随机抽取了该校新入学的42名大一新生的身高及体重数据,如表2.2所示。试通过绘制散点图来直观地反映这些学生的身高、体重组合情况。
表2.2 某高校的42名大一新生的身高及体重
2.2.3 Stata分析过程
在用Stata进行分析之前,我们要把数据录入到Stata中。本例中有两个变量,分别是身高和体重。我们把身高变量设定为SG,把体重变量设定为TZ,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作我们在第1章中已有详细讲述。录入完成后,数据如图2.7所示。
图2.7 案例2.2数据
先做一下数据保存,然后开始展开分析,步骤如下:
进入Stata 14.0,打开相关的数据文件,弹出主界面。
在主界面的“Command”文本框中输入命令:
graph twoway scatter SG TZ
设置完毕后,按键盘上的回车键,等待输出结果。
2.2.4 结果分析
上述操作结束后,Stata 14.0将弹出如图2.8所示的散点图。
图2.8 散点图1
通过观察散点图,可以比较轻松地看出这些学生的身高及体重的组合情况。我们发现,大部分学生的身高处于170cm~180cm之间,身高与体重之间不存在明显的相关关系,很多体重差别较大的学生身高几乎无差别,同时有很多体重相近的学生之间身高差别很大。
2.2.5 案例延伸
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。但是Stata 14.0的强大之处在于,它同样提供了更加复杂的命令格式以满足用户更加个性化的需求。
1.延伸1:给图形增加标题、给坐标轴增加数值标签并设定间距、显示坐标轴的刻度
例如,我们要给图形增加标题的名称“案例2.2结果”,对X轴添加数值标签,取值为56~80,间距为2,对Y轴添加数值标签,取值为150~190,间距为10,对Y轴添加刻度,间距为5,那么操作命令就应该相应地修改为:
graph twoway scatter SG TZ, title("案例 2.2结果") xlabel(56(2)80) ylabel(150(10)190) ytick(150(5)190)
在命令窗口输入命令并按回车键进行确认,结果如图2.9所示。
图2.9 散点图2
2.延伸2:控制散点标志的形状
例如,我们要在延伸1的基础上使散点图中散点标志的形状变为实心菱形,那么操作命令就应该相应地修改为:
graph twoway scatter SG TZ, title("案例 2.2结果") xlabel(56(2)80) ylabel(150(10)190) ytick(150(5)190) msymbol(D)
在命令窗口输入命令并按回车键进行确认,结果如图2.10所示。
图2.10 散点图3
在上面的例子中,命令中的D代表的是实心菱形。散点标志的其他常用可选形状与对应命令缩写如表2.3所示。
表2.3 形状与对应命令
3.延伸3:控制散点标志的颜色
例如,我们要在延伸2的基础上进行改进,使散点标志的颜色变为黄色,那么操作命令就应该相应地修改为:
graph twoway scatter SG TZ, title("案例 2.2结果") xlabel(56(2)80) ylabel(150(10)190) ytick(150(5)190) msymbol(D) mcolor(yellow)
在命令窗口输入命令并按回车键进行确认,结果如图2.11所示。
图2.11 散点图4
更多颜色选择,请在命令窗口输入命令:
help colorstyle
然后按回车键进行确认即可选择。