第5章 相关关系
1解释相关系数时应注意什么?
答:(1)相关系数是一个指标值,它表示两个变量之间的关系程度。只能说绝对值大者比绝对值小者相关更密切一些,不能进行四则运算。
(2)相关系数值的大小表明了两列测量数据相互间的相关程度。符号的不同只是表示方向的不同。
(3)相关关系不是因果关系,发现相关关系也并不是确定因果关系。相关值较大的两类事物之间,不一定存在因果关系,这一点要从事物的本质方面进行分析,绝不可简单化。
(4)如果研究表明某一变量确实对欲探讨的两个变量之间存在影响,则可以用协变量分析方法设法排除或控制那些变量的影响效应,找出要研究的变量之间真正的相关关系。如果两变量是线性关系,则可以用偏相关和部分相关进行控制,表示两个变量间纯净的相关度。
2假设两变量为线性关系,计算下列各种情况的相关时,应用什么方法?
(1)两列变量是等距或等比的数据且均为正态分布;
(2)两列变量是等距或等比的数据但不为正态分布;
(3)一变量为正态等距变量,另一列变量也为正态变量,但人为分为两类;
(4)一变量为正态等距变量,另一列变量也为正态变量,但人为分为多类;
(5)一变量为正态等距变量,另一列变量为二分名义变量;
(6)两变量均以等级表示。
答:(1)积差相关法;
(2)斯皮尔曼等级相关法;
(3)二列相关法;
(4)肯德尔W系数;
(5)点二列相关法;
(6)肯德尔等级相关法。
3如何区分点二列相关与二列相关?
答:(1)点二列相关法就是考察两列观测值一个为连续变量(点数据),另一个为“二分”称名变量(二分型数据)之间相关程度的统计方法。
二列相关法就是考察两列观测值一个为连续变量(点数据),另一个也是连续变量不过被按照某种标准人为的划分的二分变量之间相关程度的统计方法。
(2)点二列相关与二列相关的区别
①二列相关不太常用,但有些数据只适用于这种方法。在测验中,二列相关常用于对项目区分度指标的确定。有时,某一题目实际获得的测验分数是连续性测量数据,这些分数的分布为正态,当人为地根据一定标准将其得分划分为对与错、通过与不通过两个类别时,计算该题目的区分度就要使用二列相关。如果题目的类型属于错与对这样的是非类客观选择题,计算该题目的区分度就应该选用点二列相关。
②二者之间的主要区别是二分变量是否为正态分布。总的原则是,如果不是十分明确,观测数据的分布形态是否为正态分布,这时,不管观测数据代表的是一个真正的二分变量,还是一个基于正态分布的人为二分变量,这时就用点二列相关。当确认数据分布形态为正态分布时,都应选用二列相关。只要有任何疑问,选用点二列相关总是较好的选择。在实际的研究当中,二列相关很少使用。
4品质相关有哪几种?各种品质相关的应用条件是什么?
答:(1)品质相关的种类
品质相关用于表示R×C(行×列)表的两个变量之间的关联程度。品质相关依二因素的性质及分类项目的不同,而有不同的名称和计算方法。主要有四分相关、Φ相关、列联表相关等。
(2)各种品质相关的应用条件
①四分相关适用条件
四格表的二因素都是连续的正态变量,如学习能力,身体状态等,只是人为将其按一定标准划分为两个不同的类别,如“好”与“不好”,“对”与“错”等,即一因素划分为“A”与“非A”两项,另一因素划分为“B”与“非B”两项。
②φ系数适用条件
两个变量分布都是真正的二分变量,在两个分布中间都各有一个真正的缺口。
③列联相关适用条件
当数据属于R×C表的计数资料,欲分析所研究的二因素之间的相关程度,就要应用列联相关。当双变量的测量型数据被整理成次数分布表后,也可用列联相关系数表示两变量的相关程度。
5欲考察甲乙丙丁四人对十件工艺美术品的等级评定是否具有一致性,用哪种相关方法?
答:应该用肯德尔W系数。肯德尔W系数,又称肯德尔和谐系数,是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。
6下表是平时两次考试的成绩分数,假设其分布为正态,分别用积差相关与等级相关方法计算相关系数,并回答,就这份资料用哪种相关法更恰当?
答:
(1)积差相关计算相关系数
(2)等级相关计算相关系数
7下列两变量为非正态,选用恰当的方法计算相关。
答:两列非正态的变量用斯皮尔曼等级相关求相关系数。
由于两列变量中有相同等级,因此应用相同等级计算等级相关的方法。
这两列变量的等级相关系数为0.97。
8问下表中成绩与性别是否有关?
答:设p为女生比率;q为男声比率;X(_)p为女生的平均分;X(_)q为男生的平均分;
计算p=5/10=0.5,q=1-p=0.5,X(_)p=91,X(_)q=85,st=3.8
上表中成绩与性别有很强的相关,相关系数为0.789。
9第8题的性别若是改为另一种成绩A(正态分布)的及格、不及格两类,且知1、3、5、7、9被试的成绩A为及格,2、4、6、8、10被试的成绩A为不及格,请选用适当的方法计算相关,并解释之。
答:
设st是所有学生成绩的标准差;
X(_)p为与成绩A及格对偶的成绩B的平均数;
X(_)q为与成绩A不及格对偶的成绩B的平均数;
p为及格人数在总人数中所占的比率;
q为不及格人数在总人数中所占的比率。
计算st=3.8,X(_)p=88.2,X(_)q=87.8,p=q=0.5,y=0.3989
代入公式得
故成绩A与成绩B的相关很小,成绩A的变化与成绩B的变化几乎没有关系。
10下表是某新编测验的分数与教师的评价等级,请问测验成绩与有教师评定之间是否有一致性?
答:测验分数可以看作正态分布,由于教师评定等级为四等。因此这是一个四系列相关问题。
设X(_)1为获得教师优评定的被试的平均成绩,P1为获得优的被试比例;
X(_)2为获得教师良评定的被试的平均成绩,P2为获得良的被试比例;
X(_)3为获得教师中评定的被试的平均成绩,P3为获得中的被试比例;
X(_)4为获得教师及格评定的被试的平均成绩,P4为获得及格的被试比例;
计算P1=0.32,P2=0.21,P3=0.29,P4=0.18,x(_)1=69.78,x(_)2=59.5,x(_)3=44.8,x(_)4=25,由pi查正态分布表求出对应得yL-yH。
优:下限p=0.5-p1=0.18对应正态曲线高度等于0.357;上限p=0.5对应正态曲线高度等于0。
yL-yH=0.357
良:下限p=(p1+p2)-0.5=0.03对应正态曲线高度等于0.398;上限p=0.18对应正态曲线高度等于0.357。
yL-yH=0.041
同理,中:yL-yH=-0.137,及格:yL-yH=-0.261。
故测验成绩与教师评定之间有一致性,相关系数为0.87。
11下表是9名被试评价10名著名的天文学家的等级评定结果,问这9名被试的等级评定是否具有一致性?
答:表示多列变量相关程度应该用肯德尔W系数,又称肯德尔和谐系数。
故9名被试的等级评定具有中等强度的相关,相关系数为0.48。
12将第11题的结果转化成对偶比较结果,并计算肯德尔一致性系数。
答:第11题的结果转化成对偶比较结果。转化方法是如果被试1对10位天文学家评定的等级分别是A1,B2,C3…也就是说若用对偶比较,则当A天文学家与其他天文学家比较时,都选择A,因此在A天文学家这一行都记1分;B天文学家排第二,表示当B天文学家与其他天文学家比较时除了A天文学家外都选择B天文学家,以次类推。对偶比较结果如下:
K=9
N=10
故肯德尔一致性系数为0.33。