第六节相关系数的选用与解释
一、如何选择合适的相关系数
选择计算相关系数的方法主要取决于要处理的数据的性质类别以及某一相关系数需要满足的假设条件。因为,不同类型的相关分析能够处理的数据类型和假设条件都各不相同。比如,皮尔逊积差相关必须满足这样几条假设:第一,数据来自成对的对子,每对分数与其他对子没有关联,相互独立;第二,两个相关的变量是连续的;第三,两变量之间的关系是直线性的。其中第三个假设最重要。这一点可以通过对相关散布图的观察而定。如果图中的分布越呈椭圆形,其关系的直线性越明显。此时,相关系数也才是一个令人满意的关系指标。比如,焦虑水平与成就之间的关系,情绪动机与解决问题效率之间的关系是一个倒置的U形曲线,这时线性方法就不适用。但这并不表明皮尔逊积差相关仅仅在满足正态分布时才能计算,它也可以变化。只要测量数据的分布形态接近于对称,并且是单峰,随着测量的变化,甚至次数分布近似长方形也是可以接受的。
总的来说,为了选择一个合适的相关系数进行相关分析,要分下面几个步骤考虑:
首先,考虑每种测量所产生的数据属于什么类别,测查被试的哪种心理属性,是分类,还是排序,还是评定等级?是否给出确定的分数?由于一种测量当中,可以包括一系列不同的测验题目类型,因此,既要注意整个测量的总结果的数据类型,而且还需要注意个别题目的测验结果的数据类型。其侧重点根据研究的问题而定。
其次,要对第一种测量数据和第二种测量数据的类型依次做出判断。是二分数据、等级数据,还是等距数据?如果测量的结果是给被试一个名称,如种族(黄色人种、白色人种、黑色人种、棕色人种),并且该测量结果只把被试区分为两个类别,那么这就是一个二分称名型变量,可用质量相关法。如果测量结果把被试区分为多个类别,就不能用质量相关计算相关系数。另外,要考虑数据的性质是等级型还是等距型。等级数据是依某种标准给被试一个排序,这种次序代表了某种属性向某一方向递增或递减的变化趋势,它并不表明相互之间的间隔有多远,如态度测验常用的程度副词“永不、很少、有时、经常、总是”之间,学业成绩中的排名次序等,等级间的排序都只是相对而言。而等距型测量会产生一系列数据值,任何两个相邻数据值的差距与其他两个相邻值的差距相互之间是可比的。
最后,确定采用哪一种相关系数。至于两个测量数据哪为标为第一,哪个标为第二,这本身没有差别。
如果处理的变量多于两列以上,都是等级型数据资料时,就要使用肯德尔等级相关分析方法。表5-17是不同数据类型及与之相适应的相关系数类型。
表5-17数据类型与相关系数类型