如前所述,运用多元概化理论的研究包括G研究和D研究。作为第一步,G研究包括设计、数据收集以及在设计情境下评估相关的方差分量。[21]一旦所有数据来源的方差分量被估算出来,这些可以用于D研究中制订未来的测评方案。在本研究中,多元概化理论的分析采用的是mGENOVA软件。[22]
表5-1给出了G研究的结果,包括《量表》8个维度(子量表)所有方差分量(对角元素)和协方差分量(即子量表之间的协方差)。每个方差分量表示在托幼机构教育质量的特定维度上不同班级“真实得分”(σc2)之间的方差估计值。[23]研究结果显示,在第一个子量表“空间与设施”上,方差分量最大;其次是子量表“保育”和“家长与教师”。而方差分量最小的子量表是“语言推理”。这些信息表明,相对而言,幼儿园班级在空间与设施质量上差异最大,但在语言推理教育质量上差异最小。
子量表之间的相关系数最低为0。65,这表明《量表》的8个质量维度之间密切相关,构成一个复杂量表的基础。评分员嵌套于班级效应的方差分量(σ2rc,e)理论上由两部分组成:一部分是评分员效应的方差分量(σ2r),它使评分员和班级之间交互作用的方差变量模糊;第二部分是残差(σ2rc,e)。在G研究中,嵌套设计(即评分员和班级的嵌套)使这两个成分相互混淆并且无法分离。
表5-1G研究方差和协方差分量估计值
续表
2。D研究结果
一旦G研究结果的方差分量是可用的,那么它同样适用于D研究中如何设计一个更好的测评方案。[24]例如,可以通过增加或减少评分员的数量、增加或减少评价项目的数量等修改测评方案。这些修改能够影响测量的可靠性,这样,可以对“最佳”测评方案进行规划。接下来,我们将从两个方面讨论结果:(1)原来的测评方案;(2)在嵌套设计中,通过改变评分员的数量形成新的测评方案。
(1)测量情境条件不变的D研究结果
表5-2显示了在用于G研究的测量情境不变的情况下D研究结果,也就是说,每个班级都由两个评分员进行评分,将评分员嵌套在班级里。在《量表》中,每个子量表(维度)的评分代表了幼儿园班级的质量水平,高分的班级质量高于低分的班级质量。正因如此,在测量信度的估算中仅仅通过考虑评分员评分排序的相对一致性是不够的,与评分员在实际评估得分中的一致性也是相关的。基于这些考虑,对于绝对决断来说,概化系数(φ)是一种适当形式的信度系数:
在上面的公式中,正如接下来要讨论的,σ2r是评分员效应的变异成分,σ2rc,e是评分员和班级之间交互效应的方差分量以及残差。但是考虑到嵌套设计,不可能把评分员效应和评分员与班级的交互作用相分离,这两个效应和残差被混淆在σ2r:c之下。对于获得绝对决断概化系数φ这一目的而言,这种混淆是没问题的,因为这两种效应已经被σ2r:c包含。
表5-2原测量情境下D研究结果
在表5-2中,每个φ系数是真值方差和总方差的比值。φ系数是每个量表的标准参照解释的信度估计系数(即“绝对决断”)。φ系数值越大,测量精度越高。[25]从表5-2中我们可以看到,当两个评分员处于一个班级时,所有子量表的最低信度为0。9172(子量表人际互动),而子量表空间与设施信度最高(φ=0。9674)。在子量表水平上,这些数值显示了较高的评分者间一致性。此外,总的φ=0。9724(表5-2中没有显示),表明整个量表有非常高的测量信度。信噪比(SN)是“真正的得分”方差(σ2c)与错误方差(σ2r:r)之比。例如,子量表课程计划与实施的SN为15。8281,这意味着“真正的分数”方差比误差方差大约15倍。
(2)测量情境条件改变的D研究结果
托幼机构教育质量的测评是一个非常艰巨、耗时的过程。为了探索更好的测评方案,我们需要考虑一系列假设的情境,也就是说,在量表使用中,评分员的数量是如何影响测量信度的。这个过程让我们在测量要求(信度等)和实际考虑(评分员数量、成本效率等)之间保持平衡。
在假设的场景中,我们为每个班级设置1~5名评分员。在D研究中,使用不同数量评分员的场景来判断评分员数量的变化对《量表》使用的信度影响。图5-1以图形方式呈现这些假设场景的结果,目的是检验使用不同数量的评分员对《量表》总体及其8个子量表的绝对测量信度估计值(φ)的影响。如图5-1所示,所有子量表的概化信度系数都在0。8以上,甚至仅使用一个评分员也如此。这表明,《量表》的信度在托幼机构教育质量评估中通常是良好的;当然,不同子量表的概化信度系数存在差异。
更多相关的模式如图5-1所示,理论上预期的信度估计随着评分员数量的增加而增加。然而,图中显示更有趣的信息是(同一个班级中)一位评分员与两位评分员之间的曲线最陡,信度水平增加幅度最大。多于两个评分员的场景中,φ系数值增加逐渐变得平缓,进一步增加评分员的数量反而导致“边际效益递减”。更具体地说,从使用一个评分员到五个评分员信度全面提高,其中从一个评分员到两个评分员,信度提高幅度约占总数的60%。在这之后,改进的百分比分别是20%(从2个到3个评分员),10%(从3个到4个评分员)和6%(从4个到5个评分员)。依据信度提升的这一模型,研究者建议,在使用《量表》进行托幼机构教育质量评价的过程中,一个班级安排两个评分员可能会被认为是兼顾测量信度和成本效率的最优测评方案(在成本可接受的情况下获得了较为理想的测量信度)。尽管使用更多的评分员可能会进一步增加测量的信度,但“边际效益递减”现象表明,一个班级安排多个(3个及以上)评分员所投入的成本过高,但信度的增加并不太多。
图5-1一个班级不同数量评分员条件下的测量信度变化
(五)讨论与启示
《量表》第一版是在借鉴国际上成熟的托幼机构教育质量评价工具的基础上,为测量中国文化背景下的托幼机构教育质量而研制的班级观察评价工具。初步的效度验证研究表明,《量表》具有良好的测量学特性。[26]本研究致力于运用多元概化理论,对《量表》的测量信度进行更进一步的检验。
在多元概化理论分析中,有几个值得注意的发现。第一,不同的子量表(如“空间与设施”与“语言推理”)在“测量目标”上的方差分量是不同的。这说明,幼儿园班级在某些维度上(如“空间与设施”)比起其他维度(如“语言推理”)质量差异更大。实质上,与其他一些维度相比,可能存在更容易被观察和评估的维度,从而导致不同程度的测量信度。例如,子量表空间与设施主要涉及对物理环境的观察测量,如室内或室外的空间、设施设备,相对容易观察和评估。这也许可以解释为什么“空间设施”子量表的信度高于“语言推理”子量表,因为各种情境和活动过程中的语言推理是评分员难以观察和评估的,从而导致相对较低的测量信度。第二,D研究结果显示“边际效益递减”的模式,这表明每个班级评分员的最佳数量可能是两个。使用两个以上的评分员将会显著增加评估工作的成本,但测量信度的增加幅度有限。
综上所述,与已有的研究结果基本一致,[27]概化理论分析的研究结果表明,基于中国文化社会环境下对托幼机构的教育质量进行测量,《量表》都显示了良好的测量信度。同时,基于不同数量评分员测量信度变化的“边际效益递减”结果模型,研究者建议每个班级安排两名评分员,这样我们可能会在测量的信度和成本效率上达到一个合理的平衡。由于多元概化理论的方法允许研究者考虑非现实的可能性,因而使用多元概化理论评估托幼机构质量观察评价工具的测量信度,是对传统的信度分析方法的突破。