奇书网

奇书网>托幼机构教育质量评价的中心内容是什么 > 三基于项目反应理论多侧面Rasch模型的分析28(第1页)

三基于项目反应理论多侧面Rasch模型的分析28(第1页)

三、基于项目反应理论多侧面Rasch模型的分析[28]

(一)研究目的

本研究采用多侧面Rasch模型,对28位评分员在运用《量表》进行托幼机构教育质量评价中的评分员偏差进行了分析,一来为培训评分员、修订项目、提高测评的科学性提供佐证;二来为使用项目反应理论(IRT)探讨托幼机构教育质量评价的测量学属性(psyetricproperty)拓展思路。

(二)概念框架

经典Rasch模型考虑被评价对象和评价项目两个变量对测评结果的影响。[29]多侧面Rasch模型[30]认为除这两个影响因素外,还受评分员等测评情景变量的影响。多侧面Rasch模型将这些影响因素或变量称为测量侧面。多侧面Rasch模型的一般表达式为:

Pnijk是受评者n在项目i上被评委j评定为k等的概率;

Bn是受评者n的能力参数(n=1,2,…,N);

Di是项目i的难度参数(i=1,2,…,L);

Cj是评委j的宽严程度(j=1,2,…,J);

Fk是分部评分模型(PartialCreditModel)中被试得分从k-1到k的等级难度,每个项目均有K级评分(k=1,2,…,K)。

多侧面Rasch模型提供每个测量侧面的参数估计值,估计标准误和fit值等。fit值用于描述实际测评值与模型估计值差异的统计量。具体而言,fit统计量包括infit和outfit,它们的计算公式分别为:

Z2ni表示受评者n在项目i上的标准化残差的平方;Wni为权重,其大小为项目i的方差;infit考虑了项目方差,受极端值影响小;fit值范围为(0,+∞)。如果多名评分员对受评者测评结果相差很大或是过于一致性,fit值都会呈现这种差异。实际测评时,不同评分员对同一受评者的评价意见不可能完全一致,总是会有一定的差异。MFRM认为只要这个差异在某个正常范围内即可。实际工作中,fit值具体采用哪个取值范围通常根据测评目的和需要来确定。

此外,多侧面Rasch模型还可以进行偏差分析,即估计两侧面间的交互作用是否存在显著偏离模型估计值的评分,以此来分析评分员在各侧面的评分差异问题。例如评分员与班级的偏差分析,指分析评分员与班级的交互作用是否存在显著偏离模型估计值的评分,以此来判断评分员对班级的评分差异。MFRM软件提供Z值进行判断,Z值为模型期望值与实际观测值间差异的logits值除以估计标准误。当Z的绝对值大于2时,则认为差异显著,[31]说明评价结果存在较大分歧。

多侧面Rasch模型相比CTT和GT具有一些独特的优势,比如,它可从评分员层面对评分员宽严程度、评价一致性以及各侧面间的交互作用等进行分析。[32]鉴于此,我们尝试用多侧面Rasch模型对托幼机构教育质量评价的评分员偏差进行相关分析。

(三)研究方法

1。样本

抽样幼儿园班级来自我国东部某省。采用分层抽样的方法,首先根据经济发展水平在该省抽取了6个地区(高、中、低各两个);然后分别在这6个地区的市、县、乡镇、村随机抽取幼儿园,在每个幼儿园里随机抽取两个班级,共抽取了91所幼儿园的174个班级。

2。测评工具

本研究采用的测评工具是《量表》。该《量表》采用7点式计分,包含51个项目,从空间与设施、保育、课程计划与实施、集体教学、游戏活动、语言推理、人际互动、家长与教师8个方面(子量表)对托幼机构的教育质量进行观察评价。

3。测评方法与过程

共有28名评分员对174个样本班级运用《量表》进行班级观察和评分。评分员均来自从事学前教育专业教学和研究的高校教师和研究生团队。他们都参与了《量表》的编制和修订研究工作,并且接受了严格的《量表》培训和施测练习。一般情况下,同一班级的评价在同一时间由两名评分员各自独立进行。

4。数据结构设计

托幼机构教育质量评价通常采用评分员观察测评的方法进行,它是一种多人参与的多维主观评价活动。该评价活动维度多、内容复杂(8个子量表、51个评价项目),评价历时较长(通常是对幼儿园班级一日活动进行6。5小时的观察评价),而且观测对象具有现场性和动态性等特征。评分员、评价情景、评价维度、评价项目等都将是评价误差的重要来源。[33]当前国内外仅有少量基于评价子量表或评价维度采用MFRM对托幼机构教育质量评价进行的研究[34],还没有基于测评项目展开相关探讨。考虑该评价活动的复杂性以及测评项目也是影响评价误差的重要来源,而且关于这方面的探讨又很少,本研究建构了托幼机构班级、评分员和评价项目三个侧面来分析评分员偏差,包括评分员宽严度、评分员内部一致性、评分员与评价班级、评价项目的偏差等。从项目反应理论模型MFRM的分析视角,为托幼机构教育质量评价的评价误差来源,合格评分员库的建设及评分员培训的有效性等方面,提供科学依据。

5。数据预处理和数据分析软件

本次测评共有28名评分员对174个班级进行了观察评价。在数据的初步整理中,研究者发现“安抚与独处的空间与设施”“课堂文化”“音像设备和电脑的使用”“尊重和欣赏差异”以及“教师间互动与合作”这五个项目有大量的缺失值(其中多个项目为“允许不适用”的项目或目前在我国尚不普遍的“增设项目”,因而许多班级被评为“不适用”从而导致缺失值)。因此,我们对这些项目和相关班级进行了删除处理,最后用于本研究的有效数据为28名评分员、46个项目、155个样本班级的观察测评结果。数据预处理采用SPSS软件,多侧面Rasch模型分析采用FacetsforWindows3。68。1软件包。

(四)研究结果

1。评分员宽严度及自身内部一致性结果

对28位评分员的宽严程度进行Facets估计,所得结果如表5-3所示。值越大表明评分员评分越严格;反之,其值越小则越宽松。表5-3结果显示,12号评分员最严格(-0。28),22号和24号评分员最宽松(-1。11)。估计标准误(ModelS。E)值越大说明评价越不稳定,值越小则越稳定。表中结果表明:28号评分员评价最不稳定,7号、8号评分员评价较稳定。

表5-328名评分员宽严程度与一致性结果

续表

表5-3下备注部分RMSE指估计标准误均方根,其值在0~1,越小越好;AdjS。D是校正测量误差后的估计值标准差,其平方值即真实变异量。分离指数(Separation)是AdjS。D除以RMSE的结果,它表示测评的有效性;分离信度是真实变异占测评总变异的比例,其值介于0~1,值越大说明差异越大。表中分离信度值0。91,说明各评分员宽严程度存在较大差异;卡方检验结果表明28位评分员的宽严程度存在显著性差异(χ2(27)=533。3,p<0。001)。

如前文所述,fit值用于描述实际测评值与模型估计值差异的统计量,其结果如表5-3中第六列、第七列所示。它是评分员测评稳定性的指标,用于说明就整体而言每位评分员在观察测评过程中的自身一致性程度。多侧面Rasch模型通过对fit值设定某个范围来拟合实际测评情况。有研究认为fit值介于0。5~1。5是可接受的范围,[35]也有研究认为fit值在0。8~1。2更合适。[36]fit值设定范围越窄对测评工作要求越严格,越能体现测评工作的科学性和权威性。实际工作中,fit值具体采用哪个取值范围通常根据测评目的和需要来确定。鉴于托幼机构教育质量评价的权威性和高风险性,我们选择0。8~1。2。当fit值小于0。8时,说明评分员评价过于一致,仅用少数几个评价等级来进行评分;当fit值大于1。2时,表明评分员内部一致性较差。基于infit考虑了项目方差,其值受极端值影响小,我们主要采用infit值进行考量。由表5-3可知,28位评分员的infit值均大于0。8,意味着这次测评没有自身内部过于一致的评分员。fit值大于1。2的有三位评分员:14号、18号和2号。这说明,整体而言这三位评分员的自身内部一致性较差。分析自身一致性较差的评分员测评特征,一方面可以为评分员提供有针对性的培训;另一方面也可以为《量表》的编制等提供测量学参考与建议。

热门小说推荐

最新标签