奇书网

奇书网>托幼机构教育质量的评价基本上采用的是差距评价模式 > 三基于项目反应理论多侧面Rasch模型的分析28(第2页)

三基于项目反应理论多侧面Rasch模型的分析28(第2页)

2。自身内部一致性较差的评分员分析

从上表结果可知2号、14号和18号三位评分员的fit值均大于1。2,认为这三位评分员的自身内部一致性较差。我们对这三位的非期望测评结果(uedresponses)进行了分析,如表5-4所示:MFRM软件包分析处理的非期望测评的部分结果。MFRM软件包将标准化残差绝对值大于3的均列出。

由表5-4可知,评分员2、评分员14出现非预期评分的频次相对较高。其中,评分员2的异常值出现在两个班级的三个不同项目(包括“午睡空间与设施”“活动区角”“安全”)。其中,两位评分员(评分员2和评分员18)在项目4“午睡空间与设施”上均出现非期望测评结果。该项目主要从幼儿在园午睡休息的空间、设施方面进行观察测评,之所以出现非期望值,可能是因为该项目一般是在组织幼儿午睡的环节进行观察,观察时间比较短暂;这一时间往往也是评分员即将吃午餐的时间,因此可能造成时间冲突,观察比较匆忙,甚至可能没有仔细观察午睡环境而仅凭模糊印象进行推测评分;另外,评分员经过一上午的观察测评,可能比较疲倦,也易产生测评误差。评分员14测评结果异常值出现在四个班级的四个不同项目(包括“卫生间”“如厕盥洗饮水”“角色戏剧游戏”“教师督导与评价”)。产生这些偏差的可能原因是评分员对这些项目的评价内容和概念理解不准确、观察评价时机掌握不当、评价态度不够稳定等。基于此,需要对这些评分员(尤其是评分员2和评分员14)展开相应项目的培训,以进一步掌握这些项目评价内容涉及的概念内涵、观察测评的时机与核心要点以及评分技术要领等,以便在将来的测评当中更好地把握这些项目的观察测评技术,提高观察测评的准确性与可靠性。

表5-4评分员2、评分员14和评分员18的非期望测评结果

3。评分员与班级的偏差分析

评分员与班级的偏差分析指,运用MFRM分析评分员与班级的交互作用是否存在显著偏离模型估计值的评分,以此来判断评分员对班级质量的评分差异问题。经统计,评分员与班级偏差显著的次数(26)占总的交互作用次数(362)的比率为8。02%。托幼机构教育质量评价通常由评分员在幼儿园进行为时一天(约6。5小时)的现场观察与评价。该测评活动为时长,测评内容繁多且是对动态变化现场的即时测评,这可能是影响偏差显著次数所占比率较高的重要原因之一。Z值小于-2有12次(3。7%),说明有3。7%测评结果比较宽松;Z值大于2的有14次,近4。32%的测评结果比较严格。

表5-5评分员与班级的偏差(显著)结果汇总

如表5-5所示,21号评分员发生评分显著性偏差次数比率最大(42。86%)。该评分员共评价了7个班级,发生了3次显著性偏差,偏差最大值(-3。56)是对编号64的班级评价结果。

表5-621号评分员与班级的偏差分析

从表5-6可知,评分员21对64号班级的评分低于模型期望值近4个标准差,对该班级的测评结果异常宽松;测评标准比较宽松的是对87号班级的测评。另外,该评分员对编号60的班级测评结果显示Z值大于2,这说明对60号班级的测评比较严格,评分较低。这表明21号评分员对测评项目各评价等级标准的把握还不是很稳定,主观性较强,在今后需要对这类评分员进行有针对性的补充培训与练习。类似地,可以对每位评分员与班级的偏差进行如此分析,限于篇幅,不再列举。卡方检验结果(χ2(324)=341。9,p>0。05)表明,评分员与班级的交互作用不显著。也就是说,各评分员对不同班级在评分标准把握的宽严程度上并不存在显著差异。

4。评分员与项目的偏差分析

评分员与项目的偏差分析是运用MFRM分析评分员与项目的交互作用是否存在显著偏离模型估计值的评分,以此来判断评分员对各项目的评分差异问题。如下图5-2所示为2号评分员在各项目上的评价偏差结果。该评分员的偏差项目个数最多(10个),其中偏差最大的是对第6题(环境创设与幼儿作品展示)的评价;其次是第38题(活动的指导与监护)。在这些偏差项目中,有4个项目是关于幼儿园物质环境的,如家具教学设施、活动区角、教师的空间与设施等;另6个项目是关于活动组织与评价,师幼互动,教师督导与评价等。无论是对班级物质环境创设的评价,还是对教学活动组织的评价,该评分员对部分测评项目内容的理解和等级评分技术的把握尚不够充分。在今后的正式观察测评之前,需对该类评分员在相应的项目上进行更具体深入、有针对性的培训。总体上,在1288次评分员与项目的交互作用中,有106次偏差显著,比率为8。2%。评价量表项目内容的复杂性、概念的抽象性,托幼机构教育质量观察测评的现场性、动态性、观察评价的长时间性和多人参与的多维度的复杂性,或许是偏差显著比率较高的影响因素。卡方检验结果表明,评分员与项目的交互作用显著(χ2(1344)=1906。8,p<0。001)。

图5-22号评分员与项目的偏差分析

另外,运用SPSS软件对偏差显著的项目进行了统计,结果如表5-7所示。分析结果显示第45题(教师督导与评价)显著偏差次数最多,比率最大,其次是第13题(健康)。项目45教师督导与评价,主要反映幼儿园平常对教师工作督导与评价的频率、评价的方法和反馈方式等方面的状况。仅凭评分员对班级一天的观察无法获得这些方面的信息,因而该项目主要依据对教师的访谈来获取相关信息;访谈的主观性与随意性、记忆和描述的模糊性,不同教师(幼儿园班级往往并不只有一位带班教师)反馈情况的不一致性等,都有可能对该项目评价的准确性造成影响。项目13“健康”,是从疾病预防和卫生习惯两方面进行测评。其中疾病预防主要是测评托幼机构和教师在平常所采取的措施,评分所需的信息部分来自当天的现场观察,部分需要依赖对班级教师或保育员的访谈进行评分。之所以存在较大的偏差,可能是因为评分信息来源的多样化以及这些信息之间的不一致,访谈对象的不确定性以及访谈信息的主观性和模糊性,都可能影响评分的准确性。总之,从评分员与项目交互作用的显著偏差来看,需要在部分项目上对评分员进行有针对性的增强型培训,以便在有限的时间内对这些项目进行尽可能客观准确地观察测评;同时,也需要对易于出现偏差的项目在随后的修订中加以调整,减少对访谈方法的依赖,或者改进访谈设计,便于评分员获取相对真实可靠和精确的评价依据。此外,有9个项目并不存在显著偏差,它们分别是:进餐、午睡休息、教学设计与组织、幼儿表现、美术、发展概念与推理、常规和纪律、活动指导和监护、家园沟通与合作。这些项目有些是涉及一日生活环节,比如进餐与午睡休息,相对易于观察测评。另一些项目涉及集体教学活动、区角游戏活动等。由于这部分评价项目的内容界定相对比较清晰,可操作性强;再加上评分员的专业背景,对幼儿园的集体教学活动和区域游戏活动的环境、组织方式和过程相对熟悉,日常的观摩经验比较丰富。因此,相比较而言,这部分的观察就会比较清晰,评分比较准确。

表5-7评分员与项目偏差显著的汇总

(五)讨论

托幼机构教育质量评价通常是多人参与的多维复杂评价活动,观察测评时间长、测评内容较多。《量表》的使用要求评分员全天(大约6。5小时)在幼儿园班级内进行集中精力的观察测评。由于受到疲劳程度、测评经验和专业水平等个体因素的影响,评分员是影响评分准确性的重要因素之一。本研究采用MFRM模型对评分员宽严程度、评分员内部一致性、评分员与评价班级以及评价项目的交互作用等评分员偏差进行了分析。

1。评分员宽严程度的影响

MFRM采用评分员宽严程度指标来区分评分过于严格或过于宽松的评分员。评分很宽松(或很严格)的评分员意味着班级获得高分(或低分)的可能更大。MFRM分析结果显示,28名评分员宽严程度存在显著性差异。有研究表明,评分员的个体特征,如对评价内容相关知识的熟悉性是影响评分员偏差的因素之一。[37]或许这些评分员的性格特征或行为风格(如一丝不苟还是机动灵活)、专业态度(如严谨、认真还是随意、应付)、相关学科知识的储备量是导致部分评分员评分较严或较宽松的重要影响因素。建议将来在评分员选择方面,首先考虑有相关学科知识背景的;在培训工作中,强调评价工作的专业态度和精神;在观察评价过程中,通过动态抽检,及时识别评分误差较大的评分员并分析原因,及时进行反馈调整。这些举措或许能够在一定程度上减少因评分员个体特征造成的评分过于严格或过于宽松的问题,从而提高测评的准确性。

评分员内部一致性指某评分员对其所测评的班级、项目是否采用相同的测评标准。MFRM模型fit估计值显示25位评分员的内部一致性较好,3位评分员自身内部一致性较差。MFRM软件提供的非期望反应结果显示,两位评分员在几个班级、几个项目上出现了非期望测评结果。结果表明,出现期望反应的班级没有共同的特征,项目上也没有某些共同属性,托幼机构物质环境和教育过程性的评价项目均有可能出现偏差。出现这些非期望测评结果主要还是因评分员对这些测评项目的内容理解不透彻,对复杂现场情境的评分时机或评分尺度把握不准,难以进行准确测评。依据这些分析结果,我们建议在将来的评分员培训中,对于较为抽象的内容应进一步明晰概念、增加实例和模拟测评机会,针对专业背景不同或者实际经验缺乏的评分员,应增加观察测评策略和技巧的培训,提高培训的有效性。这些分析结果也进一步表明,与经典测量理论通常采用肯德尔W系数来报告整个评分员群体的一致性不同的是,项目反应理论的MFRM模型则可以对每个评分员自身的一致性进行分析。从评分员个体层面进行评分员宽严程度分析、评分员内部一致性分析,这些是项目反应理论MFRM的独特优势,是与经典测量理论无法媲美的。

2。评分员与班级、项目的偏差

评分员与各侧面的偏差分析指评分员与各侧面的交互作用是否存在显著偏离模型估计值的评分情况。经MFRM分析显示,评分员与班级交互作用偏差显著的比率为8。02%。因目前尚未有托幼机构教育质量评价的MFRM分析,对于该比率是否偏高或偏低无法进行同类研究的考究。相比较语言、公务员面试等MFRM的分析结果,该比率偏高。[38]这可能与托幼机构教育质量评价活动较语言测试、公务员面试等测评情况具有更高的复杂性、现场性、动态性与费时性等因素有关。对于托幼机构教育质量评价而言,加强评分员培训,减少评分员测评主观性,或许是减少偏差显著比率的一项重要措施。我们对发生偏差显著较多的评分员做了进一步统计分析,结果发现21号评分员对64号班级的测评结果异常宽松,对60号班级又比较严格。发生偏差的班级并没有出现某些共同的特征。这也说明,评分员与班级的偏差不以班级特征为变量。总之,基于MFRM可以对评分员与班级的偏差进行评分员个体层面的分析。

评分员与项目的偏差分析结果显示,首先,可以在评分员个体层面上,对偏差展开分析讨论。比如2号评分员与项目的偏差比率最高,进一步分析表明,发生偏差显著的项目不仅有关于托幼机构教育质量物质环境方面的,还有教育活动实施过程方面的。这些结果显示,该评分员对这些项目的主要内容和各评分标准的理解还不是很透彻,对复杂现场的评分判断不准确,还需要在将来的测评培训当中,加强对这类评分员的针对性培训。其次,对存在偏差的项目进行统计分析发现,项目45“教师督导与评价”发生的偏差次数最多,比率最大;其次是项目13“健康”。之所以存在较高比率的偏差,可能是因为这两个项目主要采用对班级教师访谈的方式获取相关评分依据,其中部分细节信息教师也难以准确提供,导致评分员难以做出准确评价;另外,访谈的主观性、记忆和描述的模糊性都可能会对评价的准确性造成影响。这意味着,一方面要对评分员进行项目内容的针对性培训;另一方面也要对项目内容、评价指标与评分方法进行适当修订,适当减少对访谈信息的依赖,以便更易于准确地观察和测评。

3。未来研究方向

虽然本文对28位评分员此次测评的评分员宽严程度、评分员自身一致性、评分员与班级、项目各侧面间的交互作用进行了分析与探讨,但如文中所述,对造成这些宽严度不一、内部一致性差的原因是否与评分员个体特征有关,比如是否与具有学前教育或儿童发展相关专业知识背景有关等(尽管本研究中的评分员均为来自学前教育专业的研究生,但他们的本科未必是学前教育专业,因而评分员之间在学前教育专业知识背景上并不完全一致),这是我们将要进一步探讨的问题之一。对于托幼机构教育质量评价这种多人参与的多维主观现场测评活动,其交互作用的偏差比率控制在多大比较合适,以及如何从评分员层面去减少偏差比率等问题也有待于深入探究。

(六)结论

不同于经典测量理论仅能对评分员群体的一致性进行分析,项目反应理论的MFRM模型可以对评分员个体的评分偏差进行详细、具体的估计与分析。本研究采用MFRM模型对28位评分员在155个幼儿园班级、46个项目的教育质量评价中的评分员偏差进行分析。根据托幼机构教育质量评价活动特点、评价情境等建构了评分员、评价班级和评价项目三个侧面,分别对评分员的评分宽严程度、评分员内部一致性,以及评分员与评价班级、评价项目的交互作用进行了分析。研究结果表明,基于项目反应理论的MFRM模型的分析能够为托幼机构教育质量评价的评分员培训、评分员工作质量监测及合格评分员库的建立等提供科学依据,同时也为托幼机构教育质量评价的可信性、有效性和权威性等提供现代测量学依据。

[1]Cassidy,D。J。,Hestenes,L。L。,Hegde,A。,Hestenes,S。,&Mims,S。Measurementofqualityinpreschoolchildcares:Aoryandatoryfaalysisoftheearlychildhoodeingscale-revised[J]。EarlyChildhoodResearchQuarterly,2005,20(3):345-360。

[2]Perlman,M。,Zellman,G。L。,&Le,V。N。Examiningthepsyetricpropertiesoftheearlychildhoodeingscale-revised(ECERS-R)[J]。EarlyChildhoodResearchQuarterly,2004,19(3):398-412。

[3]Li,K。,Hu,B。,Pan,Y。,Qin,J。,&Fan,X。eseEarlyChildhoodEirial)(CECERS):avaliditystudy[J]。EarlyChildhoodResearchQuarterly,2014,29(3):268-282。

[4]Harms,T。,。,&Cryer,D。Earlychildhoodeingscale(RevisededitioeachersCollegePress,1998;Stipek,D。,&Byler,P。Theearlychildhoodobservationmeasure[J]。EarlyChildhoodResearchQuarterly,2004,19(3):375-397。

[5],D。,Hu,B。,Fan,X。,&Li,K。MeasurementqualityoftheeseEarlyRatingScale(iionusingmultivariategeneralizabilitytheory[J]。JournalofPsychoedualAssessment,2014,32(3):236-248。

[6]孙晓敏,张厚粲,薛刚,黎坚。多元概化理论在结构化面试中的应用研究[J]。心理科学,2009,(4);杨志明,张雷。用多元概化理论对普通话的测试[J]。心理学报,2002,(1);黎光明,张敏强。用概化理论分析高校教师教学水平评估[J]。高教发展与评估,2009,(2)。

热门小说推荐

最新标签