该模型考虑了第一次作答对修改阶段参数的影响,并通过精确的数学公式来诊断被试是否作弊,与前面所提到的方法相比是一个创新。然而条件概率模型中的每个题目都有两种参数:一是正确作答的参数,二是错误作答的参数。该模型能否有效应用取决于这两种参数的获得,从建立题库的角度来看要估计这两类参数还是一个很大的挑战。首先在建立题库的参数估计阶段就要投入更大的成本,每个题目都要收集足够多的正确和错误作答的实测数据,也就是说要有比传统CAT更多的实测样本来估计参数。而且对于少数题目来说可能绝大部分人都答对了或者答错了,那么这些少数题目就要再找一批被试来估计,直到收集到足够的答对和答错的样本数据为止。在得到题目参数以后如何进行等值分析也是需要解决的一个问题,另外在题库的动态维护方面该模型也需要投入更多的成本来实现。
除了题库的建设方面面临较大的问题之外,该模型的建立还要满足严格的假设条件,在真实的RCAT中能否满足也有待进一步的研究。
从应用的角度来看,该模型只具有诊断被试是否作弊的功能,诊断出之后要想消除作弊带来的不良影响还要投入更多的成本,也就是说该模型并不能在过程中达到限制被试作弊的效果。当然在测验过程中也不能弥补由于修改题目引起的“人题”不匹配的误差。
(三)综合评分模型
纵观以上RCAT的研究发现,研究者在估计被试能力时仅考虑了修改后的答案,并没有考虑修改前的答案。陈平和丁树良(2008)认为RCAT中应该把被试修改前后的作答信息综合起来考虑,然后再来估计被试的真实能力。据此,陈平等基于3PLM提出了一种新的综合评分模型,公式如下:
被试第一次正确作答给Beta(0≤Beta≤1)分,第二次正确作答给(1-Beta)分。Uaj表示被试a在第j个题目的第一次作答反应,Ua,j+m表示被试a在第j题目上修改后的作答反应(Uaj∈{0,1},Ua,j+m∈{0,1},j=1,2,…,m),Vaj表示两次作答的综合得分。通过模拟研究发现:当Beta=0时,即只考虑被试修改后的结果,实验误差达到了最大。当Beta=1时,即只考虑被试第一次作答结果,实验误差达到了次大值。只有当Beta=0。5时,也即综合考虑两次作答结果,并分别赋予0。5的权重时实验误差为最小。
另外,将新的评分模型运用到对抗Wainer策略中,结果发现能力估计值与真值存在很大的误差,并且随着能力的增加误差也在增大。如果综合考虑EAP和MLE能力估计值,并分别赋予0。4和0。6的权重后求和得到的能力估计值,在一定程度上对抗了Wainer策略的影响。
已有的关于RCAT的研究者只关注了修改后的结果,并没有考虑第一次作答结果。该模型记录了两次作答结果,并在能力估计阶段利用了两次作答的信息,一来反映被试的认知转变过程,并为主试提供更多的信息,二来一定范围内降低了能力估计的误差。
然而模型的模拟阶段采用了传统二级评分方法(答对得1分,答错得0分),意味着所有被试在修改阶段改对一个题目后只能得到0。5分,改错不得分。在实际应用中可能会造成测验的不公平,假设某个被试完全有能力答对某一题,但由于紧张、误读等意外因素而答错了,最后改为正确之后该题只得到0。5分,而实际上被试的真实水平是得满分。反之,如果一个被试完全不知道答案的情况下却在修改阶段猜对了,也会得到0。5分。换句话说,不管被试有多大把握答对某一题(自适应阶段答错了,修改阶段改为正确),最终该题的得分都是0。5分。在实际应用中被试也可能无法理解改对了却只能得一半分数这样的做法。
因此,综合评分模型通过模拟实验得到的0。5的权重是不是最优的?在确定最优权重方面是不是可以考虑因人而异的设置?例如,将每个被试答对的真实概率作为权重,修改之后的综合得分用真实概率乘题目满分来计算最后得分。最优权重的确定这一问题有待未来做进一步的研究。
另外,综合评分模型并没有对“人题”不匹配引起的误差进行有效的弥补,模拟实验结果也发现在对抗Wainer策略方面的效果不理想。
四、总结与展望
(一)总结
CAT以其高效准确测量被试能力水平而逐渐得到广泛的应用,然而,不允许修改答案的CAT对于已经习惯传统纸笔测验的大众而言是一个难以接受的选择。研究发现允许被试修改答案的CAT提高了能力估计的准确性,并降低了被试测试的紧张及焦虑程度。同时可修改答案也会给CAT带来很大的影响,涉及CAT的各个方面,甚至对于不同的测验内容、测验长度,RCAT造成的影响也可能不同。因此,无论是实验室的模拟研究还是实际中的应用,必须要全面考虑到RCAT的一系列不利因素,权衡各方面因素的影响来找到最优解决方案。
国内外学者已经在这方面做出了初步的探索和研究,这些研究对RCAT的应用与推广具有重要的意义。纵观这些已有的RCAT的控制方法各有优缺点,仍有进一步改善的空间。表7-2-1、表7-2-2和表7-2-3更为直观、全面地简述了目前国内外研究中RCAT的各种控制方法的特点及其优劣,供读者参考。
表7-2-1RCAT测验设计方法及其优缺点
表7-2-2RCAT选题策略及其优缺点
表7-2-3RCAT模型及其优缺点
(二)展望
目前有关RCAT这方面的研究并不多,本文在已有研究的基础上对未来的研究提出几点展望。
第一,未来研究需采用MonteCarlo模拟研究及实证研究综合比较以上RCAT设计、选题策略、计量模型的效果及特点,为实际应用者在RCAT的设计方案、选题策略及模型选用上提供参考及支持。
第二,vanderLinden和Jeon(2012)提出被试两次作答的题目参数应该不同,基于此提出了条件概率模型。研究结果发现修改阶段的题目难度和区分度参数都高于第一阶段,其中难度参数的差异程度要大于区分度参数。但是其余模型和方法都假设:在修改阶段题目参数并未改变。然而修改情境可能会使题目参数发生改变。那么假设两次作答题目参数在可能改变的情况下,如何在未来的研究中兼顾这点值得关注。
第三,CAT大致可分为定长CAT和变长CAT,前者固定的测验长度不利于使所有被试水平都得到恰当的估计,或者一些被试得到恰当估计能力水平后还需额外作答题目,所以在部分测验的实际应用中并不理想。变长CAT可以克服以上缺点,本文所述的RCAT的控制方法都是在定长CAT中所进行的研究,这些方法在变长CAT中的效果能否产生同样的效果?如果不能应该做出怎么样的调整?例如,重新安排题目顺序方法的一个较大的缺陷:最后参与能力估计的题目过少导致额外的估计误差。那么在变长CAT中这种缺陷导致的误差可能就会降低。
第四,现有的有关RCAT的方法都有各自的优点和缺陷,如何在应用中将这些方法有机结合起来,取长补短?例如,逻辑斯蒂克4参数模型和IP方法结合起来使用,前者的失误参数对能力估计精度的偏差进行一定的修正,后者能够降低“人题”不匹配的误差。逻辑斯蒂克4参数模型和SIIS选题策略结合使用,这两种方法分别从模型和选题角度对能力估计产生的误差进行了修正。
再如,也可以试着将条件概率模型和综合评分模型结合在一起,通过条件概率模型计算被试修改答对的概率,然后把答对概率作为综合评分模型中的第二次作答的权重,这样就可以计算得到被试最终在修改题目的期望得分。综合评分模型在对抗“Wainer”策略的效果不理想,但是RCAT测验设计中的方法可以有效对抗“Wainer”策略。因而,未来的研究者可以考虑这些方法的两两结合甚至两个以上结合。事实上前文所述的有关RCAT的控制方法,很多都可以视具体的研究内容相互融合使用。未来的研究者可以朝着这个方向开展研究。
第五,CD-CAT在CAT的基础上发展而来,同时赋予传统CAT新的功效——认知诊断(涂冬波,蔡艳,戴海琦,漆树青,2008)。同样地,CD-CAT测验因不允许被试修改答案,也面临着和传统CAT同样的困境。CAT注重测验的结果,对测验分数背后隐藏的内部心理加工过程、加工技能、认知结构等无法提供进一步的信息。CD-CAT主要在于对被试的知识掌握状态进行诊断,帮助被试有针对性地做出补救,所以被试在作答过程中并没有必要使用CAT中的“作弊”策略,并且被试要想通过“作弊”策略来获得高分或正偏能力估计值的机会不大(Vispoel,Rog&Bleiler,1999;Davey&Faa,Ximénez&Abad,2000)。因此,未来的研究者对可修改答案CD-CAT进行研究的时候,借鉴RCAT的方法的同时可以适当减少对于“作弊”策略的考虑。
思考题:
1。与CAT相比,RCAT有什么优势与不足?
2。目前RCAT常用的测验测试设计方法有哪些?
3。RCAT选题策略有哪些及其特点如何?
4。基于模型视角的RCAT中有哪些模型?