奇书网

奇书网>计算机化自适应测验理论与方法免费版 > 第二节 可修改答案的计算机化自适应测验设计与方法(第2页)

第二节 可修改答案的计算机化自适应测验设计与方法(第2页)

(五)重新安排题目顺序的设计

与传统纸笔测验相比,CAT一个显著的优势就是计算机“因人而异”地选择与被试能力最匹配的题目施测,从而快速有效地估计被试的能力水平。然而,被试修改答案后会造成题目难度与被试真实能力水平不匹配,这成为RCAT的一个主要误差来源。为此,Papanastasiou(2002)提出了在被试修改答案后重新安排题目顺序的设计方法。即被试在修改某个题目之后,在能力估计阶段忽略该题之后可能与能力不匹配的题目。被试在修改阶段可能有四种修改模式,分别对应四种重新安排题目顺序模式。

1。重新安排题目顺序设计的四种模式

模式一:被试将原来错误答案修改为另一个错误答案,例如,正确答案是A,被试把答案由B改为C。这种修改方式并不会影响能力水平的估计,所以不需要重新安排题目顺序。

模式三:被试将第i题答案由正确改为错误,计算机自动选择第i+k题(1<k<4)作为下一题(第i+k题为第i题之后第一个答对的题目)。如果被试在[i+1,i+k]区间内的题目都答错了,则将第i+4题作为最后参与能力估计的题目。

2。四种重新安排题目顺序设计的评价

Papanastasiou(2002)研究发现与正常修改相比重新安排题目顺序之后平均偏差下降了15。6%,效果显著,并且重新安排题目顺序之后的信度接近0。81。虽然重新安排题目方法在能力估计偏差和信度上表现优异,但是这种结果只是模拟得到的,具体应用到实际中效果如何还需进一步研究。另外,部分作答题目不参与最后的能力估计,不仅降低了题目的利用率,而且对于被试而言可能难以理解这种方法。

为了避免最后参与被试能力估计的题目数过少,Papanastasiou提出如果已有3个以上的题目被忽略,将不再执行重新安排题目顺序的方法。因此对于部分考生而言,该方法可能只执行两次(第一次修改忽略了3个题目),还是不能有效地解决“人题”不匹配的误差。另外,遇到一些极端的情况该方法可能会导致更大的误差。例如,被试只修改了2个题目,每次修改都保留了第i+4(假设修改了第i题),这样两次修改之后就会忽略6个题目,在定长CAT中能力估计的题目数过少将会产生更大的随机误差。当然有学者认为可以在重新安排题目顺序后,再适当给被试增加测验题目,但是这样做在增加测验成本的同时,也可能给被试带来更大的压力。除此之外,该方法必须限定可修改答案的题目数,即被试并不能任意地修改题目。这也会减弱被试对测验的控制感,易引起测验焦虑。

二、基于选题策略视角的RCAT

除了从测验设计的角度来改善RCAT,也有学者从选题策略角度改善RCAT。不管是传统的CAT还是RCAT选题策略都是一个非常重要的环节,选题策略的好坏直接影响到测验的精度、信效度和测验的效率。

在已有关于RCAT的研究方面,多数研究者选择MFI作为选题的标准,即从剩余题库中选择在当前能力估计值处具有最大信息量的题目。第i题的信息量计算公式如下:

Pi(θ)是当前能力估计值θ处第i题的项目反应函数,Qi(θ)=1-Pi(θ),每次选题计算机都会按照上式计算题库中剩余题目的信息量,然后,从其中挑选出信息量最大的题目(罗芬,丁树良,王晓庆,2012)。MFI只用较少的题目就能准确地测量被试的真实能力水平,这使得MFI在传统的CAT得到了广泛的应用(毛秀珍,辛涛,2011)。然而,在传统的CAT中无须担心被试利用MFI的选题特征来使用“作弊”策略。但是在RCAT中MFI的选题优势同时也会成为其劣势,因为被试更容易通过故意答错题目来获得低于真实水平的简单题目,从而成功应用Wainer策略。

(一)SIIS选题策略

针对在RCAT中被试易通过MFI选题来作弊的情况,Davey和Fan(2000)提出特定(Speatioion,SIIS)信息选题策略,SIIS的选题步骤介绍如下:

首先,从剩余题目中选出一批题目作为下一题的备选题,这批题目的难度与被试当前能力估计值差异在一定范围之内。其次,将备选题所有题目的信息量与当前能力后验分布相结合,产生期望信息量Oi(i代表题目)。再次,将总目标信息量减去已施测题目的总信息量作为下一题的目标信息量,记为T。最后,把备选题中所有题目Oi与T比较,选择最小的(T-Oi)2作为下一题,如果选择的题目受到曝光率的限制,则选择次小的(T-Oi)2,被试每作答完一题,能力后验分布就要更新一次。

(二)SIIS选题策略的评价

首先,Bowles和Pommerich(2001)通过模拟研究发现SIIS和MFI在对抗“作弊”策略中的差异不明显。然而,可以预见的是在对抗Wainer策略方面SIIS选题策略要好于MFI,因为在MFI中被试在自适应作答阶段更容易通过故意答错来获得极简单的题目。但是在SIIS中,即使被试故意答错所有题目也不可能完全获得低于真实水平的简单题目。同样地,与MFI相比在SIIS选题策略下被试更难通过判断前后作答题目的难度来实施K策略。

其次,MFI倾向于选择区分度高的题目,这会导致题目曝光率不均匀,另外最大信息量选题方法依赖于当前能力估计值的精确性,因此在测验开始阶段MFI方法可能存在较大的偏差(毛秀珍,辛涛,2011)。SIIS选题降低了高区分度的题目过度曝光率,使题目的曝光率更均匀。

最后,MFI选题每次都要计算题库中剩余题目的信息量,从中选择具有最大信息量的题目,如果题库容量过大,每次选题都要花费一定时间,这可能会降低测验的效率。而SIIS选题只从备选题目中选择合适的题目,在一定程度上提高了测验效率。但是SIIS兼顾曝光率后所选题目与被试真实能力并不是最匹配的,因此SIIS的测量精度会略低于MFI。

三、基于模型视角的RCAT

以上研究从测验设计和选题策略两方面来实施及改善RCAT,这些研究更多的是通过外部的技术手段来达到RCAT的目的。已有研究者试着通过模型的变化来实现RCAT,目前有关RCAT的模型有逻辑斯蒂克4参数模型、条件概率模型和综合评分模型。

(一)逻辑斯蒂克4参数模型

为了降低测验初始阶段由于高能力被试不小心答错简单题目而引起的误差,Barton和Lord(1981)提出了逻辑斯蒂克4参数模型(4PLM)。4PLM是在逻辑斯蒂克3参数模型(3PLM)的基础上加以改进而来。3PLM公式如下:

其中d=1。702,θ代表被试能力值,a是题目区分度,b是题目难度,c为题目猜测系数。3PLM的一个潜在假设是:低能力被试答对高难度题目的概率为猜测系数c,高能力被试答对简单题目的概率接近1。然而这个假设并不一定成立。例如,对于一个高难度题目所考查的全部知识,一个低能力被试可能已掌握了部分。那么低能力被试答对该题目的概率就高于猜测系数c。同样地,一个高能力的被试由于紧张、误解题意、粗心等一些因素也可能答错简单题目,所以高能力被试答对简单题目的概率不总是等于1。基于此,Barton和Lord(1981)提出了4PLM。4PLM增加了上限参数Δ,其公式如下:

Yen,Ho,Liao和应用到RCAT中(简称R4PLM),并将4PLM与重新安排题目顺序方法结合起来应用于RCAT(简称RR4PLM),研究结果表明R4PLM精度高于R3PLM,而RR4PLM精度又高于R4PLM。测验效率按照达到一定精度所需要的题目数来评价,R4PLM效率高于R3PLM,在中高能力(θ≥0)水平处R4PLM效率高于RR3PLM,其中RR4PLM的效率高于其他三种方法。

高能力被试答错了本该答对的简单题目后,计算机会估计出一个低的能力值,并由此选择一个与真实能力极不匹配的题目。与3PLM相比,4PLM增加了上限参数Δ,意味着高能力被试答对简单题目概率并不是1,而是Δ,Δ依据具体测验而定,如可取0。99、0。98等。因此即使高能力被试由于疏忽答错了一个简单题目,在4PLM下估计的能力值要比3PLM更接近真实能力值。然而该实验的结果表明,R4PLM和R3PLM的能力估计精度差异并不大,甚至在高能力值处R4PLM的估计偏差要更大,也就是说4PLM对能力估计偏差的修正程度是有限的。由此可看出,若将4PLM单独应用于RCAT时,并不能有效地降低“人题”不匹配的误差。虽然Yen,Ho,Liao和(2012)通过模拟实验发现4PLM和重新安排题目顺序结合在一起,可以将能力估计精度和测验效率保持在一个可接受的范围内,但是重新安排题目顺序的方法有很大的缺陷,在应用中可能会出现“得不偿失”的后果。因此4PLM的真实有效性还需要经受更多真实数据的检验。另外,4PLM能否有效对抗“作弊”策略的影响也需要进一步的研究。

(二)条件概率模型

vanderLinden和Jeon(2012)认为修改的概率是建立在第一次作答基础上的条件概率,基于此在3PLM基础上提出了条件概率模型,该模型建立在三个前提假设基础之上:①修改阶段的猜测参数c=0,即逻辑斯蒂克2参数模型(2PLM)。②两个条件模型参数ai,bi相互独立,分别独立受到第一次作答的影响,a0i,b0i分别表示第一次错误作答后题目区分度和难度参数的估计值。③假设在两次作答中被试能力保持不变,即θ(2)n=θ(1)n。条件概率模型的公式如下:

其中n=1,2,…,n代表被试,i=1,2,…,i表示题目,θ(1)n是被试n第一次作答的能力估计值,用Pr{U(2)ni=1|U(1)ni=0}表示被试n第一次答错了第i题,修改阶段改为正确的条件概率。En表示被试n将错误答案改为正确答案的题量,服从伯努利分布,其概率计算公式如下:

n表示被试,in=1表示被试n将第i题的错误答案改为正确,Pnin=Pr{U(2)ni=1|U(1)ni=0},Qnin=1-Pnin,z是哑变量。通过假设检验来诊断被试是否在测验中使用“作弊”策略,公式如下:

a为显著性水平,e*n为a水平下的临界值。如果式(7。2。6)成立意味着被试可能使用了“作弊”策略。

vanderLinden和Jeon(2012)通过真实的实验数据研究发现,修改阶段的区分度参数和难度参数都高于第一阶段,其中难度参数的差异程度要大于区分度参数。这是因为模型假设修改阶段的猜测参数c=0,相应地项目曲线就会陡峭一点。同时难度参数变大意味着与第一次答对一个题目相比,要把错误答案改为正确的难度更大。另外,条件概率模型在模型资料拟合度检验中表现良好。

热门小说推荐

最新标签