奇书网

奇书网>计算机自适应技术 > 第二节 单维二级评分模型下的在线标定(第1页)

第二节 单维二级评分模型下的在线标定(第1页)

第二节单维二级评分模型下的在线标定

一、试测题选题法

试测题选题法决定了如何将不同的考生和测试题搭配起来。目前文献中存在的试测题选题法可归为三大类:随机选题法、以考生能力值为中心的选题法、以试测题参数值为中心的选题法。

(一)随机选题法

随机选题法的定义是:在正式的CAT过程中,当一位考生前进到某个预先指定的试测题嵌入题目位置时,计算机随机从试测题库中抽取出一道测试题呈现给考生。这个选题法是最容易执行的,并且生成的样本最具多样性和对总体的代表性。当考生总体能力值呈正态分布时,这种选题法也将会为每道试测题生成一个大致呈正态分布的样本。

然而一个潜在的问题是,在CAT中试题的难度理论上一般会呈现逐渐升高或降低的平稳轨迹,而一道随机选出的测试题可能会在周围平稳过渡的题目之中表现出明显不同的难度,而这个情况有可能会给考生带来不必要的困惑或焦虑感(Kingsbury,2009),或者也可能会使考生察觉到这是一道不计入总分的试测题,于是不努力作答,从而影响到作答数据的质量。

(二)以考生能力值为中心的选题法

以考生能力值为中心的选题法的定义为:在正式的CAT过程中,当一位考生前进到某个预先指定的试测题嵌入题目位置时,计算机采用与正式CAT的选题法相同的方法选取试测题(,Wang&g,2010;Kingsbury,2009)。由于正式CAT的选题法大多以优化考生能力值估计为目标,所以在这里我们将这种用同一方法选取试测题的设计称为以考生能力值为中心的选题法。然而正是因为这种选题以优化考生能力值估计为目标,所以它的缺点也在于,它并不是为优化试测题参数估计而设计的。

Kingbury(2009)讨论了在1PL模型下的用此选题法的在线标定设计。这种选题法在1PL模型下是比较合理的,因为根据1PL模型的特点,CAT最常用的最大信息量选题法,将通过选取其难度参数值最接近被试能力估计值的题目来优化考生能力值估计。而用这种方法选择测试题,也会达到将题目难度参数值与考生能力估计值相搭配的效果,从而优化试测题参数标定的效率。

然而在其他IRT模型下,情况就没有这么简单了,对于不同的题目参数(如区分度、难度、猜测度),能够优化参数估计的被试能力值分布是截然不同的。

例如,一道3PL模型下的测试题有三个题目参数:区分度(a)、难度(b)和猜测度(c)。其项目反应方程为

将这三个题目参数看作一个向量,估计这个向量的Fisher信息量矩阵可表达为:

其中

Fisher信息量代表了参数估计的效率,信息量越高,算法对于区别参数的真值与真值周围的其他值越敏感。图9-2-1举例说明了三个信息量的显著区别。图中三条曲线分别由上文中的Iaaij,Ibbij和Iccij的公式生成。对于不同的参数,提供高信息量的被试能力值区域截然不同:对于难度参数,与其真实难度参数值接近的考生能力值区域提供了最高信息量;对于区分度参数,与其真实难度参数值接近的考生能力值区域反而提供了接近于零的信息量,而两边相距一段距离的区域信息量最高;对于猜测度参数,考生能力值越低,信息量反而越高。

图9-2-1一道3PL题目(a=1,b=0,c=0。2)中不同被试能力值为估计三个参数分别生成的Fisher信息量曲线

而对于3PL模型的CAT来说,常用的最大信息量选题法的目标是使考生能力值参数估计的Fisher信息量最大化,而从模型公式推得,这个选题法最终会将考生能力值与题目难度参数大致相配。而如用这种选题法来同样选取试测题,将会为估计难度参数提供很高的信息量,但却为估计区分度参数和猜测度参数提供几乎为零的信息。也就是说,以考生能力值为中心的选题法,对于3PL模型的题目来说,不仅不能优化效率,反而可能导致严重的估计不准。

同样的分析也适用于其他非1PL的模型。总而言之,试测题的选取必须综合考虑各参数的信息需求,取得总体上的优化。而如何整合不同参数各异的信息需求呢?下文中以测试题参数值为中心的选题法提供了几种不同的角度。

(三)以试测题参数值为中心的选题法

与以考生能力值为中心的选题法形成对比的是,以试测题参数值为中心的选题法的选题指标则是围绕优化试测题的参数估计而设计的。而在以优化试测题的参数估计为目标的统计指标中,使用最广泛的是D-optimal指标(Berger,1992;Berger,King&Wong,2000;g&Lu,2010;Jones&Jin,1994;Zhu,2006)。

也就是说,D-optimal指标值越高,题目参数估计的误差越小,题目标定的效率越高。

1。早期文献:作为一种取样设计的在线标定

部分早期的在线标定文献(g&Lu,2010;Jones&Jin,1994;Zhu,2006)将在线标定等同于取样设计来处理,即直接借用最优设计的理论架构:以优化试测题参数估计效率为目标,寻找最优考生能力值样本。他们考虑的情境与上文第一节第二部分描述的在线标定流程不同。

他们的设计是假设有一个“考生库”可供试测题取样任意选用。对于每一道试测题,最优样本标准的计算、样本的取得、题目参数的更新这三步循环进行。而常用的最优样本标准是如下的D-optimal标准:对于一道已经有k-1个样本的题目j,选取第k个样本时,选取合适的考生能力值(θk)使其最大化如下:

其中第一部分是之前所有取得的样本为题目j的参数向量估计提供的Fisher信息量矩阵总和,第二部分是由θk值提供的信息量矩阵。这里Fisher信息量的可加性是基于不同考生相互独立的假设。

有学者由上述原理延伸出更简单易行的一些指标(Berger,1992;Buyske,1998;g&Lu,2010;Zhu,20er(1992)将2PL模型中的D-optimal指标简化为了题目的Logistic曲线上的第17。6和第82。4两个百分位。基于这个设计,g和Lu(2010)的在线标定由两大步组成:

第一步,完成正式的CAT考试,为每一位考生估计能力值。

第二步,对于每一道试测题,选取第一步中能力估计值最接近于该题目临时参数值形成的Logistic曲线上的第17。6和第82。4两个百分位的考生,即和。随后更新题目参数值,再取两个新样本,直到参数向量估计的置信椭圆体的最长轴长度小于某域限值。

而Buyske(1998)提出了以最终考生能力估计精确度为优化目标的L-optimal设计。对于2PL模型,这等同于题目的Logistic曲线上的第25和第75两个百分位。对于3PL模型,Buyske(1998)也提出了“三点设计”。Zhu(2006)用计算机模拟的方式比较了基于D-optimal和L-optimal的“两点设计”,结果发现两种方法效果相似。

然而,如前文所述,以上这些直接基于最优设计理论的方法,在现实中是不可行的。这些方法假设所有的考生形成一个“考生库”,而库中的考生可以随时被任意选取作为题目标定的样本。然而在真实的CAT情境下,考生在不同的自选时间来参加考试,他们作答试测题的时间也可能各自不同,并且时间窗口非常有限,难以形成一个考生库。

2。vanderLinden和Ren(2015)的贝叶斯D-optimal设计

vanderLinden和Ren(2015)提出了另一种在线标定的设计,同样基于D-optimal的统计指标,但整个流程的设计考虑了现实可行性。他们的设计基本符合本章第一节第二部分中描述的流程。考生可以在不同的时间参加CAT考试,而当某一考生在考试过程中到达了预定的试测题嵌入位置时,计算机取得该考生的能力估计值,而后为试测题库中的每一道试测题j计算出如下贝叶斯D-optimal指标值:

其中前一项中第一部分和后一项是该测试题之前已获取的所有样本的Fisher信息量矩阵的总和,前一项中第二部分是用考生目前能力估计值算出的该考生可以对该测试题参数估计提供的信息量。请注意,在同一时间,测试题库中不同的题目已积累的样本量可以不同,因此公式中的k带有下标j。

这个设计,不再是在一个不现实的“考生库”中比较考生,而是在试测题库中的题目之间进行比较,因而变得可行。而被选取的试测题,也总是在所有试测题之中,可以生成上述贝叶斯D-optimal指标最大值的题目。

然而这种设计有一个潜在的问题:不同的试测题自身的统计质量是有高低之分的,质量较高的题目更容易生成较高的贝叶斯D-optimal指标值,而总被选取;质量较低的题目总是生成较低的贝叶斯D-optimal指标值,而一直不被选取。

热门小说推荐

最新标签