图9-2-2举例说明了这种偏向优势。图中第1题的参数值为a=2,b=1,c=0。2,第2题的参数值为a=1,b=0,c=0。25。图中的曲线是61名考生为两道题分别生成的贝叶斯D-optimal指标值。前60名考生的能力值是从正态分布中随机抽取的值,组成了公式(9。2。11)中前一项中的第一部分和后一项。第61名考生的能力值形成了图9-2-2中的横坐标,也构成了公式(9。2。11)中前一项中的第二部分。很明显,对于这两道题,不论第61名考生的能力估计值在-3与3之间的什么水平,vanderLinden和Ren(2015)的贝叶斯D-optimal方法都将选择第一道题。
图9-2-2两道3PL题目的贝叶斯D-optimal指标值
在这种选题设计下,如果考试实施方在某一时间点统一终止所有试测,那么获取的试测题参数中可能会有一部分题因为取得很多样本而估计得非常精确,而另一部分题因为一直极少被选取而估计得非常不精确,甚至无法被标定。
另外,这种设计也可能导致试测题的难度与前后正式题目的难度存在唐突变化,而导致考生不必要的疑惑和焦虑,或者识别出试测题而影响作答动机。
3。Zheng(2014)的区间排序信息量优先权设计
针对上文所述的问题,Zheng(2014)提出了一个新的选题指标:区间排序信息量优先权指标(OrderedInfePriorityIndex,OIRPI)。这一设计同样符合本章第一节第二部分中描述的在线标定基本流程:当某一考生在CAT考试过程中到达了预定的试测题嵌入位置时,计算机为试测题库中的每一道试测题计算出OIRPI指标的值,而后选取优先权最高的试测题呈现给考生。
这一指标衡量的是各试测题对当前考生的需求度,而该设计的核心思想在于对该需求度的定义:如果与其他考生可能提供的能力值相比,当前考生所拥有的能力值可以为某测试题的参数标定生成更大的信息量,那么说明这道试题对当前考生的需求量很高,因为如果这道试测错过了该考生的样本,那么之后出现的拥有其他能力值的考生只能提供相对较低的信息量。
OIRPI设计包含以下三大步骤。
第一步,将考生能力值合理范围划分为R个区间,取每个区间的中间值θr代表该区间。一种划分方法是在能力值量尺上取等长区间;另一种划分方法是在相应百分位量尺上取等长区间,然后再转化成对应的能力值,这种转化可依照假设的能力值分布进行,也可依照之前考试的能力估计经验分布进行。
第二步,当某一考生在CAT考试中到达预定的试测题嵌入位置时,对试测题库中的每一道题j分别完成以下步骤,以获取各题的OIRPI指标值。
第二(1)步,为每个区间计算如下D-optimal指标值:
其中第一部分是之前所有取得的样本为题目j的参数向量估计提供的Fisher信息量矩阵总和,第二部分是由θr值提供的信息量矩阵。
第二(2)步,将该题所有能力区间上的Djr值内部标准化:
这里Sjr代表了该区间与其他区间相比,提供的信息量的相对大小。
第二(3)步,将当前考生能力估计值所在区间的Sjr值指定为该题的OIRPI指标值。
第三步,在所有的试测题OIRPI计算完成后,选取OIRPI值最高的题目,呈现给考生。
与vanderLindenandRen(2015)的贝叶斯D-optimal指标相比,贝叶斯D-optimal指标是将所有试测题产生的信息量相比较,可理解成“基于价值的指标”;而OIRPI指标是将当前考生能力值与其他的能力值范围相比较,产生每一道试测题的需求度,可理解成“基于需求的指标”。与前者相同的是,OIRPI设计也同样存在试测题的难度与前后正式题目的难度有唐突变化的可能性。
4。Ali和g(2014)的适合度指标
Ali和g(2014)提出了另一种试测题选题法,命名为适合度指标(Suit-abilityIndex)。他们的方法并没有用基于信息量的统计指标(如D-optimal指标),而是重点考虑控制每一道测试题在不同的考生能力值上的样本量。他们的适合度指标定义如下:
其中
考生能力水平值范围被分为k个区间;对于测试题j,Tjk代表在区间k上的目标样本量,而tjk代表在区间k上的样本量,所以fjk代表了题目j在考生能力值区间k上的样本缺乏度。而公式(9。2。14)取得k个区间上样本缺乏度的加权整合值(wk为权重),并与考生能力值与题目难度参数的接近度整合,形成了适合度指标。
这种设计理论上可以平衡在任一时间点上各试测题获取的样本量,是解决vanderLinden和Ren(2015)的贝叶斯D-optimal设计的潜在问题的方法之一。另外,将考生能力值与题目难度参数的相配度列入考虑范围,理论上可能可以缓解嵌入试测题的难度与前后题目的难度存在唐突变化的问题,但实际上是否有效果值得验证。
而它的缺陷则在于适合度指标定义的主观性。首先,Tjk和wk的选取完全由主观决定。其次,对于样本的缺乏度以及考生能力值与题目难度参数的相配度的整合,适合度参数采用了简单相乘的方法。这两种定义不同的量,取值的范围可能相差很大,但简单相乘的方法没有对不同的量级或两者间的重要性进行加权处理,可能过于简单化了。这也会使人对指标中前半部分是否能够有效缓解嵌入试测题的难度与前后题目的难度唐突变化的问题产生疑问。
(四)总结
综合以上可见,目前在单维二级评分模型下的试测题选题法的种类很多。以考生能力值为中心的选题法,对除1PL模型之外的模型,有思路上的问题;而对以试测题为中心的选题法的早期探索,实际上不可行。除此之外,其他选题法包括以试测题为中心的选题法以及随机选题法,策略各异,各有不同的优势。目前还没有哪一种试测题选题法像CAT中的最大Fisher信息量一样,获得学术界和应用界的一致公认和采用。未来还需要更多的研究来充实这一方面的科学认识。
除了在统计学上特点不同之外,在试测题选题法的考虑中也包括了质性问题以及现实中与考生交互作用的讨论。如第一节所说的,通过最优取样理论获取的样本很容易失去对总体的代表性,从而成为偏置样本。那么这种样本从本质上来说是否有效呢?假如从这个角度来看,也许唯一有效的选题法就是随机取样。另外,如果嵌入试测题的难度与前后题目的难度之间有所不同,考生是否真的能察觉到?例如,Vispoel,Clough,Bleiler,Hendri和Ihrig(2002)及Vispoel,Clough和Bleiler(2005)通过真人实验发现,考生对于题目难度的判断差别很大,这并不准确。而这又对考生的心理和行为到底有什么真正的影响?这些都是值得思考和讨论的问题。
二、在线标定情境下的参数估计方法
(一)概述
1。在线标定与传统试测
在线标定情境下的题目参数估计和传统情境下的题目参数估计有明显的区别。在传统情境下,首先进行完整的试测,获取所有的作答数据,随后一次性完成题目标定。而作答数据一般是完整矩阵(所有参加试测的考生完成所有试测题),或者完整模块式矩阵(每一组题有规律地分配给一组考生,从而作答矩阵形成一个个方形模块)。与之相比,在线标定情境下,每一道题将实时分配给完全不同的考生样本,同时每一个考生作答的题目(包括正式CAT题和测试题)可以完全无系统规律。另外,在在线标定情境下,作答数据的获取和参数的标定是交替循环进行的。
传统的题目参数估计可以将整齐的作答矩阵提供给参数标定软件,统一估计出题目参数。对于大型的模块式矩阵,有些软件也可能无法处理。而在线标定情境下的作答数据,既不能形成整齐的矩阵,也有很多缺失值(因为每一个考生只作答正式CAT题库中的一小部分题目,以及试测题库中的一小部分题目),并且需要在样本不断积累的过程中反复估计和更新题目参数。因而在这种情境下,想要应用传统的参数估计软件可能会面临较大的困难,而需要开发新的计算程序来进行实时的、逐题的参数标定。
2。参数量尺的锚定
另一个需要考虑的方面是参数量尺(Scale)的锚定。由于IRT有参数量尺不确定(Sdeterminacy)的性质,在参数估计之后,需要对参数量尺进行锚定即等值。
如果是对一个全新的题库进行参数标定,而没有任何已知的参数量尺,那么在参数估计之后,可以任意变动参数量尺,而不影响模型的拟合效果。一般的程序会按难度参数或者考生能力参数分布进行量尺标准化,从而将参数量尺锚定。
如果存在现有的题库和相应的参数量尺,在试测和标定新题时,需要将新题的参数锚定到已有的参数量尺上,那么可以有两种方法完成:一种是将新题单独估计,事后通过量尺链接(Linking)的方法将新题参数折换到已有量尺上。这种链接需要倚靠常规等值设计中的锚题(Ans)或锚人(AnchorPersons)来提供新旧量尺间的桥梁。这种方法环节多,成本大,对于锚题或锚人的要求复杂。另一种是将旧题引入新题参数估计的过程中,使旧题参数固定在已知参数值上,而后估计新题参数,这样估计出的新题参数毋需经过量尺链接,已直接锚定在已有量尺上了。这种方法相当于隐含地利用了锚人设计,因为每位考生都既完成了部分旧题也完成了部分新题。