计算机化自适应测验理论与方法_第二节 CDCAT中常用认知诊断模型第1页

奇书网>计算机化自适应测验理论与方法 > 第二节 CDCAT中常用认知诊断模型（第1页）

第二节 CDCAT中常用认知诊断模型（第1页）

第二节CD-CAT中常用认知诊断模型

据统计，截至2007年，认知诊断模型发展超过了60种（Fu＆Li，2007）。到了2012年，认知诊断模型发展已达100多种（辛涛，乐美玲，张佳慧，2012）。这里挑选一些在认知诊断发展史上较为重要的模型加以介绍。

一、具有认知诊断功能的IRT模型

在认知诊断发展早期，还没有发展出真正的认知诊断模型，此时学者们尝试用IRT模型来做认知诊断研究。

Fischer（1973）提出的线性逻辑特质模型（Lii），是最早用IRT模型来进行认知诊断尝试的模型，它是在IRT的拉希模型的基础上进行扩充、改造而成的。LLTM用认知属性复杂度的线性组合模型来刻画项目的难度；项目的难度取决于各认知属性的复杂度。通过这样的建模将认知的复杂度融入潜在特质模型中，把原来简单的概率模型转变成具有项目认知内容的潜在特质模型，从而实现了认知与测量的结合。但是，被试的能力还是用一个笼统的能力值来表示，没有对被试是否掌握各认知属性直接进行评价（涂冬波，蔡艳，戴海琦，漆书青，2008）。因此，LLTM模型不被看作真正的认知诊断模型。

此外，一些学者还用一些多维IRT模型进行认知诊断尝试。多维IRT模型将每个维度上的能力值看作相应属性的掌握水平。通过模型分析，可以确定被试在各个维度（属性）上的掌握水平。在这些多维IRT模型中，有一种比较出名的模型叫多成分逻辑特质模型（Multipoi）（Whitely，1980），此后又有学者（Embretson＆Yang，2013）在MLTM的基础上开发了“用于诊断的MLTM”（MLTMfnosis，MLTM-D）。

但也有学者（余娜，辛涛，2009）认为，这种建立诊断模型的方法是存在一定局限性的。一方面，不同的能力维度用属性进行概括时，属性的定义无法深入认知过程的细节；另一方面，模型中属性的数量是有限的，否则会造成模型参数估计的困难。为了克服这些问题，后续发展的诊断模型多采用二分的属性向量组表征知识结构。

二、规则空间模型

学者Tatsuoka（1983）应用统计的方法，将被试在测验项目上的作答反应类别划归为某种与认知技能相联系的KS，创建了规则空间模型（RuleSpaceModel，R**）。该模型的一个基本假设思想是：测验项目可以用特定的认知属性刻画，个体的某种知识结构也可用一组通常无法直接观察的KS来表征；而且还能用恰当的可观察的项目反应模式来表征不可观察的认知属性（涂冬波，蔡艳，戴海琦，2012）。这就是Q矩阵理论的最早提出。

规则空间模型根据项目反应模型计算出一组序偶｛θ，ζ｝。其中的θ就是IRT中的潜在能力变量；而ζ是一个基于IRT的警戒指标，它表示能力为θ的被试的实际测验项目反应模式偏离其能力水平相对应的项目反应模式的程度。由θ和ζ构成的二维空间称为规则空间，而根据理想反应模式所估出的各序偶点就称为纯规则点。然后，用马氏距离（Mahalanobisdistance）判别分析或者贝叶斯判别分析，将被试判为这些纯规则点中的某一个，从而实现对被试的认知诊断。

规则空间模型是第一个真正意义上的认知诊断模型，它在认知诊断发展史上具有里程碑式的意义。所提出的Q矩阵，被后来提出的各种认知诊断模型一直沿用至今，为认知诊断走向实际研究做出了巨大贡献。比如，Tatsuoka等（1997）运用该模型对593名小学生进行了分数加法测验的认知诊断，根据学生们的KS估计值进行了补救；然后再次进行认知诊断测验，发现补救后的学生水平得到了有效提高。认知诊断在中国大陆的首次运用——余嘉元（1995）的研究，也是基于规则空间模型而进行的。同样基于规则空间模型的，还有北京语言大学针对语言测试而做的一系列研究。

然而，随着实际研究的增多，规则空间模型也受到了越来越多的批评。比如，有学者批评它的模型过于复杂、计算过于复杂（辛涛，焦丽亚，2006）；也有学者批评它没有在编制测验之前事先标定Q矩阵和确定属性层级关系（LeightonGierl＆Hunka，2004）。但本书认为，规则空间模型的最大缺陷在于，有许多实际研究（如余嘉元，1995；张敏强，简小珠，陈秋梅，2011；徐式婧，2007，2010；刘启亮，2008；范士青，2008；李小兰，2008；张宠，2009）表明，总有3%～18%的被试不能被它归为任何一类理论上的KS。李小兰（2008）和张宠（2009）曾试图删除测验中的部分题目以提高能被归类的被试比例，却发现毫无效果。因此，学者们逐渐意识到，规则空间模型并不是一个十分理想的模型。为此学者们先后提出了一系列模型来对它进行改进，而规则空间模型在最近几年的应用研究已经越来越少。

三、统一模型

为了克服规则空间模型的一些不足之处，DiBello，Stout和Roussos（1995）提出了统一模型（UnifiedModel，UM）。统一模型是一个以基于能力的题目参数和被试参数为特征的认知诊断模型，它借鉴了先前的规则空间模型的Q矩阵和空间方法，并在此基础上采用参数估计的方法，提高了认知诊断的准确性（谢小庆，2010）。设一个测验有i个题，考查了k个属性。令j=1，2，…，j为被试编号；而Yji是被试j在第i题上的作答情况，答对就是1，答错就是0。令αj为一个长度为k的0-1向量，这表示了被试j的KS。若他掌握了属性k，该向量的第k个元素就是1；否则就是0。θj参数叫作潜在残余能力，用来解释Q矩阵以外所测的认知属性。Q矩阵描述了题目与属性之间的关系，qik表示第i题是否考查了属性k，若考查了就是1，否则就是0。统一模型的数学表达式为

其中，P（Yji=1|αj，θj）表示KS为αj、潜在残余能力为θj的被试答对第i题的概率。di是一个二分变量，表示被试是否选择专家界定的Q矩阵所描述的解题策略来解答第i题，这个变量用来刻画项目答题策略的多样性；πik表示被试掌握属性k并在第i题上正确运用该属性的概率，πik=p（Yjik=1|αji=1）；rik为被试未掌握属性k但在第i题上正确运用该属性的概率，rik=p（Yjik=1|αji=0）。ci是拉希模型中Pci（θj）=0。5时θj的值，表示被试答对第i题所需残余能力的程度，用来刻画Q矩阵的完备性（pleteness），其值越大就说明Q矩阵所界定的第i题所测的属性就越完整；Pci（θj）表示被试正确应用其残余能力答对需要残余能力参与才能解答的第i题的概率。bi是拉希模型中Pbi（θj）=0。5时θj的值，Pbi（θj）表示被试应用其残余能力答对不需要残余能力参与就能解答的第i题的概率。由此可见，统一模型用一系列的参数对Q矩阵的完备性、项目答题策略的多样性、残余能力等进行刻画，这使得它成功克服了规则空间模型的诸多不足，是一个非常完备的模型（甘媛源，余嘉元，2009；简小珠，2011）。

但是，统一模型过于复杂，使得它并非所有参数都能在统计上被估计出（Jiang，1996；Hartz＆Roussos，2008），因此它是一个“难以识别”的模型。查阅文献发现，在该模型的提出者将该模型运用于算术测验之后，就再未见到有学者在实际研究中使用过该模型。

四、融合模型

其中，（1）π*i是难度参数（又译为基线参数，Baselier）表示被试正确运用第i题所有属性的概率，是以Q矩阵为基础的项目难度参数，其值在［0，1］之间，π*i越大说明题目越容易，一道题只有一个难度参数。

（2）r*ik是区分度参数（又译为惩罚参数，PenaltyParameter），表示被试未掌握属性k却答对了第i题的概率与掌握了属性k并答对该题的概率之比，其值在［0，1］之间，r*ik越小说明第k个属性在第i题中越重要。一道题有多少个属性就有多少个区分度参数。

（3）ci是拉希模型中Pci（θj）=0。5时θj的值，它表示被试答对第i题所需残余能力的程度，用来刻画Q矩阵的完备性。一道题只有一个完备性参数。一道良好的试题应是高π*i值，低r*ik值，高ci值（涂冬波，蔡艳，戴海琦，2012）。

值得注意的是，融合模型里的难度参数与区分度参数，与IRT模型里的难度参数与区分度参数不是一回事。它们的含义不同、英文名称不同，但是被中国学者翻译成了相同的中文名称。本文认为，为了与IRT模型里的参数相区别，宜将Baselier译为基线参数，而将PenaltyParameter译为惩罚参数。但为了与其他学者的文章保持一致，本文对这两个参数名称依然沿用“难度参数”和“区分度参数”的译法。

经过以上化简，融合模型完成了对统一模型的再参数化，使得新模型不但是可识别的，而且还保留了统一模型的可解释性。融合模型已经有了一些实际应用研究，如Hartz（2002）首先将其应用于PSAT测验的评估，Jang（2009）将其用于阅读理解测验的研究。在国内，车芳芳（2010）最先将融合模型用于初中代数的认知诊断研究。

五、RRUM模型

Hartz（2002）在用融合模型分析PSAT测验的数据时发现，对于多数题目，融合模型的表达式里的最后一项Pci（θj）存在的意义并不大，于是可以将其去掉，以进一步简化模型。由此，他提出了“缩减的再参数化统一模型”（ReducedReparameterizedUnifiedModel，RRUM）。

RRUM模型将答对一道题的概率建模为被试的KS和题目参数的函数，那就是：题目的难度参数和区分度参数，其中后者描述了一个特定属性的掌握情况将在多大程度上影响答对这道题的概率。通过对每个题目的每个属性都分配一个区分度参数，融合模型和RRUM模型允许各种KS的被试答对题目的概率各不相同，因此它们比下文即将提到的DINA模型要有更大的灵活性，但它们也比DINA模型更复杂。RRUM模型的表达式是

奇书网

奇书网>计算机化自适应测验理论与方法 > 第二节 CDCAT中常用认知诊断模型（第1页）

第二节 CDCAT中常用认知诊断模型（第1页）

热门小说推荐

最新标签