(4)项目曝光。一个考生知道一个题库中部分项目会产生多大的影响?应该如何度量项目曝光,什么是高曝光率或者低曝光率?曝光可以或者应该定义为什么时间看到项目,而不是被看到的频率?在考虑项目曝光的情况下,选题法选出的项目仍然能够保证内容平衡的要求吗?
(5)成本收益分析。将考试效度与CBT其他的优势相比,实施CBT需要的成本是否值得?CBT的成本会对某些特殊群体造成重大影响吗?有没有降低CBT成本的新办法?相对于纸笔测验,CBT的增值是什么?
(6)公平。CAT中考生的考题不同,数量与难度也不同,这些会带来公平问题吗?如果内容平衡要求发生变化,那么不同时间点的分数具有多大的可比性?在CAT中如何探查项目功能差异?CAT考试中考生如何作弊?如何防止作弊?
(7)在不同施测条件下的考生行为。CBT中不能进行多次猜测、改答案,或者暂时放弃难题。因此,在CBT中,考生的作答策略有什么不同?这些CBT中受欢迎的作答策略在不同人群或者不同心理发展阶段的人群中也受欢迎吗?不同的作答策略会导致不同的考试长度吗?
(8)考试平台选择。初期独立的台式计算机或者计算机的局域网是CBT的主要考试平台。目前通过互联网进行考试的“基于网络的测评”出现,并且产生了一些新的技术挑战。考试安全还可以保证吗?如何认证考生的身份?如何确保不同考试平台之间的质量与可比性?
2。突破性研究
考试实施有可能在以下五个方面产生突破。
(1)高质量项目的低成本快捷开发方法。衡量项目质量的关键指标是效度,但是目前考试工业界的现状是开发效度高的项目耗时费力、成本高昂。由于“机经”等集体作弊形式,考试公司解决考试安全的基本解决方法就是降低项目的使用次数,但是由此造成了研发成本居高不下。对于某些涉及记忆的考试,简单改变项目的外在特征就很有效果。另一种可能就是开发能够自动生成项目的算法。对于考察知识技能明确的学科,自动生成算法的研发比较简单明确。例如,算术问题或者其他略微复杂一点的数学问题。但是涉及高级认知功能与内容领域(如历史、文学等)的算法开发就变得非常复杂。根据良好项目进行模仿克隆(g)也许是一个颇有前途的方向,但是仍然需要研究人员进行有关的研究。
(2)项目统计指标准确性(大被试样本)与减小项目曝光之间的平衡。解决这个问题有多种可能性。例如,利用题库中已有的项目,来推断同一内容领域、同种技能的新项目的统计属性。或者,把专家意见与数据相结合,这样可以降低对数据量的需求。这就要求找出与项目统计属性相关的影响因素,然后对项目编写人员进行专门的培训。第三种可能性就是优化被试取样方法。这个方面仍然需要大量的探索。
(3)CBT的设计。CBT中有很多考试形式,从完全自适应考试到完全不进行智能化调整的线性CBT考试,中间的形式包括多阶段自适应考试,随机平衡测验等形式。
(4)新题型与新测试内容的开发。CBT不仅可以减少考试时间、提高考试安全性、实时的分数报告等,而且可以测试纸笔测验不能测试的新技能,或者更好的测试。所以一个突破点就是开发开放题,用视听觉来呈现考题等。目前只是刚刚开始这些可以提高考试效度的新技术。但是这些新形式也要求开放题的自动评分、题组模型等,可能会影响CBT的设计。
(5)CBT系统设计与实施的指导性原则。许多小的考试机构没有能力或者资源进行复杂的CBT研究,但是他们也想知道如何实施CBT。因此有关的设计与实施指导原则具有很高的实际价值。
(三)考试分析
考试分析、评分、分数报告及考生表现的相关因素的研究是CBT的基础性工作。目前有关的研究包括复杂项目的自动评分与作答反应时。
1。复杂项目的自动评分
目前,用于表现型测试的开放题日益流行起来。开放题一般都是人工阅卷,所以与选择题相比,开放题的评分成本较高,也非常耗时。很多成本与时间来自评分活动的各个环节,包括评分者到阅卷地点、评分标准的制定(整体评分或者采点评分规则)、评分者的训练与质量控制、阅卷活动、标准设定、分数报告等。实施表现型测试题的CBT也更加复杂。计算机最显著的优势是实时评分、提高测量效率,但是表现型测试项目似乎与此背道而驰,因为它无法实现实时评分。复杂项目的自动评分是解决这个难题的重点。一旦实现重大突破,那么CBT就可以施测满足教育者需要的开放式项目,使项目更加贴近现实情境。自动评分也可以促进新题型的开发,提供更多的测试信息。具体的研究问题包括:
(1)高效自动评分算法是什么样的?开发这样的算法需要多少人力资源?如何降低学习素材(专家人工打分的材料供机器学习评分规则的)的需求量?分数量尺对自动评分是否存在影响?这些因素会受到项目类型与测量技能的影响吗?
(2)衡量自动评分的标准是什么?机器评分与人工评分的一致性是最重要的标准吗?机器评分比人工评分具有更高的信度吗?分类树(ClassifiTree)等方法能否准确地对考生进行分类?在作文写作中,分类树能否很好地区分具有某些特征的作答,提高作文自动评分的准确性?
(3)自动评分与人工评分的混合使用能否产生更高的信度与效度?例如,人机组合是否会比两个人工或者两台机器阅卷更加准确?哪种方式更加节约成本?公众更容易接受哪种方式?如果人机组合,那么人工介入的基本规则是什么?
(4)回归类、复杂规则类的算法是复杂表现型项目自动评分的最好方法吗?其他方法(如回归类与复杂规则类的混合算法)可以提高自动评分的精确性吗?不同复杂项目、领域与考试类型(高利害还是诊断)需要多大的准确性?评分回归模型中最优特征的类型是什么?需要多少个特征?最优特征与数量在统一测试领域内的可推广度有多大?
(5)目前各类项目中,最适用于自动评分的项目类型是什么?自动评分算法的可推广度有多高?自动评分还有什么其他的外部效度问题?
(6)诊断功能能否有效地与自动评分结合?在写作自动评分中,能否实现对写作的程序性技能与语法技能进行评价,这样可以实现写作评分的效度研究?能否开展多维的自动评分,提供诊断信息?
2。作答反应时
我们需要进一步探讨如何对测验中收集的信息进行更好地挖掘。作答的反应时间是我们可以利用的附加信息。这个领域的重要研究主题包括:
(1)研究反应时间在能力估计中的附加值以及阅读与作答中的不同反应时间可能反映出来的加工技巧。在计算心理测量学指标时,反应时能否对数据降噪起到任何作用?不同考生群体之间(高低、性别、种族)存在反应时差异吗?
(2)反应时建模。将反应时信息用来推断考生在数学推理、写作与具体领域(生物、历史等)使用的认知技能。反应时模型会加深我们对这些技能的认识吗?是否存在反应时与技能之间的调节变量?反应时模型与能力模型能否探查不同人群或者技能之间的差异?
(3)利用反应时监控考生作答速度模式来提高考试的效度。通过作答反应时的模型,我们可以探测快速猜测等行为,从而减少考试焦虑、考试技巧等无关因素的影响。是否存在与最优作答相关的反应时模式,不同领域的最优反应时模型是否存在一致性?不同人群之间的反应时差异能够部分地解释人群能力表现的差异吗?
本章概括性地介绍了自适应测验的计算机化测验的基本概念、主要特征、历史变革与现状;同时,详细地总结了计算机化自适应测验的历史、现状与重要研究问题。不难看出,计算机化测验涉及教育、心理测量与信息技术的变革以及几者之间的互动,虽然历史不算很长,但是内容丰富多变。本章提及的一些重点与热点会在后面的章节中进行进一步更加详尽地总结与评述。
思考题:
1。自适应测验有什么特征?
2。计算机化测验有哪些分类及各类有什么特征?
3。计算机化自适应测验包括哪些基本元素(或算法)?
4。计算机化自适应测验有什么优势?
5。你觉得计算机化自适应测验未来的发展方向有哪些?