基于非统计约束的计算机化自适应测验选题策略
0 引言
与传统考试相比,计算机化自适应测验(CAT)它使用更少的项目来确定对考生同样有用的分数,使用CAT来评估学生在标准化考试(如GMAT和GRE)中的能力已经越来越受欢迎,因为它能够自适应地寻找最适合每个学生的问题。CAT是一种个性化测试,与标准测试/评估系统不同,它根据学生对前几道题的反应自适应地选择下一道题,从而成功缩短了测试长度。CAT系统通常构成如下:知识水平评估器,根据学生对先前问题的回答确定学生当前的知识水平;回答模型:根据知识水平估计和问题特征,确定学生正确回答问题的可能性;以及一种问题选择算法,根据响应模型的输出选择最具适应性的问题作答。
在考试期间,计算机化的自适应测试可以访问有组织的项目池。这些项目从容易到复杂,根据收集的数据计算的难度值。一个更好的项目池将在每个困难级别有很多项目。在回答问题时,CAT算法将从池中提取一个项目,这个项目或多或少与考生最新的估计能力相匹配--这将持续到测试结束。简而言之,当考生回答一个项目时,计算机重新估计测试人员的能力,并从项目库中选择一个不同的问题,即考生应该有50%的机会正确回答,这样做是为了在一个共同的尺度上更准确地衡量考生的能力。
一般而言,在测试期间,如果一个人的估计能力很高(也就是说,在较困难的问题上回答得很好),CAT会估计他们的能力是“高”的,并从池中的“困难题库”中挑选和呈现一个项目。从低到高的每一估计能力水平,以及从窄到宽的任何数量的能力水平,都是相同的过程。
当有足够的问题被问和被回答时就会计算出考生的可靠分数。得分的依据不是正确回答的问题数量,而是人能够正确回答的项目的难度水平。
这种计算机化自适应测验带来了以下具体好处:一是测试花费的时间更少。考生花在考试上的时间将会减少,有时会比平时的考试时间减少50%甚至更多;二是降低测试成本。节省时间等同于降低考试管理费用;三是提高了测试安全性。向每位考生披露较少的项目降低了池中项目的总体平均曝光率[1]。这使得在现场考试管理中很难通过抄袭答案来作弊;四是减少疲劳和无聊。对于每个考生来说,不需要回答简单和困难的问题,会让大部分问题都具有适度的挑战性,这是一个更愉快的测试体验。
相对于0-1评分,多级评分的选题策略就相对比较匮乏和不成熟,国内外对于多级评分的研究成果也屈指可数,包括四种难度匹配法和加入曝光率控制因子法如引入影子题库法[3]等。然而多级评分CAT有0-1评分CAT无法比拟的优势,比如项目区分度相同时,多级评分项目比0-1评分项目往往可以获得更多的信息量等。所以为了提高测验的质量,对多级评分模型下的CAT研究就显得很有必要。
选题策略是CAT最为重要的部分具体算法包括Kullback-Leibler信息量(KLI)、最大Fisher信息(MFI)及其多变量扩展,最初都是专门为IRT模型创建的。最近,MAAT和BOBCAT算法在基于深度神经网络中表现出良好的性能和灵活性。NCA是一种基于强化学习的技术,它根据注意力来选择问题。通过从Boltsmann分布中选取样本,而NCAT可以进一步调节问题暴光度,降低题目的曝光率。RAT通过捕捉学生资质的许多特征来帮助选择算法。此外,还有更多基于数据驱动和深度学习的算法被开发出来。
1 基于等级反应模型下的选题策略
1.1 多级评分选题策略
(1)平均难度匹配法:即,其中满足以下要求,
(2)去两端平均数匹配法:即,满足以下要求,
(3)等级难度匹配法:即。
(4)中位数匹配法:即,其中满足以下要求,
(5)最大Fisher信息量法。
(6)结合按区分度分层能力匹配法。
1.2 新的选题策略
实际研究表明,提高测验的效率和降低项目的曝光率这两项指标往往是相冲突的,所以关键是找到能同时兼顾这两项指标的新的选题策略,即在测验效率没有明显降低的前提下较明显的降低项目曝光率亦或是没有明显提高项目曝光率的同时较明显的提高测验效率。由于项目反应理论(IRT)多级评分的数学模型中不止一个单独的难度参数,而需要多个难度等级步骤参数,涉及到不同类型特征曲线间的组合运算及这些组合的累加运算,其函数关系远比0-1评分来得复杂。目前也很难找到一种在不加入曝光率控制因子的前提下较好的兼顾以上两项指标的选题策略。
在CAT问题中,选择测试项策略的主要目标之一是准确地估计个体尽量少的测试项下的水平,并提供覆盖所有测试项的最佳策略。因此,研究问题可以分为两个子问题(即估计个体的水平和根据预测的水平确定选择测试项目的策略)。因此,通过非统计约束方法,探索既能满足测量精度又不降低题库安全性和测验效率的选题策略是本文的研究目标。
定义: 区分度近似分布分层法(A-ADS):选题按区分度递增排序,从预备题库的第一个题目开始每间隔n选取一个他题目组成一层,以此类推组成n层,再运用多级评分的三种难度匹配法进行选题。这样分层的好处在于将一个大的题库按相近的分布分成了n个小题库,相当于把一次大测验分成了n次小的测验让被试施测,而每次小测验被试都有机会选取不同区分度大小的项目,从而避开了按区分度分层法中每层只能选取区分度值域较小的项目。
2 MonteCarlo模拟实验
本实验采用Matlab进行Monte Carlo模拟实验,以考察新方法的表现。
2.1 施测过程
随机选三个项目施测计算出被试能力初值,后实施能力精确估算,并用贝叶斯后验期望估算出被试能力值。重复以上步骤,直到满足测验结束条件。为了降低模拟实验的误差,每一种实验方法重复30次。
2.2 评价指标
本文分别用(1) 平均偏差(Bias)、(2)能力估计的准确性(ABS)、(3)能力估计标准差(SD)这三项指标来评价能力估计情况,其中Bias越小越好,ABS和SD越小说明估计的精度越高[7];用(4)人均用题数(Nf)、(5)测验效率(Eff)这两项指标来评价效率,Nf越小越好,Eff越大约好;用(6)项目调用的均匀性(SE)、(7)卡方检验统计量()和(8)测试重叠率(Rt)这三项指标来评价项目曝光率,SE、和Rt越小说明项目的曝光率越均匀。
3 实验结果与分析
表1区分度近似分布分层法与区分度分层能力匹配法结果对比表
项目参数分别 评价
指标 平均数法 等级难度匹配法 中位数法
A-STR A-ADS A-STR A-ADS A-STR A-ADS
区分度服从对数标准正态分布,难度服从(-3,3)上的均匀分布 I1 0.0017 -0.0011 -0.0011 -0.0020 0.0043 -0.0011
I2 0.1863 0.1816 0.1886 0.1715 0.1885 0.1879
I3 0.2215 0.2137 0.2150 0.2118 0.2247 0.2257
I4 27.5924 20.3456 26.2821 16.1031 26.1509 16.7951
I5 0.6252 0.8367 0.6695 1.0685 0.6684 1.0217
I6 24.8609 19.1301 24.3218 16.2476 30.6271 21.7965
I7 21.3061 15.7853 20.3742 13.8673 32.6481 21.6831
I8 0.0553 0.0447 0.0551 0.0398 0.0687 0.0489
区分度服从对数标准正态分布,难度服从标准正态分布 I1 -0.0015 0.0009 -0.0011 -0.0007 0.0049 0.0021
I2 0.1864 0.1858 0.1875 0.1708 0.1865 0.1776
I3 0.2232 0.2215 0.2246 0.2211 0.2221 0.2214
I4 24.6657 15.6158 23.6463 15.5762 24.8267 15.6427
I5 0.7261 1.0893 0.7462 1.1163 0.7087 1.1212
I6 35.1847 28.5406 17.4204 12.9561 26.8289 22.2614
I7 44.7342 43.4021 11.3844 9.1809 25.8226 26.4090
I8 0.0851 0.0739 0.0425 0.0327 0.0595 0.0534
区分度服从(0.2,2.5)上的均匀分布,难度服从(-3,3)上的均匀分布 I1 -0.0040 0.0024 0.0002 -00010 -0.0018 -0.0013
I2 0.1862 0.1851 0.1878 0.1856 0.1880 0.1796
I3 0.2225 0.2133 0.2245 0.2147 0.2241 0.2193
I4 15.1647 12.9514 13.1231 10.3393 13.9585 10.6573
I5 1.1678 1.3324 1.3545 1.6820 1.2794 1.6548
I6 16.5568 15.6182 14.8796 13.1705 18.7264 14.6131
I7 16.1456 15.4561 13.7175 13.1125 20.6512 15.6087
I8 0.0387 0.0375 0.0365 0.0331 0.0456 0.0371
区分度服从(0.2,2.5)上的均匀分布,难度服从标准正态分布 I1 -0.0012 0.0024 -0.0031 0.0036 0.0032 0.0012
I2 0.1865 0.1843 0.1865 0.1853 0.1873 0.1864
I3 0.2214 0.2212 0.2237 0.2254 0.2224 0.2253
I4 13.2295 10.4888 13.3045 10.6011 12.4458 9.9768
I5 1.3484 1.6627 1.3654 1.6553 1.4559 1.7668
I6 24.3461 20.1598 11.9171 11.1799 19.5561 17.4009
I7 36.8494 30.4381 8.7140 9.2052 24.6566 23.0712
I8 0.0641 0.0545 0.0295 0.0271 0.0489 0.0431
为了描述方便,I1-I8依次代表Bias、ABS、SD、Nf、Eff、SE、和Rt这八项评价指标。
从表1得出,偏差值((1) 平均偏差、(2)能力估计的准确性、(3)能力估计标准差均很接近于零,说明这几种方法的估计均接近于无偏估计,相比较而言区分度近似分布分层法(A-ADS)更接近于0,说明该方法的更接近于无偏估计;在人均用题数指标上A-ADS均优于A-STR,处区分度服从(0.2,2.5)上的均匀分布的图库外测验效率指标上A-ADS均优于A-STR,特别是前两个题库,其优势更为明显;此外,在项目调用的均匀性、卡方检验统计量和测试重叠率这三个指标上,除了第二个题库外,A-ADS法均较明显优于A-STR法。
4 结 语
总结以上论述可以认为A-ADS该方法在曝光率方面,与按区分度分层和能力匹配法结合的结果相接近的条件下,较明显的提高了测验的效率。