教育测评中基于贝叶斯联合建模的动态潜在能力与反应时间分析
《Psychometrika》:Bayesian Joint Modeling of Response Times with Dynamic Latent Ability in Educational Testing
【字体:
大
中
小
】
时间:2025年12月03日
来源:Psychometrika 3.1
编辑推荐:
本研究针对教育测试中能力推断仅依赖项目反应而忽略反应时间的问题,开发了一类新的状态空间模型(DIR-RT),将反应时间与二分反应的时间序列进行联合建模。通过仿真验证,该模型显著降低了能力估计的偏差并提高了估计精度。实证研究利用EdSphere数据集,探讨了能力与难度距离的两种竞争关系(单调与倒U形)在反应时间建模中的表现。模型比较结果表明,倒U形关系能更好地捕捉EdSphere考试中考生的行为和心理特征。该研究为计算机化自适应测试的设计提供了更准确的能力估计方法。
在教育测评领域,如何准确评估学生的能力一直是研究者关注的核心问题。传统的测评方法主要依赖于学生对测试题目的回答是否正确,而学生答题所花费的时间这一重要信息往往被忽视。这就像我们只关注考试分数,却忽略了学生为了解出每道题目付出的思考时间。随着计算机化测试的普及,教育工作者能够轻松记录每个学生的答题时间,这为更全面地理解学生的学习过程提供了新的机遇。
在真实的教育场景中,比如EdSphere这样的个性化读写学习平台,数据收集过程比传统纸笔测试复杂得多。学生可以在不同时间参加测试,测试间隔不规则,甚至同一天可能参加多个测试。更特别的是,EdSphere采用"自动生成完形填空"项目,即使两个学生选择阅读同一篇文章,他们遇到的测试题目也是不同的。这种随机化项目设计使得传统项目反应理论(IRT)模型面临巨大挑战,因为其基于的局部独立性假设在这种情况下可能不再成立。
为了解决这些挑战,Wang等研究人员开发了一类创新的状态空间模型,将反应时间与项目反应进行联合建模,同时考虑了纵向数据的特点。这项研究发表在《Psychometrika》上,为教育测评领域带来了新的方法论突破。
研究人员采用贝叶斯推断框架和马尔可夫链蒙特卡洛(MCMC)计算方法,构建了动态项目反应与反应时间联合模型(DIR-RT)。该模型包含两个层次:第一层同时建模反应时间和项目反应的观察方程,第二层通过系统方程捕捉潜在能力随时间的变化。关键技术方法包括状态空间模型构建、数据增强策略、基于Kolmogorov-Smirnov分布的尺度混合正态表示,以及针对不同联系函数设计的特定MCMC采样算法。研究使用了EdSphere平台提供的真实数据集,包含16,949名学生超过五年的测试记录。
DIR-RT模型的核心在于将项目反应和反应时间通过共享的能力参数联系起来。对于项目反应部分,模型扩展了经典的单参数IRT模型,考虑了测试随机效应和日常随机效应,以解决局部依赖性问题。反应时间部分则基于Thissen模型,引入了速度参数和能力-难度距离函数。特别值得注意的是,研究比较了两种不同的联系函数:单调关系(θi,t-ai,t,s)和倒U形关系(|θi,t-ai,t,s|),这两种关系反映了考生在考试中不同的心理行为模式。
通过仿真研究,研究人员验证了DIR-RT模型的推断程序的有效性。结果显示,所有参数的真值都包含在其95%可信区间内,表明贝叶斯推断方法具有良好性能。更重要的是,与不包含反应时间的DIR模型相比,DIR-RT模型显著提高了能力估计的精度并减少了偏差。能力估计的平均均方距离在DIR-RT模型中至少比DIR模型小三倍,这充分证明了联合建模反应时间的优势。
应用DIR-RT模型分析EdSphere数据集时,研究重点考察了两种联系函数的适用性。通过Lindley方法和部分DIC准则的比较,发现倒U形关系更适合描述EdSphere考试中学生的行为模式。Lindley方法显示,单调联系函数中β=0的假设在α=1%水平上不能被拒绝,而倒U形联系函数中β显著不为零。部分DIC值也表明倒U形联系函数(5661.4)比单调联系函数(5775.3)具有更好的拟合优度。
基于倒U形联系函数的分析显示,学生的阅读能力整体呈增长趋势,但这种增长可能被中断。特别是在测试间隔时间较长时,能力会出现下降,这可能与假期期间学生不进行阅读活动或对计算机化测试变得生疏有关。这一发现对教育实践具有重要启示,提示需要关注学习连续性的重要性。
模型参数的后验分析揭示了学生之间的个体差异。平均增长率ci、测试随机效应和日常随机效应的标准差、速度变化κi以及平均反应时间μi在不同学生间存在明显差异。这些发现进一步证实了局部独立性假设在EdSphere数据中不成立,也说明了个性化教学的必要性。
本研究通过开发DIR-RT模型,成功实现了对反应时间和项目反应的联合建模,为教育测评领域提供了新的方法论工具。研究不仅证实了联合建模可以提高能力估计的准确性和精度,还通过实证分析发现倒U形关系能更好地描述学生在考试中的行为模式。这一发现支持了Wang(2006)的理论观点,即学生倾向于在与其能力水平匹配的题目上花费更多时间,而在太简单或太难的题目上花费较少时间。
该研究的实际意义在于为计算机化自适应测试的设计提供了更准确的能力估计方法。通过更精确地了解学生的能力水平,教育工作者可以更好地匹配学习材料与学生的实际水平,实现真正的个性化教学。此外,对能力成长轨迹的回顾性分析有助于教师识别学生的学习模式和困难点,从而提供更有针对性的教学支持。
未来研究方向包括将模型扩展到多参数IRT框架,在速度参数中引入动态结构,以及开发更高效的计算方法以便应用于更大规模的数据集。对学生在反应时间数据中表现出的模式进行聚类分析,也有助于更深入地理解学生的心理行为特征。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号