基于学习活动特征与CNN-LSTMAE混合神经网络的MOOC辍学预测模型研究
《Complex System Modeling and Simulation》:Hybrid neural network model for MOOC dropout prediction
【字体:
大
中
小
】
时间:2025年11月27日
来源:Complex System Modeling and Simulation CS13.7
编辑推荐:
本文针对MOOC高辍学率问题,提出融合学习时间与点击次数的学习活动特征构建方法,并设计CNN-LSTMAE混合神经网络模型。通过CNN提取行为局部特征,结合LSTMAE进行时序特征抽象,在KDD Cup 2015数据集上验证表明,该模型在Precision、Recall、F1和Accuracy指标上均优于基线方法,有效改善了"伪勤奋"学生群体的误判问题,为在线教育干预策略提供技术支撑。
随着数字教育的蓬勃发展,大规模开放在线课程(MOOC)以其开放性和灵活性吸引了海量学习者,但宽松的学习环境却伴随着高达23%的辍学率难题。这种中途退出行为不仅影响学习者成效,更会导致平台用户流失和收益下滑。现有预测模型普遍依赖点击次数构建行为特征矩阵,却忽视了"伪勤奋"学生群体——那些点击频繁却最终辍学的学习者,以及点击量低但坚持完成学业的反例群体。
为解决这一痛点,北京信息科技大学的科研团队在《Complex System Modeling and Simulation》发表最新研究,创新性地提出融合双维特征的学习活动特征构建方法。该方法通过计算学习时间与点击次数的比值,形成包含14个维度的行为矩阵,进而设计CNN-LSTMAE混合神经网络模型:利用卷积神经网络(CNN)提取局部行为模式,结合长短期记忆自编码器(LSTMAE)捕捉时序动态规律。在KDD Cup 2015数据集上的实验表明,该模型在Precision、Recall、F1和Accuracy四项指标上分别达到0.903、0.974、0.937和0.893,较传统模型提升显著。
关键技术方法包括:基于XuetangX平台的79,186名学生30天行为数据构建学习活动特征;采用3×3卷积核进行局部特征提取;设置隐藏单元数为224的LSTMAE模块进行序列重构训练;使用Adam优化器以2e-3学习率进行20轮训练。
通过对比LSTM、GRU等模型添加学习活动特征前后的表现,发现所有模型的Precision、F1和Accuracy均提升0.7%-2.7%,证明双维特征能更全面刻画学习态度。如图3所示,红色柱状图代表的增强模型在四个评估维度均优于基线模型,说明时间-频率的融合特征可增强模型对行为模式的辨识能力。
如表2所示,CNN-LSTMAE在综合指标上全面超越单模型(CNN/LSTM/GRU)和混合模型(CNN-LSTM/CNN-GRU)。特别在Recall指标上较最优基线提升2.4%,表明该模型对正样本(辍学群体)的捕捉能力更强。其优势在于通过自编码器的重构任务学习通用特征表示,降低对近期数据的过度依赖。
结构消融显示单独使用CNN或LSTMAE模块时,模型性能下降3%-5%,证明双模块协同能有效过滤噪声并捕捉动静特征交互。数据消融实验(表4)发现当训练数据从10天增至30天时,模型指标持续上升,但第15天出现波动,反映早期预测需选择最佳时间节点(如第10天)。图4更直观展示数据量增长对模型性能的促进作用。
本研究通过创新性构建学习活动特征,有效解决了传统模型对特殊学生群体的误判问题。CNN-LSTMAE模型兼具局部特征提取和时序规律学习能力,在应对高维度、非线性点击流数据时表现出更强鲁棒性。值得注意的是,模型当前未量化不同行为特征对预测的贡献度,未来可引入注意力机制进行特征权重分配。此外,探索多模态数据融合与实时预测能力,将进一步提升模型在教育实践中的落地价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号