基于随机森林的中国大学生体力活动预测因素的识别与排序

《Frontiers in Public Health》:Random forest-based identification and ranking of predictive factors for physical activity in Chinese college students

【字体: 时间:2025年11月20日 来源:Frontiers in Public Health 3.4

编辑推荐:

  随机森林模型分析中国大学生身体活动水平的关键预测因子,发现锻炼依从性(行为、努力投入、情感体验)、性别差异、运动技能掌握及酒精消费水平是前十大重要影响因素。研究采用分层抽样法覆盖17省10,182名学生,基于社会生态模型构建多水平分析框架,结合SHAP值解析揭示性别、技能、动机等变量与PA达标率的非线性关联。建议通过情感激励、性别平等干预和技能培训提升PA水平。

  本研究通过运用随机森林(Random Forest, RF)算法,深入探讨了中国大学在校生身体活动(Physical Activity, PA)水平的关键预测因素,并分析了不同变量在预测过程中的作用及其相对重要性。研究采用了全国范围内的横断面调查方法,覆盖了中国17个省份,共收集了10,182份有效问卷,数据具有广泛的地域代表性和样本数量优势。研究从社会生态学模型(Social-Ecological Model, SEM)的个体与人际-组织层面出发,整合了39个预测变量,包括人口统计特征、心理行为因素以及社会支持等多个维度,以系统分析影响大学在校生身体活动水平的多因素关联。

身体活动作为促进身心健康的重要方式,其在大学在校生群体中的普及率一直是公共卫生领域的关注重点。世界卫生组织(WHO)的多项研究指出,全球范围内青少年群体的身体活动水平普遍不足,尤其是在18至24岁年龄段的大学生群体中,这一问题尤为突出。在中国,约70%至80%的大学生未能达到WHO推荐的身体活动标准,表明这一问题在中国青年群体中同样具有高度的紧迫性。因此,深入理解影响大学生身体活动水平的因素,对于制定有效的健康干预策略至关重要。

社会生态学模型(SEM)作为健康行为研究的重要理论框架,强调个体行为受到多层次环境的影响,包括个体层面、人际层面、组织层面、社区层面以及政策层面。在本研究中,考虑到调查的可行性与成本效益,研究者选择了个体与人际-组织两个层面作为分析重点。个体层面涉及个人的健康认知、行为模式和自我调节能力,而人际-组织层面则关注个体与社会网络之间的互动关系,以及学校等组织提供的支持与资源。通过将SEM与机器学习方法相结合,研究不仅提升了对身体活动影响因素的识别能力,还为构建多层次的健康干预策略提供了理论支持和技术路径。

研究采用了RF模型进行特征重要性分析,这是一种能够处理非线性关系和高阶交互效应的机器学习方法,适用于多维数据集的建模。在模型训练过程中,研究者通过网格搜索(Grid Search)和五折交叉验证(5-fold Cross-Validation)对模型参数进行了优化,以确保模型的稳定性与泛化能力。结果显示,RF模型在测试集上的准确率达到0.704,AUC值为0.762,表明其在预测大学生身体活动水平方面具有较高的性能。同时,研究者还对模型的特征重要性进行了深入分析,确定了前九个最重要的预测变量,包括运动依从性(运动行为)、性别、运动依从性(努力投入)、运动技能掌握程度、运动动机(能力)、酒精消费水平、运动依从性(情感体验)、运动动机(社交)、运动动机(乐趣)等。这些变量在预测身体活动水平中表现出显著的关联性,其中运动依从性(运动行为)和性别是最重要的两个因素。

运动依从性(运动行为)被发现是影响身体活动水平的最核心因素之一。在研究中,运动依从性被进一步细分为多个子维度,如运动频率、运动强度、运动持续时间等。分析表明,这些子维度均对身体活动水平产生积极影响,表明运动行为的形成与维持是大学生身体活动水平提升的关键路径。此外,性别也被证实为一个显著的预测变量,男性大学生的身体活动达标率(63.8%)明显高于女性(28.9%)。这一结果可能与社会文化因素有关,如性别角色的社会化过程、运动动机的差异等。研究还指出,运动技能的掌握程度是影响身体活动的重要因素,掌握了至少两项运动技能的学生,其达标率显著高于技能掌握较少的群体。这表明,通过技能训练提升学生的运动能力,是促进身体活动的重要策略。

在分析过程中,研究者还发现,酒精消费水平对身体活动水平具有复杂的影响。适度饮酒(偶尔饮酒)与身体活动达标率呈正相关,而完全不饮酒则与较低的达标率相关。这一发现可能反映了社会支持和社交活动对身体活动的间接促进作用。例如,适度饮酒的群体可能更倾向于参与社交性质的运动活动,而完全不饮酒的群体可能因社交回避或心理保守倾向而减少运动参与的机会。因此,在制定健康干预策略时,需要区分“社会性饮酒”与“生理性饮酒”对身体活动的不同影响,并在个体层面加强健康教育与自我控制能力的培养,同时在人际层面鼓励同伴支持与社交互动,以增强运动参与的动力。

研究的创新点在于其采用机器学习方法,尤其是随机森林算法,对身体活动的预测因素进行了系统分析。与传统的统计方法相比,机器学习在处理多维、非线性数据时表现出更强的灵活性和预测能力。通过SHAP(SHapley Additive exPlanations)值的分析,研究不仅量化了各变量对身体活动的边际贡献,还揭示了不同变量之间的相互作用机制。例如,运动依从性(情感体验)和运动动机(社交)在模型中表现出较高的独立预测能力,这表明情感体验和社交属性在促进运动行为方面具有重要作用。因此,未来的健康干预应注重提升运动的“情感价值”和“社会属性”,通过设计更具吸引力和互动性的运动项目,满足大学生在心理和社交层面的需求。

此外,研究还指出了当前研究存在的局限性。首先,由于采用了横断面研究设计,研究结果仅能反映变量之间的统计关联性,而无法直接推断因果关系。其次,身体活动水平的评估依赖于自述问卷(如PARS-3量表),可能存在回忆偏差和社会赞可偏差,导致数据的准确性受限。第三,研究未充分纳入社区和政策层面的因素,如校园体育设施的可及性、课程设计以及体育奖学金等政策,这些因素可能对身体活动水平产生重要影响。第四,尽管总体样本量较大,但部分子群体的样本量较小,可能影响模型对复杂非线性关系的捕捉能力。

针对上述局限性,研究者提出了未来研究的多个方向。首先,建议采用纵向研究设计,以更全面地揭示预测因素与身体活动之间的因果关系和时间动态变化。其次,未来研究可以构建包含社区和政策层面变量的多层级模型,以弥补当前研究的不足。第三,建议整合多种数据来源,如加速度计数据、智能手机传感器数据以及校园卡交易记录等,以提高身体活动水平评估的精确度和全面性。第四,探索更先进的机器学习技术,如过采样策略,以优化模型在不同类别间的分类性能。

综上所述,本研究通过综合运用社会生态学模型与机器学习方法,系统地识别了影响中国大学生身体活动水平的关键因素,并为制定针对性的健康干预策略提供了科学依据。研究结果表明,提升运动依从性、增强运动的“情感价值”与“社会属性”、关注女性学生的运动参与障碍、以及通过技能训练增强运动能力,是促进大学生身体活动水平的重要途径。未来的研究和实践应进一步整合多源数据,拓展研究的深度和广度,以实现对大学生身体活动水平的精准干预与提升。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号