开发并验证一个可推广的生存模型,以预测骨关节炎的进展
《Osteoarthritis and Cartilage Open》:Development and validation of a generalisable survival model to predict osteoarthritis progression
【字体:
大
中
小
】
时间:2025年09月29日
来源:Osteoarthritis and Cartilage Open 2.8
编辑推荐:
本研究开发并验证了一个基于迁移学习的生存模型,用于预测膝关节骨关节炎(esKOA)或膝关节置换术(KR)的时间。通过OAI基础模型微调于MOST中心1数据,并验证于MOST中心2独立数据集,模型在OAI(C-index=0.69)和MOST中心2(C-index=0.67)均表现出较好泛化能力,较直接迁移模型提升约10%。SHAP分析显示,心脏病史、糖尿病、吸烟和BMI在微调后重要性显著增加。研究证实迁移学习能有效缓解跨群体数据分布差异,提升模型在多样化人群中的预测性能。
本研究探讨了如何通过迁移学习开发一种适用于不同人群的膝关节骨关节炎(KOA)进展预测模型。随着人工智能在医疗领域的广泛应用,预测模型的泛化能力成为一个重要议题。特别是在慢性疾病如骨关节炎的预测中,模型若仅在单一数据集上训练,可能会因为人群差异、临床特征不同或数据分布变化而无法有效推广至其他群体。因此,本研究尝试利用迁移学习技术,将最初在Osteoarthritis Initiative(OAI)数据集上训练的DeepSurv模型,通过调整使其适用于Multicenter Osteoarthritis Study(MOST)数据集,从而实现更广泛的应用价值。
膝关节骨关节炎是一种常见的退行性疾病,其进展通常表现为关节结构破坏、功能受限以及需要进行膝关节置换(KR)的严重情况。本研究中,将“进展至终末期膝关节骨关节炎(esKOA)或接受膝关节置换”作为预测终点,这不仅有助于评估疾病的严重程度,也为临床决策提供了重要的依据。然而,由于不同人群在年龄、体重指数(BMI)、共病情况等方面存在差异,因此模型的泛化能力受到挑战。例如,OAI和MOST两个数据集在年龄分布、BMI范围以及共病的流行率方面存在显著不同,这可能导致模型在不同人群中表现不一致。
为了应对这一问题,研究团队采用迁移学习方法,将OAI数据集上的模型知识迁移到MOST数据集上,从而增强模型的适用性。迁移学习是一种机器学习技术,它通过从源域中学习到的特征,调整目标域的模型以适应不同的数据分布。这种方法不仅可以保留源域中学习到的高阶特征,还可以通过微调模型的最后几层来适应目标域的特定特征。研究中,OAI数据集被用作源域,而MOST Centre 1则作为目标域进行微调,最终在MOST Centre 2上进行独立验证,以评估模型在未见过的数据上的表现。
研究结果显示,原本在OAI数据集上表现良好的模型(C-index = 0.75)在MOST Centre 1上的表现有所下降(C-index = 0.61,p < 0.0001),而在MOST Centre 2上的表现更差(C-index = 0.60,p < 0.0001)。这表明,直接应用单一数据集训练的模型在面对不同人群时可能会出现性能下降的问题。相反,通过迁移学习微调后的模型在OAI数据集上的表现保持稳定(C-index = 0.69),并在MOST Centre 1和MOST Centre 2上分别提升了至0.64(p < 0.0001)和0.67(p < 0.0001)。这一结果表明,迁移学习能够有效缓解因人群差异导致的模型性能下降问题,使模型能够在不同人群中保持较高的预测能力。
为了进一步理解迁移学习对模型预测能力的影响,研究团队使用SHapley Additive exPlanations(SHAP)方法分析了模型在不同数据集上的特征重要性变化。结果表明,在微调后的模型中,心肌梗死史、糖尿病史、吸烟习惯以及BMI的重要性显著增加,而年龄、性别、既往膝关节手术和使用止痛药等一般性特征的重要性则有所下降。这说明迁移学习不仅调整了模型的输出层,还重新分配了特征的权重,使其更贴合目标人群的疾病特征。例如,在MOST数据集中,心肌梗死和糖尿病的流行率较高,而BMI也普遍偏高,这些因素可能与膝关节骨关节炎的进展密切相关。因此,模型在微调后更关注这些风险因素,从而提高了预测的准确性。
在数据处理方面,研究团队对OAI和MOST数据集进行了数据对齐和缺失值处理。由于两个数据集在某些变量的分类方式上存在差异,研究团队通过将变量映射到统一的编码方式,确保了数据的一致性。此外,缺失值的处理采用了多重插补法(MICE),以减少数据缺失对模型训练和预测的影响。这种数据处理方法为迁移学习的顺利实施提供了基础保障,同时也为后续模型的泛化能力评估奠定了可靠的数据基础。
模型的建立过程采用了DeepSurv算法,这是一种基于深度学习的Cox比例风险模型的变体。与传统的Cox模型相比,DeepSurv通过引入神经网络来捕捉非线性关系,从而提升了模型的预测能力。研究中,DeepSurv模型的输入包括年龄、性别、BMI、共病情况、吸烟状况、既往膝关节损伤和手术、止痛药使用、行走辅助工具使用以及活动水平等临床变量。这些变量的选择基于对膝关节骨关节炎病理生理机制的深入研究,并且优先考虑了易于获取、具有临床意义的指标,以确保模型的实用性。
在模型训练和验证过程中,研究团队采用了随机划分训练集和测试集的方法,并通过1000次Bootstrap重采样来评估模型的性能。这一方法有助于更全面地了解模型在不同数据分布下的稳定性。同时,为了确保模型的泛化能力,研究团队在不同的测试集上进行了多次评估,包括OAI、MOST Centre 1和MOST Centre 2。结果显示,迁移学习后的模型在三个测试集上均表现良好,特别是在MOST Centre 2上,其C-index从0.60提升至0.67,显示出较强的适应能力。
此外,研究还指出,迁移学习方法在膝关节骨关节炎预测中的应用仍处于初步阶段。尽管已有研究表明迁移学习在医学影像分析中具有显著优势,但其在基于结构化临床数据的预后模型中的应用尚未广泛开展。因此,本研究不仅验证了迁移学习在膝关节骨关节炎预后模型中的可行性,还为未来的研究提供了新的思路。通过迁移学习,研究团队能够开发出一种适用于不同人群的预后模型,为临床提供更具普适性的预测工具。
研究的局限性同样值得关注。首先,OAI和MOST数据集主要来源于美国的老年人群体,这可能限制了模型在年轻人群或不同种族和地理区域中的适用性。例如,有研究表明,中国老年女性的膝关节骨关节炎患病率高于美国白人女性,这提示模型在不同种族背景下的表现可能有所不同。因此,未来的研究需要在更多样化的数据集上进行验证,以确保模型的广泛适用性。其次,数据对齐仍然是一个挑战,特别是在整合非结构化临床数据时。因此,建立统一的数据标准对于模型的泛化能力至关重要。最后,研究团队目前仅使用了常规的临床变量,而忽略了其他可能影响膝关节骨关节炎进展的因素,如生物标志物、医学影像和生物力学数据等。未来的研究可以考虑整合这些多模态数据,以进一步提高模型的预测能力。
综上所述,本研究通过迁移学习技术,成功开发并验证了一种适用于不同人群的膝关节骨关节炎进展预测模型。该模型不仅在源域OAI数据集上保持了较高的预测性能,还在目标域MOST数据集上表现出显著的提升。研究结果表明,迁移学习能够有效缓解因人群差异导致的模型性能下降问题,使模型在不同人群中保持较高的预测准确性。此外,迁移学习方法还能够根据目标人群的特征调整模型的权重,使其更贴合实际临床需求。尽管研究仍存在一定的局限性,但其方法论为未来膝关节骨关节炎预后模型的开发提供了新的方向,也为其他慢性疾病的预测研究提供了借鉴。未来的工作应进一步探索数据对齐策略,整合更多类型的临床数据,并在更多样化的数据集上进行验证,以推动膝关节骨关节炎预测模型的广泛应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号