基于临床实验室数据的机器学习模型对肺癌转移的预测
《Cancer Reports》:Prediction of Lung Cancer Metastasis Using Machine Learning Models Based on Clinical Laboratory Data
【字体:
大
中
小
】
时间:2025年10月09日
来源:Cancer Reports 1.9
编辑推荐:
本研究基于1629例肺癌患者的实验室和临床数据,构建了逻辑回归、随机森林等四种机器学习模型,通过LASSO回归筛选出关键预测因子。结果显示逻辑回归模型在测试集中AUC最优(0.888和0.875),表明实验室指标(如CEA、CA15-3、MPV等)和临床特征(如肿瘤大小、吸烟史)可有效预测淋巴结转移及远处转移,为临床分期和治疗决策提供新方法。
肺癌作为全球范围内导致癌症死亡的主要原因之一,其准确分期对于提高患者的生存率至关重要。不准确的分期,无论是过度还是不足,都可能导致治疗方案的无效,甚至对患者造成潜在伤害。淋巴结转移和远处转移是影响肺癌预后的重要因素,当出现远处转移时,肺癌被归类为IV期,意味着治疗策略从潜在可治愈性转向姑息性治疗。因此,对区域淋巴结侵犯和远处转移的评估对于制定合适的治疗方案和判断预后具有决定性意义。
传统的影像学检查和实验室检测虽然能够反映肿瘤的生长和代谢活动,但在实际临床应用中,它们通常需要与其他诊断方法结合,才能更有效地评估转移情况。这种依赖于多种技术的诊断方式不仅增加了诊断的复杂性,还可能限制了这些结果的临床实用性。为了改善这一现状,研究者开始探索将机器学习(ML)算法与实验室数据和临床特征相结合,以提高肺癌区域淋巴结侵犯和“跳过”淋巴结转移的预测能力。
本研究通过回顾性分析,收集了2020年至2022年间在重庆大学涪陵医院首次通过组织病理学确诊的肺癌患者数据。研究共纳入1629例病例,其中861例被归为区域淋巴结侵犯预测组(Group N),519例被归为“跳过”区域淋巴结的远处转移预测组(Group M)。Group N进一步分为淋巴结侵犯组(N+)和非侵犯组(N?),而Group M则分为远处转移组(M+)和非转移组(M?)。在数据处理过程中,排除了实验室数据缺失超过30%的病例,以确保模型的准确性和稳定性。
在Group N中,共有40个参数表现出显著的统计学差异(p < 0.05),而在Group M中,27个参数显示出显著差异。这些参数包括肿瘤大小、凝血功能指标、血小板相关参数、肿瘤标志物、红细胞分布宽度、吸烟和饮酒史等。通过使用LASSO回归方法进行特征选择,研究确定了13个关键参数用于Group N的预测,以及12个关键参数用于Group M的预测。这些参数不仅涵盖了病理学和影像学信息,还包括了临床实验室检测数据,为构建全面的预测模型提供了基础。
研究结果显示,采用逻辑回归模型在两个组中均表现出最佳的预测性能,其在Group N中的AUC值为0.888,在Group M中的AUC值为0.875。这些数值表明,模型在区分区域淋巴结侵犯和远处转移方面具有较高的准确性。此外,研究还通过SHAP值对各个预测因子的重要性进行了评估,明确了哪些指标对模型的贡献最大。在Group N中,肿瘤大小、凝血时间、血小板体积、纤维蛋白原、血小板计数、降钙素原、CA153、癌胚抗原、腺苷脱氨酶、红细胞分布宽度、凝血酶时间、吸烟史和饮酒史是主要的预测因子。而在Group M中,CYFRA211、肿瘤大小、癌胚抗原、CA153、鳞状细胞癌抗原、碱性磷酸酶、纤维蛋白原、血红蛋白、钙、白蛋白和单核细胞计数则被识别为关键预测参数。
本研究的成果表明,结合机器学习算法和临床实验室数据,能够有效预测肺癌的区域淋巴结侵犯和“跳过”淋巴结的远处转移。这种方法不仅提高了诊断的准确性,还简化了临床流程,使医生能够基于更全面的数据制定个性化的治疗方案。相较于以往的研究,本研究使用的参数类型更为简单,且更容易在临床中获取,同时其预测效率不低于多数现有研究。这为未来临床实践提供了新的思路,特别是在资源有限的医疗机构中,可以更有效地利用现有的检测手段进行肺癌的早期识别和风险评估。
然而,本研究也存在一定的局限性。首先,它是一项单一中心的回顾性研究,因此结果可能受到不同实验室检测系统的影响,且在其他中心的应用效果尚需验证。其次,组间数据匹配比例不完全一致,且样本量有限,这可能导致分析结果的偏差。未来的研究应考虑进行多中心试验,并通过适当的方法平衡样本量,以提高研究结果的普遍适用性。此外,区域淋巴结侵犯和远处转移的判断主要依赖于影像学检查,而一些微小的侵犯可能未被发现,这可能会影响最终的预测效果。因此,后续研究需要进一步优化模型,并进行外部验证,以增强其在临床中的应用价值和推广性。
综上所述,本研究通过整合机器学习算法与临床实验室数据,揭示了预测肺癌区域淋巴结侵犯和“跳过”淋巴结转移的潜在可能性。这些发现不仅为临床提供了新的诊断工具,还强调了实验室数据在个性化治疗中的重要性。随着机器学习技术的不断进步,其在肺癌早期检测和预后评估中的应用前景将更加广阔,为临床医生提供更精准的决策支持。未来的研究应进一步探索不同亚型肺癌的特征差异,以及这些预测因子在更广泛人群中的适用性,从而推动肺癌精准医疗的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号