从相关到因果:因果推断在免疫治疗机器学习模型中的范式变革与临床转化

【字体: 时间:2025年09月18日 来源:Frontiers in Immunology 5.9

编辑推荐:

  本综述系统阐述了机器学习(ML)在免疫治疗研究中从相关性分析向因果推断(Causal Inference)范式转变的紧迫性与实现路径。文章指出当前90项免疫检查点抑制剂(ICIs)研究中因果推断的全面缺失,揭示了传统ML模型因混淆偏倚导致结论冲突(如irAEs的HR从0.37修正为1.02)的严重局限,并重点介绍了Targeted-BEHRT、CIMLA、CURE等因果ML模型在识别真实因果效应、整合多模态数据和增强模型可解释性方面的突破性优势,最终为未来5-10年通过扰动细胞图谱(Perturbation Cell Atlas)和联邦因果学习等创新推动临床转化提供路线图。

  

1 引言

机器学习(ML)技术在推进精准免疫治疗方面发挥着关键作用,通过整合多组学数据识别生物标志物、预测治疗反应、发现新治疗靶点、表征肿瘤微环境和优化患者分层。然而,ML在免疫学中的应用日益受到质疑:传统模型难以捕捉免疫相互作用的复杂性,深受深度学习"黑箱"特性困扰,且缺乏标准化数据预处理方案。

尽管"相关不等于因果"是基本统计原则,但实践中常被忽视。对90项免疫检查点抑制剂(ICIs)研究的系统回顾显示,虽然72%使用传统ML、22%使用深度学习,但无一纳入因果推断,导致这些模型未被纳入III期临床试验设计或主要临床指南引用。对36项黑色素瘤预测模型的平行分析显示,所有研究都是回顾性相关分析,无一应用因果推断,PROBAST评估认为它们存在中高偏倚,限制了转化效用和临床适用性。

这种认知与实践的脱节凸显了免疫学研究中对数字相关的过度依赖。研究人员可能认可因果关系的重要性,但因免疫数据的内在复杂性而却步:高维、噪声、时间动态的免疫反应,加上治疗诱导的非线性效应和巨大的个体间异质性(跨越基因型、表型和微环境),对传统因果推断方法构成重大挑战。

幸运的是,最近的方法学进展使因果推断与ML的整合日益可行。例如Targeted-BEHRT模型将Transformer架构与双稳健估计结合,从纵向高维数据推断长期治疗效应;包含选择图、缺失图和结构发现技术的因果网络模型在免疫治疗风险评估和不良事件预测方面优于标准ML;CIMLA在基因调控网络分析中对混淆表现出卓越鲁棒性;CURE通过大规模预训练改善治疗效果估计,AUC提升约4%,精确召回性能提升约7%;Causal-stonet有效处理多模态和不完整数据集;基于LiNGAM的因果发现模型显示出高精度(逻辑回归84.84%,深度学习84.83%),能直接识别致病因素。

这些创新代表了因果推理与机器学习方法的融合,正日益应用于免疫学研究,帮助揭示真实因果关系、减轻混淆(观察和未观察的)、增强模型可解释性和鲁棒性,整合基因组学、蛋白质组学、临床表型和医学影像等异构数据类型,最终构建更现实的模型,在不同患者群体中具有卓越的泛化能力和预测性能。

2 免疫研究中的误解:将相关等同于因果

当前免疫治疗研究中,传统ML模型主要依赖回顾性数据挖掘相关性,却常未能探索潜在因果机制。例如在肠道微生物组与ICIs研究中,尽管使用随机森林和SVM等先进算法,但27项研究中仅4项进行交叉验证,且未充分控制抗生素使用和饮食差异等关键混淆因素,导致相同菌株疗效结论高度异质且不可靠。同样,在免疫相关不良事件(irAEs)与生存分析中,传统Cox回归得出HR为0.37,暗示irAEs具有保护作用,但因果ML使用目标试验模拟(TTE)校正 immortal time bias后显示真实HR为1.02,完全推翻了irAEs改善预后的传统认知。

研究人员对因果推断重要性的认识不足导致多重问题:有效的治疗可能因不当分组策略被错误拒绝,而统计上显著的相关性可能被误解为因果关系,产生误导性临床意义。例如研究抗生素暴露对ICI结局的影响报告HR约1.3,但作者明确承认存在未测量混淆因素,这带来不合理停用抗生素的风险。基于CT放射组学预测ICI反应的深度学习模型AUC约0.71,但捕获的信号主要反映肿瘤负荷和治疗线数等混淆因素而非真实药物敏感性。

忽视因果推断不仅损害研究结果的可靠性、阻碍临床转化、误导临床决策,还浪费研究资源和延迟有效疗法开发。COVID-19疫苗研究中,包含非病毒相关住院("假阳性病例")导致严重低估疫苗主要预防感染后严重并发症而非感染本身的保护效应,最终产生疫苗效力的误导性结论。

尽管因果推断在临床研究中的重要性日益被认识,但许多研究仍依赖传统因果推断方法,这些方法在实践中面临重大挑战:随机对照试验(RCTs)常因成本高、伦理约束和患者异质性不可行;观察性研究中的分层设计难以处理高维组学数据;多变量回归无法捕捉免疫系统的非线性特征;倾向评分方法(PSM)基于所有混淆因素可测量的不现实假设,72%的研究中存在误用;孟德尔随机化(MR)也面临方法学局限,包括易受假关联影响和遗传工具质量及核心假设导致的估计偏倚。

3 因果推断机器学习模型的独特优势

为克服传统因果推断和常规机器学习方法的局限,基于因果推断的机器学习(因果ML)模型应运而生。与PSM、Cox回归或线性模型等经典因果方法相比,因果ML解除严格参数假设和刚性模型形式的约束,能更灵活地建模免疫系统固有的非线性动力学和高维相互作用。例如CV-TMLE在仅168名COVID-19 ICU患者的小型研究中采用Super Learner集成方法,有效放松正则性条件,相比标准方法将95%置信区间覆盖率提高10-20个百分点。ANN-DML估计器在处理免疫生物标志物数量随样本量扩展(p→2n)的极高维场景时,相比传统核平滑方法均方误差(MSE)降低约30%。

因果ML支持整合影像、文本、时间序列和基因组数据的多模态建模。例如Clinical Transformer融合临床记录、实验室指标和测序数据,通过反事实扰动策略在七种癌症类型中C-index提高0.05-0.10。MOFS有效整合MRI、病理和多组学数据识别对抗PD-1治疗最响应的胶质瘤亚型;Bio-relevant AI结合影像、病理和基因表达数据帮助32%的II期结直肠癌患者避免不必要的化疗。这些独特优势有助于更准确预测治疗结局、优化药物使用和提高治疗效能。

与随机森林、LASSO或深度学习等仅依赖相关性模式发现的常规ML方法不同,因果ML将焦点从预测关联转向识别因果关系。例如Super Learner ITE框架通过模型集成估计个体治疗效应(ITE),外部验证AUC达0.77,决策曲线分析显示相比全治疗或SAPS-II策略临床净获益显著更高。Causal Forest利用自适应分区估计条件平均处理效应(CATE),相比传统LASSO回归将治疗-微生物组相互作用效应的预测误差降低25-40%。

因果ML有效解决相关性模型的关键局限——伪关联和混淆偏倚,通过实现对未测量混淆的稳健控制,澄清免疫细胞与疾病间的真实因果关系。例如COCA利用阴性对照结果校准将估计偏倚限制在传统OLS模型的40%以内;CV-TMLE改进95%置信区间覆盖率。这些优势共同增强模型性能、临床可解释性和泛化能力,为临床决策提供稳健科学指导。

机制感知的因果ML方法将生物先验知识嵌入模型结构,实现数据驱动与机制驱动策略的统一——计算与实验的闭环。这种整合能更好捕捉复杂临床表型、获得更深机制见解,增强生物医学研究的可行性和转化价值,为早期检测策略和新药开发管道提供有前景的途径。

3 因果推断机器学习模型的应用挑战

在数据获取层面,不准确或不完整数据显著阻碍因果推断模型的实施。测量误差可能放大因果偏倚,从而损害结果的可靠性。当缺失数据违反可识别性假设时,任何估计量都无法恢复真实因果效应,使所得因果推断无效。

在临床应用层面,因果ML模型常呈现"黑箱"特性,严重限制临床医生接受度。当内部参数和计算过程过于复杂时,临床医生难以理解结论推导方式,最终阻碍临床转化。

在研究方法层面,方法学选择困难和跨学科合作障碍制约了因果ML在免疫学研究中的进展。因果关系结构多样且常需定制方法,但可用方法繁多且各有独特局限,使得最优选择具有挑战性,尤其对因果建模正式训练有限的研究者。跨学科努力常受领域间文化和概念鸿沟阻碍:生物医学科学家关注临床适用性,统计学家强调方法有效性,计算机科学家优先考虑算法性能,这些不同优先级可能导致沟通破裂并最终减缓科学进展。

4 讨论

未来五年,解决数据质量和模型可解释性两大核心挑战需开发创新技术方案。数据质量方面,多重插补与G-formula的整合显著降低囊性纤维化研究中缺失导致的偏倚;MI-BART方法在多治疗比较中表现出卓越鲁棒性,为未来5-10年增强数据控制和质量改进提供前景。

可解释性方面,Causal-XAI混合框架能生成因果归因热图,帮助医生更好理解基于影像的决策;交互式反事实推理平台CLARUS允许临床专家直接操纵和验证模型推理链,通过澄清模型输出的因果途径有效解决"黑箱"问题,改进临床决策和监管信任,最终促进临床转化。未来,贝叶斯非参数模型与自然语言处理(NLP)的整合有望通过从大规模生物医学数据提取真实因果结构进一步增强模型性能,揭示深层因果关系和识别新治疗靶点。

未来5-10年,方法学整合将成为核心主题。新兴"三角验证框架"将更广泛采用,该框架通过整合和交叉验证工具变量(IVs)、断点回归(RD)和倾向评分等多种方法增强因果推断的稳健性。加强跨学科合作和人才培养变得至关重要:多学科团队可开发共享术语和工作流程,促进流行病学、经济学和临床医学的有效整合,使各领域发挥优势解决复杂问题;培养能驾驭免疫相关生物系统复杂性的多面手专业人才有助于打破学科孤岛,应对资源分配和协调挑战。这种整合方法能提供更全面的解决方案,满足免疫药物研究快速演进的需求。学术机构应建立专门项目和课程,培养因果推断与免疫治疗交叉学科人才,促进现代科学与专业教育的融合,推动技能发展,促进免疫学研究的全球合作,为领域注入新活力与机遇。

未来5-10年,因果推断模型有望在临床免疫学中广泛实施。Rood等提出的"扰动细胞图谱"代表概念转折点,未来研究将基于大规模CRISPR-scRNA-seq扰动数据集训练和部署基础因果模型提供实践指导。技术层面,在免疫分化研究中显示出巨大潜力的Velorama等工具将发挥关键作用:通过整合RNA velocity将细胞发育轨迹表达为有向无环图(DAGs),这些工具能在单细胞分辨率进行因果网络推断,该能力有望在未来研究中扩展。

随着人工智能持续进步,AI辅助疫苗设计将成为主流趋势,这将需使用目标试验模拟、因果NLP和联邦因果估计框架识别因果相关终点并加速关键发现。随着联邦学习框架在各机构的成熟,CIMLA等可解释因果工具可能标准化,使因果推断从理论发展全面过渡到常规临床决策支持。通过严格控制协变量和混淆变量改进数据质量和模型鲁棒性将进一步推动这一进程,这对增强因果模型在临床环境中的可信度、透明度和现实世界适用性至关重要。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号