SHAP与临床友好型解释对比研究揭示对临床决策行为的影响

【字体: 时间:2025年09月28日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对AI临床决策支持系统(CDSS)的“黑箱”问题,比较了SHAP解释与临床友好型解释对医生接受度、信任度、满意度及可用性的影响。通过63名医生的对照实验发现,结合SHAP可视化与临床叙述的解释方式(RSC)显著提升医生对AI建议的采纳率(WOA=0.73),且信任、满意度与可用性均优于仅提供结果(RO)或结果加SHAP(RS)的方式。该研究为医疗AI可解释性实践提供了关键实证依据,推动CDSS的临床落地。

  
在医疗人工智能快速发展的今天,临床决策支持系统(Clinical Decision Support System, CDSS)正逐渐成为医生工作中的得力助手。这些系统能够通过复杂的算法分析患者数据,提供诊断建议或治疗方案预测。然而,一个突出的问题限制了它们的广泛应用:许多先进的AI模型如同“黑箱”,医生能够看到系统输出的结果,却难以理解其背后的推理过程。这种不可解释性不仅影响了医生对AI建议的信任,也可能埋下临床误用的风险。
传统的统计方法虽然易于解释,但在捕捉医学数据中常见的非线性关系时往往表现不佳。而机器学习模型尽管在这些方面表现优越,却因其复杂性而难以提供直观的解释。随着可解释人工智能(Explainable AI, XAI)技术的兴起,像SHapley Additive exPlanations(SHAP)和局部可解释模型-无关解释(LIME)这样的方法被开发出来,旨在揭开AI决策过程的神秘面纱。SHAP通过计算每个特征对预测结果的贡献度,提供全局和局部解释;LIME则通过在特定实例附近构建可解释模型来提供局部解释。尽管这些技术已成为医疗AI领域的标准工具,但它们究竟如何影响医生的决策行为,哪种解释方式更能获得临床专家的认可,仍缺乏充分的实证研究。
针对这一空白,Sujeong Hur、Yura Lee等研究人员在《npj Digital Medicine》上发表了一项开创性研究,系统地比较了不同解释方式对临床医生决策行为的影响。研究团队聚焦于一个具体的临床场景——胸外科手术患者的红细胞输血需求预测,开发了一套名为pMSBOS-TS的AI-CDSS系统。该系统基于极端梯度提升(XGBoost)算法构建,能够准确预测每位患者的用血需求,但其真正创新之处在于提供了三种不同的解释方式:仅提供AI预测结果(RO)、结果加SHAP可视化(RS)、以及结果加SHAP加临床叙述解释(RSC)。
研究人员在韩国首尔的一家三级甲等教学医院开展了这项模拟研究,招募了63名有输血产品处方经验的外科医生和内科医生参与实验。通过精心设计的对抗平衡实验方案,每位医生需要处理18个临床案例 vignettes,每种解释方式各对应6个案例。对于每个案例,医生首先给出自己的初始输血量估计,然后参考AI系统的建议做出最终决策。通过比较初始估计和最终决策的差异,研究人员能够量化医生对AI建议的接受程度(Weight of Advice, WOA)。
本研究采用了重复测量、组内对照的实验设计,通过vignette模拟临床场景,使用pMSBOS-TS CDSS系统生成预测和建议,并采用对抗平衡法控制顺序效应。主要评估指标包括建议接受权重(WOA)、XAI信任量表、解释满意度量表和系统可用性量表(SUS),使用Friedman检验和Conover事后分析进行统计比较,并采用重复测量相关性分析(RMCORR)探讨各指标间的关系。
接受度:建议权重
研究发现,提供临床解释(RSC)显著提高了医生对AI建议的接受程度。RSC组的平均WOA为0.73(SD=0.26),显著高于RS组(0.61,SD=0.33)和RO组(0.50,SD=0.35)。这表明,单纯的SHAP可视化虽然比仅提供结果有所改善,但结合临床叙述的解释方式能够最大程度地促进医生采纳AI建议。
解释的信任度、满意度和可用性
在所有评估指标上,RSC组都表现出显著优势。XAI信任量表评分从RO组的25.75(SD=4.50)逐步提升到RS组的28.89(SD=3.72),再到RSC组的30.98(SD=3.55)。解释满意度量表也呈现类似趋势,RSC组获得最高分(31.89,SD=5.14)。系统可用性量表(SUS)评分显示,RSC组得分72.74(SD=11.71)属于“良好”水平,显著高于RS组(68.53)和RO组(60.32)的“勉强可接受”水平。
相关性分析
研究发现,医生对CDSS建议的接受程度与信任度、满意度和可用性评分之间存在显著正相关。除了“警惕性”项外,所有信任度量表项都与WOA呈正相关,其中“可预测性”(r=0.463)、“与新手的比较”(r=0.432)和“偏好”(r=0.431)相关性最强。解释满意度量表中的“详细信息适当性”(r=0.431)和“解释可信度”(r=0.414)也与接受度高度相关。
事后分析
亚组分析表明,不同经验水平和科室的医生都表现出一致的趋势(RSC>RS>RO),支持了主结果的稳健性。此外,通过计算平均绝对决策变化(包括初始估计与AI建议相同的案例),进一步验证了RSC方式能够引起最大程度的决策改变(均值=1.43,SD=0.89)。
本研究通过严谨的实验设计提供了令人信服的证据:在AI临床决策支持系统中,将技术性的SHAP可视化与临床叙述解释相结合,能够显著提高医生对AI建议的接受度、信任度、满意度和系统可用性。这一发现具有重要的理论和实践意义。
从理论角度看,研究结果支持了“人机交互中解释质量至关重要”的观点。单纯的数值结果或技术性可视化(如SHAP图)虽然提供了一定的透明度,但未能完全满足临床专家的认知需求。而将技术解释转化为临床语言,使医生能够将AI输出与自己的专业知识和临床经验相连接,这才是提升AI采纳率的关键机制。
从实践角度看,这项研究为AI-CDSS开发者提供了明确的设计指南:在提供AI预测结果时,应优先采用结合技术可视化和临床叙述的解释方式。例如在本研究中,RSC解释不仅展示SHAP值最高的三个特征(如PT(INR)、MSBOS和Hb),还提供了这些指标的临床意义解释、参考值范围以及它们对输血需求的影响方向。
研究还指出了未来的发展方向:当前基于规则的解释生成方法可能产生不自然或缺乏情境化的解释,而结合大语言模型(LLM)的方法可能生成更符合人类交流习惯的叙述性解释。虽然这类研究目前主要在非医疗领域开展,但将其应用于临床环境的前景值得探索。
需要注意的是,本研究存在一些局限性。实验在单一的三级教学医院进行,参与者中约30%有AI使用经验,这可能限制结果的普适性。此外,由于实验复杂性限制,研究未包含“单独临床解释”组或其他XAI方法(如LIME)的对比,这些都有待后续研究完善。
总之,这项研究强调了在医疗AI系统中提供临床友好型解释的重要性。它不仅证明了“如何呈现信息”与“呈现什么信息”同样重要,还为推动AI在临床实践中的有效整合提供了实证基础。随着医疗AI技术的不断发展,这类关注人机交互细节的研究将变得越来越重要,最终促使AI技术真正成为医生信赖的合作伙伴,共同提升医疗质量和患者安全。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号