经验引导的多智能体可解释框架在放射学报告摘要生成中的创新应用与临床价值
【字体:
大
中
小
】
时间:2025年10月04日
来源:Computer Methods and Programs in Biomedicine 4.8
编辑推荐:
本研究针对放射学报告摘要生成任务中历史经验利用不足和预测过程可解释性缺失的问题,提出了经验引导的多智能体可解释框架(EMAI)。通过自进化最近邻显式经验归纳算法和可解释发现分析模块,显著提升了MIMIC-CXR和Open-I数据集上的Rouge指标与CheXpert评分。该研究为医疗决策支持提供了更准确、可信的自动印象生成方法,具有重要的临床意义。
在医疗诊断领域,放射学报告是医生判断病情的重要依据,其中印象(Impression)部分作为发现(Findings)部分的精炼总结,直接影响临床决策质量。然而,手动撰写印象不仅耗时耗力,还容易因人为因素出现疏漏。尽管基于大型语言模型(LLM)的自动摘要技术取得了显著进展,但现有方法往往忽视了两个关键问题:一是未能有效利用历史报告中蕴含的专家诊断经验,二是生成过程缺乏透明度和可解释性,导致临床医生难以信任自动生成的结果。
为了解决这些挑战,北京友谊医院放射科的研究团队在《Computer Methods and Programs in Biomedicine》上发表了创新性研究,提出了一个经验引导的多智能体可解释框架(Experience-guided Multi-Agent Interpretable Framework, EMAI)。该框架通过自进化最近邻显式经验归纳算法自动从历史报告中提取和泛化知识,并设计了可解释的发现分析模块来解构发现与印象之间的关联关系。采用多智能体协作机制动态整合这些组件,显著提升了摘要生成的准确性和可信度。
研究主要采用了以下关键技术方法:首先基于k-means聚类对训练数据集中的发现部分进行分组,通过自进化迭代优化生成高质量经验规则;其次利用LLM构建发现分析蒸馏训练数据,使模型能够自主分解发现内容并生成解释;最后设计包含管理智能体、经验检索智能体、报告检索智能体、发现分析智能体和印象合成智能体的多智能体框架,通过迭代优化机制实现动态信息整合。实验数据来源于MIMIC-CXR和Open-I两个公开胸部X光数据集,经过质量过滤后分别使用122,014份和2,400份报告进行训练。
研究人员提出了一种新颖的经验归纳算法,首先通过k-means聚类将发现部分相似的报告分组,然后在每个簇内使用LLM生成初始经验规则。通过自进化机制类似遗传算法的方式,基于Rouge评分自动筛选和优化规则,保留效果最佳的经验用于指导印象生成。在推理阶段,通过语义匹配将测试样本与最相似的训练簇关联,应用对应的经验规则。
该模块旨在显式模拟放射科医生的发现分析过程,将完整的发现部分分解为多个子发现,并为每个子发现生成解释和与最终印象的关联论证。通过两阶段蒸馏过程,先由领域专家制作示范分析,再使用GPT-4o等先进LLM生成更多训练数据,最终微调开源LLM获得自主分析能力。
多智能体框架包含五个核心组件:管理智能体负责协调任务流程;经验检索智能体匹配最相关的经验规则;报告检索智能体从多角度检索相似报告;发现分析智能体执行发现分解和解释生成;印象合成智能体生成最终印象。通过迭代优化机制,管理智能体基于生成结果动态调整检索策略,确保输出结果的准确性和一致性。
在MIMIC-CXR和Open-I数据集上的实验表明,EMAI框架在Rouge-1、Rouge-2、Rouge-L和CheXpert评分上均显著优于所有基线方法。在MIMIC-CXR上Rouge-L达到49.33,比最佳基线方法GCLRS提升4.69%;CheXpert评分达到64.21,领先基线14.15%以上。这些结果验证了经验归纳和可解释机制的有效性。
通过逐步添加框架组件的消融实验证实,每个组件都对最终性能有重要贡献。经验归纳带来的提升最为显著,而迭代检索进一步改善了文本书写质量,发现分析模块则显著提高了诊断准确性。
研究发现聚类数量k对经验效果有重要影响,过大的k会导致过拟合,过小的k则难以生成覆盖全面的经验。通过最佳和最差经验案例的对比显示,有效的经验通常包含具体示例和较少的风格性内容。
通过人工评估发现,基于发现分析的解释方法比简单思维链(CoT)更能帮助读者判断生成印象的质量,Spearman相关系数达到0.5378。案例研究显示,医生可以通过分析子发现的解释快速发现模型中的诊断错误。
人工评估结果表明,EMAI在准确性、完整性、简洁性、临床相关性和专业术语等五个维度上显著优于微调基线模型,总体平均分从4.24提升至4.79(+13.4%)。在设备检测、急慢性区分等临床关键指标上也表现更优。
研究结论部分强调,EMAI框架通过显式利用历史报告中的诊断经验和提供可解释的生成过程,有效解决了放射学报告摘要生成中的经验利用和可解释性缺失问题。该框架不仅提高了自动摘要的准确性和可靠性,还为临床医生提供了可信的决策支持,有望在实际医疗环境中发挥重要作用。研究的局限性包括生成质量仍与人类专家存在差距,以及解释内容较为冗长增加认知负荷。未来工作将专注于结合置信度展示技术,优化解释内容的呈现方式。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号