深度学习赋能肺部超声辅助诊断:国际多中心多扫描仪研究的突破与启示

【字体: 时间:2025年10月07日 来源:The Ultrasound Journal 3.6

编辑推荐:

  本刊推荐:为解决肺部超声(LUS)解读主观性强、操作者依赖度高的问题,Munoz等研究人员开展了一项国际多中心研究,对比评估了基于预训练分类模型(CM)和基于分割模型(SM)的两种深度学习算法在COVID-19肺炎严重程度自动评分中的应用。研究结果表明,两种方法在检查水平和预后水平均表现出与临床专家相当的一致性(检查水平>84%可接受误差,单扫描仪数据>95%),证实了AI辅助LUS用于可靠预后评估的潜力,并强调了图像质量和采集技术标准化对模型性能泛化的重要性。

  
在急诊医学和重症监护领域,肺部超声(LUS)凭借其便携性、安全性和无辐射等优势,已成为评估肺部状况的重要工具,尤其在COVID-19肺炎的诊断与监测中发挥了关键作用。然而,其精准解读高度依赖操作者的经验与专业知识,即使对于训练有素的临床医生而言,识别和分类声像图特征也充满挑战,并且存在显著的观察者间差异。这种主观性影响了诊断的准确性和患者管理策略,凸显了对辅助临床医生进行LUS解读的工具的迫切需求。
人工智能(AI)的出现为减少这种差异、增强LUS的诊断能力提供了 promising 的解决方案。深度学习模型尤其擅长识别医学图像中的复杂模式。在LUS领域,AI模型主要分为两类:侧重于勾勒特征性超声伪影(如垂直伪影、胸膜线不规则、实变区域)的分割模型(Segmentation Model, SM),以及旨在将LUS图像分类到预定义类别(如正常与异常组织或严重程度评分)的分类模型(Classification Model, CM)。尽管已有研究展示了AI在LUS中的应用潜力,但尚无大规模研究在不同国际多中心、多扫描仪的LUS数据集上直接评估这些不同AI范式的泛化性能和表现。数据异质性(由患者群体差异、采集协议和扫描仪差异引起)是现实世界应用中的主要挑战。
为此,由西班牙国家研究委员会(CSIC)和意大利特伦托大学的研究人员领衔的国际团队,在《The Ultrasound Journal》上发表了这项多中心、多扫描仪研究。该研究旨在评估两种不同的深度学习方法(CM和SM)在自动化LUS严重程度评分(针对COVID-19引起的肺部感染)方面的性能,并在视频、检查和预后三个层面进行评估,同时探究扫描仪变异性对模型性能的影响。
研究分析了两个数据集:Dataset-1包含来自Esaote Mylab50、Philips IU22和ATL Cerbero三种不同扫描仪的1530个视频(83名患者,113次检查),具有真实世界的多中心和多样性。Dataset-2则使用UltraCOV设备,遵循标准化扫描标准采集了689个视频(30名患者,59次检查),旨在最小化变异性。CM方法采用预训练的ResNet18架构对图像进行4级严重程度评分。SM方法则采用Attention U-Net架构,在将原始扇形超声帧通过扫描转换预处理为标准化的矩形B扫描图像后,对伪影进行分割,进而根据分割结果量化异常并分配严重程度评分。
研究采用多层级分析框架。在视频层面,通过设定阈值(本研究最终选定1%)从帧级预测得出视频级评分,并使用准确度、F1-score、二次加权科恩卡帕系数(Kqwc)和斯皮尔曼相关系数(ρ)等指标评估与专家标注的一致性。在检查层面,通过汇总患者所有视频的评分得到总体检查评分,并与专家评分比较,计算误差≤10(被认为临床可接受)的检查比例。在预后层面,根据不同的采集协议(14区域或12区域)将患者分为不同的风险等级(Dataset-1为低风险≤24 vs高风险>24;Dataset-2为健康、轻度、中度、重度),评估AI模型预测患者结局的能力。
研究结果揭示了丰富的信息。在视频层面,两种方法在不同数据集上表现各异。CM在Dataset-1和Dataset-2的Kqwc分别为0.63和0.66,表明与专家有实质性一致。SM的Kqwc分别为0.58(中度一致)和0.79(实质性一致)。当允许±1的误差容忍度时,两者的准确度均大幅提升至0.86以上。检查层面的分析显示,超过84%的检查在两种模型和数据集上均达到临床可接受的误差水平(≤10),在标准化采集的Dataset-2上,这一比例更高(CM: 96.6%, SM: 100%)。预后层面的结果尤为关键,CM在Dataset-1和Dataset-2的预后分类准确度分别为84%和76%,Kqwc分别为0.66和0.80。SM则分别为76%和83%,Kqwc分别为0.51和0.87。这表明两种方法在风险分类上均能达到与临床专家相当的一致性,证明了AI辅助LUS用于可靠预后评估的潜力。
一个核心发现是扫描仪和采集技术变异性对模型性能的重大影响。对Dataset-1中不同扫描仪的分析表明,两种模型在EsaoteMyLab扫描仪上表现最佳,在PhilipsIU22上次之,而在图像质量明显不同的CerberoATL扫描仪上性能显著下降(Kqwc最低)。相比之下,使用标准化协议和单一扫描仪的Dataset-2为两种模型都提供了更一致的高性能环境。这突显了图像质量和采集技术标准化对于实现一致且可泛化的模型性能至关重要,是AI辅助LUS成功临床转化的关键因素。
此外,研究还比较了两种AI方法之间的一致性。在视频层面,两种方法在Dataset-1上的一致性(Kqwc=0.61)高于Dataset-2(Kqwc=0.52),而在预后层面,两者在兩個数据集上都表现出实质性一致(Kqwc分别为0.64和0.60)。这表明尽管架构不同,两种模型都捕捉到了临床相关信息,为未来探索结合两者优势的集成方法以提高鲁棒性提供了可能。
研究的结论强调,AI驱动的LUS分析,特别是用于COVID-19肺炎患者的预后评估,具有显著的临床效用潜力。基于分割模型的方法可以被有效地重新用于严重程度评分,其性能与专门的预训练分类模型相当。更重要的是,研究结果强调了数据质量和技术标准化对于获得可靠和可泛化结果的重要性。通过标准化采集协议确保一致的图像质量,是实现可靠AI驱动预后评估的关键决定因素。这项国际性、多学科合作的成功完成, underscores 了此类合作在推进AI用于LUS领域的关键作用,对于开发和验证能够真正惠及患者的AI方法至关重要。
研究的局限性包括样本量可进一步扩大以增强统计效力,特别是扫描仪间的比较;回顾性设计可能引入选择偏倚;Dataset-2中健康对照样本较少;以及专家标注本身存在的主观性。未来的工作应包含更大规模、前瞻性的多中心研究,探索集成方法,并深入研究提高模型对扫描仪变异性的鲁棒性的技术,同时推动LUS图像采集协议的标准化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号