多模态大语言模型在年龄相关性黄斑变性视网膜成像诊断中的临床效用评估

【字体: 时间:2025年09月27日 来源:Scientific Reports 3.9

编辑推荐:

  本刊推荐:为解决年龄相关性黄斑变性(AMD)早期诊断困难、专科医生资源有限的问题,研究团队开展了一项评估四种多模态大语言模型(MLLMs)通过超广角眼底(UWF)图像检测和分级AMD严重程度的性能研究。结果显示ChatGPT-4o在二分类诊断中准确率达82.4%,但在疾病严重程度分级方面所有模型表现均未超过46.3%,表明当前MLLMs虽具筛查潜力,但尚未达到临床直接应用标准,为AI在眼科影像诊断中的开发应用提供了重要参考依据。

  
年龄相关性黄斑变性(AMD)作为全球50岁以上人群中心视力丧失的首要原因,正随着人口老龄化加剧而日益成为重大公共卫生问题。据统计,约9%的老年人受到AMD影响,且存在明显的诊断不足现象。传统的眼科影像检查(如彩色眼底照相和光学相干断层扫描(OCT))虽能有效诊断和监测疾病进展,但解读这些影像不仅耗时,更需要高度专业化的眼科专家。面对不断增长的筛查需求,开发自动化诊断工具已成为扩大筛查覆盖、提高诊疗效率的关键突破口。
近年来,人工智能(AI)和深度学习(DL)技术的迅猛发展为医疗领域带来了全新可能。特别是在眼科领域,已有研究成功应用DL工具诊断AMD、预测短期渗出风险以及确定玻璃体内注射需求。然而,随着多模态大语言模型(MLLMs)的出现,这些模型能够整合图像、视频、音频和文本等多种输入信息生成预测结果,其临床应用潜力备受关注。尽管已有研究探讨了纯文本输入的LLMs在眼科查询中的表现,但针对MLLMs在影像应用中的研究仍较为有限,尤其是在AMD诊断和分级方面缺乏系统评估。
在此背景下,加州大学圣地亚哥分校的研究团队开展了一项开创性研究,系统评估了四种主流MLLMs(ChatGPT-4o、Claude 3.5 Sonnet、Google Gemini 1.5 Pro和Perplexity Sonar Large)在超广角眼底(UWF)图像中检测和分级AMD严重程度的性能。这项研究不仅填补了该领域的研究空白,更为未来AI在眼科影像诊断中的开发和应用提供了重要参考。
研究人员采用回顾性研究设计,收集了76名患者(136只眼;平均年龄81.1岁;69.7%女性)的超广角眼底图像。所有图像均由两名初级视网膜专家独立进行AMD严重程度分级,并使用年龄相关性眼病研究(AREDS)分类系统进行评估。对于存在分歧的病例,还由资深视网膜专家进行仲裁确定最终分级。研究队列包括17只眼(12.5%)为"无AMD",18只眼(13.2%)为"早期AMD",50只眼(36.8%)为"中期AMD",51只眼(37.5%)为"晚期AMD"。
在2024年12月至2025年2月期间,研究团队使用单张图像和标准化查询提示每个MLLM,评估其在二分类疾病诊断、疾病严重程度分级、开放式诊断和多项选择诊断(含干扰疾病)等主要结局指标上的准确性、敏感性和特异性。次要结局指标包括精确度、F1分数、Cohen's kappa、模型性能比较和错误分析。
主要技术方法
研究采用加州大学圣地亚哥分校2023年4月至2024年6月期间的回顾性眼底图像数据,所有图像均经过严格匿名化处理。图像处理包括添加AREDS网格覆盖层用于AMD严重程度分级,使用Microsoft PowerPoint手动定位网格。两名初级视网膜专家独立进行图像分级,分歧病例由资深专家仲裁。使用四种MLLMs(ChatGPT-4o、Claude 3.5 Sonnet、Google Gemini 1.5 Pro和Perplexity Sonar Large)的付费网络版本进行评估,采用精心设计的提示工程原则,包括多项选择和开放式问答格式。统计分析使用R编程语言进行,采用聚类 bootstrap 重抽样生成性能指标的95%置信区间估计。
AMD与无AMD分类(提示1)
在二分类疾病检测方面,ChatGPT-4o表现出最高准确性[0.824(95% CI: 0.743, 0.875)],其次是Perplexity Sonar Large[0.816(95% CI: 0.735, 0.868)],两者均显著优于(P<0.00033)Gemini 1.5 Pro[0.669(95% CI: 0.581, 0.743)]和Claude 3.5 Sonnet[0.301(95% CI: 0.221, 0.375)]。F1分数同样由ChatGPT-4o领先[0.892(0.848, 0.931)],敏感性最高也为ChatGPT-4o[0.832(95% CI: 0.760, 0.893)]。特异性在各模型间无显著差异。
AMD严重程度分类(提示2)
在疾病严重程度分级任务中,所有模型表现相对较差且无显著差异。Perplexity Sonar Large准确性最高[0.463(95% CI: 0.368, 0.537)],其次是ChatGPT-4o和Gemini 1.5 Pro[均为0.426(95% CI: 0.338, 0.500)],Claude 3.5 Sonnet[0.419(95% CI: 0.331, 0.500)]。Cohen's kappa系数显示与人类评分者的一致性普遍较差(未加权范围:0.095至0.178;加权范围:-0.009至0.208)。F1分数同样较差,范围在0.409至0.509之间。
开放式诊断(提示3)
在开放式诊断任务中,ChatGPT-4o准确性最高[0.478(95% CI: 0.390, 0.559)],显著优于(P<0.00033)其他模型。Claude 3.5 Sonnet、Perplexity Sonar Large和Gemini 1.5 Pro的准确性分别为0.184、0.162和0.154。敏感性方面,ChatGPT-4o[0.403(95% CI: 0.316, 0.492)]显著高于其他模型,而特异性在各模型间大致相等。
多项选择诊断(提示4)
在包含12种常见视网膜疾病选项的多项选择诊断中,ChatGPT-4o准确性最高[0.691(95% CI: 0.603, 0.757)],其次是Perplexity Sonar Large[0.603(95% CI: 0.507, 0.676)],两者均显著优于(P<0.00033)Gemini 1.5 Pro[0.331(95% CI: 0.243, 0.404)]和Claude 3.5 Sonnet[0.272(95% CI: 0.191, 0.346)]。F1分数和敏感性也呈现相同趋势。
错误分析
错误分析显示准确性随地面真实诊断而异。"早期AMD"的平均准确性最低(全模型平均19.8%),"无AMD"的识别准确性较高(全模型平均72.8%)。在严重程度分类中,"无AMD"识别较差(全模型平均14.7%)。模型间一致性分析显示,在提示1中,表现最佳的两个模型(ChatGPT-4o和Perplexity Sonar Large)之间的一致性最高(80.1%)。在提示2中,模型表现出共享的偏向,过度分类"中期AMD"。在提示3和4中,模型频繁过度分类非AMD病理。
研究结论表明,虽然多模态大语言模型在从眼底图像自动检测AMD方面显示出潜力,特别是在二分类疾病检测方面表现接近人类评分者水平,但其当前可靠性尚不足以支持临床直接应用。不同模型间性能存在显著差异,ChatGPT-4o在多数任务中表现最佳,而Claude 3.5 Sonnet和Gemini 1.5 Pro则表现较为保守,特异性较高但敏感性较低。
讨论部分强调,MLLMs相比疾病特异性深度学习算法具有独特优势,它们是通用工具,能够响应无数独特查询,可能同时协助眼科医生完成多种不同应用。例如,在筛查患者AMD的同时,MLLMs还能评估青光眼,分析OCT和其他成像模式以检查众多其他病理。就诊后,MLLM可以生成就诊摘要并回答患者关于诊断的问题。MLLMs还能同时处理多种类型信息(即视觉和文本),允许对患者的诊断、预后或最佳治疗方案进行更深入和全面的理解。
然而,研究人员也谨慎指出,在部署这些技术筛查和监测眼科疾病时,需要仔细考虑安全和伦理影响。即使性能随时间改善,即使少量错误或幻觉也可能对患者造成重大伤害。对这些和其他AI工具输出的 diligent 审计以及提供答案背后的推理可能在一定程度上减轻风险,但这些工具的"黑箱"性质可能使完全理解变得困难。
这项研究发表在《Scientific Reports》杂志,为MLLMs在视网膜疾病诊断中的应用提供了重要基准,指明了未来发展的方向,同时也强调了在真实世界实施前需要进行的进一步验证和改进。随着技术的不断进步和更多研究的开展,MLLMs有望在未来成为眼科医生有力的辅助工具,提高诊断效率,扩大筛查范围,最终改善患者视觉健康结局。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号