情境学习赋能大语言模型在脊柱转移瘤稳定性评估中实现人类专家水平的SINS分类

【字体: 时间:2025年09月25日 来源:La radiologia medica 9.7

编辑推荐:

  本刊推荐:为解决通用大语言模型(LLM)在复杂医学评分应用中性能不足的问题,研究人员开展了基于情境学习(in-context learning)的LLM在脊柱不稳定性肿瘤评分(SINS)分类中的性能研究。结果显示,经优化的LLM在SINS分类准确率达96-98%,评分准确率达86-95%,达到人类专家水平。该研究为自动化评估脊柱转移瘤稳定性提供了可靠新方案。

  

在肿瘤诊疗领域,脊柱转移瘤是一个常见的严重并发症,约40%的晚期恶性肿瘤患者会受到影响。这些转移瘤不仅带来剧烈疼痛、活动受限和神经功能障碍,更可能导致脊柱结构不稳定,给患者生活质量带来巨大威胁。在这一临床背景下,脊柱不稳定性肿瘤评分(Spinal Instability Neoplastic Score, SINS)系统应运而生,成为评估肿瘤性脊柱疾病稳定性的标准工具。

SINS系统通过影像学特征对六个关键维度进行评分:病灶位置、疼痛性质、骨病变形态、脊柱对线、椎体塌陷程度以及后柱结构受累情况。根据总分将脊柱稳定性分为三类:稳定型(0-6分)、潜在不稳定型(7-12分)和不稳定型(13-18分)。这一分类直接关系到临床治疗决策——稳定型患者通常只需非手术治疗,而不稳定型患者往往需要手术干预来稳定脊柱。

然而,尽管SINS系统在理论上很完善,临床实践中的应用却面临挑战。研究表明,不同临床医生在SINS评分上存在显著差异,这种不一致可能源于对影像特征的识别不足或对评分标准理解的不统一。这种评估上的不一致性可能导致治疗决策的偏差,影响患者预后。

近年来,人工智能技术的快速发展为这一领域带来了新的可能。大语言模型(Large Language Models, LLMs)在多个医学领域展现出巨大潜力,包括辅助临床决策符合指南要求、简化放射学报告供患者理解、分配标准化报告类别(如BI-RADS),以及从自由文本中提取结构化数据等。然而,面向广大用户的通用LLM(如OpenAI的ChatGPT、Mistral AI的Le Chat和Anthropic的Claude)存在幻觉倾向,可能无法正确应用复杂的评分系统。

基于这些背景,来自弗莱堡大学医学中心的研究团队开展了一项创新性研究,旨在评估最先进的大语言模型在分类椎体转移瘤稳定性方面的表现,并与人类专家进行比较,同时检验任务特异性优化(包括情境学习)对其性能的影响。

研究人员采用回顾性研究设计,分析了100份涵盖广泛SINS评分范围的合成CT和MRI报告。这些报告由一位未参与后续阅读的认证放射科医生创建,确保包含所有相关SINS项目的信息。参考标准SINS评分由另一位具有13年肌肉骨骼影像亚专业经验的认证放射科医生严格遵循原始SINS定义和稳定性分界标准确定。

研究评估了四位人类专家(两名放射科医生和两名神经外科医生)和四个大语言模型(Mistral、Claude、GPT-4 turbo和GPT-4o)的表现。LLM在两种条件下进行测试:通用形式和经过任务特异性优化的形式。性能评估基于正确的SINS类别分配和归因的SINS点数。

主要技术方法包括使用合成放射学报告数据集,涵盖广泛SINS评分范围;采用精确提示工程和情境学习策略优化LLM性能;通过链式思维(chain-of-thought)方法引导模型决策过程;使用JSON格式标准化输出以便于自动化集成;采用加权Kappa(QWK)和平均绝对误差(MAE)等统计方法进行性能评估。

人类专家在SINS分类中的表现

人类专家在SINS分类中表现出高性能,正确类别分配的中位数为98.5%(98.5/100)。正确计算的SINS点数比例也很高,中位数为92%(92/100正确答案),所有评分者的中位分数偏移为0[0-0]。评分者间可靠性对于分类评估几乎完美(QWK=0.98),分数值的MAE较低,为0.10。

通用大语言模型在SINS分类中的表现

未经任务特异性优化的通用大语言模型在稳定性类别分配方面表现较差:Claude 3 Opus为63.0%,GPT-4 Turbo和GPT-4o为55.0%,Mistral Large仅为26.0%。与真实值比较的QWK范围在0.18-0.46之间。SINS点数计算正确率分别为:Claude 3 Opus 15%,GPT-4o 14%,GPT-4 Turbo 10%,Mistral Large 4%。所有通用大语言模型的正确SINS点数中位偏移都很高:Mistral Large为3[2-5],Claude 3 Opus为2[1-3],GPT-4 Turbo为2[1-3],GPT-4o为2[1-3]。MAE在2.13-3.50之间。对错误SINS归因案例的深入分析显示,大多数错误是正向偏移,表明系统性高估了不稳定性。这种情况尤其发生在包含触发词(如塌陷、后凸畸形、双侧后柱元素、广泛/晚期结构影响、机械性疼痛描述)的案例中。相关的否定或限定词(如对线完整、无后柱受累)经常被忽略。

通过情境学习增强的大语言模型

通过情境学习对大型语言模型进行优化显著提高了其性能:GPT-4o正确分类率达98.0%,Mistral Large和Claude 3 Opus达97.0%,GPT-4 Turbo达96.0%。与真实值比较的高QWK(0.94-0.97)进一步证实了这一点。GPT-4o和GPT-4 Turbo在100例中分别提供了95和92个正确的SINS点数,表现最佳,而Mistral Large和Claude 3 Opus分别提供了88和86个正确点数。所有大型语言模型与人类专家读者的中位数相比表现无显著差异(p>0.99),分数中位偏移相当,均为0[0-0],MAE范围在0.07-0.20之间。

研究结论表明,通过情境学习进行任务特异性优化的人工智能大语言模型在椎体稳定性分类方面达到接近人类专家的水平,为自动化椎体转移瘤稳定性评估提供了潜力。通用大语言模型的较差性能凸显了人工智能医学应用中任务特异性优化的重要性。

讨论部分强调,通用大语言模型的较差性能凸显了将未经优化的LLM集成到临床决策中的风险。没有上下文信息和通过精确提示和链式思维的指导,这些最先进的LLM无法一致地应用SINS标准,如果在实践中使用,可能导致危险的错误分类。尽管最近关于通用LLM在患者管理各种任务中适用性的研究提供了令人鼓舞的结果,但本研究作为首批全面比较多个公开可用的最先进LLM性能的研究之一表明,它们的通用版本在临床环境中应极其谨慎使用,不能可靠应对放射学领域的广泛范围,而是需要任务特异性优化。

细化分析显示,通过情境学习方法进行任务特异性上下文的优化显著提高了性能,真阳性率达到96-98%,即正确分配的SINS点数增加了71-84%。值得注意的是,所有研究的LLM都从中受益,达到了相当的性能。这一显著改进与LLM能力的最新进展一致。通常,提示工程策略显著改善了大语言模型的响应。提供一个任务特异性上下文的框架,如本研究采用的框架,简化了大语言模型的响应生成,从而减少了幻觉风险,因此增强了对输出的信任。此外,采用的链式思维允许深入了解大语言模型的决策过程,进一步增强了信任,并有可能优化不正确的响应。

与大多数先前医学领域关于LLM在医学分类任务中性能的研究主要研究二值化问题或简单分类系统不同,本研究研究了一个复杂的评分系统,需要将各个子分数求和为最终分数,随后归因一个类别(即稳定、潜在不稳定和不稳定)。虽然大多数关于LLM在放射学任务中适用性的研究要么研究一个LLM,要么比较OpenAI的GPT的各种版本或各种不同LLM的通用版本,但本研究提出了对四个最先进LLM的通用版本和任务特异性优化版本的全面评估。这使得能够揭示所有通用大语言模型版本在应用SINS分类系统方面性能不足,尽管有精确提示,但通过进一步优化后所有大语言模型都有显著改进。

提出的框架可用作提供SINS分数以进行临床决策的工具,作为质量保证的第二阅读者,或回顾性地将SINS分数分配给缺少此信息的现有报告,但前提是提供了评分所需的必要信息。在临床常规中,这可用于从自由文本报告中自动计算SINS。这将使放射科医生能够专注于图像解读,并将后续评分外包,以提高工作流程效率。进一步优化的大语言模型还可以突出显示是否缺乏适当SINS分类的信息,例如,如果未报告后柱元素的受累情况。这将提高存在脊柱转移性疾病时的报告质量,从而提高患者安全。或者,提出的模型可与人类SINS分类并行使用,以减少人为错误,特别是在模糊案例中。这种应用对于培训早期职业放射科医生尤其有价值,他们尚未足够熟悉SINS,通过促进人类和模型基础评分的比较。最后,本研究中优化后的LLM可回顾性应用于放射学报告,以将输出与人类评分进行比较以进行质量管理或改进,或者在先前未使用SINS的情况下将SINS分数或类别分配给成像数据。后一种方法也允许进行质量管理,并且可以与患者的治疗过程进行比较,以识别临床工作流程中的结构性问题。

此外,以JSON格式存储大语言模型响应允许自动集成到快速医疗互操作性资源(FHIR)环境中,为患者特异性精准医学提供结构化输出,并轻松评估复杂系统的各个项目。此外,对现有数据应用于质量目的和研究是可行的。

该研究的重要意义在于证明了通过适当优化,人工智能大语言模型能够达到人类专家水平的医学评分性能,为自动化医学影像评估提供了可靠解决方案,有望提高临床决策的一致性和效率,减少人为差异,最终改善患者治疗效果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号