基于大语言模型的心血管结构化数据提取:为可扩展研究与临床应用奠定基础
《European Heart Journal - Digital Health》:Large Language Models for Structured Cardiovascular Data Extraction: A Foundation for Scalable Research and Clinical Applications
【字体:
大
中
小
】
时间:2025年11月15日
来源:European Heart Journal - Digital Health 4.4
编辑推荐:
【编辑推荐】为解决心脏报告数据非结构化限制AI应用的问题,研究人员开展LLM提取ICA/TTE报告关键诊断元素的研究。结果显示GPT-4o在 culprit vessel(0.87)和LVF(1.0)分类中表现优异,证明LLM可跨计算平台实现精准分类,为临床决策支持和注册研究提供自动化解决方案。
在心血管医学领域,侵入性冠状动脉造影(ICA)和经胸超声心动图(TTE)是评估冠状动脉疾病(CAD)的核心影像学手段。然而,这些检查生成的临床报告通常以半结构化自由文本形式存储在电子健康记录(EHR)中,缺乏标准化格式。这种非结构化特性严重限制了数据在人工智能(AI)应用、临床决策支持系统和大型研究中的可利用性。尽管医疗实践中积累了海量的临床报告数据,但由于人工标注成本高昂且易出错,这些宝贵资源大多处于"沉睡"状态。
来自荷兰莱顿大学医学中心放射科和心内科的研究团队在《European Heart Journal - Digital Health》上发表了一项开创性研究,探索如何利用大语言模型(LLM)自动化提取心脏报告中的结构化信息。研究团队收集了2000份(各1000份ICA和TTE)急性冠脉综合征(ACS)患者的临床报告,由专业心脏医生标注了左心室功能(LVF)、罪犯血管(culprit vessel)、急性闭塞等多个关键诊断元素。
研究采用两种主流LLM应用策略——提示工程(prompt engineering)和微调(fine-tuning),并在三种计算环境中进行测试:本地GPU(16Gb)、高性能计算集群(HPC,48Gb)和商业云平台(GPT-4o)。这种多层次比较旨在评估不同资源条件下的实际应用可行性。
关键技术方法包括:使用正则表达式进行文本预处理;采用少样本提示策略和结构化输出模板进行提示工程;通过添加分类层和早期停止策略实施模型微调;使用准确率、平均召回率和F1分数进行性能评估;通过五折交叉验证和Bootstrap采样确保结果稳健性。
商业模型GPT-4o在两项任务中均表现最佳,其提示工程和微调方法在罪犯血管分类上的准确率分别达到0.761和0.870,在LVF分类上均接近完美(1.00)。开源模型在HPC集群上表现合理,特别是在复杂度较低的任务中(LVF分类0.984)。本地GPU部署的模型性能稍逊,但仍在可接受范围内。
对于ICA报告,GPT-4o在"移植血管"和"无CAD"检测中表现优异(准确率>0.96),而罪犯血管分类是最具挑战性的任务。对于TTE报告,LV功能分类准确率高(1.00),但瓣膜评估特别是三尖瓣反流分级面临挑战,主要由于类别不平衡和报告内不一致性。
开源模型在ICA报告中倾向于对"无CAD"产生假阴性(微调)或假阳性(提示工程)。两种方法均存在对急性闭塞的过度预测。在TTE报告中,微调模型常低估轻度瓣膜反流,而提示工程则可能高估病理发现。
云基础模型展现最优性能和泛化能力,但本地HPC部署的较小模型也能达到合理准确率,特别是在复杂度较低的任务中。提示工程对类别不平衡表现出更强韧性,而微调在严重不平衡数据集中性能下降。
研究表明,LLM能可靠地在多样化计算基础设施上分类心脏学报告,其准确性和适应性支持在临床和研究环境中的应用。提示工程提供了轻量级、适应性强且成本效益高的策略,特别适合资源有限的环境。微调虽然资源密集,但支持更精细的任务优化。
对于复杂任务如罪犯血管标识,微调能带来性能提升;而对于更结构化或狭义定义的应用,提示工程已足够。商业LLM通常在挑战性分类任务中优于开源模型,但本地部署模型为数据隐私约束严格或预算有限的机构提供了可行替代方案。
传统人工数据标注的瓶颈正在迅速过时。LLM能够从原始临床文本中进行准确、可扩展的信息提取,使得机器学习流程的开发不再依赖于大型标注数据集。这一转变为AI在心脏病学中的快速部署开启了新机遇,从实时决策支持到大规模数据整理。随着技术不断发展,LLM有望成为心血管研究和临床实践的基础设施。
这项研究的实际意义在于为医疗机构提供了灵活的选择空间:既可以利用高性能商业API实现最优精度,也可通过本地部署平衡性能与数据安全。特别是对于急性冠脉综合征这类常见心血管急症,自动化数据提取将极大提升临床登记研究效率和质量控制能力,为循证医学实践提供坚实数据基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号