基于大语言模型的临床笔记语言信息提取及其在医疗公平性与精准研究中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月18日 来源：International Journal of Mental Health Promotion 1.4

编辑推荐：

　　本研究开发了一种利用大语言模型（LLM）从临床笔记中自动提取患者语言能力信息的命名实体识别（NER）框架，有效解决了电子健康记录（EHR）中结构化语言字段不完整、不准确的问题。该研究通过跨机构验证证明了模型（如GPT-4o、LLaMA3和BERT）在零样本和微调设置下的高准确性与强泛化能力，为语言相关临床研究、医患沟通优化及医疗资源公平分配提供了关键技术支撑。

亮点

方法

本研究整体框架如图1所示。我们首先从耶鲁纽黑文医院（YNHH）和MIMIC-III数据库中收集临床笔记。YNHH的数据收集经机构审查委员会（IRB）批准，而MIMIC-III的访问则遵循数据使用协议。由两名标注员对不同来源数据集中的语言状态进行标注。随后，我们在零样本和微调两种设置下开发并评估了多种模型，并通过跨机构验证检验其泛化能力。

标注数据详情

根据前文所述的标注流程，我们汇总了两所医疗机构的标注结果。如表2所示，YNHH数据集包含1000条标注句子，共提取出1186个“语言流利”（Language_Fluent）实体、136个“语言部分”（Language_Some）实体、40个“语言其他”（Language_Other）实体及87个“语言无”（Language_No）实体。同样，MIMIC数据集包含500条标注句子，涵盖424个“语言流利”、46个“语言部分”、89个“语言其他”和35个“语言无”实体。

讨论

我们的研究证明了自然语言处理（NLP）模型在不同临床环境中从临床笔记中提取患者语言状态的有效性。我们提出了一套基于前沿NLP模型的命名实体识别（NER）流程，用于处理来自两个不同机构——YNHH（普通临床笔记）和MIMIC（ICU专用笔记）的文本数据。尽管这些数据在标签分布、记录风格和患者群体上存在差异，但大语言模型（LLM）与预训练模型均能有效提取语言信息。

结论

本研究开发了一种新颖的命名实体识别（NER）流程，利用大语言模型（LLM）从非结构化的临床笔记中提取详细的病人语言状态信息。我们的框架将语言相关表述分为四种临床相关类型，并在多机构数据集上评估了零样本和微调模型的性能与泛化能力。实验结果表明，像GPT-4o这样的专有模型能够准确提取……

热点排行

新闻专题

联系信箱：

粤ICP备09063491号