
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SynthMedic:基于大语言模型的合成出院摘要生成、校正与验证新方法及其在临床NLP中的应用
【字体: 大 中 小 】 时间:2025年09月17日 来源:Journal of Biomedical Informatics 4.5
编辑推荐:
本研究针对真实患者数据稀缺与隐私限制问题,提出利用大语言模型(LLM)生成合成出院摘要的新方法。研究人员通过结合Merck Manuals医学参考,采用知识图谱(KG)与自动化验证流程,构建了包含900份合成出院摘要的高质量语料库。实验表明,合成文本在专家评估中获得94.35%的系统可用性评分,Faithfulness指标达93.65%,为临床NLP模型训练提供了安全、可共享的数据基础,显著降低了医疗AI开发对真实数据的依赖。
在医疗人工智能快速发展的今天,临床自然语言处理(NLP)模型的训练严重依赖于大量高质量的临床文本数据。然而,真实患者数据不仅获取成本高昂,还涉及敏感的隐私问题和严格的法律法规限制,这极大地制约了临床NLP模型的开发与应用。面对这一困境,合成临床文本的出现为研究者们提供了一条新的路径。这类数据不包含任何真实患者信息,可以自由共享,并能根据特定任务需求进行定制化生成,尤其能为罕见病研究提供宝贵的数据补充。
为了系统性地解决合成临床文本的生成与质量问题,来自保加利亚索菲亚大学的Georgi Grazhdanski、Vasil Vasilev、Svetla Boytcheva等研究人员在《Journal of Biomedical Informatics》上发表了一项题为“SynthMedic: Utilizing large language models for synthetic discharge summary generation, correction and validation”的研究。他们开发了一套基于大语言模型(LLM)的自动化流程,用于生成、验证和校正合成出院摘要,并成功构建了一个覆盖9种社会重大疾病、包含900份英文出院摘要的合成语料库。
本研究采用了多项关键技术方法。首先,研究人员以Merck Manuals专业医学手册作为权威参考,确保生成内容符合国际医疗标准。采用迭代式提示工程,通过大语言模型对医学参考资料进行摘要提炼,并以此为基础生成出院摘要。在验证环节,创新性地结合了基于LLM的Faithfulness自动化评估指标和基于知识图谱(KG)的事实核查方法。此外,还引入了基于HL7 FHIR标准的知识图谱构建、命名实体识别(NER)和关系抽取(RE)技术,用于结构化表示和验证医学信息。所有合成文本均经过人类专家团队依据系统可用性量表(SUS)进行双重评估,确保了结果的可靠性。
研究结果主要体现在以下几个方面:
一、合成出院摘要生成
研究人员利用GPT-4和Llama 3 8B Instruct两种大语言模型生成了900份出院摘要,覆盖动脉高血压、糖尿病、流感、脑卒中等九类疾病。生成过程采用两阶段法:先对医学参考资料进行摘要提炼,再基于摘要生成出院摘要。结果显示,GPT-4生成的文本在质量和事实准确性上均优于Llama 3。
二、合成文本的自动化验证
通过Faithfulness指标对生成文本进行量化评估,该指标衡量了生成文本与参考医学文献之间的一致性。总体Faithfulness得分达到93.65%。在基于知识图谱的验证中,系统能够自动识别出生成文本中的事实错误和不一致之处,并为后续校正提供反馈。
三、人类专家评估
由神经科医生组成的专家团队对103份合成出院摘要进行了人工评估。采用系统可用性量表(SUS)进行打分,合成文本的平均SUS得分高达94.35%,表明其具有较高的可信度和实用性。评估同时发现,针对某些常见病(如缺血性脑卒中),生成文本中存在信息缺失或治疗方案与病情严重程度不匹配的问题。
四、自动化校正与再验证
根据验证环节输出的反馈信息,研究团队采用大语言模型对合成文本进行了自动化校正。校正后的文本在Faithfulness指标上平均提升了11%,人类专家对校正结果的准确性也给予了积极评价。
五、数据多样性与偏差分析
通过对生成语料的分析,研究发现模型在患者年龄和性别分布上存在明显偏差,例如大多数生成文本以男性患者和中年人群为主,这与真实世界的疾病分布不完全一致。这一发现提示了在后续研究中需要通过提示工程进一步控制生成数据的多样性。
在讨论部分,作者深入比较了自动化评估与人类专家评估之间的一致性。结果表明,在Intracerebral hemorrhage(颅内出血)案例中,两种评估方式无显著差异,但在Ischemic stroke(缺血性脑卒中)案例中出现了显著分歧。作者认为,这种差异主要源于Faithfulness指标仅能基于给定参考文本进行验证,而人类专家会引入更广泛的医学先验知识(如药物默认剂量、临床量表评分等)。此外,自动化评估目前还无法有效处理文本中的冗余信息或数值型临床指标的合理性。
该研究的重要意义在于首次提出了一套完整、可扩展的合成临床文本生成与验证框架,并证明了其生成文本在专业评估中具备高度可信性。所发布的合成语料库为全球医学NLP研究人员提供了安全、合规、高质量的数据资源,有望加速临床人工智能模型的开发与部署。未来工作可扩展至多语言场景、整合多来源医学知识,并进一步优化药物相互作用及剂量推理的验证能力。
生物通微信公众号
知名企业招聘