用于检测电子病历中过敏反应的人工智能
《Asia Pacific Allergy》:Artificial intelligence for detecting anaphylaxis in electronic medical records
【字体:
大
中
小
】
时间:2025年09月29日
来源:Asia Pacific Allergy 2.1
编辑推荐:
过敏反应诊断中大型语言模型(LLMs)的效能验证,基于巴西葡萄牙语电子病历数据集,采用GPT 3.5、4、4 Turbo三种模型,结合世界过敏组织(WAO)标准,评估模型在精准度(90.6%)、灵敏度(100%)、特异性(99.5%)及Kappa系数(0.95)等指标上的表现,证实LLMs可辅助临床自动化诊断并降低误诊风险。
在现代医疗体系中,准确识别和诊断像过敏性休克(anaphylaxis)这样的严重疾病,对于确保患者安全和优化医疗护理流程至关重要。尽管已有明确的诊断标准,但过敏性休克的诊断仍然面临诸多挑战。特别是在临床环境中,由于时间紧迫、医疗资源有限以及电子病历(EMR)中记录不足,导致医生在面对疑似病例时难以快速、准确地做出判断。这些因素不仅增加了误诊和漏诊的风险,还可能引发后续的过敏反应,对患者的生命安全造成威胁。
为了解决这一问题,研究者开始探索人工智能(AI)在医疗诊断中的应用,尤其是基于大规模语言模型(LLMs)的自动诊断系统。LLMs因其强大的文本理解和生成能力,成为一种有潜力的工具。它们可以分析大量未结构化的医疗文本,识别关键信息,并结合临床指南进行判断。本研究的目的正是评估LLMs在自动识别过敏性休克诊断中的有效性,以期为临床提供更高效、准确的辅助手段,从而提升患者的安全性和医疗系统的整体效率。
研究采用了三种不同的GPT模型(GPT 3.5、GPT 4和GPT 4 Turbo),并基于969篇巴西葡萄牙语的医疗文本进行测试。这些文本由三位过敏学专家进行标注,分为“阳性”(48篇)和“阴性”(921篇)两类,分别代表确实存在过敏性休克的病例和不存在该诊断的病例。通过设计两种类型的提示(prompt),一种是模拟普通医生对病历进行检查的通用提示,另一种是结合世界过敏组织(WAO)的临床标准进行分析的提示,研究者旨在评估不同提示方式对模型诊断能力的影响。
结果显示,GPT 4 Turbo在使用通用提示的情况下表现尤为出色,达到了90.6%的精确度、100%的灵敏度、99.5%的特异性和99.5%的准确率,同时Cohen kappa系数为0.95,接近“几乎完美”的一致性水平。这表明该模型在识别过敏性休克病例时具有很高的准确性,尤其是在排除非过敏性休克的病例方面表现尤为稳定。然而,当引入WAO标准后,GPT 4 Turbo的性能并未显著提升,说明其已经具备足够的理解能力,无需额外的提示信息即可达到较高的诊断水平。
相比之下,较旧的模型如GPT 3.5和GPT 4在引入WAO标准后,其诊断表现有所改善。例如,GPT 3.5在结合WAO标准后,精确度从44.9%提升至60.8%,而Cohen kappa系数也从0.59上升至0.74。这表明,对于早期版本的LLMs来说,明确的临床标准可以显著提高其识别能力。然而,随着模型版本的更新,这种提示带来的提升逐渐减弱,反映出模型自身在学习和理解医学知识方面的能力不断增强。
为了进一步验证模型的稳定性,研究者还对模型的输出进行了多次测试,观察其在不同时间点的性能变化。结果显示,尽管LLMs是基于概率的模型,其输出存在一定的随机性,但在大多数情况下,模型的诊断建议保持一致。特别是在GPT 4 Turbo的情况下,两次测试的结果几乎相同,仅有极小的差异,说明其具有较高的稳定性。这种一致性对于临床应用至关重要,因为医生需要依赖系统提供的诊断建议,而不能频繁地看到不同的结果。
此外,研究者还分析了数据集中来自SemClinBR的870篇文本对整体诊断结果的影响。尽管这些文本原本不属于过敏性休克病例,但它们在一定程度上增加了模型的复杂度。然而,即使剔除这些文本,GPT 4 Turbo的诊断能力依然保持较高水平,其精确度和灵敏度未受影响,而特异性和准确率略有下降,但仍然处于令人满意的范围内。这表明,虽然这些文本可能引入一些噪声,但对模型的整体性能影响较小。
在讨论部分,研究者强调了LLMs在医疗文本分析中的独特优势。与传统的机器学习模型不同,LLMs能够理解自然语言中的复杂信息,并结合上下文进行判断。这使得它们在处理未结构化的医疗文本时更具灵活性和适应性。例如,Carrell等人的研究采用了结构化数据和逻辑回归模型来识别过敏性休克病例,但其方法仅限于特定词汇的匹配,而未能深入理解文本的整体含义。相比之下,本研究中LLMs不仅能够识别关键词,还能分析句子的语义和上下文,从而提供更全面、准确的诊断建议。
同时,研究者也指出了该研究的一些局限性。首先,所使用的数据集仅限于巴西葡萄牙语的医疗文本,这可能限制了研究结果的普遍适用性。其次,研究中使用的“差异诊断”案例是人为设计的,旨在测试模型的边界情况,但这些案例可能并不完全代表现实中的过敏性休克病例。最后,尽管LLMs在诊断方面表现出色,但它们仍然存在一定的误差,因此在实际应用中仍需结合医生的专业判断,以确保诊断的准确性。
本研究的成果具有重要的临床意义。通过利用LLMs对医疗文本进行自动分析,可以显著提升诊断效率,减少医生在病历阅读和记录上的时间消耗,同时降低因信息遗漏而导致的误诊风险。此外,这种技术还可以帮助医生更快地识别过敏性休克病例,从而采取及时的干预措施,避免病情恶化。在医疗资源紧张的环境中,这种自动化诊断工具可以成为医生的重要辅助手段,提高诊疗质量,优化医疗流程。
未来的研究方向可以包括进一步扩展LLMs的应用范围,使其能够识别更多类型的医疗状况,而不仅仅是过敏性休克。同时,可以探索如何将LLMs与临床决策支持系统(CDSS)相结合,以实现更智能化的医疗辅助。此外,考虑到LLMs的多语言能力,未来还可以开发适用于不同语言环境的诊断工具,以提高全球医疗系统的诊断效率和准确性。
总的来说,本研究为LLMs在医疗诊断中的应用提供了有力的证据,表明这些模型在处理未结构化的医疗文本时具有较高的准确性。尽管仍需进一步优化和验证,但LLMs的潜力无疑为医疗行业带来了新的机遇,特别是在提升诊断效率和患者安全方面。随着技术的不断发展,LLMs有望成为医疗领域不可或缺的工具,帮助医生更好地理解和处理复杂的临床信息。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号