GPT模型在低资源语言病理报告分析中的系统性评估:土耳其语案例研究

【字体: 时间:2025年09月17日 来源:American Journal of Clinical Pathology 1.9

编辑推荐:

  本刊推荐:为解决非英语病理报告结构化处理的难题,研究人员系统评估了GPT-3.5 Turbo、GPT-4o mini和GPT-4o模型对土耳其语病理报告的多标本数据提取能力。研究发现GPT-4o模型表现最优(准确率达93.23%),其提取数据可直接应用于医学研究,为低资源语言医疗文本处理提供了重要实践依据。

  

在数字化医疗时代,病理报告作为癌症诊断的"金标准",却长期面临着非结构化数据的困境。这些包含关键诊断信息的自由文本报告,需要被转换成结构化格式才能进行有效的临床研究和数据分析。目前,虽然大型语言模型(LLM)在英文医疗文本处理方面展现出强大能力,但对于土耳其语这样的低资源语言,其表现如何仍然是个未知数。

来自土耳其健康科学大学和科奇大学的研究团队开展了一项开创性研究,他们首次系统评估了GPT系列模型在处理土耳其语病理报告方面的性能。这项研究最近发表在《American Journal of Clinical Pathology》上,为低资源语言的医疗文本处理提供了重要见解。

研究人员采用了多模型对比的研究策略,选取了759份土耳其语病理报告,涵盖前列腺切除术、肺切除术、结肠切除术、肾切除术和胃切除术五种手术类型。他们使用10个案例进行提示优化,其余案例用于测试模型的泛化能力。关键技术方法包括:使用GPT-4o进行土耳其语到英语的翻译处理;采用基于美国病理学家学院(CAP)协议的同步报告模板;设计包含系统提示和用户提示的双重提示结构;加入领域特定的提示技巧;使用五次重复实验取平均值的方法确保结果可靠性。

研究结果

模型性能比较

GPT-4o模型在处理土耳其语报告时表现最为出色,准确率比GPT-3.5 Turbo高出12%-25%,比GPT-4o mini高出3%-16%。其中肾切除术报告的准确率最高,达到95%以上。当将报告翻译成英语后,GPT-3.5 Turbo和GPT-4o mini的准确率有显著提升,而GPT-4o在两种语言版本中表现相当。

提示技巧的影响

研究发现,在提示中加入领域相关的技巧能显著提高模型准确性。特别是对"N/A"、"absent"和"cannot be determined"等术语的明确定义,以及对pTNM分期中"y"前缀规则(代表新辅助治疗后)的说明,都大大减少了模型的错误分类。

测试集验证

在更大的测试集上(共709份报告),GPT-4o保持了93.23%的整体准确率,GPT-4o mini为85.04%,GPT-3.5 Turbo为76.96%。所有模型在测试集上的表现与验证集结果基本一致,显示了良好的泛化能力。

错误分析

研究人员将错误分为主要错误和次要错误。主要错误包括对手术切缘状态、肿瘤浸润程度的错误判断,以及产生幻觉数据(hallucinated data)等可能影响患者治疗结局的问题。次要错误主要是格式问题或术语混淆。GPT-4o的主要错误率明显低于其他模型。

研究结论表明,GPT-4o模型在土耳其语病理报告的数据提取方面表现出色,其提取的数据几乎可以直接应用于医学研究。这一发现对于低资源语言的医疗文本处理具有重要意义,因为大多数先进模型主要针对英语进行优化。

讨论部分指出,模型性能的差异可能源于tokenizer的效率问题。GPT-4o和GPT-4o mini使用更高效的tokenizer,使土耳其语的token数量减少了7.38%。然而,所有模型都存在一定程度的幻觉问题,这提醒医学专业人员在使用这些工具时需要保持谨慎。

这项研究的重要意义在于,它首次证明了先进LLM在低资源语言医疗文本处理中的可行性,为非英语国家的医疗信息化提供了实践路径。同时,研究也强调了提示工程的重要性,以及需要进一步开发开源模型来解决患者隐私问题。

尽管面临成本、计算能力和数据隐私等挑战,但这项研究为将LLM整合到医疗环境中提供了有价值的数据支持。未来需要进一步研究如何提高开源模型在低资源语言中的性能,以及建立标准化的评估指标来跟踪不同模型的进展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号