基于大语言模型的医疗机器辅助翻译实施框架:弥合语言障碍以提升医疗公平性

【字体: 时间:2025年10月02日 来源:npj Digital Medicine 15.1

编辑推荐:

  为解决美国超2500万非英语偏好(NELP)患者因医疗文档翻译延迟而面临的医疗安全风险,研究人员基于实施性研究综合框架(CFIR),系统探索了大型语言模型(LLM)支持的机器辅助翻译(MAT)在医疗场景中的实施路径。研究提出了涵盖技术创新、人员培训、隐私保护及工作流整合的实践路线图,为医疗系统安全、高效部署MAT技术提供了关键策略,对减少医疗差异、提升多语言患者照护质量具有重要意义。

  
在美国,有超过2500万患者偏好使用英语以外的语言(Non-English Language Preference, NELP)进行医疗沟通。然而,由于语言障碍,这些患者往往无法及时获得翻译成其母语的出院指导、知情同意书等重要医疗材料,这不仅影响了治疗依从性和康复效果,还导致其急诊就诊率和再入院率显著高于英语母语者。尽管《民权法案》和卫生与公众服务部(HHS)明确规定医疗机构必须提供语言辅助服务,但现实中医护系统仍难以实现常规、高效的书面翻译。传统翻译方式依赖人工或计算机辅助翻译(CAT)工具,成本高、耗时长且缺乏灵活定制能力,难以满足临床实时需求。
在这一背景下,大语言模型(Large Language Model, LLM)技术的发展为机器辅助翻译(Machine-Assisted Translation, MAT)带来了全新可能。相比早期的神经机器翻译(NMT),LLM在长文本理解、专业术语处理和语境适应性方面表现出更强能力,甚至可同时完成翻译、摘要和文本简化等多重任务。然而,尽管已有研究显示LLM在西班牙语、葡萄牙语等资源丰富语言中的翻译效果接近人工水平,但在数字资源匮乏的语言(如克丘亚语、约鲁巴语)中其准确性仍存疑。更重要的是,目前缺乏如何在医疗场景中安全、有效实施LLM支持型MAT的系统指导。
为此,斯坦福大学医学院Ivan Lopez团队与哈佛医学院、布莱根妇女医院等单位合作,在《npj Digital Medicine》发表了一项前瞻性研究。他们以实施性研究综合框架(Consolidated Framework for Implementation Research, CFIR)为理论基石,从创新特性、人员因素、内部环境、实施过程与外部环境五个维度,全面剖析了LLM-MAT落地医疗场景的关键考量,为医院管理者与政策制定者提供了一份可操作的实施路线图。
本研究主要采用了以下关键技术方法:基于CFIR框架的系统性实施因素分析;使用零数据保留(Zero-Data-Rention, ZDR)接口和私有化部署保障患者隐私;借助多维质量指标(MQM)和COMET等自动评估指标进行翻译质量量化;利用回顾性与前瞻性测试策略验证MAT工作流效果;并通过对电子健康记录(EHR)的集成实现临床工作流无缝嵌入。研究还强调使用真实临床场景中的数据(如来自斯坦福医疗系统的多语言医疗文档)进行模型微调与验证。

I. Innovation domain

研究指出,LLM存在幻觉生成、长文本语境丢失及导致人工翻译过度依赖等风险。因此实施过程中必须设置相应防护机制,如对翻译人员进行LLM常见错误识别培训,并在EHR系统中嵌入类似药物相互作用检测的“翻译合理性提示”功能。患者隐私保护是另一关键,需杜绝通过开放式接口暴露受保护健康信息(PHI),推荐采用ZDR终端或通过行业合作建立私有化LLM查询环境(如斯坦福医疗采用的Azure OpenAI专用通道)。成本方面,尽管运行大型开源模型初期投入较高,但可通过按需付费模式降低开销,且从长远看,MAT有望通过减少NELP患者再入院率和住院时间带来显著效益。

II. Individuals domain

翻译人员工作流应尽量保持原样。MAT系统可嵌入EHR,在翻译请求发起时自动生成草稿,译员可在同一界面编辑,并可继续使用CAT工具进行语法检查或术语插入。临床人员需提供高质量英文原文以确保翻译准确性,也可利用LLM的零样本能力先对原文进行清理与简化。患者作为关键利益相关方,需通过调查问卷、顾问委员会或焦点小组等方式参与MAT设计与评估,从而形成以患者为中心的多语言服务策略。

III. Inner setting domain

许多医疗系统翻译团队人力不足,MAT可有效减轻初始草稿负担,缩短翻译周期。建议初期将MAT限于表现稳定的文档与语言对(如西班牙语出院摘要),复杂内容仍由人工完成,后续通过困难案例积累逐步微调扩展模型能力。对于依赖第三方翻译服务的机构,可结合内部LLM生成初稿、外部专家修订的混合模式,兼顾效率与质量。在组织文化层面,应强调AI辅助而非替代人工,保持“译者在环”模式,既符合法规要求,也保障翻译的文化适应性与准确性。

IV. Implementation process domain

实施需遵循七项关键步骤:与现有工作流整合(如嵌入EHR)、与终端用户共同设计、回顾性测试、前瞻性小规模试点、部署基础设施(如安全日志与存储系统)、基于反馈的模型微调、以及真实世界效果评估。评估方法应综合多种指标:翻译质量方面可采用MQM框架或5点量表人工评分,并结合自动指标(chrF++、COMET及BLEU);运营指标关注 turnaround time 与语言匹配文档交付比例;临床结局可跟踪再入院率、死亡率等CMS核心指标;患者理解度与可操作性则可使用PEMAT工具或通过开放性问题测试进行衡量。

V. Outer setting domain

外部环境方面,需要联合委员会等机构对MAT工作流进行独立质量认证,以验证其是否符合《平价医疗法案》第1557条要求。呼吁医疗系统与公共卫生机构共同构建开放临床翻译语料库,涵盖多类型文档与语言,尤其关注数字资源匮乏语种,以支持模型微调与性能评估。政策层面,需更新CLAS标准,明确MAT实施中的数据安全、错误率阈值与语种差异化标准,下一步法规修订应设定LLM用于MAT的准入门槛。
该研究总结指出,LLN支持的MAT为提升医疗语言公平提供了强大工具,可显著减轻翻译负荷、缩短交付时间、扩展多语言服务覆盖。然而,其成功实施依赖于持续的性能评估、偏见修正和工作流优化。未来需进一步开展混合效果—实施性研究,以验证LLM-MAT能否在实践中真正降低语言相关健康差异。
作者强调,尽管技术不断进步,人的因素始终至关重要——译者的专业知识、文化敏感性和临床判断是机器无法替代的。只有通过人机协作,才能在追求效率的同时,确保每一位患者都能获得安全、准确、温暖的医疗照护。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号