-
生物通官微
陪你抓住生命科技
跳动的脉搏
JAMA子刊:ChatGPT不能很好结合癌症治疗指南,提供治疗建议
【字体: 大 中 小 】 时间:2023年08月29日 来源:Brigham and Women's Hospital
编辑推荐:
对许多病人来说,互联网是他们在医学话题上自我教育的有力工具。随着ChatGPT现在触手可及,研究人员评估了人工智能聊天机器人提供的癌症治疗建议与国家综合癌症网络(NCCN)指南的一致性。
该研究的通讯作者、布里格姆总医院放射肿瘤科和医学人工智能(AIM)项目的丹尼尔·比特曼(Danielle Bitterman)医学博士说:“患者应该感到自己有权了解自己的医疗状况,但他们应该始终与临床医生讨论,不应该孤立地咨询互联网上的资源。”“ChatGPT的回答听起来很像人类,而且很有说服力。但是,当涉及到临床决策时,每个病人的独特情况都有很多微妙之处。正确的答案可能非常微妙,而ChatGPT或其他大型语言模型不一定能提供这些答案。”
卫生领域人工智能工具的出现具有开创性,并有可能积极地重塑护理的连续性。作为美国顶尖的综合学术卫生系统和最大的创新企业之一,麻省总医院在对新兴技术进行严格研究方面处于领先地位,为将人工智能负责任地纳入医疗服务、劳动力支持和行政流程提供信息。
尽管医疗决策可能受到许多因素的影响,但比特曼和他的同事选择评估ChatGPT的建议与全国各机构的医生使用的NCCN指南的一致程度。他们专注于三种最常见的癌症(乳腺癌、前列腺癌和肺癌),并促使ChatGPT根据疾病的严重程度为每种癌症提供治疗方法。总的来说,研究人员包括了26个独特的诊断描述,并使用了4个略有不同的提示来要求ChatGPT提供治疗方法,总共产生了104个提示。
几乎所有的应答(98%)包括至少一种符合NCCN指南的治疗方法。然而,研究人员发现,这些回答中有34%还包括一个或多个不一致的建议,这些建议有时很难在其他合理的指导中发现。不一致的治疗建议被定义为只有部分正确;例如,对于局部晚期乳腺癌,仅推荐手术,而不提及其他治疗方式。值得注意的是,评分完全一致的情况仅发生在62%的病例中,这既强调了NCCN指南本身的复杂性,也强调了ChatGPT的输出可能模糊或难以解释的程度。
在12.5%的病例中,ChatGPT产生了“幻觉”,或者是NCCN指南中完全没有的治疗建议。其中包括对新疗法的建议,或对无法治愈的癌症的治疗方法。作者强调,这种形式的错误信息会错误地设定患者对治疗的期望,并可能影响医患关系。
展望未来,研究人员正在探索患者和临床医生如何区分临床医生写的医疗建议和像ChatGPT这样的大型语言模型(LLM)。他们也促使ChatGPT提供更详细的临床病例,以进一步评估其临床知识。
作者使用了GPT-3.5-turbo-0301,这是他们进行这项研究时可用的最大模型之一,目前在ChatGPT的开放访问版本中使用的模型类(较新的版本GPT-4,只能通过付费订阅获得)。他们还使用了2021年NCCN指南,因为GPT-3.5-turbo-0301是使用截至2021年9月的数据开发的。虽然如果使用其他法学硕士和/或临床指南,结果可能会有所不同,但研究人员强调,许多法学硕士在构建方式和局限性方面都是相似的。
“法学硕士在多大程度上提供了一致的逻辑反应,因为经常观察到‘幻觉’,这是一个开放的研究问题,”AIM项目的第一作者、硕士Shan Chen说。“用户可能会从法学硕士那里寻求答案,以教育自己了解与健康相关的话题——这与谷歌搜索的使用方式类似。与此同时,我们需要提高人们的意识,法学硕士并不等同于训练有素的医疗专业人员。”
Journal Reference:
Shan Chen, Benjamin H. Kann, Michael B. Foote, Hugo J. W. L. Aerts, Guergana K. Savova, Raymond H. Mak, Danielle S. Bitterman. Use of Artificial Intelligence Chatbots for Cancer Treatment Information. JAMA Oncology, 2023; DOI: 10.1001/jamaoncol.2023.2954