-
生物通官微
陪你抓住生命科技
跳动的脉搏
医学肿瘤学测试:人工智能表现优于同行,但有些错误可能是有害的
【字体: 大 中 小 】 时间:2024年06月25日 来源:news-medical
编辑推荐:
探讨大型语言模型(llm)在回答肿瘤医学检查问题中的准确性和安全性,是否有助于支持临床医生?
在最近发表在JAMA Network Open上的一项研究中,研究人员评估了大型语言模型(LLMs)在回答肿瘤医学检查问题时的准确性和安全性。
大型语言模型(LLMs)包含广泛的医学知识,具备理解和推理能力,并表现出能够通过美国(US)医疗执照考试的能力,有可能通过协助临床医生完成任务和与患者互动,彻底改变医疗保健。这些模型经过大量文本语料库的训练,可以通过微调来回答类似人类的问题。不过,它们的表现在不同的医学专科有所不同。随着快速发展的知识和大量的发表文献,医学肿瘤学提出了一个独特的挑战。需要进一步的研究来确保大型语言模型(LLMs)能够可靠和安全地将不断更新的医学知识应用于医学肿瘤学等专业领域,从而改善对临床医生的支持和患者护理。
本研究于2023年5月28日至10月11日进行,遵循加强流行病学观察性研究报告(STROBE)指南,由于缺乏人类参与者,不需要伦理委员会批准或知情同意。美国临床肿瘤学会(ASCO)的公开访问题库提供了52个选择题,每个选择题都有一个正确答案和解释性参考。同样,欧洲肿瘤医学学会(ESMO) 2021年和2022年的考试试题库在排除基于图像的问题后提供了75个问题,答案由肿瘤学家制定。
为了确保测试的不偏不倚,肿瘤学家创造了20个原始问题,保持了多项选择的形式。ChatGPT-3.5和ChatGPT-4用于回答这些问题,并标记一致性以进行比较。6个开源的大型语言模型,包括为生物医学领域量身定制的Biomedical Mistral-7B Domain Adapted for Retrieval and Evaluation (BioMistral-7B DARE),也进行了评估。回答被记录下来,解释被分为四级错误量表。统计分析在R 4.3.0版本中进行,测试了准确性、误差分布和肿瘤学家之间的一致性。研究采用二项分布、McNemar检验、Fisher检验、加权κ检验、Wilcoxon秩和检验,双侧P值为0.05,具有统计学意义。
对大型语言模型(LLMs)的147个考题进行评估,其中52个来自ASCO, 75个来自ESMO, 20个原始问题。血液学是最常见的类别(15.0%),但问题跨越了各种主题。ESMO的问题更为一般性,涉及全身治疗的机制和毒性作用。值得注意的是,27.9%的问题需要从2018年以来发布的证据中获得知识。人工智能对所有问题给出了书面答案,Proprietary LLM 2在22.4%的情况下需要提词以获得特定答案。
一个选定的ASCO问题涉及一名62岁的转移性乳腺癌妇女,表现为肺栓塞的症状。考虑到患者的癌症和旅行史,Proprietary LLM 2正确地确定了低分子肝素或直接口服抗凝剂的最佳治疗方法。另一个ASCO问题描述了一名61岁的转移性结肠癌女性,她的化疗方案导致神经病变。鉴于存在B-Raf原癌基因、丝氨酸/苏氨酸激酶(BRAF) V600E突变及其副作用,这个大型语言模型建议改用enorafenib和西妥昔单抗的靶向治疗。
Proprietary LLM 2显示出最高的准确性,正确回答了85.0%的问题(147个问题中的125个),显著优于随机回答和其他模型。在ASCO(80.8%)、ESMO(88.0%)和原始问题(85.0%)中表现一致。当第二次尝试时,54.5%的错误答案被纠正了。Proprietary LLM 1和Mistral-8x7B version 0.1 (Mixtral-8x7B-v0.1)的准确率分别较低,为60.5%和59.2%。BioMistral-7B DARE准确率为33.6%。
临床医生对书面回答的定性评价表明,Proprietary LLM 2为83.7%的问题提供了正确且无错误的答案。当问题要求了解最近的发表论文时,错误的答案更频繁,在知识回忆、推理和阅读理解方面均存在错误。临床医生将63.6%的错误分类为中等伤害可能性,18.2%的病例中有很高的可能性。在LLM回答中未观察到幻觉。
在这项研究中,AI在为接近临床实践的学员设计的医学肿瘤学考试式问题上表现得非常好。Proprietary LLM 2正确回答了85.0%的选择题,并提供了准确的解释,展示了其丰富的肿瘤学医学知识和推理能力。然而,不正确的答案,特别是那些涉及最近发表的文章,引起了重大的安全问题。Proprietary LLM 2优于其前身LLM1,并且与其他LLM相比显示出更高的准确性。该研究表明,虽然人工智能的能力正在提高,但信息检索中的错误,尤其是在获取新证据时,会带来风险。加强培训和频繁更新对于大型语言模型保持最新的医学肿瘤学知识至关重要。