自动化“观察者选项-5”(Observer OPTION-5)这一共享决策制定评估方法:通过将大型语言模型的人类评分结果进行对比来验证其有效性
《Patient Education and Counseling》:Automating the Observer OPTION-5 measure of shared decision making: Assessing validity by comparing large language models to human ratings
【字体:
大
中
小
】
时间:2025年09月25日
来源:Patient Education and Counseling 3.1
编辑推荐:
大语言模型在临床共享决策评估中的应用研究。通过对比GPT-4o和Gemini-1.5-Pro-002模型与传统人工评分,发现LLMs能以75-80%的相关系数准确识别高/低质量决策会话,但模型性能受人类评分者间一致性影响。详细提示词可提升模型表现,验证了AI在自动化SDM评估中的潜力。
Sai P. Selvaraj|Renata W. Yen|Rachel Forcino|Glyn Elwyn
前职:AI, Inc., 纽约,美国
摘要
目标
基于观察者的共享决策评估方法依赖于人类评分者,这需要大量资源,限制了常规评估和改进的频率。生成式人工智能可以提高基于观察者的评估速度和准确性,同时减轻评分者的负担。
本研究旨在评估Gemini、GPT和LLaMA系列大型语言模型(LLMs)在评估早期乳腺癌患者与临床医生之间共享决策程度方面的表现。
方法
我们将LLM生成的评分与来自随机对照试验的经过培训的人类评分者的评分进行了比较,使用的是5项的Observer OPTION-5评估工具。我们分析了287份匿名化的乳腺癌咨询记录。我们测试了一系列提示语,以评估它们与人类评分之间的相关性。我们还评估了LLMs区分高评分和低评分会话的能力,以及评分者间一致性对评估结果的影响。
结果
GPT-4o和Gemini-1.5-Pro-002生成的Observer OPTION-5项目评分与人类评分者的评分相关(皮尔逊相关系数r≈0.6,p值<0.01),这一相关性大约相当于人类评分者之间评分相关性的75–80%(r = 0.77)。提供详细的描述和示例可以提高模型的表现。结果还证实,这些模型能够区分高评分和低评分的会话,独立样本t检验显示两组之间存在显著差异(t>10,p<0.01)。
结论
根据我们研究的乳腺癌手术数据集,LLMs可以使用现有的评估工具来评估医患对话的各个方面,为提示语的开发和微调提供了基础。未来的工作应侧重于模型的通用性、更大规模的数据集以及提高模型性能。
实践意义
能够自动化共享决策的评估为反思性实践的改进提供了快速反馈的可能性。
引言
共享决策(SDM)是一种协作过程,其中临床医生和患者共享信息并共同讨论治疗方案。SDM可以提高患者的知识水平、降低成本并改善治疗结果[1]、[2]、[3]、[4]。美国的政策举措,如基于绩效的激励支付系统(MIPS)、2015年的Medicare Access and CHIP Reauthorization Act(MACRA),以及Medicare和Medicaid中心都支持并鼓励SDM[5]。同样,英国的国家卫生服务体系(NHS)已将SDM纳入其护理策略[6],加拿大通过Health Canada的SDM框架建立了全国性的倡议[7],荷兰则将SDM作为肿瘤学和慢性病护理指南的基石[8]。然而,人们普遍认为评估方法需要改进[9]。
虽然存在患者报告的经验评估方法[10]、[11],但这些方法存在偏见、响应率低,并未得到广泛应用[9]、[12]、[13]。基于观察者的评估方法(OMs),如Observer OPTION-5(OO5),通过分析记录的医患互动提供更可靠的评估结果,且不依赖于患者的记忆[10]。OMs通常显示出较低的SDM水平以及临床医生之间评估结果的显著差异[10]。然而,OMs需要大量资源,这限制了其在研究中的使用[11]、[12]。有人建议自动化对话评估可以提供快速反馈[14]、[15]。
Observer OPTION-5(OO5)是一种基于协作讨论模型的经过验证的5项工具[13],在先前的研究中显示出良好的有效性[12]、[16]、[17]、[18]、[19]、[20],通常需要两名独立的评分者。自然语言处理(专注于自动理解和处理人类语言的计算机科学领域)和人工智能(AI)的进步为自动化SDM评估提供了机会,减少了培训负担和成本,使得大规模研究和临床试验应用成为可能,并可能为实践者提供直接反馈。
大型语言模型(LLMs——在大量文本语料库上训练的AI系统,能够生成和解释语言)重新定义了AI的基准[21],并在医疗保健领域得到越来越多的应用(诊断、决策支持、文献解读)[22]、[23]、[24]。它们展现了诸如从临床记录中提取细微信息等新兴能力,凸显了其在医疗保健领域的潜力[25]、[26]。
OpenAI的GPT-3.5和GPT-4以及Google的PaLM2在语言理解和生成方面表现优异[27]、[28]。这些LLMs能够实现零样本学习(即无需额外训练数据或示例)[29]和少样本学习(提供有限示例即可提升任务表现)[21]、[30]、[31]、[32]、[33]、[34]、[35]。因此,当标记训练数据稀缺或不便于收集时,这些LLMs特别有用。
尽管其他模型(如BERT[36],一种广泛用于语言理解的神经网络架构)也被用于医学文本的分类和生成[37]、[38]、[39]、[40],但由于训练数据的限制,我们选择了LLMs。像LLaMA[41]和Mistral[42]这样的公开可用LLM模型未被考虑,因为它们的零样本和少样本表现不如本研究中使用的商业LLMs。
鉴于LLM能力的迅速发展,我们的主要目标是评估它们使用Observer OPTION-5(OO5)自动评估临床对话的潜力。我们通过使用LLM检测临床记录中的特定言语行为,并将其表现与之前使用OO5评估相同数据的人类评分者进行比较来实现这一目标。
部分内容摘录
设计
我们对现有的匿名化对话记录语料库进行了二次分析,这些记录来自关于早期乳腺癌治疗的医生与患者之间的音频对话。匿名化过程分为三个阶段:(1)转录公司使用括号标记可识别患者身份的信息(例如,“你一定是[Angela]”);(2)经过培训的工作人员移除了所有括号内的内容,并审查了每份记录中的其他标识符,包括医生信息。
可用记录
我们最终收集到的会话记录包括:中心1收集的110份、中心2收集的46份、中心3收集的8份以及中心4收集的123份——总计287次与12位医生的对话。我们使用随机数生成器选择了40份记录作为验证集,其余247份记录构成了测试集。这些对话被按说话者轮流顺序转录,平均每份记录包含488行内容。
主要发现
GPT-4o和Gemini-1.5-Pro-002生成的OO5项目评分与人类对临床会话中SDM的评分高度相关。两种模型都能区分高评分和低评分的会话。加入详细提示后,模型的表现进一步得到提升。当评分者意见一致时相关性更高,而意见不一致时相关性较低,这与先前的研究结果一致,即OPTION-5及相关编码任务的评分者间可靠性较低。与人类评分者设定的最高分相比
缩写
- OO5
Observer OPTION-5
- LLM
大型语言模型
- SDM
共享决策
- GPT
生成式预训练Transformer
- PaLM
基于路径的语言模型
- rp
皮尔逊相关系数
- OM
基于观察者的评估方法
CRediT作者贡献声明
Rachel Forcino:撰写初稿、数据整理。Renata W. Yen:撰写初稿、数据整理。Sai P. Selvaraj:撰写初稿、方法论设计、形式分析、概念构建。Glyn Elwyn:撰写初稿、项目监督、数据整理、概念构建。
利益冲突声明
Glyn Elwyn的学术兴趣集中在共享决策和共同生产方面。他拥有共享决策评估工具(collaboRATE)和护理整合工具(integRATE)的版权,这些工具用于评估重症患者的护理体验(consideRATE)、目标设定工具(coopeRATE)、临床医生参与共享决策的意愿工具(incorpoRATE),以及共享决策的观察者评估工具(Observer OPTION-5和Observer OPTION-12)。他是这些工具的创始人兼负责人。
致谢
我们感谢Christopher Jacobs对文章的校对,以及What Matters Most研究团队允许我们进行数据二次分析。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号