医生使用AI聊天机器人进行临床决策的输入方式类型学研究

《npj Digital Medicine》:A typology of physician input approaches to using AI chatbots for clinical decision-making

【字体: 时间:2025年12月06日 来源:npj Digital Medicine 15.1

编辑推荐:

  为解决医生使用大型语言模型(LLM)聊天机器人时输入方式对临床决策效果的影响问题,研究人员开展了关于医生输入方法的类型学研究。通过混合方法分析发现医生主要采用四种输入方式(复制粘贴/选择性复制/总结/搜索),但输入内容量与临床推理评分无显著相关性。该研究为AI辅助医疗决策的人机协作模式提供了重要实践依据。

  
当ChatGPT等大型语言模型(LLM)在医学考试中的表现甚至超过医生时,一个耐人寻味的问题浮现:为什么在实际临床推理中,使用相同AI工具的医生反而表现不佳?先前研究发现,当研究人员将完整病例输入LLM时,其诊断准确率高于同样使用LLM但自主选择输入方式的医生。这种差距是否源于医生不同的信息输入策略?斯坦福大学和哈佛大学的研究团队在《npj Digital Medicine》发表的最新研究,首次系统揭示了医生使用AI聊天机器人时的四种典型输入模式,并挑战了"输入信息越多效果越好"的普遍认知。
研究团队采用顺序混合方法设计,首先对22名美国执业医师进行半结构化访谈,分析其使用GPT-4处理临床案例的交互模式。随后对两个随机对照试验(RCT)的253个病例聊天记录进行编码分析,最终构建出基于内容输入量的四分类类型学框架。
研究方法涵盖三个关键环节:通过质性访谈建立初步类型学框架,对RCT聊天记录进行编码验证,最后采用线性混合效应模型分析输入方式与临床推理得分的关联性。研究纳入来自诊断型RCT的95个病例和管理型RCT的158个病例,所有案例均基于真实患者经历改编。
输入方式类型学特征
研究识别出四种基于内容输入量的典型模式:复制粘贴者(Copy-paster)直接将完整病例粘贴至聊天机器人;选择性复制者(Selective copy-paster)仅提取关键片段;总结者(Summarizer)用自身语言概括病例;搜索者(Searcher)则像使用搜索引擎般输入简短查询。值得注意的是,61%的访谈医师会在不同案例中切换使用多种策略。
各类型使用动机与体验
复制粘贴策略因操作简便而最受欢迎(15/22名医师),一位医师形容其为"散弹枪方法",可快速生成全面鉴别诊断。选择性复制者(6/22)则倾向于聚焦特定临床表现,部分医师担心过多信息会"淹没"AI系统。总结者(4/22)认为自主提炼信息能避免AI陷入"兔子洞"式无关推理,其中一位医师强调总结过程能增强认知参与度。搜索者(7/22)将AI视为精准工具,一位医师称之为"狙击手方法",适用于解答特定疑问。
输入方式与临床绩效关系
最关键的发现是:四种输入方式在诊断案例和管理案例中的表现无统计学差异。如图2所示,各类型得分分布范围广泛且重叠明显,推翻"更多输入带来更好输出"的假设。线性混合效应模型显示,输入内容量并非影响临床推理评分的关键因素。
管理案例中的AI使用局限
访谈发现医师对管理案例的AI输出普遍不满,认为其建议过于宽泛且缺乏个体化考量。这解释了为何管理案例中2-5名参与者直接放弃使用AI,而诊断案例中仅1-2人未使用。
研究结论表明,医师使用LLM聊天机器人时存在显著的个体化差异,但输入策略的选择更多反映个人诊疗风格而非效果优化。真正影响AI辅助决策效能的可能是提示工程(Prompt Engineering)技巧、认知参与度及输出信息筛选能力等深层因素。该研究为医疗AI培训提供重要启示:与其统一输入标准,不如培养医师根据具体场景灵活调整交互策略的能力。随着LLM与电子健康记录(EHR)系统的加速整合,理解人机协作中的行为模式将成为实现AI辅助精准医疗的关键基石。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号