人工智能时代临床推理评估的困境与重塑:当语言模型开始“思考”

【字体: 时间:2025年09月24日 来源:Journal of General Internal Medicine 4.2

编辑推荐:

  本文探讨了在大型语言模型(LLM)崛起的背景下,医学教育者如何重新评估临床推理能力。研究指出,传统的通过口头汇报和临床文档评估临床推理的方法,因LLM能生成模仿人类推理的语言而面临挑战。作者基于双过程理论(DPT),提出了区分System 1(快速直觉)和System 2(慢速分析)推理的评估策略,并建议通过纵向评估、强化反馈及整合聊天机器人三类举措,重构临床推理评估体系,对医学教育具有重要指导意义。

  

在当今医学教育领域,临床推理(Clinical Reasoning)一直被视作内科医学与教学评估的基石。住院医师和医学生的这项核心能力,传统上是通过听取病例汇报或审阅医疗文书来评判的。然而,这种方法的底层逻辑存在一个根本性问题:它常常将“内部思考过程”与“外部语言表达”混为一谈——一个学习者可能语言流畅、表述规范,但这真的代表他深入理解了病情吗?

这个问题在人工智能时代变得愈发尖锐。随着大型语言模型(Large Language Models, LLMs 或 chatbots)的迅猛发展,AI已经能够生成逻辑清晰、推理严密的临床语言,几乎可以假乱真。当AI能够轻松写出一份完美的鉴别诊断和诊疗计划时,教育者又该如何判断,眼前这份完美的“作业”究竟是学生独立思考的结晶,还是AI代笔的产物?这仿佛为医学教育设置了一场前所未有的“图灵测试”,挑战着评估体系的信度与效度。

正是在这样的背景下,Justin J. Choi博士在《Journal of General Internal Medicine》上发表了他的评述性研究。文章尖锐地指出,传统的评估方式不仅受限于临床环境的时空压力,还深受诸如“复制粘贴”生成病历、汇报告求“表演性”等行业惯例的扭曲。而ChatGPT等工具的普及,更让“这究竟是谁的思考”成为了一个无解之谜。为了应对这一挑战,作者提出必须超越对语言表浅痕迹的依赖,从理论框架到实践策略全面重塑临床推理的评估范式。

为了系统回应“如何在AI时代评估真实临床推理”这一核心问题,作者并未采用原始数据收集与实验验证的经典研究范式,而是基于大量已有文献和理论模型,进行了深入的整合性分析。其研究方法主要体现在三个层面:首先,采用理论分析法,引入双过程理论(Dual Process Theory, DPT)作为核心框架,用以解构和识别临床推理中的直觉性模式识别(System 1)和分析性假设检验(System 2)。其次,运用对比案例研究法,通过构建一个假设的临床案例,对比展示医学新手与ChatGPT-4o生成的“专家级”评估在问题表征、语义限定词使用和概率推理等方面的差异,直观揭示评估面临的挑战。最后,通过系统综述和归纳法,对现有医学教育评估文献进行梳理,进而提出一套多维度、程序化的评估解决方案。整个研究建立在对当前临床实践与教育情境的深刻洞察之上,具有很强的现实针对性。

一、 语言与真实思维的混淆

研究表明,医学教育者常假定学生的口头汇报和书面记录能准确反映其内在临床推理。然而,说与写的行为本身受到各种规范、预期和时间限制的塑造,这些因素都可能扭曲内部的思维过程。例如,病历文书中的“复制粘贴”功能,使得教育者难以分辨记录中的想法究竟源自何人。聊天机器人的介入,将进一步混淆思维的真实归属。

在病例汇报时,学习者通常被要求呈现一个精简版的临床推理,省略了所有中间的认知步骤。鉴于临床环境的时间压力,这种做法本身无可厚非。Lingard等人的研究证实,学生常将汇报视为一种“表演”,但指导教师仍依赖这些汇报来评估其推理能力——聊天机器人输出的整合,让这种评估变得更加困难。

二、 运用双过程理论评估临床推理

聊天机器人能够生成充分反映临床推理过程的输出。为了理解如何从语言中推断临床推理(无论来自人类或机器),作者提出采用双过程理论(DPT),这是一个被广泛使用的临床推理评估框架。DPT认为人类思维以两种模式运作:(i)快速、直觉的模式(如模式识别),称为系统1(System 1);(ii)缓慢、分析的模式,称为系统2(System 2)。

当临床医生遇到可识别的临床表现模式并快速生成假设时,他们使用的是系统1;而当病情呈现模糊或复杂、需要深入分析时,则启用系统2。临床推理的评估可以针对这两个系统分别进行。

在系统1的评估中,问题表征(Problem Representation)——一个定义病例关键特征的抽象摘要——除在教学情境外,很少在实际临床中被明确表述,其准确性被认为反映了学习者的临床推理水平。语义限定词(Semantic Qualifiers)是成对出现的反义描述符,用于比较和对比鉴别诊断(例如单侧与双侧下肢水肿)。在问题表征中使用语义限定词与强大的临床推理能力相关联。

为评估系统2,教育者可以识别假设-演绎推理(Hypothetico-Deductive Reasoning),这是一种“强”推理方法,涉及从假设出发,系统性地分析数据以确认哪些符合、哪些不符合,以及还需要哪些信息来证实或推翻该假设。概率推理(Probabilistic Reasoning)是另一种强推理方法,临床医生借此为不同潜在疾病分配概率(可能性大小),并随着新数据不断更新这些概率。

三、 重新构想临床推理评估的优先领域

医学教育者必须重新思考如何超越语言表迹来评估临床推理。文章提出三个优先方向:

  1. 1.

    构建纵向和多源评估系统:程序化方法强调整合多次低风险评估、直接观察和 workplace-based evaluation,以全面描绘学习者的临床推理轨迹。通过多角度数据三角验证,可在聊天机器人干扰文书评估时,利用床边访谈评估等方式加以弥补。

  2. 2.

    提升反馈与辅导在评估中的核心地位:反馈和指导对话能够帮助教育者探查学习者如何做出临床决策、如何随时间推移调整其推理。跨轮转跟踪的教练更能可靠地识别推理中的改进领域,制定个性化学习计划,从而对抗“技能退化”和“自动化偏倚”。

  3. 3.

    将聊天机器人整合进评估过程:教育者不应仅将聊天机器人视为威胁,而应利用其作为评估工具。例如,聊天机器人可用于模拟临床推理场景或充当辅导教师。这些功能超越了教科书或其他临床决策支持工具仅助信息检索而非直接辅助推理的局限。

结论与意义

Justin J. Choi 的这项研究深刻揭示了在人工智能技术深刻融入医疗实践与教育的大背景下,临床推理评估所面临的范式危机。其核心结论在于:大型语言模型(LLM)的卓越语言生成能力,使得传统依赖语言产出的评估方法不再可靠,教育者亟需采用更加多元、深入和动态的方式区分“真实的人类思考”与“机器生成的文本”。

该研究的重大意义体现在理论和实践两个层面。在理论层面,它成功将双过程理论(DPT)系统应用于应对AI带来的新挑战,为理解和解构临床推理提供了清晰且可操作的理论框架。在实践层面,文章所提出的三项优先策略——建立程序化评估、强化 coaching 反馈、以及整合AI工具本身——为医学教育者、课程设计者和政策制定者提供了一套切实可行的行动路线图。这不仅有助于维护评估的公平性与真实性,更能引导医学教育正向发展,培养未来医生在人类与AI协作的新环境中,保持并提升其不可或缺的核心临床思维能力——批判性推理、审慎判断和伦理决策。最终,这项工作为如何在技术革命中坚守医学教育的育人本质提供了重要启示。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号