大型语言模型的临床案例与研究生医学教育的多项选择题

《Academic Medicine》:Large Language Model Clinical Vignettes and Multiple-Choice Questions for Postgraduate Medical Education

【字体: 时间:2025年09月29日 来源:Academic Medicine

编辑推荐:

  AI通过结构化提示工程生成 obstetrics-gynecology 临床选择题,测试发现医学生和主治医师难以区分人工作业与AI生成内容,且AI生成题目的正确率与人工相当。

  临床案例为基础的多项选择题(MCQs)是评估医学研究生培训人员知识水平的一种常见且客观的方法。然而,传统的MCQ开发过程需要大量时间和精力,通常由少数经过专门培训的教育者完成。随着人工智能(AI)技术的快速发展,特别是大型语言模型(LLMs)的出现,为医学教育提供更高效、更可持续的评估工具成为可能。本研究探讨了如何利用ChatGPT-4这一特定的LLM,通过结构化的提示工程(prompt engineering)技术,生成适合妇产科住院医师的临床案例和MCQs,并评估住院医师和主治医师是否能够区分这些题目是由人类还是AI生成的。

### 研究背景与问题提出

临床案例型MCQs在医学教育中具有重要地位,它们能够模拟真实临床情境,帮助学习者培养临床推理能力、决策能力和批判性思维。然而,由于医学知识的复杂性和不断更新,保持MCQ内容的时效性和相关性至关重要。传统的MCQ开发流程不仅耗时,而且需要高度专业化的知识,这对某些专科领域尤为挑战,尤其是针对专家学习者的题目。因此,寻找一种能够快速生成高质量MCQs的方法,成为医学教育界关注的重点。

大型语言模型通过分析海量的训练数据,能够快速生成与人类语言相似的文本。这种能力使得LLMs在生成MCQs方面展现出巨大的潜力。然而,已有研究表明,直接使用LLMs生成的MCQs可能存在一些问题,如内容不相关、准确性不足、题目难度不适宜等。例如,Laupichler等人发现,使用ChatGPT-3.5生成的MCQs中,有约16.7%需要进一步编辑才能使用。这表明,尽管LLMs在内容生成方面有优势,但其输出仍需经过结构化的提示工程和专家审核,以确保其符合医学教育的标准。

本研究旨在通过改进的提示工程方法,探索ChatGPT-4在生成妇产科相关MCQs方面的可行性。研究团队采用了一种迭代的提示链技术,结合权威的妇产科文献,以提高AI生成题目与人类专家所写题目的相似性。通过这种方式,研究者希望减少AI生成内容中的错误,并确保其在临床相关性、难度和区分度等方面达到医学教育的要求。

### 研究方法与实施过程

研究团队在2024年8月使用ChatGPT-4生成了50道AI生成的MCQs,并从《PROLOG: Obstetrics》(一本面向研究生培训人员和准备执照考试的医学教育资料)中选取了50道由人类专家撰写的MCQs。所有题目均围绕相同的妇产科主题,每道题目包含5个选项,没有图片。生成的AI题目经过两位专家(F.I.J.和N.A.K.)的初步审核,以确保没有严重错误,但未进行修改或删除。

为了评估参与者是否能够区分AI生成与人类撰写的题目,研究团队将这100道题目随机分配到10个测验中,每个测验包含10道题目。随后,邀请了来自Northwell Health和Donald and Barbara Zucker School of Medicine at Hofstra/Northwell的妇产科住院医师和主治医师参与一项在线调查。参与者需要回答每个问题,并判断该题是人类还是AI生成的,或者表示不确定。此外,为了提高参与度,研究团队提供了参与抽奖的机会,奖励金额为100美元,前提是所有答案均正确。

### 研究结果与分析

共有41名参与者被邀请,其中33人完成了调查,响应率为80.5%。参与者在判断题目来源时,正确识别的中位数为39.1%(四分位距为30.0%–50.0%),表明在区分AI生成与人类撰写的题目方面存在困难。在正确答案的选择上,人类生成题目的中位数为62.3%(四分位距为50.0%–75.0%),而AI生成题目的中位数为64.4%(四分位距为50.0%–83.3%),两者之间的差异不具有统计学意义(P = 0.74)。

进一步分析显示,住院医师和主治医师在正确回答率和题目来源识别上的表现相似。具体而言,住院医师在人类生成题目上的正确回答率为64.4%(四分位距为50.0%–85.7%),在AI生成题目上的正确回答率为61.8%(四分位距为60.0%–68.8%)。而主治医师在人类生成题目上的正确回答率为57.4%(四分位距为44.6%–72.3%),在AI生成题目上的正确回答率为65.4%(四分位距为50.0%–83.3%)。尽管AI生成题目的正确回答率略高于人类生成题目,但这一差异并不显著。

在题目难度和区分度方面,人类生成题目的难度指数为0.69,AI生成题目的难度指数为0.66(P = 0.83),两者之间没有显著差异。区分度指数方面,人类生成题目的区分度为0.42,AI生成题目的区分度为0.38(P = 0.90),同样没有显著差异。这表明,AI生成的MCQs在难度和区分度上与人类生成的题目相当,具备一定的教育价值。

此外,研究团队计算了正确答案选择与题目来源识别之间的相关性。总体来看,正确答案选择与题目来源识别之间的相关系数为0.02,表明这两者之间没有明显的关联。在住院医师群体中,相关系数为0.20,而在主治医师群体中为?0.11,这可能意味着主治医师在某些情况下更倾向于相信AI生成的题目,或者在某些题目上更倾向于选择正确的答案,而不会因为题目来源而改变判断。

值得注意的是,在AI生成的题目中,有一道题目存在答案选项模糊的问题,即两个选项都被认为是“最佳答案”。这一问题表明,尽管AI生成的题目在整体上表现良好,但仍需进一步优化,以确保答案的清晰性和唯一性。

### 研究意义与启示

本研究的结果表明,通过结构化的提示工程和权威文献的辅助,ChatGPT-4可以生成与人类专家撰写的MCQs相当的题目。这不仅有助于提高MCQ生成的效率,还为医学教育提供了新的工具和方法。AI生成的题目在正确率、难度和区分度方面与人类生成的题目没有显著差异,说明其在医学教育评估中的潜在应用价值。

然而,研究也指出了一些局限性。首先,所使用的部分人类生成题目来源于已发表的练习材料,这可能意味着某些参与者在答题前已经接触过这些题目,从而影响其判断能力。其次,由于研究样本量较小,且评估时间较短,研究团队无法全面比较参与者在不同考试中的表现。此外,AI生成题目的评估方法仍然处于探索阶段,尤其是在难度校准和区分度指数的计算方面,仍需进一步验证。

### 未来方向与建议

为了进一步提升AI生成MCQs的质量和可靠性,研究团队建议采用更先进的技术,如微调(fine-tuning)和检索增强生成(retrieval-augmented generation)。微调可以通过使用专科领域的数据集,使模型更好地适应特定主题,从而提高其在临床情境中的准确性。而检索增强生成则可以增强模型在生成题目时对最新数据的访问能力,减少对静态训练数据的依赖,避免因信息过时而导致的问题。

此外,研究团队计划将AI生成的题目用于创建一份模拟“美国妇产科住院医师教育委员会(Council on Resident Education in Obstetrics and Gynecology)年度在职培训考试”的练习试卷,并将其发放给Northwell Health系统内的约100名妇产科住院医师。该试卷将包含详细的解释和参考文献,以帮助住院医师更好地理解题目内容并为正式考试做准备。随后,研究团队将评估该练习试卷的预测效度,即其成绩与正式考试成绩之间的相关性。

### 对医学教育的潜在影响

AI生成MCQs的广泛应用可能对医学教育产生深远影响。首先,它可以显著降低MCQ开发的时间和成本,使教育者能够将更多精力投入到教学设计、个性化指导和学习者辅导等更高层次的任务中。其次,AI生成的题目可以提供更广泛的覆盖范围,帮助教育者创建更丰富的题目库,满足不同培训阶段和学习目标的需求。此外,AI生成的题目还可以支持跨学科和跨专业的教学活动,为不同领域的医学教育提供标准化的评估工具。

然而,AI生成的题目仍然需要经过专家审核,以确保其在内容准确性、文化敏感性和公平性等方面符合医学教育的标准。教育者应具备批判性思维和评估能力,能够识别AI生成内容中的潜在偏差,并对其进行必要的修改和优化。因此,未来的研究应关注如何在AI生成内容和专家审核之间找到最佳平衡,确保在提高效率的同时不牺牲评估的准确性。

### 结论

本研究的发现表明,通过结构化的提示工程和权威文献的支持,AI生成的MCQs在质量和表现上可以与人类专家撰写的题目相媲美。尽管参与者在区分题目来源方面存在困难,但AI生成的题目在正确率、难度和区分度上与人类生成的题目没有显著差异,显示出其在医学教育中的可行性。然而,AI生成内容仍需经过专家审核,以确保其在临床相关性、准确性和公平性等方面达到医学教育的要求。未来的研究应进一步探索AI生成MCQs的优化方法,并将其应用于更广泛的医学教育场景中,以促进评估工具的标准化和可持续发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号