经皮胃造口管更换术中的罕见并发症

《ACG Case Reports Journal》:Unusual Complication of Percutaneous Gastrostomy Tube Replacement

【字体: 时间:2025年09月29日 来源:ACG Case Reports Journal 0.5

编辑推荐:

  该研究通过迭代提示工程和权威文献指导,利用ChatGPT-4生成 obstetrics-gynecology临床多选题,评估住院医师和主治医师对AI生成题目的识别能力及答题表现,结果显示两者在正确率和题干来源识别上无显著差异,验证了AI生成题目在医学教育中的可行性。

  这项研究探讨了在妇产科住院医师教育中使用大型语言模型(LLMs)生成临床情景型多项选择题(MCQs)的可行性。临床情景型MCQs是评估住院医师医学知识的常用方法,但传统的开发过程往往耗时且需要大量人力。随着人工智能技术的发展,特别是LLMs的出现,这种生成方式提供了新的可能性。研究者通过优化提示工程(prompt engineering)技术,利用ChatGPT-4这一LLM生成高质量的MCQs,并评估住院医师和主治医师是否能够区分这些题目是人工还是AI生成的。

研究的出发点在于,传统的MCQs开发依赖于少数受过专门训练的教育者,这在某些专科领域,尤其是针对专家学习者的题目开发中尤为明显。然而,这种模式不仅耗费大量时间和精力,还可能影响考试内容的更新和考试的完整性。LLMs通过分析大量训练数据中的模式和语境,能够快速生成符合人类语言习惯的文本,这为MCQs的开发提供了高效的工具。尽管有研究证明AI生成的MCQs可以达到与人工撰写的相当水平,但其准确性、难度适配性和内容有效性仍需进一步优化。因此,研究者采用了一种结构化的提示工程方法,结合权威的妇产科资料,以提高AI生成MCQs的质量。

研究过程中,首先从《PROLOG: Obstetrics》这一权威医学资源中选取了50道人工撰写的MCQs,然后利用ChatGPT-4根据相同的主题生成另外50道AI生成的题目。这些题目在生成后,由研究者进行了初步审核,确保没有严重错误,但未进行修改或删减。为了测试参与者对题目来源的判断能力,所有100道题目被随机分配到10个试卷中,每个试卷包含10道题目。随后,北岸医疗中心和霍夫斯特拉/北岸医学院的妇产科住院医师和主治医师被邀请参与一项在线调查,调查时间为约20分钟,参与者有机会获得奖金以提高答题积极性。

结果显示,共有33名参与者完成了调查(80.5%的响应率),其中包括16名住院医师和17名主治医师。在这些参与者中,仅有一半的时间能够正确识别题目来源,表明他们难以区分人工和AI生成的题目。在正确回答选择上,人工生成的题目正确率中位数为62.3%(50.0%–75.0%),而AI生成的题目正确率为64.4%(50.0%–83.3%),两者之间的差异并不显著(P = .74)。此外,题目难度指数(即正确回答的比例)和区分度指数(正确回答率在前25%和后25%参与者之间的差异)在人工和AI生成的题目之间也没有明显差异,表明AI生成的MCQs在内容质量和评估效度方面具备可行性。

在分析过程中,研究者采用了统计方法来评估不同参与者群体的表现。例如,使用卡方检验(χ2 test)分析人工和AI生成题目的回答情况,而由于数据分布不均,又使用了斯皮尔曼等级相关(Spearman rank correlation)来评估人工和AI生成题目之间的表现相关性。结果显示,整体上人工和AI生成题目的正确回答率相关系数为0.02,而在主治医师群体中为0.20,住院医师群体中为?0.11,表明不同群体对AI生成题目的判断能力存在差异。此外,有一道AI生成的题目存在歧义选项,即有两个“最佳”答案,这可能会影响评分的准确性。

研究者还发现,尽管AI生成的题目在正确率上略高于人工生成的题目,但两者的区分度和难度指数差异并不显著,这表明AI生成的题目在内容质量上能够达到与人工生成的相当水平。此外,研究者指出,住院医师和主治医师在正确回答率和判断题目来源方面表现相似,说明无论是经验丰富的专家还是刚完成培训的住院医师,都能够对AI生成的题目做出合理的判断。这表明,AI生成的MCQs在实际应用中具备一定的可靠性。

然而,研究也指出了几个局限性。首先,人工生成的题目来自之前发表的练习材料,这些题目可能已经被部分参与者接触过,但由于未说明题目的来源,可能会影响参与者的判断。此外,调查和实际考试的时间间隔较长,可能导致参与者对题目内容的记忆存在差异。其次,由于参与者的数量较少,且评估时间较短,研究者难以准确比较人工和AI生成题目的表现差异。此外,缺乏参与者过去考试成绩的数据,使得对AI生成题目预测效度的评估受到限制。因此,研究者认为,这些分析更多是探索性的,尚需进一步研究。

研究的下一步计划是探索AI生成内容与专家审核之间的最佳平衡,以确保在提高效率的同时不牺牲准确性。为此,研究者打算利用AI生成的题目创建一份模拟年度妇产科住院医师教育委员会(Council on Resident Education in Obstetrics and Gynecology)的内部培训考试,并将其应用于北岸医疗系统的约100名妇产科住院医师。每道题目将包含详细的解释和来源参考,以增强住院医师的学习效果和考试准备。在正式考试结束后,研究者将评估AI生成练习考试的预测效度,即其与正式考试成绩的相关性。此外,研究者还计划开发一个可定制的模板,以便在不同学科和专业领域中指导题目生成,从而促进更广泛的采用。

研究者认为,引入结构化的LLM辅助题目开发方法,不仅可以提高评估内容的标准化和一致性,还能减轻教育者的负担,使他们能够将更多精力投入到教学任务中。同时,这种方法有助于促进教育者之间的合作,提高内容的质量和可靠性。通过将AI工具与教育者培训相结合,医疗机构可以建立一个可持续的评估开发模型,不仅支持各个科室的教育需求,还能推动整个学术界的发展。

此外,研究者还提到,AI生成的题目可以通过进一步的技术优化,如微调(fine-tuning)和检索增强生成(retrieval-augmented generation),来提高其准确性和时效性。微调可以通过使用特定领域的数据集来优化模型的性能,使其在特定上下文中更加准确;而检索增强生成则可以提高模型对实时数据的检索能力,减少对静态训练数据的依赖,从而避免因数据过时而导致的错误。这些技术的进一步应用,将有助于提高AI生成MCQs的评估效度和适用性。

研究者强调,尽管AI生成的MCQs在效率和内容生成方面具有优势,但人类专家在内容验证、偏见检测和质量控制方面仍然不可或缺。因此,未来的应用应结合AI生成和专家审核,以确保题目的准确性和公平性。同时,研究者计划通过实际考试数据来进一步验证AI生成题目的预测效度,从而评估其在实际教学中的表现。

综上所述,这项研究展示了LLMs在妇产科住院医师教育中生成MCQs的潜力。通过结构化的提示工程和权威资料的引入,AI生成的题目在内容质量和评估效度上能够达到与人工生成相当的水平。然而,研究也指出了一些挑战,包括题目的来源和时间因素可能影响评估的准确性,以及需要进一步优化AI生成题目的准确性和时效性。未来的研究应继续探索如何在保持质量的同时提高效率,从而推动AI在医学教育中的广泛应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号