ChatGPT-4o在骨科住院医师考核中的表现评估:一项针对OITE答题准确性与解释质量的分析研究

【字体: 时间:2025年09月28日 来源:JBJS Open Access

编辑推荐:

  本研究评估了ChatGPT-4o在骨科培训考试(OITE)中的表现,发现其答题正确率介于63.4%–70.1%,相当于不同年级住院医师(PGY-2至PGY-5)水平,但在媒体类题目表现较差(60.0% vs 73.1%, p < 0.001)。约34.4%的回答被归类为“不可接受”,提示其作为骨科医学教育辅助工具仍存在显著局限性,暂不推荐作为住院医师(Orthopaedic Surgery Residents)的核心学习资源。

  
背景
人工智能(AI)聊天机器人Chat Generative Pre-trained Transformer(ChatGPT)近年来在医疗领域的应用日益广泛。在骨科医学教育中,早期版本的ChatGPT(如ChatGPT-3.5和ChatGPT-4)在模拟考试中的表现均不如骨科住院医师,尤其在带有图像或视频的媒体类题目中正确率较低。新一代模型ChatGPT-4o(“o”代表“omni”)号称在媒体理解和知识更新方面有显著提升,但其在骨科专业考核中的实际表现尚未经过系统评估。本研究旨在分析ChatGPT-4o在骨科培训考试(Orthopaedic In-Training Examination, OITE)中的答题能力及其所提供的答案解释的教育质量。
方法
研究团队将2020年至2022年共635道OITE题目输入ChatGPT-4o,每题均以新建会话形式提交以避免记忆干扰。每道题均附带相关图像、图表或短视频(如适用)。答题结果从两个方面进行评价:一是答案是否正确,二是其解释是否与美国骨科医师学会(American Academy of Orthopaedic Surgeons, AAOS)提供的标准解析一致。解释质量被分为三类:一致(Consistent, C)、不一致(Disparate, D)或不存在(Nonexistent, N)。最终将每个回答归类为以下六种组合之一:正确答案+一致解释(CC)、正确答案+无解释(CN)、正确答案+不一致解释(CD)、错误答案+一致解释(IC)、错误答案+无解释(IN)、错误答案+不一致解释(ID)。为便于理解,这些组合被进一步归纳为三种总体质量:“理想”(CC)、“不足”(CN)和“不可接受”(其余四类)。
结果
ChatGPT-4o在2020、2021和2022年OITE中的正确率分别为68.8%、63.4%和70.1%,相当于美国毕业后医学教育认证委员会(ACGME)认证的第五年住院医师(PGY-5)、第二至三年住院医师(PGY-2–3)和第四年住院医师(PGY-4)的水平。在全部题目中,58.7%的回答属“理想”,6.9%为“不足”,34.4%为“不可接受”。在媒体类题目(含图像、影像或视频)中,ChatGPT-4o的正确率(60.0%)显著低于非媒体类题目(73.1%)(p < 0.001)。仅在小儿骨科(Pediatrics)和脊柱(Spine)两个专科领域中,其表现持续优于低年资住院医师(≥PGY-3)。在全部三类媒体题目中(包括三题带视频的题目),ChatGPT-4o仅答对一题。
讨论
尽管ChatGPT-4o在媒体类题目上的表现较前代模型有所提高(从35.7%升至60.0%),但其整体输出质量仍不稳定,超过三分之一的回答被判定为“不可接受”,这意味着若住院医师依赖其作为学习工具,可能会接受错误信息或不合理推理。此外,该模型在不同年度、不同专科中的表现波动较大,从相当于PGY-2到PGY-5水平不等,反映出其作为可靠医学教育资源的局限性。研究者指出,OITE题目通常设有多个具有干扰性的选项,这可能对AI的推理和判断能力构成挑战。
结论
ChatGPT-4o在OITE考核中的整体表现不一致,其在媒体类题目中的识别与解析能力虽有进步但仍不理想。该模型目前无法作为骨科住院医师培训的可靠学习工具,尤其不适合作为答题练习和知识拓展的主要来源。未来需进一步优化AI在专业医学教育中的知识表达、媒体理解与推理一致性,同时加强其输出内容的可验证性与教育可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号