ChatGPT-4o在骨科住院医师考核中的表现评估：一项针对OITE答题准确性与解释质量的分析研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月28日 来源：JBJS Open Access

编辑推荐：

　　本研究评估了ChatGPT-4o在骨科培训考试（OITE）中的表现，发现其答题正确率介于63.4%–70.1%，相当于不同年级住院医师（PGY-2至PGY-5）水平，但在媒体类题目表现较差（60.0% vs 73.1%, p < 0.001）。约34.4%的回答被归类为“不可接受”，提示其作为骨科医学教育辅助工具仍存在显著局限性，暂不推荐作为住院医师（Orthopaedic Surgery Residents）的核心学习资源。

背景

人工智能（AI）聊天机器人Chat Generative Pre-trained Transformer（ChatGPT）近年来在医疗领域的应用日益广泛。在骨科医学教育中，早期版本的ChatGPT（如ChatGPT-3.5和ChatGPT-4）在模拟考试中的表现均不如骨科住院医师，尤其在带有图像或视频的媒体类题目中正确率较低。新一代模型ChatGPT-4o（“o”代表“omni”）号称在媒体理解和知识更新方面有显著提升，但其在骨科专业考核中的实际表现尚未经过系统评估。本研究旨在分析ChatGPT-4o在骨科培训考试（Orthopaedic In-Training Examination, OITE）中的答题能力及其所提供的答案解释的教育质量。

方法

研究团队将2020年至2022年共635道OITE题目输入ChatGPT-4o，每题均以新建会话形式提交以避免记忆干扰。每道题均附带相关图像、图表或短视频（如适用）。答题结果从两个方面进行评价：一是答案是否正确，二是其解释是否与美国骨科医师学会（American Academy of Orthopaedic Surgeons, AAOS）提供的标准解析一致。解释质量被分为三类：一致（Consistent, C）、不一致（Disparate, D）或不存在（Nonexistent, N）。最终将每个回答归类为以下六种组合之一：正确答案+一致解释（CC）、正确答案+无解释（CN）、正确答案+不一致解释（CD）、错误答案+一致解释（IC）、错误答案+无解释（IN）、错误答案+不一致解释（ID）。为便于理解，这些组合被进一步归纳为三种总体质量：“理想”（CC）、“不足”（CN）和“不可接受”（其余四类）。

结果

ChatGPT-4o在2020、2021和2022年OITE中的正确率分别为68.8%、63.4%和70.1%，相当于美国毕业后医学教育认证委员会（ACGME）认证的第五年住院医师（PGY-5）、第二至三年住院医师（PGY-2–3）和第四年住院医师（PGY-4）的水平。在全部题目中，58.7%的回答属“理想”，6.9%为“不足”，34.4%为“不可接受”。在媒体类题目（含图像、影像或视频）中，ChatGPT-4o的正确率（60.0%）显著低于非媒体类题目（73.1%）（p < 0.001）。仅在小儿骨科（Pediatrics）和脊柱（Spine）两个专科领域中，其表现持续优于低年资住院医师（≥PGY-3）。在全部三类媒体题目中（包括三题带视频的题目），ChatGPT-4o仅答对一题。

讨论

尽管ChatGPT-4o在媒体类题目上的表现较前代模型有所提高（从35.7%升至60.0%），但其整体输出质量仍不稳定，超过三分之一的回答被判定为“不可接受”，这意味着若住院医师依赖其作为学习工具，可能会接受错误信息或不合理推理。此外，该模型在不同年度、不同专科中的表现波动较大，从相当于PGY-2到PGY-5水平不等，反映出其作为可靠医学教育资源的局限性。研究者指出，OITE题目通常设有多个具有干扰性的选项，这可能对AI的推理和判断能力构成挑战。

结论

ChatGPT-4o在OITE考核中的整体表现不一致，其在媒体类题目中的识别与解析能力虽有进步但仍不理想。该模型目前无法作为骨科住院医师培训的可靠学习工具，尤其不适合作为答题练习和知识拓展的主要来源。未来需进一步优化AI在专业医学教育中的知识表达、媒体理解与推理一致性，同时加强其输出内容的可验证性与教育可靠性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号