
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估ChatGPT-4与骨科医生在放射学骨折分类方面的评分者间一致性
《Journal of Orthopaedic Trauma》:Assessing Inter-rater Reliability of ChatGPT-4 and Orthopaedic Clinicians in Radiographic Fracture Classification
【字体: 大 中 小 】 时间:2025年09月29日 来源:Journal of Orthopaedic Trauma 1.8
编辑推荐:
AI辅助骨折分类的可靠性研究:ChatGPT-4与骨科医生在上下肢X光片骨折类型、位置及AO/OTA分级的评估比较,发现其在基础分类上表现良好,但复杂分级存在显著差异,AI与医生联合评分优于单独AI评分。
评估ChatGPT-4在分类上肢(UE)和下肢(LE)X光片中的骨折时,与骨科手术主治医师和住院医师之间的评分者间一致性。
从公开可用的在线仓库中收集了84张具有不同骨折模式的X光片。这些图像被呈现给ChatGPT-4,并要求其识别骨折部位、身体位置、骨折类型以及AO/OTA骨折分类。两名骨科手术住院医师和两名主治医师也独立审查了这些图像并识别出相同的分类结果。通过计算Fleiss' Kappa值来确定以下方面的评分者间一致性(IRR):所有评分者合并(All Raters Combined)、AI与住院医师(AIR)、AI与主治医师(AIA)以及主治医师与住院医师(AR)。
ChatGPT-4在骨折位置(UE:κ = 0.655-0.708,LE:κ = 0.834-0.909)和骨折类型(UE:κ = 0.546-0.563,LE:κ = 0.58-0.697)方面的判断与临床医生的结果高度一致。在骨折部位识别方面,ChatGPT-4在上下肢的表现均较为一致(UE:κ = 0.370-0.404,LE:κ = 0.309-0.390)。然而,在AO/OTA骨折分类方面,ChatGPT-4的表现较差:上肢仅有轻微一致性(κ = -0.062-0.159),下肢为中等一致性(κ = 0.418-0.455)。AIR的IRR始终低于AR的IRR。在AR的比较中,骨折位置(UE:κ = 0.896,LE:κ = 0.912)和骨折类型(UE:κ = 0.948,LE:κ = 0.859)几乎完全一致;而AO/OTA分类方面,上肢为中等一致性(κ = 0.257),下肢为中等一致性(κ = 0.517)。除了AI与住院医师之间的LE AO/OTA分类外,所有比较组的p值均具有显著性(p = 0.051)。
尽管ChatGPT-4在分类基本骨折特征方面表现出潜力,但其水平尚未达到专家水平,尤其是在需要更细致解释的情况下。这些结果表明,AI更适合作为训练有素临床医生的辅助工具,而非替代他们的判断。
通俗语言总结:本研究评估了ChatGPT-4在分类X光片中的骨折情况与骨科外科医生和住院医师的表现。通过84张图像进行测试,ChatGPT-4能够识别骨折细节,并与人类专家进行了比较。结果显示,在下肢X光片方面,ChatGPT-4在骨折位置和类型上的判断与临床医生的结果高度一致;而在上肢X光片方面仅达到中等一致性。ChatGPT-4在处理更复杂的AO/OTA分类时遇到困难,上肢仅有轻微一致性,下肢为中等一致性。虽然ChatGPT-4在识别下肢骨折位置和类型方面表现良好,但其可靠性低于人类专家,尤其是在需要细致解释的情况下。研究表明,像ChatGPT-4这样的AI工具可以辅助专家进行骨折分类,但不能完全替代他们的判断。
本文本由机器生成,可能存在不准确之处。常见问题解答
生物通微信公众号
知名企业招聘