大型语言模型在土耳其牙科专科考试头颈解剖学题目中的性能评估与教育应用价值

【字体: 时间:2025年09月24日 来源:Surgical and Radiologic Anatomy 1.2

编辑推荐:

  本研究评估了Gemini 1.5、ChatGPT o1等8种大型语言模型(LLMs)对土耳其牙科专科考试(DUS)头颈解剖学题目的解答能力。研究人员采用2012-2021年间103道多选题进行测试,发现ChatGPT o1以最高准确率显著优于其他模型(p?=?0.027),证实LLMs可作为牙科教育的有效辅助工具。

  

研究人员系统评估了八种最新版本的大型语言模型(Large Language Models, LLM)——包括Gemini 1.5、Gemini 2、Copilot、Deepseek、Claude、ChatGPT 4o、ChatGPT 4和ChatGPT o1——在土耳其牙科专科考试(Dental Specialization Exam, DUS)头颈解剖学题目中的表现。研究选取2012-2021年间103道多选题,覆盖肌肉骨骼系统(Musculoskeletal System)、神经系统与感觉器官(Nervous System and Sensory Organs)、牙体解剖学(Dental Anatomy)以及静脉、动脉、淋巴系统和腺体系统(Veins, Arteries, Lymphatic System and the Glandular System)四大核心领域。

结果显示,ChatGPT o1以显著优势(p?=?0.027)成为整体准确率最高的模型,而Gemini 1.5表现最弱。事后分析表明,仅ChatGPT o1与Gemini 1.5之间存在统计学显著差异(p?

研究表明,大型语言模型能够以可比性能有效解答牙科专科考试中的头颈解剖学问题,这不仅为未来考试相关模型开发提供数据支持,更凸显了LLMs在医学教育领域的工具价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号