
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在土耳其牙科专科考试头颈解剖学题目中的性能评估与教育应用价值
【字体: 大 中 小 】 时间:2025年09月24日 来源:Surgical and Radiologic Anatomy 1.2
编辑推荐:
本研究评估了Gemini 1.5、ChatGPT o1等8种大型语言模型(LLMs)对土耳其牙科专科考试(DUS)头颈解剖学题目的解答能力。研究人员采用2012-2021年间103道多选题进行测试,发现ChatGPT o1以最高准确率显著优于其他模型(p?=?0.027),证实LLMs可作为牙科教育的有效辅助工具。
研究人员系统评估了八种最新版本的大型语言模型(Large Language Models, LLM)——包括Gemini 1.5、Gemini 2、Copilot、Deepseek、Claude、ChatGPT 4o、ChatGPT 4和ChatGPT o1——在土耳其牙科专科考试(Dental Specialization Exam, DUS)头颈解剖学题目中的表现。研究选取2012-2021年间103道多选题,覆盖肌肉骨骼系统(Musculoskeletal System)、神经系统与感觉器官(Nervous System and Sensory Organs)、牙体解剖学(Dental Anatomy)以及静脉、动脉、淋巴系统和腺体系统(Veins, Arteries, Lymphatic System and the Glandular System)四大核心领域。
结果显示,ChatGPT o1以显著优势(p?=?0.027)成为整体准确率最高的模型,而Gemini 1.5表现最弱。事后分析表明,仅ChatGPT o1与Gemini 1.5之间存在统计学显著差异(p?0.0031)。分主题分析发现:肌肉骨骼系统领域各模型无显著差异;神经系统与感觉器官部分ChatGPT o1领先;牙体解剖学中ChatGPT o1与Copilot并列最优;血管淋巴与腺体系统部分仍由ChatGPT o1独占鳌头。
研究表明,大型语言模型能够以可比性能有效解答牙科专科考试中的头颈解剖学问题,这不仅为未来考试相关模型开发提供数据支持,更凸显了LLMs在医学教育领域的工具价值。
生物通微信公众号
知名企业招聘