大型语言模型在土耳其牙科专科考试头颈解剖学题目中的性能评估与教育应用价值

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月24日 来源：Surgical and Radiologic Anatomy 1.2

编辑推荐：

　　本研究评估了Gemini 1.5、ChatGPT o1等8种大型语言模型(LLMs)对土耳其牙科专科考试(DUS)头颈解剖学题目的解答能力。研究人员采用2012-2021年间103道多选题进行测试，发现ChatGPT o1以最高准确率显著优于其他模型(p?=?0.027)，证实LLMs可作为牙科教育的有效辅助工具。

研究人员系统评估了八种最新版本的大型语言模型（Large Language Models, LLM）——包括Gemini 1.5、Gemini 2、Copilot、Deepseek、Claude、ChatGPT 4o、ChatGPT 4和ChatGPT o1——在土耳其牙科专科考试（Dental Specialization Exam, DUS）头颈解剖学题目中的表现。研究选取2012-2021年间103道多选题，覆盖肌肉骨骼系统（Musculoskeletal System）、神经系统与感觉器官（Nervous System and Sensory Organs）、牙体解剖学（Dental Anatomy）以及静脉、动脉、淋巴系统和腺体系统（Veins, Arteries, Lymphatic System and the Glandular System）四大核心领域。

结果显示，ChatGPT o1以显著优势(p?=?0.027)成为整体准确率最高的模型，而Gemini 1.5表现最弱。事后分析表明，仅ChatGPT o1与Gemini 1.5之间存在统计学显著差异(p?

研究表明，大型语言模型能够以可比性能有效解答牙科专科考试中的头颈解剖学问题，这不仅为未来考试相关模型开发提供数据支持，更凸显了LLMs在医学教育领域的工具价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号