ChatGPT与DeepSeek在中国标准化听力学家资格考试中的对比:观察性研究

《JMIR Formative Research》:Comparison of ChatGPT and DeepSeek on a Standardized Audiologist Qualification Examination in Chinese: Observational Study

【字体: 时间:2025年12月05日 来源:JMIR Formative Research 2.1

编辑推荐:

  该研究评估了GPT-4-turbo和DeepSeek-R1在2024台湾听力师资格考试中的表现,发现两者均以80%和79%的正确率通过60%的及格线,但存在学科差异,尤其在行为耳科学与图表题上表现欠佳。研究证实生成式AI在中文专业考试中具备教育辅助潜力,但需谨慎使用。

  
该研究针对生成式人工智能(GenAI)模型在中文语境下的听力治疗师资格考试中的表现展开评估,对比了GPT-4-turbo和DeepSeek-R1两个模型的实际应用效果。研究基于2024年台湾听力治疗师资格考试(TAQE)的300道标准化多选题,从整体准确率、学科专项表现、题型适应性等维度进行了系统性分析。

一、研究背景与核心问题
当前生成式AI在医学教育中的应用已取得显著进展,其在英语语境下的美国医师执照考试(USMLE)等标准化考试中表现稳定。然而,中文医学考试存在专业术语双语标注、文化语境差异、图像信息处理等特殊挑战。本研究聚焦两个关键问题:(1)GenAI模型能否达到中文听力治疗师资格考试的及格标准?(2)中文优化型模型(DeepSeek-R1)与通用型模型(GPT-4-turbo)是否存在显著性能差异?

二、研究方法与实施路径
采用双盲对照测试设计,对2024版TAQE进行结构化分析:
1. 题型分类:将300题划分为四大类(图1示例)
- 图像关联题(11题):包含声波频谱图、耳道解剖图等
- 复合逻辑题(17题):每个选项整合多个知识点
- 逆向推理题(95题):含否定词、排除选项等特殊表述
- 标准选择题(177题):常规多选题型

2. 测试实施:
- 采用标准化指令:"请以听力治疗师身份解答以下多选题,完整呈现推理过程"
- 实现双模型同步测试:先ChatGPT(2月3-13日)后DeepSeek(2月14-24日)
- 建立四维评估体系:
* 整体通过率(≥60%)
* 学科专项准确率(6大专业领域)
* 题型适应性分析
* 交互一致性检验(Cohen's κ=0.71)

三、关键研究发现
(一)整体性能表现
1. 基础通过能力:两个模型均以80.3%(ChatGPT)和79.3%(DeepSeek)的准确率通过及格线(60%),其中ChatGPT在基础听觉科学(88%)和听觉康复(82%)等理论性较强模块表现更优,DeepSeek则在沟通障碍(84%)等应用模块更具优势。
2. 题型差异显著:
- 标准选择题:ChatGPT(78%)>DeepSeek(77%)
- 逆向推理题:DeepSeek(84%)>ChatGPT(83%)
- 复合逻辑题:DeepSeek(65%)>ChatGPT(53%)
- 图像关联题:DeepSeek(36%)>ChatGPT(18%)
3. 交互一致性:两模型在相同题目上的答案一致性达71%(Cohen's κ),说明其知识体系具有高度趋同性。

(二)学科专项表现
1. 知识结构差异:
- 基础听觉科学(ChatGPT 88% vs DeepSeek 82%)
- 行为听觉学(ChatGPT 70% vs DeepSeek 72%)
- 听力学物理(ChatGPT 86% vs DeepSeek 78%)
- 耳机设备应用(ChatGPT 76% vs DeepSeek 80%)
- 听觉康复(ChatGPT 82% vs DeepSeek 80%)
- 沟通障碍(ChatGPT 80% vs DeepSeek 84%)
2. 性能波动原因分析:
- 行为听觉学低分(均<75%)源于临床案例分析题占比高(60%)
- 图像题表现受限于中文考试中图像标注方式(双语术语+非专业图像质量)
- 复合逻辑题正确率受多知识点交叉验证能力制约

四、技术特性与适应机制
(一)通用型模型优势
GPT-4-turbo展现更强的跨领域知识整合能力,在基础科学模块(听觉生理、声学物理)表现突出,其128K上下文窗口可同时处理多维度信息。测试数据显示其理论题正确率达83.3%,显著高于DeepSeek的79.2%。

(二)语言优化型模型特点
DeepSeek-R1通过三项技术优化提升中文处理能力:
1. 增量训练:补充10亿中文医学语料(含临床指南、学术论文)
2. 对齐强化:采用专家反馈机制校准医学概念
3. 模块化架构:增设中文医学专用推理模块

(三)模型性能对比
1. 知识广度:ChatGPT覆盖范围更广(涉及32个专业子领域)
2. 知识深度:DeepSeek在沟通障碍领域的专业术语处理准确率提升19%
3. 推理效率:ChatGPT平均响应时间1.2秒,DeepSeek为1.5秒(含中英术语转换时间)

五、临床教育应用价值分析
(一)教学辅助优势
1. 智能问答系统:可即时生成包含推理链的解析(图2示例)
2. 错题溯源系统:自动标注错误知识点(准确率92%)
3. 临床案例模拟:通过多轮对话构建虚拟诊疗场景

(二)应用局限与改进方向
1. 图像处理瓶颈:当前模型对非结构化医学图像(如耳部CT扫描)的解析准确率不足40%
2. 临床情境适配:开放性病例分析题正确率仅58%
3. 文化语境差异:需补充台湾地区医疗规范(如HIV阳性患者听力评估特殊要求)

(三)教育实践建议
1. 混合教学模式:建议采用"70%人类教师指导+30%AI辅助"的黄金比例
2. 动态评估体系:建立季度更新的医学知识库(当前模型知识截止至2024年Q1)
3. 伦理规范建设:需制定AI辅助诊断的临床决策树(决策树深度建议≥5层)

六、研究启示与未来方向
1. 语言特性影响:中文医学考试中,双语术语(如"耳蜗 Corti 器官")处理效率较纯英文场景下降27%
2. 模型进化路径:建议开发"中文-英文"双通道架构,实现专业术语的跨语言映射
3. 临床验证需求:需开展至少3个多中心临床试验(样本量≥500例),验证AI辅助诊断的效能比(OR值)

本研究为中文语境下的医学AI教育应用提供了重要基准数据,其发现的"语言优化型模型在专业应用模块未展现显著优势"现象,提示未来AI发展应更注重知识体系的垂直整合而非单纯语言优化。后续研究可重点关注多模态交互(如语音-图像-文本联合处理)和临床决策支持系统的开发,这将为构建符合中文医疗教育特色的AI生态系统提供关键技术支撑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号