大型语言模型在甲状腺功能亢进患者教育中的应用评估:ChatGPT、Gemini与DeepSeek的对比研究

【字体: 时间:2025年09月16日 来源:Endocrine 2.9

编辑推荐:

  为解决甲状腺功能亢进(Hyperthyroidism)患者教育中信息准确性与可及性的问题,研究人员开展了一项针对ChatGPT、Gemini和DeepSeek三大语言模型(LLMs)的对比研究。通过专家双盲评估(Likert 5点量表)和Flesch-Kincaid可读性分析,发现DeepSeek在相关性(4.80±0.45)、准确性(4.59±0.57)和全面性(4.70±0.46)表现最优,而Gemini在易懂性(4.49±0.58)和人文关怀(4.27±0.33)领先。研究提示LLMs可作为医疗教育的补充工具,但文本可读性普遍为“困难”(Flesch指数:37-38),需进一步优化。

  

甲状腺功能亢进(Hyperthyroidism)作为一种常见的内分泌疾病,其长期管理高度依赖有效的患者教育。这项研究对三大主流大型语言模型(LLMs)——ChatGPT、Gemini和DeepSeek在甲状腺功能亢进患者教育中的应用价值展开评估。

研究团队构建了包含20个甲状腺功能亢进相关问题的标准化题库,并让三款LLMs生成对应回答。五位内分泌学专家采用双盲设计,从相关性、准确性、易懂性、全面性和人文关怀五个维度进行Likert 5点量表评分。同时采用Flesch-Kincaid公式分析文本复杂度。

结果显示,三款LLMs的评分存在统计学显著差异(p<0.05)。DeepSeek在相关性(4.80±0.45)、准确性(4.59±0.57)和全面性(4.70±0.46)维度拔得头筹;Gemini则在易懂性(4.49±0.58)和人文关怀(4.27±0.33)方面表现突出。值得注意的是,三款模型生成文本的Flesch阅读易读性指数均被归类为“困难”级别(DeepSeek:38,Gemini:38,ChatGPT:37)。

研究表明,虽然LLMs在甲状腺功能亢进患者教育中展现出应用潜力,但在各维度仍有提升空间。患者和医疗从业者应将其视为专业医疗人员的辅助工具而非替代品。未来需进一步探索人工智能(AI)在医疗健康领域的临床应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号