大型语言模型在甲状腺功能亢进患者教育中的应用评估：ChatGPT、Gemini与DeepSeek的对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月16日 来源：Endocrine 2.9

编辑推荐：

　　为解决甲状腺功能亢进（Hyperthyroidism）患者教育中信息准确性与可及性的问题，研究人员开展了一项针对ChatGPT、Gemini和DeepSeek三大语言模型（LLMs）的对比研究。通过专家双盲评估（Likert 5点量表）和Flesch-Kincaid可读性分析，发现DeepSeek在相关性（4.80±0.45）、准确性（4.59±0.57）和全面性（4.70±0.46）表现最优，而Gemini在易懂性（4.49±0.58）和人文关怀（4.27±0.33）领先。研究提示LLMs可作为医疗教育的补充工具，但文本可读性普遍为“困难”（Flesch指数：37-38），需进一步优化。

甲状腺功能亢进（Hyperthyroidism）作为一种常见的内分泌疾病，其长期管理高度依赖有效的患者教育。这项研究对三大主流大型语言模型（LLMs）——ChatGPT、Gemini和DeepSeek在甲状腺功能亢进患者教育中的应用价值展开评估。

研究团队构建了包含20个甲状腺功能亢进相关问题的标准化题库，并让三款LLMs生成对应回答。五位内分泌学专家采用双盲设计，从相关性、准确性、易懂性、全面性和人文关怀五个维度进行Likert 5点量表评分。同时采用Flesch-Kincaid公式分析文本复杂度。

结果显示，三款LLMs的评分存在统计学显著差异（p<0.05）。DeepSeek在相关性（4.80±0.45）、准确性（4.59±0.57）和全面性（4.70±0.46）维度拔得头筹；Gemini则在易懂性（4.49±0.58）和人文关怀（4.27±0.33）方面表现突出。值得注意的是，三款模型生成文本的Flesch阅读易读性指数均被归类为“困难”级别（DeepSeek:38，Gemini:38，ChatGPT:37）。

研究表明，虽然LLMs在甲状腺功能亢进患者教育中展现出应用潜力，但在各维度仍有提升空间。患者和医疗从业者应将其视为专业医疗人员的辅助工具而非替代品。未来需进一步探索人工智能（AI）在医疗健康领域的临床应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号