
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在甲状腺功能亢进患者教育中的应用评估:ChatGPT、Gemini与DeepSeek的对比研究
【字体: 大 中 小 】 时间:2025年09月16日 来源:Endocrine 2.9
编辑推荐:
为解决甲状腺功能亢进(Hyperthyroidism)患者教育中信息准确性与可及性的问题,研究人员开展了一项针对ChatGPT、Gemini和DeepSeek三大语言模型(LLMs)的对比研究。通过专家双盲评估(Likert 5点量表)和Flesch-Kincaid可读性分析,发现DeepSeek在相关性(4.80±0.45)、准确性(4.59±0.57)和全面性(4.70±0.46)表现最优,而Gemini在易懂性(4.49±0.58)和人文关怀(4.27±0.33)领先。研究提示LLMs可作为医疗教育的补充工具,但文本可读性普遍为“困难”(Flesch指数:37-38),需进一步优化。
甲状腺功能亢进(Hyperthyroidism)作为一种常见的内分泌疾病,其长期管理高度依赖有效的患者教育。这项研究对三大主流大型语言模型(LLMs)——ChatGPT、Gemini和DeepSeek在甲状腺功能亢进患者教育中的应用价值展开评估。
研究团队构建了包含20个甲状腺功能亢进相关问题的标准化题库,并让三款LLMs生成对应回答。五位内分泌学专家采用双盲设计,从相关性、准确性、易懂性、全面性和人文关怀五个维度进行Likert 5点量表评分。同时采用Flesch-Kincaid公式分析文本复杂度。
结果显示,三款LLMs的评分存在统计学显著差异(p<0.05)。DeepSeek在相关性(4.80±0.45)、准确性(4.59±0.57)和全面性(4.70±0.46)维度拔得头筹;Gemini则在易懂性(4.49±0.58)和人文关怀(4.27±0.33)方面表现突出。值得注意的是,三款模型生成文本的Flesch阅读易读性指数均被归类为“困难”级别(DeepSeek:38,Gemini:38,ChatGPT:37)。
研究表明,虽然LLMs在甲状腺功能亢进患者教育中展现出应用潜力,但在各维度仍有提升空间。患者和医疗从业者应将其视为专业医疗人员的辅助工具而非替代品。未来需进一步探索人工智能(AI)在医疗健康领域的临床应用。
生物通微信公众号
知名企业招聘