人工智能生成减重手术患者教育材料的评估：ChatGPT与DeepSeek模型在回答质量、可靠性与可读性上的比较分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月28日 来源：Obesity Surgery 3.1

编辑推荐：

　　本研究针对人工智能生成患者教育材料的质量与可靠性问题，由研究人员开展对ChatGPT与DeepSeek模型在减重手术相关问答中的表现比较。结果显示，ChatGPT在回答质量（Global Quality Score, P?=?0.002）和可靠性（mDISCERN, P?

背景：

人工智能（AI）模型如ChatGPT和DeepSeek因其在提供可及且基于证据的健康信息方面的潜力，日益受到患者教育领域的关注。本研究旨在评估这两种AI模型在生成减重手术（Bariatric Surgery）相关患者教育材料方面的表现。

方法：

研究选取三十个患者常问的减重手术问题，并将其划分为四个主题领域：（1）手术规划与技术考量，（2）术前评估与优化，（3）术后护理与并发症管理，以及（4）长期随访与疾病管理。使用三项核心指标对ChatGPT和DeepSeek生成的回答进行评估：（1）回答质量，采用全球质量评分（Global Quality Score）进行5点量表评分（1为差，5为优秀）；（2）可靠性，使用修订版DISCERN（mDISCERN）标准进行评估，分数范围5（低）至25（高），用于衡量对临床指南与证据标准的遵循程度；（3）可读性，采用两个经验证的公式：Flesch-Kincaid年级水平（Flesch-Kincaid Grade Level）与Flesch阅读易度得分（Flesch Reading Ease Score）。

结果：

ChatGPT在回答质量方面显著优于DeepSeek，其中位数（四分位距，IQR）全球质量得分为5.00（4.00, 5.00），而DeepSeek为4.00（4.00, 5.00）（P?=?0.002）。ChatGPT在可靠性方面也表现更高，其mDISCERN得分在所有四个领域的中位数（IQR）为22.0（21.0, 23.25），DeepSeek为19.7（19.0, 20.75）（P?P?=?0.110），但ChatGPT的Flesch-Kincaid年级水平得分显著更高（意味着文本更复杂），其平均值（SD）为16.40 [2.43]，DeepSeek为13.48 [2.35]（P?

结论：

ChatGPT提供了更高质量和更可靠的回答，而DeepSeek的答案稍更易读。然而，两种模型的回答均缺乏对患者心理社会与文化维度的关注，突显了未来需开发更具共情能力与适应性的AI，以支持包容性患者教育。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号