人工智能生成减重手术患者教育材料的评估:ChatGPT与DeepSeek模型在回答质量、可靠性与可读性上的比较分析
【字体:
大
中
小
】
时间:2025年09月28日
来源:Obesity Surgery 3.1
编辑推荐:
本研究针对人工智能生成患者教育材料的质量与可靠性问题,由研究人员开展对ChatGPT与DeepSeek模型在减重手术相关问答中的表现比较。结果显示,ChatGPT在回答质量(Global Quality Score, P?=?0.002)和可靠性(mDISCERN, P?0.001)上显著优于DeepSeek,但两者可读性均对应大学水平,缺乏对心理社会与文化因素的关注,提示需开发更具包容性与共情能力的AI辅助工具。
人工智能(AI)模型如ChatGPT和DeepSeek因其在提供可及且基于证据的健康信息方面的潜力,日益受到患者教育领域的关注。本研究旨在评估这两种AI模型在生成减重手术(Bariatric Surgery)相关患者教育材料方面的表现。
研究选取三十个患者常问的减重手术问题,并将其划分为四个主题领域:(1)手术规划与技术考量,(2)术前评估与优化,(3)术后护理与并发症管理,以及(4)长期随访与疾病管理。使用三项核心指标对ChatGPT和DeepSeek生成的回答进行评估:(1)回答质量,采用全球质量评分(Global Quality Score)进行5点量表评分(1为差,5为优秀);(2)可靠性,使用修订版DISCERN(mDISCERN)标准进行评估,分数范围5(低)至25(高),用于衡量对临床指南与证据标准的遵循程度;(3)可读性,采用两个经验证的公式:Flesch-Kincaid年级水平(Flesch-Kincaid Grade Level)与Flesch阅读易度得分(Flesch Reading Ease Score)。
ChatGPT在回答质量方面显著优于DeepSeek,其中位数(四分位距,IQR)全球质量得分为5.00(4.00, 5.00),而DeepSeek为4.00(4.00, 5.00)(P?=?0.002)。ChatGPT在可靠性方面也表现更高,其mDISCERN得分在所有四个领域的中位数(IQR)为22.0(21.0, 23.25),DeepSeek为19.7(19.0, 20.75)(P?0.001)。在Flesch阅读易度得分方面,两组无显著差异(平均值[标准差,SD]:26.11 [12.84] vs. 20.87 [12.20];P?=?0.110),但ChatGPT的Flesch-Kincaid年级水平得分显著更高(意味着文本更复杂),其平均值(SD)为16.40 [2.43],DeepSeek为13.48 [2.35](P?0.001)。两种模型生成的回答在可读性上均相当于大学教育水平。
ChatGPT提供了更高质量和更可靠的回答,而DeepSeek的答案稍更易读。然而,两种模型的回答均缺乏对患者心理社会与文化维度的关注,突显了未来需开发更具共情能力与适应性的AI,以支持包容性患者教育。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号