人工智能生成减重手术患者教育材料的评估:ChatGPT与DeepSeek模型在回答质量、可靠性与可读性上的比较分析

【字体: 时间:2025年09月28日 来源:Obesity Surgery 3.1

编辑推荐:

  本研究针对人工智能生成患者教育材料的质量与可靠性问题,由研究人员开展对ChatGPT与DeepSeek模型在减重手术相关问答中的表现比较。结果显示,ChatGPT在回答质量(Global Quality Score, P?=?0.002)和可靠性(mDISCERN, P?

  
背景:
人工智能(AI)模型如ChatGPT和DeepSeek因其在提供可及且基于证据的健康信息方面的潜力,日益受到患者教育领域的关注。本研究旨在评估这两种AI模型在生成减重手术(Bariatric Surgery)相关患者教育材料方面的表现。
方法:
研究选取三十个患者常问的减重手术问题,并将其划分为四个主题领域:(1)手术规划与技术考量,(2)术前评估与优化,(3)术后护理与并发症管理,以及(4)长期随访与疾病管理。使用三项核心指标对ChatGPT和DeepSeek生成的回答进行评估:(1)回答质量,采用全球质量评分(Global Quality Score)进行5点量表评分(1为差,5为优秀);(2)可靠性,使用修订版DISCERN(mDISCERN)标准进行评估,分数范围5(低)至25(高),用于衡量对临床指南与证据标准的遵循程度;(3)可读性,采用两个经验证的公式:Flesch-Kincaid年级水平(Flesch-Kincaid Grade Level)与Flesch阅读易度得分(Flesch Reading Ease Score)。
结果:
ChatGPT在回答质量方面显著优于DeepSeek,其中位数(四分位距,IQR)全球质量得分为5.00(4.00, 5.00),而DeepSeek为4.00(4.00, 5.00)(P?=?0.002)。ChatGPT在可靠性方面也表现更高,其mDISCERN得分在所有四个领域的中位数(IQR)为22.0(21.0, 23.25),DeepSeek为19.7(19.0, 20.75)(P?P?=?0.110),但ChatGPT的Flesch-Kincaid年级水平得分显著更高(意味着文本更复杂),其平均值(SD)为16.40 [2.43],DeepSeek为13.48 [2.35](P?
结论:
ChatGPT提供了更高质量和更可靠的回答,而DeepSeek的答案稍更易读。然而,两种模型的回答均缺乏对患者心理社会与文化维度的关注,突显了未来需开发更具共情能力与适应性的AI,以支持包容性患者教育。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号