颌面修复学中,人工智能聊天机器人对常见问题回答的可读性和性能
《The Journal of Prosthetic Dentistry》:Readability and performance of AI chatbot responses to frequently asked questions in maxillofacial prosthodontics
【字体:
大
中
小
】
时间:2025年09月29日
来源:The Journal of Prosthetic Dentistry 4.3
编辑推荐:
AI聊天机器人对颌面修复学问题的回答可读性和质量存在显著差异。研究显示DeepSeek可读性最佳(FKGL 10.1-10.4),但所有平台均未达到推荐的健康素养6-8年级阅读标准。ChatGPT和Gemini在质量指标上表现更优,但深度、焦点等维度仍需改进。临床应用需结合人工审核,优化AI生成内容的健康素养适配性。
在现代医疗环境中,患者对口腔颌面修复治疗的需求日益增长,而人工智能(AI)驱动的聊天机器人逐渐成为解答患者疑问的重要工具。随着技术的进步,这些聊天机器人能够提供快速、个性化且基于证据的回答,从而帮助患者更好地理解治疗方案、症状和整体健康状况,促进他们的知情决策。然而,尽管AI在临床问题解答中展现出较高的准确性,其生成内容的可读性与内容质量却并未得到充分评估,尤其是在口腔颌面修复这一专业领域。本研究旨在评估和比较几种常见AI聊天机器人在回答口腔内(IO)和口腔外(EO)修复问题时的可读性与内容质量,以确保其符合健康教育材料的推荐标准,从而支持患者的理解和治疗选择。
口腔颌面修复是一门专注于修复患者面部、颌骨和口腔结构缺陷或功能障碍的牙科专科。这些缺陷可能由先天性条件、创伤、手术或疾病引起,而修复体不仅有助于恢复患者的生理功能,如说话、吞咽和咀嚼,还对患者的心理健康、自尊和社会融入产生积极影响。然而,由于这类疾病的复杂性和患者可能面临的情绪负担,包括心理压力和认知负担,因此信息的清晰度和可理解性显得尤为重要。尽管传统的书面材料在患者教育中已被广泛使用,但其可读性往往不符合健康教育材料的推荐标准,导致许多患者难以理解。因此,AI聊天机器人作为信息提供工具,其内容质量必须达到一定的可读性水平,以确保患者能够有效获取所需信息。
为了评估AI聊天机器人在回答患者常见问题时的表现,本研究选取了7位口腔颌面修复专家,他们提供了20个常见的IO和EO问题。这些问题被输入到四个AI聊天机器人中:ChatGPT、Gemini、Copilot和DeepSeek。随后,这些聊天机器人的回答被7位专家评估,评估内容涵盖相关性、清晰度、深度、重点和连贯性五个方面。使用5分制评分系统,专家们对每项指标进行打分,并通过统计方法对结果进行分析,以评估不同聊天机器人之间的差异。此外,研究还使用Flesch-Kincaid Grade Level(FKGL)指标对回答的可读性进行量化评估,以判断其是否适合不同阅读水平的患者。
研究结果显示,不同聊天机器人在FKGL评分上存在显著差异(P=0.002)。DeepSeek的FKGL评分最低,表明其生成的回答在可读性方面表现最佳,而ChatGPT的评分最高,表明其内容较为复杂。此外,所有聊天机器人在回答内容的可读性、相关性、清晰度、深度、重点和连贯性方面均存在显著差异(P<0.005)。其中,ChatGPT、Gemini和DeepSeek在多个指标上得分较高,而Copilot的表现相对较弱,尤其在所有评估领域得分最低。对于IO问题,FKGL评分与字数呈负相关(P=0.013),即字数越少,内容越容易理解。然而,对于EO问题,字数与相关性、清晰度、深度、重点和连贯性呈正相关(P<0.005),说明较长的回答在这些方面可能更具优势。
值得注意的是,尽管DeepSeek和ChatGPT在多个指标上表现优异,但它们生成的回答在整体可读性方面仍未能达到推荐的6到8年级水平。这意味着,即使是最先进的AI聊天机器人,其内容仍可能对部分患者构成理解障碍,特别是那些面临心理和认知挑战的患者。因此,尽管AI在提高信息获取效率方面具有潜力,但在实际应用中,仍需专业人员的监督和修改,以确保信息的准确性和可读性。
研究还探讨了AI聊天机器人在内容质量方面的局限性。尽管ChatGPT和Gemini在EO问题上的清晰度和深度方面表现较好,但它们未能涉及患者在修复过程中可能面临的心理和社会问题,如容貌焦虑、身份认同和情感支持。这些问题对于EO修复尤为重要,因为修复体通常涉及面部外观的改变,对患者的心理影响更为显著。因此,AI聊天机器人在回答此类问题时,除了提供技术性信息外,还需要关注患者的情感需求,以实现更全面的患者教育。
此外,研究发现,不同聊天机器人之间的评分差异可能与它们的训练数据和模型架构有关。某些聊天机器人可能在处理技术性较强的IO问题时表现更优,而另一些则在EO问题上更擅长。这种差异提示,在选择AI聊天机器人时,应根据具体需求进行评估,以确保其生成的内容既准确又易于理解。同时,研究也指出,AI聊天机器人在多个牙科领域都存在类似的问题,例如使用过多的专业术语或缺乏患者视角的表达方式,这表明改善AI内容质量需要跨领域的努力,包括在模型训练中引入健康教育框架和患者反馈机制。
为了提升AI聊天机器人在口腔颌面修复领域的表现,研究建议采取一系列措施。首先,应加强AI模型的训练,使其能够更好地理解患者的语言习惯和阅读水平,从而生成更贴近患者需求的回答。其次,建议在内容生成后,由专业人员进行审核和修改,以确保信息的准确性和可读性。最后,强调了AI在患者教育中的辅助作用,而非替代作用,指出其在提供技术信息方面有优势,但在情感支持和心理干预方面仍需人工介入。
研究的局限性在于,可读性评估仅限于FKGL指标,未能全面反映内容的复杂性和文化敏感性。此外,评估由专家进行,而非患者,可能忽略了患者对信息的接受度和满意度。尽管评估者之间的一致性较高,但他们的评分可能更侧重于技术细节,而非实际应用中的可理解性。因此,未来的研究应进一步探索患者的反馈,直接测试其对AI生成内容的理解能力,并考虑引入多语言支持和跨文化沟通策略,以满足不同患者群体的需求。
总的来说,AI聊天机器人在口腔颌面修复领域的应用展现出巨大潜力,但其生成内容的可读性和质量仍需进一步优化。通过加强AI模型的训练、引入患者反馈机制以及确保专业人员的审核,可以提升AI在患者教育中的价值,使其更好地服务于患者的需求,同时维护医疗信息的准确性和可访问性。这一研究为AI在口腔颌面修复领域的应用提供了重要的参考,强调了在技术进步的同时,必须兼顾患者的心理和社会需求,以实现更全面的医疗支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号