评估大语言模型AI聊天机器人对口腔黏膜下纤维化患者咨询的应答准确性及可读性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月29日 来源：Journal of Maxillofacial and Oral Surgery 0.8

编辑推荐：

　　本研究针对开源AI聊天机器人在患者教育中可能存在的误导风险，来自口腔颌面外科领域的研究人员通过对比ChatGPT、Gemini、Copilot、Meta AI和Claude五款主流AI对口腔黏膜下纤维化（OSMF）常见问题的应答表现，发现所有模型均能提供准确回答（P=0.10），但可读性差异显著（P<0.005）。Gemini在准确性与可读性（FKRE=32.34，FKGL=13.07）间取得最佳平衡，为AI辅助医疗沟通提供了重要参考。

通过计算机模拟的横断面研究，研究人员系统评估了五款主流人工智能（AI）聊天机器人——包括ChatGPT、Google Gemini、Copilot、Meta AI和Claude——在回答关于口腔黏膜下纤维化（Oral Submucous Fibrosis, OSMF）的26个常见患者问题时的表现。这些问题经由网络搜索整理，并经过口腔颌面外科专家审查确认。

研究采用改良的五点李克特量表（Likert scale）评估应答准确性，同时使用弗莱施-金凯德阅读难易度（Flesch–Kincaid Reading Ease, FKRE）和年级水平（Flesch–Kincaid Grade Level, FKGL）两个指标量化文本可读性。通过单因素方差分析（one-way ANOVA）及事后检验进行组间比较。

结果显示，所有聊天机器人的应答准确性均较高（平均得分介于4.50至4.80之间），组间无显著差异（P = 0.10）。然而在可读性方面，Gemini表现最佳（FKRE = 32.34；FKGL = 13.07），而Claude生成的文本最为复杂难懂（FKRE = 18.16；FKGL = 17.57），差异具有统计学意义（P < 0.005）。Copilot也展现出较好的可读性水平（FKGL = 13.45）。

研究表明，尽管当前AI聊天机器人能提供准确的医学信息，但其文本可读性均未达到理想的患者友好水平。其中Google Gemini在准确性与可读性之间取得了相对最佳的平衡，更适用于患者教育场景。作者强调，虽然AI工具有望改善医患沟通，临床工作者仍应在使用前审慎验证其生成内容的可靠性与适用性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号