《British Journal of Oral and Maxillofacial Surgery》:Large Language Models comparison in Oral and Maxillofacial Surgery
编辑推荐:
口腔和颌面外科领域六个大型语言模型在术后指导、书籍推荐、文献检索等五项任务中的表现评估。结果显示模型间存在差异,部分在特定任务中表现优异,但存在准确性和幻觉问题,需人类监督辅助应用。
Ricardo Grillo|Alexandre Hugo Llanos|Claudio Costa|Fernando Melhem-Elias
巴西圣保罗大学牙科学院口腔颌面外科系
摘要
目的
本研究评估了六种大型语言模型(LLMs)在生成与口腔颌面外科(OMFS)相关内容方面的表现,重点关注它们在五个特定任务中提供准确、全面和相关信息的能力。
方法
每个LLM根据其对五个提示的回答进行评估:(1)第三磨牙手术后的术后指导;(2)正颌外科畅销书列表;(3)OMFS领域引用最多的文章;(4)系统评价的新颖主题;(5)OMFS领域的新兴趋势。回答内容根据预定义的标准从相关性、全面性和准确性方面进行评分。使用Kruskal-Wallis检验对工具的表现进行统计分析。
讨论
总体而言,这些LLM的表现相似,但各有优缺点。在提供术后指导方面,所有工具提供的建议都相当,不过Perplexity的表现较差。在识别畅销书方面,Gemini和Perplexity表现优异,而ChatGPT和Copilot在检索高引用文章时遇到困难。Copilot和Claude在建议系统评价主题方面更为有效,而ChatGPT、Claude、Copilot和DeepSeek在识别新兴趋势方面最为准确。LLMs在支持OMFS相关任务方面展现出巨大潜力,但它们的表现取决于具体应用场景。尽管它们在整合现有信息和识别趋势方面表现出色,但在准确性和偶尔出现幻觉方面的局限性表明需要人工监督。
结论
这些发现强调了将AI作为临床、学术和研究中的辅助工具的重要性,确保其使用是对人类专业知识的补充而非替代。
引言
人工智能(AI)已成为现代医学中的变革力量,应用范围涵盖诊断、治疗计划和手术执行。自AI早期应用于放射学领域(如乳腺X光片解读和肺结节检测)以来,它已扩展到各个手术专科,利用机器学习(ML)和深度学习(DL)提高精确度和效率[1]、[2]。在手术领域,AI驱动的系统现在协助机器人干预、术中导航和术后结果预测,显著提升了安全性和资源利用效率[3]、[4]、[5]、[6]。
口腔颌面外科(OMFS)是这些进步的关键受益者。AI算法有助于分析放射图像以识别骨溶解性病变[7]和颞下颌关节紊乱[8],而ML模型通过3D头影测量标志点识别提高正颌外科手术的准确性[9]、[10]。最近的研究强调了AI在预测术后并发症(如第三磨牙拔除后的下牙槽神经损伤)方面的作用,使用术前风险分层工具[4]。此外,自然语言处理(NLP)已被应用于自动化临床记录生成和简化OMFS工作流程中的患者分诊[11]、[12]。
2022年11月,ChatGPT的推出是一个重要里程碑[13]。虽然AI工具在患者教育和文献综合方面展现出潜力[14]、[16],但由于幻觉风险和过时训练数据的问题,其在临床决策中的可靠性仍存在争议[13]、[17]、[18]。例如,2023年的一项研究评估了LLMs在手术知识评估中的表现,发现不同专科之间的回答准确性存在显著差异[19],这凸显了严格验证的必要性。
随着AI成为医疗实践不可或缺的一部分,了解其局限性对于确保其伦理和以患者为中心的使用至关重要。本研究评估了领先LLMs在处理OMFS相关查询时的表现,评估了它们的准确性、相关性和潜在偏见。通过将这些工具与既定的临床标准和最新文献进行对比,作者旨在为它们在OMFS实践中的伦理整合提供基于证据的指导。
方法部分
材料与方法
本研究评估了六种人工智能(AI)工具——ChatGPT 4.0、Claude 3.7 Sonnet、Copilot、Gemini 2.0 Flash、DeepSeek-V3和Perplexity——在生成与口腔颌面外科(OMFS)相关内容方面的表现。每个AI模型需要根据五个特定提示生成回答:(1)第三磨牙手术后的术后指导;(2)OMFS相关推荐书籍列表;(3)OMFS相关文章集合;(4)五个新颖的主题
结果
为每个被评估的LLM的答案都附有补充文件。还附有一个包含结果的电子表格。评分者间的一致性很高(κ=0.87)。
问题1
关于术后指导,尽管DeepSeek和Gemini的表现更优,但所有LLM工具提供的建议在统计上相似(H=1.842,p=0.870)。然而,Perplexity的表现相对较低。
问题2
对六个在线工具的分析
讨论
本研究分析了LLMs在口腔颌面外科(OMFS)领域的表现,揭示了这些系统在不同目标受众中的差异。然而,目前尚无法实现“完美”的LLM。此外,一些作者认为这可能并非最终目标。LLMs的开发是为了满足特定需求并服务于具有独特需求和期望的特定群体。因此,向LLMs提出的五个问题
结论
虽然LLMs的整体表现相似,但各自具有独特的优势和劣势。有些模型在识别新兴趋势和生成系统评价主题方面表现出色,而其他模型在检索高引用文章或提供精确的术后指导方面存在困难。它们在生成新数据和偶尔出现不准确方面的局限性表明需要人工监督。研究结果强调了在提高AI效率的同时确保其伦理性的重要性