
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:评估扩展现实(XR)医疗保健模拟中人工智能驱动角色的系统评价
【字体: 大 中 小 】 时间:2025年09月25日 来源:Artificial Intelligence in Medicine 6.2
编辑推荐:
本综述系统评价了2015-2025年间132项研究,聚焦人工智能(AI)驱动角色在扩展现实(XR)(包括虚拟现实(VR)、增强现实(AR)和混合现实(MR))医疗模拟中的应用。研究发现AI-XR在知识获取(Hedges’ g=1.31)、决策速度和操作效率(任务时间SMD=-0.68)方面具显著优势,但证据确定性低(样本小、异质性高)。研究提出DASEX框架(诊断、适应性、安全、参与和可解释性)以解决实施障碍(如分阶段推广、师资培训)和质量保证(如偏见审计、透明度措施)缺失的问题,为未来AI-XR整合提供跨学科指导。
扩展现实(XR)技术已成为医疗保健模拟的重要组成部分,通过虚拟现实(VR)、增强现实(AR)和混合现实(MR)提供安全、可重复且可扩展的技术和非技术技能实践。尽管应用加速,但关于其有效性、实施可行性和质量保证的证据仍零散,且既往综述很少孤立评估AI驱动角色在XR医疗培训中的具体贡献。
自2023年以来,大语言模型(LLMs)和XR硬件的进步可能使与早期研究的比较复杂化。结果报告存在异质性(不同量表、设计和终点),限制了既往荟萃分析合成。广泛使用的评估框架(如MLASE、CFIR、Kirkpatrick)仅部分解决AI特定问题(适应性、透明度、算法安全性),凸显技术能力与现有教育治理框架间的差距。
本综述采用PRISMA对齐方法,检索2015年1月1日至2025年7月31日间的生物医学、教育和计算源,包括ACM数字图书馆和IEEE VR等关键会议,以捕捉常发表在传统期刊外的尖端AI+XR研究。为管理方法学异质性,将结果分组为任务时间、错误率、知识评分、OSCE评分、诊断准确性、运动指标和置信度评级等家族,以进行有意义合成。
本系统评价遵循PRISMA 2020指南,检索PubMed、IEEE Xplore、Scopus、Web of Science和ACM数字图书馆等五个数据库,以及IEEE VR、ACM VRST等目标会议 proceedings(2015-2025)。搜索字符串结合三个概念域:XR技术(“虚拟现实”或“增强现实”等)、AI驱动角色(“人工智能”或“智能体”等)和医疗背景(“临床培训”或“医学教育”等)。
纳入标准包括:医疗专业人员或学生、包含AI驱动交互代理的XR模拟、医疗教育或临床培训背景、实证研究设计、以及2015-2025年间经同行评审的期刊文章或完整会议论文。排除模拟中无AI驱动角色、XR应用超出医疗教育、非实证报告、非英语出版物和无法获取全文的研究。
数据提取使用标准化框架,捕获研究特征(出版年份、国家、设计、样本量)、技术规格(XR形态、硬件平台、AI架构)、教育背景(临床专业、学习目标、课程整合方法)、结果数据(绩效指标、知识增益、学习者信心)和质量保证实践(验证方法、可靠性指标、人工监督协议)。研究质量使用改编自CASP(Critical Appraisal Skills Programme)的量表进行评估,强调随机化、验证工具、预注册和明确伦理批准等客观指标。
共纳入132项实证研究,覆盖有效性(RQ1,n=71)、实施(RQ2,n=45)和质量保证(RQ3,n=44)三个核心领域。重叠有限:47项研究仅针对RQ1,31项仅针对RQ2,27项仅针对RQ3;10项涉及RQ1+RQ2,13项涉及RQ1+RQ3,3项涉及RQ2+RQ3,仅1项覆盖所有三个RQ。
出版量在2022年后急剧增长,2024年42项,2025年(截至7月)33项,表明该领域由近期证据主导,易受时间效应(如LLM时代系统)影响。XR形态分布偏向VR(n=82;62.1%),其次是AR(n=36;27.3%);MR(n=1;0.8%)和XR未指定(n=7;5.3%)罕见。
研究设计异质,包括11项随机对照试验(RCTs)(约8-9%)、33项实验研究、9项混合方法、5项试点、3项调查、2项案例/系列和19篇综述。报告数字样本的研究中,中位样本量为41(IQR 17-81),而可提取N的RCTs(n=8)中位数为67(IQR 56-120)。
AI-XR医疗教育中的融合正在重塑学习者获取技术和非技术技能的方式。证据表明AI可支持适应性、减少认知负荷和个性化反馈,同时保留培训员监督以确保安全。
程序/时间结果:一项AI引导支气管镜检查与AR叠加的RCT中,临床医生比专家辅导对照组更快更高效地完成任务(程序时间-77秒,P=0.022; revisited segments -7, P=0.019;事后时间SMD≈-0.68,95% CI -1.32至-0.04;负值表示AI更快)。一项四臂外科VR RCT同样显示,自动化视觉/视觉空间反馈比单纯练习在第二/第三次重复时更好地达到基准。
知识/决策:两项术前术后RCT(脓毒症团队培训与AI医生和牙科智能导师)的汇总分析显示,知识/决策结果有大型标准化均值差(gREML=1.31,95% CI 0.08-2.54),但具实质性异质性(τ2=0.67;I2=85%),预测区间宽(-0.72至3.34),反映任务差异(脓毒症团队认知与牙科决策)。敏感性分析使用r=0.30和r=0.70给出类似结果。
沟通/团队合作:在脓毒症RCT中,AI医生组获得更高知识但沟通绩效未优于人工控制模拟;人工控制组报告更高沟通自我效能。小型实验工作表明情感AI驱动角色可增强真实性和沟通技能练习,但样本量不足(n=9)。对照试验显示沟通结果混合效应,与程序测量中更一致的收益形成对比。
测量/评估稳健性:自动化评估可靠性支持技术绩效的可扩展评估。AI评分在腹腔镜任务中与专家达到中度至几乎完全一致(κ≈0.59-0.86),在自动化DASS 2.0评分中具有高一致性(ICC=0.89),加强了对程序结果测量的信心;沟通的类比验证工具报告较不一致。
实施报告常引用分阶段推广(试点→教师发展→更广泛整合)和兼容性考虑(头戴设备可用性、空间、网络限制)。框架使用(如CFIR、RE-AIM)存在但不一致;成功项目强调领导买入、教师培训和无摩擦技术栈(如云/离线模式、简单设备配置)。障碍包括成本、工作人员时间和数据治理批准。
质量保证实践包括场景版本控制、AI行为专家审查、记录和基于规则的安全防护栏。一些研究描述算法检查(如偏见或合理性过滤器)和Human-in-the-Loop监督以进行升级。然而,正式偏见审计、隐私保障和评估工具间评分者可靠性较少详细说明,激发了对AI特定DASEX标准的需求和未来实证验证。
本综述综合了132项实证研究的证据,调查AI驱动角色在XR医疗模拟中的应用,解决三个领域:有效性(RQ1)、实施框架(RQ2)和质量保证(RQ3)。纳入文献的广度反映了对XR–AI临床培训日益增长的兴趣,但研究设计、结果测量和报告标准的异质性限制了定量汇总结果的能力。
跨71项处理RQ1的研究,证据表明AI增强医疗模拟可改善知识获取、程序技能绩效和决策速度,相比传统培训方法。这些效应在评估离散程序技能(如气道管理、手术缝合)或团队基础危机场景的对照研究中最一致。改进常伴随学习者信心和参与度的增益,尽管使用标准化满意度量表(如SUS、NASA-TLX)的研究报告了可变结果。 notably,极少研究评估向真实世界临床环境的转移,且除即时培训后外的随访期罕见。
映射到RQ2的45项研究揭示了实施的碎片化方法。虽然一些采用结构化框架如Kirkpatrick模型或Miller金字塔指导评估,但大多数依赖无显式理论基础的定制协议。硬件配置以VR头戴设备(特别是Oculus/Meta Quest)主导,AR部署常限于试点研究或程序指导应用。AI驱动NPC的整合从基于规则的分支逻辑到高级NLP和强化学习不等,但少数研究提供AI模型架构或训练数据来源的技术透明度。跨学科合作被出现为成功实施的关键促进因素。
处理RQ3的44项研究证明了正式质量保证协议的显著差距。安全特性——如干预合理性检查、偏见审计或错误拦截——较少报告。仅少数研究描述记录AI推理过程或向学习者提供NPC行动的透明解释。缺乏结构化QA引发了对可重现性、学习者信任校准和风险管理的担忧,特别是在模拟部署于高风险培训背景时。
AI驱动角色在XR医疗模拟中展现出提高学习成果的潜力,但证据基础仍新兴且异质。未来工作应通过更大样本、更严格设计、标准化结果测量和更长时间框架解决当前限制。实施应通过CFIR等框架指导,而质量保证应整合DASEX等AI特定标准以确保安全、公平和有效整合到医疗教育中。通过解决这些差距,AI驱动XR模拟可革命化临床培训,提供个性化、可扩展和引人入胜的学习体验。
生物通微信公众号
知名企业招聘