HoLEP术中顶端黏膜保留评估的专家间一致性分析及其对人工智能模型开发的启示
《World Journal of Urology》:Concordance among experts in assessing apical mucosal preservation during holmium laser enucleation of the prostate (HoLEP): implications for artificial intelligence model development
【字体:
大
中
小
】
时间:2025年12月06日
来源:World Journal of Urology 2.9
编辑推荐:
本刊推荐:为解决HoLEP术后短暂性压力性尿失禁(TSUI)的预测难题,研究人员开展了一项关于专家间评估顶端黏膜保留一致性的多中心研究。通过对60例"整块"HoLEP手术视频的六位专家盲法评估,发现专家间一致性较差(Fleiss κ=0.18),且黏膜保留评级对6周尿失禁预测价值有限(AUC=0.60)。研究表明当前主观视觉评估不适合作为AI训练的"金标准",为开发基于计算机视觉的智能预后工具提供了重要方法论启示。
在泌尿外科领域,钬激光前列腺剜除术(HoLEP)已成为治疗良性前列腺增生(BPH)的重要微创手术方式。然而术后短暂性压力性尿失禁(TSUI)仍是困扰患者的主要并发症,早期报道发生率高达44%。近年来随着早期顶端释放和改进黏膜保护技术的应用,TSUI发生率显著下降,但如何准确评估手术质量并预测功能结局仍是临床面临的挑战。
随着人工智能(AI)技术在医疗领域的深入应用,计算机视觉有望通过分析手术视频自动评估顶端黏膜保留情况,为预后预测和术中指导提供新思路。然而AI模型的可靠性取决于训练数据的质量,特别是专家标注的一致性。目前尚不清楚不同机构的专家在视觉评估黏膜保留程度时能否达成共识,这直接关系到AI模型开发的可行性。
为此,迈阿密大学Miller医学院Desai Sethi泌尿研究所的Archan Khandekar团队开展了一项创新性研究,旨在量化专家泌尿科医生在评估HoLEP术中顶端黏膜保留的一致性,并探讨其与术后尿失禁的关联。该研究近期发表在《World Journal of Urology》期刊。
研究人员采用了几项关键技术方法:回顾性收集2023年6月至2024年5月期间接受"整块"HoLEP的60例患者手术视频片段;使用Theator Inc.外科智能平台提取展示剜除完成后顶端黏膜外观的视频片段;由六位来自不同机构的经验丰富泌尿科医生独立进行盲法评估,采用三级分类标准(完全保留、部分保留、未保留);通过Cohen's κ和Fleiss κ统计量量化评估者间一致性;利用逻辑回归和受试者工作特征(ROC)分析评估黏膜保留评级对6周尿失禁的预测价值。
研究发现专家间评估一致性普遍较低,配对Cohen's κ系数在0.07-0.44之间,总体Fleiss κ为0.18,表明一致性较差。完全保留和未保留病例的一致性相对较高,而"部分保留"这一中间类别引发了最多分歧。仅有15%的病例获得一致评级。值得注意的是,来自同一机构且经常合作手术的评审者1和2之间一致性最高(κ=0.44,68%一致),而不同中心训练的评审者间κ值很少超过0.30。
Correlation with outcomes
黏膜保留评级与尿失禁结局的关联分析显示,虽然观察到黏膜保留越差、尿失禁率越高的趋势,但逻辑回归模型因拟完全分离而无法收敛,限制了统计推断。基于多数表决的共识评级对尿失禁的预测准确性较低,ROC曲线下面积(AUC)仅为0.60,表明其临床预测价值有限。个别评审者的评级显示出一定趋势,但这些发现应视为探索性而非结论性的。
研究结论明确指出,专家对顶端黏膜保留的视觉评估缺乏足够可靠性,不适合作为监督式计算机视觉训练的"金标准"。黏膜保留评级不应作为推断性预测因子使用。这一发现对AI模型开发具有重要意义:直接使用专家主观标注训练模型可能导致算法泛化能力差和预测错误。
讨论部分深入分析了不一致性的潜在原因,包括个体判断阈值差异、缺乏标准化评分标准以及"部分保留"类别定义模糊等。研究建议通过制定标准化分级标准(如Heidenberg等人开发的外括约肌损伤分级系统)、使用实际临床结局作为训练标签、或采用加权训练策略来提高AI模型性能。
该研究还前瞻性讨论了AI引导工具(如实时括约肌接近警报)的医学法律和伦理考量,强调此类工具需经过严格验证,并作为决策辅助而非替代外科医生判断。
这项研究的局限性包括所有手术由单一中心的外科医生主刀或监督,可能限制结果的普适性;未使用经过验证的分级框架;三级评分量表引入主观性;尿失禁定义较为简单;未考虑患者个体因素;样本量对预测模型而言统计效能不足。
综上所述,这项研究首次系统评估了HoLEP术中顶端黏膜保留评估的专家间一致性,为开发可靠的AI预后预测工具提供了关键方法论基础。研究强调需要更可靠的标注策略来训练鲁棒的计算机视觉算法,最终降低HoLEP术后短暂性压力性尿失禁的发生风险,改善患者生活质量。未来研究应致力于制定标准化视觉评估标准,并探索多模态数据融合的AI模型开发路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号