综述:无托槽矫治器治疗完成阶段用简易管替代托槽的附件及按钮脱落人工智能检测准确性研究
【字体:
大
中
小
】
时间:2025年09月29日
来源:Seminars in Orthodontics 2
编辑推荐:
本综述推荐 DentalMonitoring(DM)人工智能(AI)系统在无托槽矫治治疗(CAT)中检测附件(attachments)与按钮(buttons)脱落的卓越性能。研究通过多中心回顾性数据分析,证实其灵敏度(sensitivity)达98.2–98.4%、特异性(specificity)达99–100%,可显著减少未识别的临床事件,提升远程监控(AIDRM)效率与治疗质量。
无托槽矫治治疗(Clear Aligner Therapy, CAT)领域最具影响力的进展之一是矫治附件的整合,例如复合树脂附件(attachments)与按钮(buttons)。早期无托槽矫治系统主要依赖位移力学,而附件的加入引入了针对性力学系统,显著提高了移动精度,并扩展了可治疗的错颌畸形范围。Alam 等人(2024年)在近期系统综述中强调了矫治附件的优势,指出其可改善前牙根转矩、旋转、近远中移动及后牙锚定效果。此外,附件还可减少对辅助正畸装置的需求,例如固定矫治器或头帽。
附件是粘接于特定牙齿上的小尺寸、牙色复合树脂凸起,在改善力传导和创造所需力偶以实现整体移动和转矩控制中发挥关键作用。它们设计为多种形态,以应对特定任务及牙齿移动,显著提升矫治器贴合精度、固位、牙齿旋转矫正以及诸如 intrusion、extrusion、尖牙与磨牙远中移动等复杂位移。
按钮与附件类似,但通常与弹性橡皮链联用,以施加额外矫治力。配合按钮使用的橡皮链可矫正多种正畸问题,包括咬合问题和牙齿旋转。
尽管附件具有高疗效和广泛应用,它们仍存在脱落、粘接失败和磨损等问题。Li 等人(2024年)的一项前瞻性临床研究对接受无托槽矫治的47名患者进行了6个月监测,发现772个附件中脱落率达13.7%,多数发生于治疗初期。脱落率在下颌弓及磨牙上显著较高。
导致粘接失败的因素多样。与矫治器相关的变量(如材料厚度)影响粘接耐久性;患者行为,如频繁摘戴、依从性差及饮食习惯,也起到重要作用;术者操作技术,尤其在粘接过程中,尤为关键。复合树脂的流动性可能导致附件周围出现多余材料(飞边),进而削弱其固位和功能。
由于附件的关键作用,其脱落可能导致显著临床问题,延长治疗时间、增加复诊次数,并对治疗预后产生负面影响。这些问题在长期未被发现时尤为突出。针对此类临床事件的高发生率,多种新兴基础远程正畸系统正被应用,但文献中缺乏充分验证。本研究旨在评估 DentalMonitoring(DM)这一新型人工智能远程监控软件在检测无托槽矫治附件及按钮脱落中的准确性。
本项多中心、回顾性、定量观察性研究是在向美国食品药品监督管理局(FDA)提交监管申请背景下开展的。研究共纳入719例患者病例,选自DM的临床数据库,该数据库聚合了全球正畸诊疗数据。本研究仅考虑来自美国诊所的数据,以符合FDA对监管申请范围的要求。尽管数据来源多样,并未直接涉及特定临床站点。为确保相关状况(尤其是低发生率事件)的充分代表性,在预筛过程中使用系统生成的临床通知,基于预设纳入与排除标准识别潜在合格病例。最终病例选择由独立第三方通过随机抽样完成,该第三方无法访问DM图像,也不参与临床操作,从而保证了数据集的无偏与代表性。
研究遵循《赫尔辛基宣言》的伦理原则,同时遵循适用数据保护法规,即欧盟条例(EU)2017/745和ISO 14155:2020。WCG IRB根据45 CFR § 46.104(d)(4)授予豁免。
患者纳入标准包括:接受无托槽矫治治疗且具有至少一个附件和按钮的患者。
排除标准包括:存在一颗或多颗乳牙的患者及非美国患者。
关于DM扫描生成的图像集,纳入标准为:经去标识的DM图像集;使用DM应用程序(运行Android 6及以上或iOS 11及以上的手机)、DM颊侧拉钩和DM扫描盒(图1)采集的图像集。所有口内图像集须包含至少8张可由DM处理的图像,包括至少三张闭口位视图(正面、右侧、左侧)、三张开口位视图(正面、右侧、左侧)及两张颌面视图(上颌与下颌)(图2)。在本分析所用产品早期版本中,颌面视图非强制要求,因此部分图像集缺少这些视图。由于研究团队未控制病例抽样或选择,且这些图像集已是随机选择数据集的一部分,为保留样本量,仍将其纳入。这构成轻微方案偏离。但专家评估与AI评估均使用相同可用图像,确保分析一致性。
本研究目标是评估DM的AI系统在检测附件和按钮脱落中的性能,以专家小组作为参考标准。所选专家为美国正畸住院医师。初始方案计划招募具有丰富临床经验的委员会认证正畸医生,但前10位符合条件者均因时间限制拒绝参与。标准因此修订为纳入住院医师——正在进行正畸培训的合格牙医学博士(DMD),他们更具可用性且不易引入解释偏倚。所有专家接受标准化培训,并被要求严格依据可见图像数据做出评估。
DM的AI模型是一种基于专家标记口内图像训练的分类神经网络。算法具体架构属专有信息,未公开披露。附件脱落定义为与先前扫描相比附件不再存在(图3);按钮脱落定义为与参考前部图像集相比金属、陶瓷或复合树脂按钮缺失(图3)。对每个参数,系统生成三种输出之一:未缺失、缺失或无法识别。当AI或参考标准因可见性不足无法生成结果时,案例被归类为“无法识别”并从分析中排除。
研究开始前,DM临床事务团队向所有参与站点和专家小组成员提供标准化培训,旨在确保研究方案和诊断定义的一致应用,以及既定阅读量表的标准化使用,该量表在放射学研究中广泛应用。培训旨在支持方法学一致性,不影响后续数据收集或分析。
在初步指导后,开展熟悉阶段以验证调查员进行评估的准备情况。此阶段,调查员审阅一组10个代表性模拟案例(与研究数据集不同),以练习标记程序、应用研究组定义并按方案完成数据录入。每位调查员使用专用计算机,屏幕规格相同,确保障估条件标准化。
每个选定的DM口内图像集(由单次DM扫描生成,包含至少8张口内照片)通过DM分析以生成DM结果。同一图像集分配给三位专家小组, tasked with generating a consensus result。获得每个参数每颗牙的3个结果后,比较结果以确定是否达成共识(图4)。小组的最终诊断基于三位专家的一致性水平。若所有评估一致,该共识记录为最终结果;若答案不同但存在多数一致(即三位专家中两位提供相同回应),则以多数意见为最终结果;若无法达成一致且每位专家提供不同答案,案例被标记供小组成员讨论以达成共识。
共识结果随后与DM结果比较。当共识结果与DM结果相同时,该结果视为 ground truth。当结果不匹配时,引入额外步骤: discrepant results 由外部专家(委员会认证正畸医生)审阅以确定这些案例的最终 ground truth。外部专家获提供每例的以下材料:专家小组建立的共识结果、DM生成的相应诊断(DM结果)、所评估临床参数的定义及增强客观性的示例说明、患者完整口内图像集。
Ground Truth 结果视为参考结果,用于统计分析。
所有统计分析使用SAS版本9.4(SAS Institute, Cary, NC, USA)完成。灵敏度与特异性及其95%置信区间通过广义估计方程(Generalized Estimating Equations, GEE)模型计算。该方法考虑了同一患者多颗牙之间的相关性,确保估计稳健。该模型特别适用于本研究,因每例患者因包含多颗牙而贡献多个结果。
基于分类评估诊断性能,结果与Ground Truth比较,使用标准2×2列联表框架。当方法正确识别阳性案例时,结果视为真阳性(True Positive, TP);正确识别阴性案例时,为真阴性(True Negative, TN)。假阳性(False Positive, FP)指错误将阴性案例识别为阳性;假阴性(False Negative, FN)指遗漏阳性案例。
基于此分类,灵敏度计算为TP / (TP + FN),代表方法正确检测真阳性的能力;特异性计算为TN / (FP + TN),反映方法识别真阴性的准确性。这些指标用于量化系统检测临床事件的可靠性。
对所有完成研究的受试者进行年龄(岁)和地理位置(表1)的描述性统计。
附件脱落参数的最终统计分析纳入338例患者,生成765个结果。按钮脱落参数最终统计分析纳入381例患者,共659个结果。最终列联表及相关结果呈现在表2中。
对于附件脱落,DM正确识别186例真阳性中的183例及全部579例真阴性,灵敏度达98.2%(95% CI: 94.3%–99.4%),特异性为100%(95% CI: 98.7%–100%)。
对于按钮脱落,129例真阳性中的127例及530例真阴性中的525例被准确检测,灵敏度为98.4%(95% CI: 94.0%–99.6%),特异性为99.0%(95% CI: 96.9%–99.7%)。
为确保覆盖全牙列,分析了所包含牙齿的分布,验证每颗牙编号至少占总分析数的1%。如表3所示,多数牙齿符合此阈值。少数牙齿略有不足,包括17、27、31、41和47。此外,11、21和22号牙因极少粘接按钮,未出现在按钮脱落分析中。
迄今,多项研究探讨了人工智能驱动远程监控(Artificial Intelligence–Driven Remote Monitoring, AIDRM)在无托槽矫治中的益处,报告结果包括减少复诊、加速首次 refinement、潜在缩短总治疗时间及积极的整体患者体验,因为患者表现出使用这些系统以减少预约次数的兴趣。然而,尚无研究评估这些系统在检测矫治器相关问题中的准确性。本研究是首个评估AIDRM在无托槽矫治中识别附件与按钮脱落准确性的研究。研究方案涵盖来自美国多地点的多样化患者队列,覆盖不同年龄组和不同矫治器品牌。此外,研究确保分析中所有牙齿的均衡代表,从而全面呈现真实世界条件。
结果揭示两个评估参数的高准确性,检测附件脱落的灵敏度达98.2%,按钮脱落达98.4%。这些发现表明,DM是识别CAT中附件脱落的极高准确性方法。这一结果对附件尤为显著,鉴于其小尺寸且通常由与牙色相近的复合树脂制成,使其更难检测。调查员通过比较当前与先前照片集识别附件脱落。按钮脱落通过连续图像集评估类似检测。本研究中,当三位专家评审达成共识时,结果视为真阳性或真阴性,称为研究方案中的“Ground Truth”。专家与AI间的任何 discrepancies 均由单名专家裁决最终 ground truth。
尽管多项研究报道固定矫治器托槽急诊率高于CAT,Lin等人(2021年)临床研究发现,CAT一年内附件损坏率范围9.70%至14.79%,具体取决于所用复合树脂类型。本调查中,附件脱落发生率为24.31%,按钮脱落为19.58%。该比率显著高于既往研究报道的托槽损坏率2.67%至2.8%。托槽与无托槽矫治器中,多数事件发生于治疗早期,可能表明由技术敏感的粘接程序及患者适应期导致的粘接强度不足。一项纳入94例CAT患者的前瞻性研究评估了可能预测附件问题的风险因素,这些因素分为3类:临床变量、术者相关变量及患者相关变量。研究结论,患者相关原因(包括矫治器摘戴频率与方法、佩戴时间、使用矫治器就位器、戴矫治器进食及咀嚼习惯)占附件脱落的大部分,比率达56.25%。鉴于患者相关原因的复杂性及变异性超出临床医生控制范围,人工智能与远程正畸的进展为改善这些问题管理提供了重要机遇,可显著影响治疗效率与质量。
本研究存在若干局限。首先,尽管专家小组遵循标准化评估方案,共识过程中完全设盲不可行,可能引入一定解释偏倚。其次,尽管从DM数据库随机选择患者,排除非美国患者可能限制研究发现对更广泛人群的普适性。第三,尽管代表多矫治器品牌,分析中未控制材料特性、附件设计或跨设备图像质量的潜在差异。第四,未通过同一案例重复评估考核 examiner 内可靠性,限制了我们评估专家评估随时间一致性的能力。最后,研究回顾性本质固有地限制了对某些变量的控制。缺乏椅旁临床评估作为 ground truth 的一部分可能影响诊断准确性的整体可靠性。基于图像的评估虽实用且反映真实世界使用,但受限于某些局限,包括图像质量多变及后牙区可见性受限。此外,ground truth 的确定涉及专家判断,尽管系统且受预定义标准指导,在解释研究发现时应承认其引入的主观性成分。
未来研究应细致评估AIDRM系统的可靠性,同时检视这一创新方法对患者护理质量、体验及治疗效率的影响。
本研究主要发现表明,DM算法在检测无托槽矫治(CAT)中附件脱落方面具有高准确性。使用DM进行远程监控的正畸医生可在患者扫描中检测到此类临床事件时及时获得警报,从而实现立即干预。
考虑到文献中报道的高附件脱落率,AIDRM为早期检测提供显著优势,可能改善治疗结果。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号