-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估AI在体外受精中的应用:人工智能选择最佳体外受精胚胎
【字体: 大 中 小 】 时间:2024年08月12日 来源:nature medicine
编辑推荐:
体外受精(IVF)一个关键的挑战是从一组可用胚胎中选择能给患者最大机会活产的胚胎。现有方法依赖胚胎学家在显微镜下按经验进行形态评估,耗时且主观。一项评估深度学习选择单个囊胚进行移植的随机对照试验与训练有素的胚胎学家相比,在临床妊娠率方面的研究。
为了评估深度学习在选择最佳体外受精胚胎中的价值,在澳大利亚和欧洲的14家体外受精诊所进行了一项多中心、随机、双盲、非劣效性(noninferiority)平行组试验。在第5天至少有两个早期囊胚的42岁以下女性被随机分为对照组(使用标准形态学评估)和研究组(使用深度学习算法智能数据分析评分(iDAScore)进行胚胎选择)。主要终点是临床妊娠率,非劣效裕度为5%。该试验包括1,066例患者(iDAScore组533例,形态学组533例)。iDAScore组临床妊娠率为46.5%(533例患者中有248例),而形态学组为48.2%(533例患者中有257例)(风险差异为- 1.7%;95%置信区间-7.7,4.3;p = 0.62)。与标准形态学和预定义的优先级方案相比,该研究无法证明深度学习在临床妊娠率方面的非劣效性。澳大利亚新西兰临床试验注册中心(ANZCTR)注册:379161。
人工智能(AI),特别是深度学习,已被誉为一项革命性技术,在医疗保健领域——特别是在医学图像的解释和报告方面的潜力,已得到广泛认可。在体外受精(IVF)过程中,一个关键的挑战是从一组可用的胚胎中选择能给患者最大机会活产的胚胎。现有的方法是在培养期间让胚胎学家在显微镜下进行形态评估。这种方法耗时,主观,自45年前第一次试管婴儿出生以来,本质上几乎没有改变。
时差培养箱(time-lapse incubators,)能够在5到6天的胚胎生长过程中频繁地捕捉胚胎图像,从而避免了将胚胎从培养箱中取出进行评估的需要,将干扰降到最低。将其与经过验证的自动选择算法相结合,具有显著提高工作流程效率和克服主观性的额外潜力。迄今为止,一些研究已经使用深度学习算法基于时差培养箱的静态图像进行胚胎质量分级或发育阶段分类。新开发的深度学习算法iDAScore使用胚胎发育前6天(到囊胚阶段)的时间推移图像的空间(形态学)和时间(形态动力学)模式来预测移植胚胎植入并进展到临床妊娠的概率,具有高度的区分能力和可重复性。
此前已有两项研究评估了基于先前数据和人类输入的传统机器学习算法在胚胎选择中的有效性。相比之下,深度学习是机器学习的一种更高级的形式,它使计算机能够从经验中学习,并根据概念层次来理解世界。由于计算机从经验中收集知识,因此与传统的机器学习不同,不需要人类操作员正式指定计算机所需的任何知识。深度学习在胚胎选择中的随机对照试验尚未报道,需要证明其不劣于标准胚胎学家对胚胎的评估。因此,作者进行了一项前瞻性随机非劣效性试验,以比较“通过深度学习选择单个囊胚进行移植的临床妊娠率”与“训练有素的胚胎学家使用标准形态学标准获得的妊娠率”(允许5%的差值)。
研究结果摘要
从2020年1月16日到2022年9月30日,共有1751名参与者符合条件,其中1066名患者纳入试验(研究组533名,对照组533名)。其中,在排除64名违反方案的参与者后,1002名参与者被纳入每个方案(PP)分析(患者流程图;图1)随机分组时患者的人口统计学和临床特征在试验组之间很好地平衡,但研究组接受冻融胚胎移植的患者比对照组多7.5%
研究组533例患者中有248例(46.5%)出现临床妊娠,对照组533例患者中有257例(48.2%)出现临床妊娠。未显示使用深度学习算法进行胚胎选择的非劣效性,绝对风险差为- 1.7个百分点(95%置信区间(CI), - 7.7, 4.3),比率比为0.96 (95% CI, 0.85, 1.10)(表2和图2a)。PP分析、全分析集(full analysis set, FAS)和主要疗效分析的结果与中心和选定分配变量调整后的结果相似
次要结局的人绒毛膜促性腺激素(hCG)阳性率、宫内妊娠和妊娠持续率的结果与主要结局相似。两组的活产率相似,其中iDAScore组的活产率为39.8%(533例患者中212例),标准形态学标准组的活产率为43.5%(533例患者中232例)(风险差- 3.9%;95%CI,−9.9,2.2;P = 0.24)。
与对照组相比,研究组在评估所需时间上几乎减少了10倍,平均标准偏差时间为21.3±18.1秒,而对照组无论第5天可用的胚胎数量如何,都需要208.3±144.7秒(P < 0.001)
结论
该随机对照试验严格评估了胚胎学实验室的深度学习。与标准形态学和预定义的优先级方案相比,该研究无法证明深度学习在临床妊娠率方面的非劣效性(虽然两组的妊娠率在临床上相似,但因为CI的下界超过了预定的- 5%的非劣效性界限,所以无法证明其非劣效性。)该研究确实表明,与基于标准形态的胚胎选择相比,深度学习(如iDAScore所示)显著加快了评估时间。
与预先假设的一个重要偏差是,对照组的妊娠率出乎意料地高(48.2%),这大大超过了原本的预期妊娠率(35.4%,根据符合本研究进入标准的人群的回顾性数据计算)。这种偏差对该试验得出非劣效性结论的能力产生了负面影响。在两组中观察到的较高妊娠率,超过了美国、欧洲和澳大利亚国家数据集报道的典型妊娠率,可能是参与随机对照试验环境的结果(霍桑效应)。
作者还观察到深度学习模型在新鲜胚胎移植和冷冻胚胎移植之间的表现不一致。iDAScore组的新鲜胚胎移植的临床妊娠率高出3.7%,iDAScore深度学习模型对冷冻胚胎的胚胎选择效果明显低于对照组。值得注意的是,人工对照组新鲜胚胎移植的临床妊娠率为44.5%,而同一组冷冻胚胎移植的临床妊娠率显著高达61.3%。进一步研究影响冷冻胚胎移植结果的因素是有必要的。
知名企业招聘