基于多数据集联合训练的深度学习模型显著提升碱基编辑活性预测精度
《Nature Communications》:Deep learning models simultaneously trained on multiple datasets improve base-editing activity prediction
【字体:
大
中
小
】
时间:2025年11月08日
来源:Nature Communications 15.7
编辑推荐:
本研究针对现有碱基编辑器(BE)gRNA设计工具预测准确性不足的问题,开发了能够同时利用多个异质数据集进行训练的深度学习模型CRISPRon-ABE/CBE。该模型通过整合大规模实验数据(约20,000条gRNA),实现了对腺嘌呤碱基编辑器(ABE)和胞嘧啶碱基编辑器(CBE)编辑效率及结果频率的精准预测,并支持用户根据特定碱基编辑器(如ABE7.10、ABE8e、BE4)进行数据集加权的特异性预测,为精准基因组编辑提供了更可靠的设计工具。
在基因组编辑领域,CRISPR-Cas9技术革命性地改变了生命科学研究方式。然而,传统的CRISPR-Cas9依赖于产生DNA双链断裂(DSB),这会引发不可控的插入或缺失(indel)突变,限制了其在精准医疗中的应用。为了克服这一局限,碱基编辑器(Base Editors, BEs)应运而生,它通过将Cas9切口酶与脱氨酶融合,能够在不断裂DNA双链的情况下实现单核苷酸的精准替换。
尽管碱基编辑器展现出巨大潜力,但其编辑效率受到向导RNA(gRNA)设计和编辑位置的显著影响。现有的预测工具大多基于单一数据集开发,且数据集中包含大量低效率gRNA,导致预测准确性有限。更复杂的是,不同实验室使用的脱氨酶变体(如ABE7.10、ABE8e、BE4等)和gRNA文库存在显著差异,使得数据集之间难以直接整合利用。这种数据异质性问题严重制约了高效gRNA的设计和碱基编辑技术的广泛应用。
为了解决这些挑战,来自哥本哈根大学、奥胡斯大学等机构的研究团队在《Nature Communications》上发表了他们的最新研究成果。他们通过应用先前建立的慢病毒gRNA-靶点对文库技术(SURRO-seq),在HEK293T细胞中大规模测量了两种碱基编辑器(ABE7.10和BE4-Gam)的编辑效率,每种编辑器评估了约11,500条gRNA。结合已发表的数据集,研究人员最终整合了17,941条ABE gRNA和19,010条CBE gRNA的数据,为模型开发提供了丰富资源。
研究人员发现,ABE7.10主要实现A·T到G·C的转换(严格性达98.5%),而BE4主要实现C·G到T·A的转换(严格性92%)。两种编辑器在原型间隔区4-8位的核心编辑窗口表现出最高编辑效率。有趣的是,碱基编辑效率与化脓链球菌Cas9(SpCas9)诱导的indel频率呈正相关(ABE7.10的R=0.40-0.54,BE4的R=0.29-0.49),这表明Cas9效率预测对碱基编辑预测具有重要参考价值。
研究团队的核心创新在于开发了能够同时利用多个数据集的深度学习模型CRISPRon-ABE和CRISPRon-CBE。与现有仅预测结果频率并从中推断gRNA效率的模型不同,该模型能够从30核苷酸(nt)的输入DNA靶序列同时预测gRNA效率和结果频率。模型输入包括单热编码的30nt DNA序列、编辑窗口内可编辑位置的标记、gRNA-DNA结合能(ΔGB)以及预测的Cas9效率。
最关键的是,研究人员引入了一种数据集感知(dataset-aware)训练策略,通过为每个数据点添加表示其来源的标签向量,使模型能够"知晓"每个训练样本的数据集来源。在预测时,用户可以通过调整标签向量中的权重,强调与目标碱基编辑器最相关的数据集。例如,针对ABE8e的设计,可以给予Kissling ABE8e数据集100%的权重;而对于平台不明确的ABE7.10或BE4设计,则可以平均加权多个数据集。
模型使用二维皮尔逊相关系数(R2)和斯皮尔曼等级相关系数(ρ2)进行评估,这些指标能够联合评估gRNA编辑效率和结果频率的预测性能。在独立测试集上的评估表明,CRISPRon-ABE/CBE显著优于现有工具。特别是,当在训练中省略数据集标签时,模型性能下降约10%,这证实了数据集感知策略在整合异质数据时的重要性。
研究采用SURRO-seq技术,在HEK293T细胞中构建多西环素诱导的ABE7.10和BE4稳定细胞系,通过慢病毒文库转导(感染复数MOI=0.3)并利用靶向深度测序(MGISEQ-2000平台)获取大规模编辑数据。通过多步骤数据过滤和质量控制,保留支持读数≥100的gRNA,最终获得11,484条ABE gRNA和11,406条CBE gRNA的高质量数据集。深度学习模型基于Keras/TensorFlow框架开发,采用包含多尺度卷积神经网络和全连接层的架构,通过5折交叉验证和多次随机种子重复训练确保结果稳健性。
通过SURRO-seq技术,研究人员成功生成了均匀性更高的ABE和CBE编辑数据。分析显示,ABE7.10主要实现A·T到G·C的转换(严格性98.5%),而BE4主要实现C·G到T·A的转换(严格性92%)。两种编辑器在原型间隔区4-8位的核心编辑窗口表现出最高编辑效率,且碱基编辑效率与SpCas9诱导的indel频率呈正相关。序列模体分析进一步揭示了编辑位点侧翼序列对编辑效率的影响,如ABE7.10对5'TAC序列(粗体为编辑位点)具有高编辑活性,而对5'AAA序列编辑活性低。
数据集感知的深度学习模型提升碱基编辑器效率和结果频率预测
与现有模型相比,CRISPRon-ABE/CBE能够同时预测gRNA效率和结果频率,并采用数据集感知训练策略。模型通过引入表示数据集来源的标签向量,使预测能够基于训练数据集的加权组合。用户可根据目标碱基编辑器类型(如ABE7.10、ABE8e或BE4)和实验平台选择相应的权重设置。在多个独立测试集上的评估表明,该模型性能显著优于现有工具,且数据集标签的引入使性能提升约10%。
基准测试显示,CRISPRon-ABE/CBE在多个独立测试集上均优于DeepABE/CBE、BE-HIVE、BE-DICT等现有方法。通过SHAP分析和消融实验证实,预测的CRISPR-Cas9效率在碱基编辑器效率预测中起重要作用。模型还展示了在不同细胞系(如mESC和U2OS)上的良好泛化能力,尽管当前模型仅基于HEK293T细胞数据训练。
本研究通过生成大规模碱基编辑数据和开发创新的深度学习框架,显著提升了碱基编辑活动的预测准确性。CRISPRon-ABE/CBE模型的核心优势在于其能够同时利用多个异质数据集进行训练,并通过数据集感知机制实现针对特定碱基编辑器的精准预测。该研究不仅解决了当前碱基编辑预测工具的数据限制和异质性问题,还为更广泛的CRISPR技术(如Prime Editing)中的数据整合提供了可行策略。
研究人员提供的在线网络服务器和独立软件(https://rth.dk/resources/crispr/)使全球科研人员能够便捷地利用这一工具进行gRNA设计。尽管当前模型仅涵盖ABE7.10、ABE8e和BE4等有限类型的碱基编辑器,且主要基于HEK293T细胞数据,但研究展示的数据整合策略为未来纳入更多碱基编辑器变体和细胞系数据奠定了基础。这项研究为推动精准基因组编辑工具的发展和临床应用迈出了重要一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号