
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于随机场O(n)模型的多组学整合方法在疾病模块检测中的创新应用
【字体: 大 中 小 】 时间:2025年09月20日 来源:Cell Reports Methods 4.5
编辑推荐:
本研究针对多组学数据整合在疾病模块检测中的方法学空白,开发了基于随机场O(n)模型(RFOnM)的创新计算框架。通过整合基因表达与GWAS数据或mRNA与甲基化数据,该模型在12种复杂疾病中显示出优于单组学方法的性能,显著提升了疾病模块连通性、功能富集度和疾病关联性,为复杂疾病的机制解析和靶点发现提供了强大工具。
随着高通量技术的快速发展,科学家们能够以前所未有的速度产生海量组学数据,包括转录组学、蛋白质组学和代谢组学等。这些数据为识别疾病相关生物标志物提供了宝贵资源。然而,分子改变在细胞网络背景下会影响其相互作用伙伴的表达,这意味着每种疾病可能与一个"疾病模块"相关——即细胞网络中与特定疾病表型相关的扰动子网络。传统计算方法主要依赖单组学数据与分子相互作用组的整合,而能够同时整合多组学数据的疾病模块检测方法仍然缺失。
为了填补这一空白,Xu-Wen Wang、Yang-Yu Liu等研究人员在《Cell Reports Methods》上发表了创新性研究,开发了基于随机场O(n)模型(RFOnM)的统计物理学方法。该方法通过将多组学数据与人类相互作用组整合,成功应用于多种复杂疾病和癌症的疾病模块检测,显示出优于单组学方法的性能。
研究人员采用的关键技术方法包括:基于随机场O(n)模型的疾病模块检测算法,该模型将基因状态表示为n维自旋向量;模拟退火优化算法用于求解RFOnM的基态问题;蛋白-蛋白相互作用网络来自STRING数据库;多组学数据整合分析涵盖GWAS、基因表达、mRNA和DNA甲基化数据;使用MAGMA进行GWAS数据基因注释;利用limma和DESeq2进行差异表达分析;功能富集分析采用KEGG通路和Benjamini-Hochberg多重检验校正。研究纳入了来自多个大型队列的数据,包括阿尔茨海默病、哮喘、慢性阻塞性肺疾病、糖尿病和五种癌症数据集。
疾病模块检测
研究人员应用RFOnM(n=2)识别了四种复杂疾病的疾病模块,通过整合基因表达数据和GWAS研究的基因wise p值。结果显示,RFOnM在12种疾病中的9种产生了最高的最大连通组件(LCC)Z分数,表明其检测的疾病模块在蛋白质相互作用网络中具有显著连通性。
疾病关联基因预测性能
使用Open Targets Platform作为参考,研究人员发现RFOnM在6/12的疾病中实现了更短的网络距离,表明该方法识别的基因更接近疾病靶基因。
通路富集分析
通过KEGG通路富集分析发现,RFOnM识别的基因集与更多显著富集的KEGG通路相关,在7/12的数据集中优于其他方法。特别在COPD中,疾病模块基因与胆固醇代谢和中性粒细胞胞外陷阱(NET)形成等通路显著相关。

COPD疾病模块和富集通路
对COPD的深入分析显示,疾病模块中的大多数基因与胆固醇代谢和NET形成相关。脂质代谢失调通过改变能量平衡和促进肺组织内促炎分子合成 contributes to COPD发病机制,而NET形成在病毒感染期间 amplified,通过释放双链DNA促进炎症,突出了其作为治疗靶点的潜力。
通过大型研究验证COPD疾病模块基因
使用大规模基因表达数据和GWAS验证发现,RFOnM模块内的基因Z分数显著高于模块外基因,表明这些基因即使在小型研究中未显示显著关联,也可能在大型或后续研究中与COPD相关。

研究结论表明,RFOnM为多组学主动疾病模块检测提供了一个强大框架,能够发现单个基因水平分析无法捕获的背景特异性网络调节因子。不同疾病间疾病模块的重叠有限,表明识别模块捕获了主要疾病特异性分子机制。然而,当去除模型的度惩罚时,不同模块在不同疾病间表现出大量基因重叠。
讨论部分强调了研究的局限性:RFOnM的基态无法精确求解,可能产生非唯一模块;疾病模块可能由多个 disconnected 子模块组成;模拟退火需要相对较长时间;对基因wise p值敏感可能导致相同疾病的不同模块。尽管如此,该方法为复杂疾病的生物标志物识别提供了有前景的途径,未来可通过整合更多组学数据类型和优化模型配置来进一步提升性能。
这项研究的重要意义在于首次提供了能够有效整合多组学与相互作用组的计算方法,为复杂疾病的机制解析、治疗靶点发现和生物标志物分层提供了强大工具,特别是在多组学数据日益丰富的背景下具有重要应用价值。
生物通微信公众号
知名企业招聘