COLA-GLM:一种支持单次通信且无损的广义线性模型联邦学习算法在分散医疗数据中的应用

【字体: 时间:2025年07月16日 来源:npj Digital Medicine 12.4

编辑推荐:

  本研究针对医疗数据隐私保护与多中心协作分析的矛盾,开发了COLA-GLM算法。该研究通过广义线性模型(GLMs)实现单次通信(one-shot)的分布式学习,在保持结果无损(lossless)的前提下,解决了传统联邦学习需要反复通信的痛点。团队进一步开发了基于全同态加密的secure-COLA-GLM,在国际流感队列和COVID-19死亡率研究中验证了算法有效性。该成果为医疗数据的隐私保护分析提供了高效可扩展的解决方案,对精准医学和药物警戒研究具有重要意义。

  

在医疗大数据时代,电子健康记录(EHR)的广泛应用为临床研究带来了前所未有的机遇,但同时也面临着数据隐私保护的严峻挑战。传统多中心研究需要共享患者个体数据,而严格的隐私法规往往限制了这种数据流动。虽然现有的联邦学习技术可以在不共享原始数据的情况下进行分析,但大多数方法需要多次迭代通信,不仅效率低下,还存在同步延迟等问题。更关键的是,这些方法通常无法保证分析结果与集中式分析完全一致——这一特性在医学研究中被称为"无损性"(lossless)。

针对这一系列难题,宾夕法尼亚大学佩雷尔曼医学院生物统计学、流行病学和信息学系的研究团队在《npj Digital Medicine》发表了创新性解决方案。他们开发的COLA-GLM算法实现了三大突破:首先,通过重构多站点数据似然函数,仅需单次通信即可完成分析;其次,采用广义线性模型(GLM)框架,可处理包括二分类、计数数据在内的多种临床结局;第三,引入全同态加密技术,开发了安全增强版本secure-COLA-GLM。研究团队在包含350万患者的国际流感队列和4.5万例COVID-19住院患者数据中验证了算法的优越性。

研究采用了三项关键技术:1)基于分类变量的联合经验分布重构多站点似然函数;2)应用细胞计数抑制策略(最小报告单元为5或11)保护隐私;3)采用CKKS全同态加密方案实现secure-COLA-GLM。数据来源于6个国际数据库(CCAE、MDCR等)和4个美国医院EHR系统,均标准化为OMOP-CDM模型。

研究结果部分显示:

"COLA-GLM与集中式分析对比"证实,算法在流感严重感染风险预测中,所有协变量的效应量差异均值仅为-3.09×10-6,验证了无损性。图3直观展示了COLA-GLM与集中分析结果的高度一致性。

"最小报告单元敏感性分析"表明,即使采用OHDSI推荐的最小单元5(替换为3)或CMS要求的11(替换为6),算法仍保持稳健。图4显示当最小单元设为11时,最大差异仅为0.031(截距项)。

"COVID-19死亡率风险因素识别"应用显示,年龄≥80岁(OR=2.72)、男性(OR=1.33)、糖尿病史(OR=1.47)是显著危险因素。图5的森林图清晰呈现了各因素的效应量及置信区间。

讨论部分强调,这项研究首次实现了GLM框架下的单次通信无损分析,解决了传统联邦学习在可扩展性、同步延迟和初始化敏感性等方面的局限。通过PDA-OTA在线门户(http://pda-ota.pdamethods.org/)的开源实现,该技术已具备临床转化条件。特别值得注意的是,secure-COLA-GLM在几乎不损失精度的情况下(差异<0.00013),为半信任环境提供了解决方案,这对FDA的Sentinel等监管项目具有重要价值。

这项研究为观察性医疗数据的隐私保护分析树立了新标准,其技术框架不仅适用于传染病研究,还可扩展到药物安全性监测、医院质量评价等多个领域。随着医疗数据协作网络的扩展,COLA-GLM有望成为支撑精准医学研究的基础性分析方法。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号