加速概率隐私保护的医疗记录关联:一种三方多方计算(MPC)方法

《Journal of Biomedical Informatics》:Accelerating probabilistic privacy-preserving medical record linkage: A three-party MPC approach

【字体: 时间:2025年10月03日 来源:Journal of Biomedical Informatics 4.5

编辑推荐:

  隐私保护记录关联方法研究;

  在现代医疗研究中,数据整合是一项至关重要的任务。由于医疗数据来源多样,包括电子健康记录(EHR)、公共健康登记和患者数据等,如何在确保数据隐私的前提下,将这些分散的数据源进行有效整合,成为研究者面临的主要挑战之一。随着隐私法规的不断完善和多机构合作的日益增多,对于能够在保护隐私的同时,实现数据准确性与高效处理的解决方案需求也日益增长。然而,如何在大规模数据处理中实现这一目标,依然是一个亟待解决的关键问题。

为了应对这一挑战,本文提出了一种基于安全多方计算(Secure Multi-Party Computation, MPC)的新型隐私保护记录链接(Privacy-Preserving Record Linkage, PPRL)方法。该方法旨在在不暴露原始数据的前提下,实现记录之间的匹配,同时显著提高处理速度。相比现有的PPRL解决方案,本文提出的方法不仅在隐私保护方面具有优势,还在执行效率和可扩展性上表现出色。例如,在一个具有700 Mbps带宽和60 ms延迟的现实网络环境中,将一条记录与包含10,000条记录的数据库进行链接仅需8.74秒,而使用当前最先进的PPRL方法(MainSEL)则需要92.32秒。即便是在带宽较慢的100 Mbps网络中,本文方法也能在28秒内完成匹配,而MainSEL则需要287.96秒。这些结果表明,本文提出的PPRL方法在实际应用中具备显著的可扩展性和高效性。

在医疗研究和公共健康领域,记录链接通常用于整合不同来源的数据,以发现疾病进展、治疗效果和患者安全等关键信息。例如,癌症登记数据与治疗和随访记录的整合有助于评估长期生存率,而多源数据的整合则可用于识别特定患者群体中的不良药物反应。此外,跨医院患者记录的整合也能提供更全面的疾病进展和治疗结果的理解。然而,由于数据隐私法规的限制,如欧洲的《通用数据保护条例》(GDPR)和美国的《健康保险可携性和责任法案》(HIPAA),数据共享和处理受到严格限制,因此需要隐私保护的记录链接方法。

现有的PPRL方法,如基于Bloom过滤器的方案和使用可信第三方(Trusted Third Party, TTP)的两方MPC协议,虽然在一定程度上能够保护数据隐私,但存在一些局限性。基于Bloom过滤器的方法依赖于TTP进行计算,这不仅引入了隐私风险,还可能导致单点故障。此外,这些方法容易受到频率攻击和密码分析的威胁,并且需要大量的存储空间来维持较低的碰撞率。而基于两方MPC的方案虽然提高了数据隐私性,但其计算和通信开销较大,尤其是在涉及资源密集型操作如Beaver三元组生成时,效率受到严重影响。因此,本文提出了一种基于三方MPC的框架,通过直接处理秘密共享的双字(bigrams)来计算字符串相似度,从而避免了Bloom过滤器的使用,显著降低了计算和通信成本,同时提高了处理效率。

本文方法的创新点在于其采用了三方计算模型,这不仅消除了传统两方MPC协议中所需的离线设置阶段,还提升了计算效率,使其在现实网络条件下表现出更高的性能。此外,该方法通过直接处理双字映射,而不是依赖于Bloom过滤器,避免了Bloom过滤器相关的安全漏洞,同时降低了存储需求。这种方法还能够支持多个数据所有者之间的记录链接,使得不同机构的数据能够被安全地整合,而不泄露原始数据。本文方法在保持高准确度的同时,还显著提高了处理速度和通信效率,使得其在大规模数据处理中具备更强的适用性。

在实验评估中,本文方法在多个数据集上表现优异。通过使用合成数据集和真实数据集(如北卡罗来纳州的选民登记数据),本文展示了其在不同网络条件下的性能表现。例如,在具有700 Mbps带宽和60 ms延迟的网络中,将一条记录与包含10,000条记录的数据库进行链接仅需8.74秒,而MainSEL则需要92.32秒。在带宽较慢的100 Mbps网络中,本文方法也能在28秒内完成链接,而MainSEL则需要287.96秒。此外,本文方法在通信成本上也显著优于MainSEL,例如在链接10,000条记录时,通信成本仅为335.37 MB,而MainSEL则需要6,036.8 MB。这些结果表明,本文方法在实际应用中具备显著的性能优势,特别是在处理大规模数据时。

在数据质量方面,本文方法在不同阈值下的表现同样出色。通过比较虚假匹配(False Positives, FPs)和虚假不匹配(False Negatives, FNs)的数量,本文展示了其在不同阈值下的性能。例如,在阈值为0.60时,本文方法的总错误数为765,而MainSEL的总错误数为1200。随着阈值的增加,FPs减少而FNs增加,这表明本文方法能够在保持高准确度的同时,有效减少错误匹配。此外,在阈值为0.80时,本文方法的总错误数为62,而MainSEL的总错误数为345。这表明本文方法在高阈值下的表现优于MainSEL,能够在减少错误匹配的同时,避免遗漏太多真实的匹配记录。

在实际部署方面,本文方法提供了一种灵活且安全的路径,适用于多机构合作的医疗研究和数据整合场景。该方法要求每个数据持有者在本地进行预处理,包括数据提取、字段组合、双字映射和秘密共享。通过这种方式,原始数据不会离开数据持有者的安全环境,从而确保了数据隐私。此外,本文方法通过使用三方计算模型,将计算任务分配给不同的计算方,避免了数据持有者直接参与计算过程,从而降低了隐私泄露的风险。在数据治理方面,本文建议将计算方分别托管在不同的独立机构,如国家级公共卫生机构、学术研究机构和中立的第三方组织,以确保系统的安全性和可靠性。

本文方法的未来发展方向包括进一步提高其在恶意攻击下的安全性。目前,本文采用的是半诚实模型,这虽然能够确保公平比较,但在实际部署中,可能需要考虑更严格的恶意模型。为此,可以考虑引入信息论意义上的消息认证码(MACs)来增强安全性。此外,本文方法还可以进一步优化,以支持更大规模的数据集和更复杂的匹配需求。通过持续改进,本文方法有望成为医疗数据整合领域的一项重要工具,不仅能够满足隐私保护的要求,还能在实际应用中实现高效的数据处理。

综上所述,本文提出的基于三方MPC的隐私保护记录链接方法,在保持高准确度的同时,显著提高了处理速度和通信效率,特别是在大规模数据处理中表现出色。该方法通过避免Bloom过滤器的使用,减少了计算和通信开销,同时支持多机构数据整合,具备良好的可扩展性。在实际部署中,该方法能够确保数据隐私,同时提供灵活的数据治理模型,适用于各种隐私敏感的医疗数据整合场景。未来,该方法可以通过进一步的安全增强和性能优化,为医疗数据整合提供更全面的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号