
-
生物通官微
陪你抓住生命科技
跳动的脉搏
医疗数据非独立同分布场景下的并行分割学习聚类优化框架
【字体: 大 中 小 】 时间:2025年06月10日 来源:Future Generation Computer Systems 6.2
编辑推荐:
为解决分割学习(SL)在医疗非独立同分布(non-IID)数据中训练延迟高、模型精度低的问题,研究人员提出数据分布感知的并行分割学习框架(DCSL)。通过基于PPO的深度强化学习(DRL)实现设备聚类优化,实验表明DCSL较传统SL方法显著提升收敛速度(降低23.1%延迟)和分类准确率(提高12.4%),为隐私保护的分布式医疗AI提供新范式。
在医疗人工智能领域,数据隐私与模型效率的平衡始终是核心挑战。传统集中式学习因隐私法规受限,联邦学习(FL)又受制于设备算力瓶颈,而新兴的分割学习(SL)虽通过模型分割降低计算负载,却在医疗场景遭遇特殊困境——来自不同医院的皮肤癌影像、心电图等数据往往呈现显著的区域差异(非独立同分布,non-IID),导致模型训练延迟激增、分类性能下降。更棘手的是,现有并行SL方案如CPSL仅关注设备硬件参数,却忽视了数据分布异构性这一影响模型泛化的关键因素。
针对这一难题,达卡大学绿色网络研究组的Md. Tanvir Arafat团队在《Future Generation Computer Systems》发表研究,提出革命性的DCSL框架。该工作创新性地将医疗设备聚类问题转化为二进制整数非线性规划(BINLP)问题,并设计基于近端策略优化(PPO)的深度强化学习算法,实现数据分布感知的动态聚类。通过模拟实验验证,DCSL在皮肤癌分类任务中不仅将训练延迟压缩至传统SL的76.9%,更使模型准确率突破性地提升12.4个百分点。
关键技术包含:1) 基于Wasserstein距离量化设备间数据分布差异;2) 将聚类问题建模为NP-hard的BINLP问题;3) 设计PPO-DRL算法实现高效聚类策略搜索;4) 采用MNIST和HAM10000医疗影像数据集验证。
【系统模型与假设】
构建包含N个医疗物联网设备(IoMT)和边缘服务器的双层架构,定义设备数据集Di
与全局数据分布D的差异度量,提出数据分布相似度阈值δ作为聚类约束条件。
【数据分布感知聚类设计】
推导出目标函数:最小化簇内分布差异与簇间分布差异的加权和,通过引入拉格朗日乘子将问题转化为可分解优化问题。关键突破在于证明当簇数量K≥2时,该问题具有次模性,为DRL求解奠定理论基础。
【PPO-DRL算法实现】
设计状态空间包含设备数据分布特征向量,动作空间为二值聚类决策矩阵,奖励函数融合训练延迟和模型精度指标。采用广义优势估计(GAE)策略更新,在128个GPU节点上实现分布式训练。
【性能评估】
在皮肤病变分类任务中,DCSL相比SplitFed降低37.2%通信开销,模型收敛轮次减少19轮。特别值得注意的是,在模拟东南亚与北欧跨区域数据协作时,DCSL展现出最强的分布适应能力,其F1-score波动幅度较CPSL降低63%。
结论部分强调,DCSL首次在SL框架中实现数据分布与计算效率的协同优化,其PPO-DRL聚类器可扩展至其他非IID场景。讨论指出,未来方向包括:1) 动态聚类以适应流数据场景;2) 融合差分隐私增强安全性。该工作为构建跨机构医疗AI协作平台提供了关键技术支撑,尤其对资源受限地区的分级诊疗体系具有重要实践价值。
生物通微信公众号
知名企业招聘