MARHO:基于多智能体强化学习的海上混合任务卸载框架及其在动态边缘计算中的性能优化

《IEEE Open Journal of the Communications Society》:MARHO: Hybrid Task Offloading in Maritime MEC via Multi-Agent Reinforcement Learning

【字体: 时间:2025年12月01日 来源:IEEE Open Journal of the Communications Society 6.1

编辑推荐:

  为解决海上移动边缘计算(MEC)环境中时变无线信道、异构工作负载和严格服务质量(QoS)要求带来的挑战,研究人员开发了多智能体强化学习混合任务卸载框架MARHO。该框架通过将问题建模为具有混合动作的分散部分可观测马尔可夫决策过程(Dec-POMDP),采用集中训练分散执行(CTDE)方案,使无人水面艇(USV)能够学习资源感知策略。实验结果表明,MARHO在不同条件下均能实现更高吞吐量,同时保持与现有基准相当或更低的平均延迟,证明了其在动态海上环境中的可扩展性和鲁棒性。

  
在覆盖地球表面71%以上的海洋环境中,高效的数据收集和处理对于资源勘探、生态监测和海上安全至关重要。然而,海洋环境的恶劣和动态特性给实时感知和计算带来了严峻挑战。无人水面艇(USV)通常用于水质监测、巡逻和检查等任务,但其功能受到有限计算和电池容量的限制。无人飞行器(UAV)扩展了操作覆盖范围并提供初步计算和中继服务,但它们也面临能源和机载资源的限制。虽然船舶和海上平台等高性能计算节点提供了丰富的计算能力和能源供应,但其部署复杂性较高且移动性较差。这种异构且相互依赖的节点组合凸显了一个核心难题:与陆地网络不同,海上通信链路高度动态,经常出现视距(LoS)或非视距(NLoS)转换、长距离衰落以及通信和能量状态之间的强耦合。在这些条件下,预定义的任务分配方案很快变得脆弱,纯粹的集中式云处理方案不可行,而将任务刚性绑定到单一节点类型同样不足。因此,迫切需要一种能够灵活地在USV、UAV和船舶之间分配和迁移计算的机制,确保在资源约束下满足延迟和完成目标。
移动边缘计算(MEC)提供了一种将数据处理推向数据源附近的原则性方法,以减少回程负载和端到端延迟。经典的优化方法,如交替方向乘子法(ADMM)和块坐标下降(BCD),已被广泛用于资源分配和任务调度,但它们通常依赖于静态模型或预定义结构,在快速信道变化和强多径环境下显得脆弱。耦合的高维决策空间也对大规模问题分解和迭代求解器提出了挑战。此外,分布式协调方法,包括匹配算法和博弈论公式化,通常会产生大量的消息传递,其开销随舰队规模增长,降低有效吞吐量并加剧排队延迟。这些局限性促使研究者寻求能够在线协调资源并在非平稳海上动态下保持与服务质量(QoS)目标一致的方法。
深度强化学习(DRL)因其能够实现实时决策而在MEC中受到关注。多智能体强化学习(MARL)范式将DRL扩展到合作-竞争环境,其中多个智能体必须在部分可观测性下共享频谱、能量和计算资源。在MEC中,这种公式化捕捉了分布式节点之间卸载决策、队列动态和功率控制的耦合关系。行动者-评论家方法通过结合策略学习和价值估计提供稳定的策略更新,使其适用于延迟敏感的调度。在此基础上,深度确定性策略梯度(DDPG)算法为连续控制引入了确定性策略梯度,这对于发射功率和带宽等细粒度资源分配非常有效。进一步,多智能体深度确定性策略梯度(MADDPG)算法结合了集中训练与分散执行(CTDE),缓解了非平稳性问题,并在智能体在共享MEC环境中交互和竞争时实现了稳定的协调。
具体而言,海上MEC为资源协调带来了三个挑战:(i)非平稳性,因为移动性和波动的链路不断改变交互动态,使稳定学习复杂化;(ii)混合、高维动作,因为必须联合决定离散的卸载模式和连续的功率分配;(iii)具有排队效应的部分可观测性,因为每个节点依赖于本地测量,而逗留时间取决于耦合的处理积压。这些挑战需要一个明确包含混合卸载模式、队列感知QoS约束和不确定性下分散执行的问题表述。
为了应对这些挑战,研究人员在《IEEE Open Journal of the Communications Society》上发表了题为“MARHO: Hybrid Task Offloading in Maritime MEC via Multi-Agent Reinforcement Learning”的论文,提出了名为MARHO的多智能体强化学习混合任务卸载框架。
研究人员主要应用了以下关键技术方法:首先,构建了一个集成USV、UAV和船舶平台的混合海上边缘计算系统模型,明确捕捉信道动态、队列演化和资源限制之间的耦合。其次,将混合任务卸载问题建模为一个具有混合离散-连续动作的分散部分可观测马尔可夫决策过程(Dec-POMDP)。第三,采用了集中训练分散执行(CTDE)方案,利用改进的近端策略优化(PPO)算法进行训练,使USV智能体能够基于局部观测学习资源感知策略。实验基于一个集成了真实海上信号传播、队列动态和混合卸载场景的Gym模拟环境进行。
系统模型与问题表述
研究考虑了一个混合任务卸载场景,包括多个USV、一个UAV和一个船舶服务平台。USV生成传感和计算任务,这些任务可以(i)在本地执行,(ii)卸载到UAV进行空中边缘处理,或(iii)通过UAV在视距(LoS)链路下中继到船舶。系统模型联合捕捉了队列动态、无线传输延迟、计算延迟和电池约束。每个USV在每个时隙t为其任务n选择一个二进制决策变量xn,mlocal(t), xn,muav(t), xn,mship(t), xn,mrelay(t) ∈ {0,1},分别对应本地计算、直接卸载到UAV、直接卸载到船舶和通过UAV中继卸载到船舶四种互斥策略,且满足总和为1的约束。通信链路模型考虑了LoS和NLoS条件的不同路径损耗。节点(USV、UAV、船舶)的队列动态采用基于时隙的流体排队模型,包括接收队列和处理队列,其演化遵循标准的到达-服务平衡方程。混合任务卸载控制被表述为一个有限时域优化问题,目标是在满足严格的能量和资源约束下,最大化T个时隙内完成的加权任务总量,同时软约束平均逗留时间。
MARHO算法设计
MARHO被设计为一个基于CTDE范式的多智能体强化学习框架。在该环境中,USV被建模为智能体,而UAV和船舶被视为环境的一部分,其资源信息进入集中式评论家和全局奖励计算。每个行动者πθ(am|om)将USV m的局部观测om(t)映射到一个离散动作xn,mo(t),决定任务的卸载模式。集中式评论家Vψ(st)在训练期间可以访问全局状态st,从而提供准确的价值估计。奖励函数集成了吞吐量和延迟,采用滑动窗口吞吐量ˉΘt作为主要奖励信号,并加入延迟折扣因子γd?Dt来抑制长延迟。在训练过程中,每个USV观察其局部状态,根据能量和带宽约束屏蔽不可行动作,并从其行动者中采样一个卸载模式。环境随后更新链路容量、中继缓冲区、处理队列和电池状态,之后计算全局奖励。收集多个回合的轨迹用于更新共享的行动者和集中式评论家。训练完成后,每个USV仅使用局部观测独立执行其行动者,无需评论家或全局协调,确保分散式执行。
实验结果与分析
核心性能实验在1200个时隙的典型任务持续时间内进行。结果表明,当USV数量M从5增加到20时,MARHO完成的任务数量从约1.5×103个线性增长到约3.6×103个,而平均延迟保持在60个时隙左右,接近目标延迟预算。MARHO在累积奖励方面始终优于随机算法、贪婪延迟算法、独立Q学习(IQL)算法和粒子群优化(PSO)算法。动作选择分析显示,MARHO主要偏好船舶和中继卸载,以利用MEC容量而非本地处理。在延长任务持续时间(1800个时隙)和恶劣信道条件(雨天,LoS概率≈0.65)下的鲁棒性实验中,MARHO在系统超过约1500个时隙的能量限制后,仍能保持接近线性的吞吐量增长(从M=5时的2.7×103个任务到M=20时的5.3×103个任务)和适中的平均延迟(从约18个时隙增加到55个时隙),并保持最高的累积奖励,而其他基线算法则出现延迟急剧上升或奖励崩溃。收敛性分析表明,MARHO在引入随机天气变化后能快速适应并稳定,评论家价值损失收敛到较低水平,证明了学习的稳定性。
研究结论与意义
该研究得出结论,MARHO框架能够有效解决海上MEC环境中的混合任务卸载挑战。通过将问题建模为Dec-POMDP并采用CTDE方案,MARHO使USV智能体能够学习自适应、资源感知的卸载策略,在动态和资源受限的环境中实现吞吐量和延迟之间的有效平衡。实验验证了MARHO在可扩展性(随舰队规模线性增长)、性能(高于基准算法)和鲁棒性(在延长任务和恶劣信道下保持稳定)方面的优势。这项研究的意义在于为动态海上边缘计算提供了一种新颖、智能化的资源协调解决方案,克服了传统优化方法和简单启发式算法在非平稳环境下的局限性。MARHO的分散式执行特性使其特别适合通信受限的真实海上部署场景。未来的工作可以扩展到多UAV多船舶系统、集成在线信道预测和安全约束,并通过硬件实验进行验证。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号