
-
生物通官微
陪你抓住生命科技
跳动的脉搏
分布式神经策略梯度算法:用于实现网络化多智能体强化学习的全局收敛
《IEEE Transactions on Automatic Control》:Distributed Neural Policy Gradient Algorithm for Global Convergence of Networked Multiagent Reinforcement Learning
【字体: 大 中 小 】 时间:2025年11月27日 来源:IEEE Transactions on Automatic Control 7
编辑推荐:
网络化多智能体强化学习问题中,提出一种分布式神经策略梯度算法,创新设计双神经网络分别近似Q函数与策略函数。算法包含分布式评估和去中心化演员两个步骤:前者通过时变通信网络协作更新Q函数参数,后者各智能体独立优化局部策略。理论分析证明联合策略评估的全局收敛性,并严格证明整体算法目标函数收敛性。仿真实验在机器人路径规划环境中验证了算法相比集中式方法的有效性。
近年来,强化学习(RL)[1]在学术界和工业界都受到了越来越多的关注。作为单智能体强化学习(SARL)的扩展,多智能体强化学习(MARL)在各种复杂场景中展现了出色的性能,例如智能电网[2]、[3]、智能交通[4]、[5]、信息物理系统[6]、[7]、无线通信[8]、[9]等。
生物通微信公众号
知名企业招聘