分布式神经策略梯度算法:用于实现网络化多智能体强化学习的全局收敛

《IEEE Transactions on Automatic Control》:Distributed Neural Policy Gradient Algorithm for Global Convergence of Networked Multiagent Reinforcement Learning

【字体: 时间:2025年11月27日 来源:IEEE Transactions on Automatic Control 7

编辑推荐:

  网络化多智能体强化学习问题中,提出一种分布式神经策略梯度算法,创新设计双神经网络分别近似Q函数与策略函数。算法包含分布式评估和去中心化演员两个步骤:前者通过时变通信网络协作更新Q函数参数,后者各智能体独立优化局部策略。理论分析证明联合策略评估的全局收敛性,并严格证明整体算法目标函数收敛性。仿真实验在机器人路径规划环境中验证了算法相比集中式方法的有效性。

  

摘要:

本文研究了网络化多智能体强化学习问题,其中智能体的目标是通过协作最大化折现后的平均累积奖励。与现有方法不同,现有方法由于使用线性函数近似而表达能力较差,我们提出了一种分布式神经策略梯度算法,该算法采用了两种创新设计的神经网络,专门用于智能体的近似Q函数和策略函数。这种分布式神经策略梯度算法包括两个关键组成部分:分布式评论家步骤和去中心化执行者步骤。在分布式评论家步骤中,智能体通过时变通信网络从邻近智能体接收近似Q函数参数,以协作评估联合策略。相比之下,在去中心化执行者步骤中,每个智能体仅根据自身的近似Q函数更新其本地策略参数。在收敛性分析中,我们首先证明了智能体在分布式评论家步骤中对联合策略评估的全局收敛性。随后,我们严格证明了整个分布式神经策略梯度算法相对于目标函数的全局收敛性。最后,通过机器人在路径规划环境中的仿真实验,验证了所提算法的有效性。

引言

近年来,强化学习(RL)[1]在学术界和工业界都受到了越来越多的关注。作为单智能体强化学习(SARL)的扩展,多智能体强化学习(MARL)在各种复杂场景中展现了出色的性能,例如智能电网[2]、[3]、智能交通[4]、[5]、信息物理系统[6]、[7]、无线通信[8]、[9]等。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号