《Simulation Modelling Practice and Theory》:A multi-agent deep reinforcement learning model for crowd coordinated evacuation simulation in complex environments
编辑推荐:
基于多智能体深度强化学习的协同决策框架有效解决了复杂建筑环境中疏散路径的静态规划与人群行为适应性不足的问题,通过动态多目标奖励机制平衡个体疏散时间与集体效率,结合局部观测策略显著降低计算复杂度。实验表明该框架相比基线模型训练稳定性提升超70%,平均疏散时间减少2-11%,为大规模智能疏散模拟提供了新方法。
Jixin Shi|Maoyu Li|Nan Jiang|Hanchen Yu|Hongyun Yang|Xiaodong Zhou|Lizhong Yang
中国科学技术大学消防科学国家重点实验室,安徽省合肥市金寨路96号,230026
摘要
在复杂的建筑环境中实现高效疏散仍然是仿真建模和公共安全领域的一个基本挑战。基于静态路径查找或规则决策的传统模型往往导致出口使用不均衡和拥堵,限制了它们在紧急情况下表示人类适应性行为的能力。为了解决这些缺点,本研究提出了一种基于多智能体深度强化学习(CDF-MADRL)的协作决策框架。该框架引入了一种动态的多目标奖励机制,能够自适应地平衡个体疏散时间和集体效率,并采用了一种局部观察策略,显著降低了大规模多智能体环境中的计算负担。该模型使用MAPPO算法实现,并在具有不同人口规模的复杂非对称多出口场景中进行了验证。结果表明,与基线模型相比,CDF-MADRL将训练稳定性提高了70%以上,平均疏散时间减少了2-11%。除了提高疏散效率外,这项研究还在方法论上做出了贡献,展示了如何将强化学习系统地嵌入到仿真建模实践中,提供了一个可扩展且智能的疏散分析框架。这些发现突显了将人工智能与仿真建模相结合以增强复杂建筑环境抵御能力的潜力。
引言
确保紧急情况下居住者的安全是建筑工程和仿真研究中的关键问题。快速的城市化和日益复杂的建筑布局(如地铁站、高层建筑和体育场)给疏散管理带来了重大挑战。在火灾或地震等紧急情况下,疏散延迟不仅危及生命,还会加剧财产损失[29,32,36]。因此,开发出适应性强且可靠的疏散仿真模型对于安全工程和城市韧性至关重要。当紧急情况发生在没有为人们提供适当决策帮助的空间时,缺乏安全高效的疏散计划可能会影响大量人员[1]。行人在恐慌和混乱的情况下可能会做出意外反应,通常会寻求安全并尽快离开紧急区域。然而,这不一定是最安全的方式。在疏散过程中,必须及时和适当地制定引导行人有序、快速且安全疏散的行动方案。
当前的疏散计划为用户提供了一条静态的出口路线。此外,这些计划在表示真实紧急情况时存在局限性,忽略了人们在危险情况下的不同行为。建筑物内安全路线的设计应尽量减少疏散过程中的拥堵,防止疏散时间过长以及人群动态造成的受伤风险[14]。
传统的疏散模型,包括元胞自动机[3]和社会力模型[34],为疏散研究提供了重要的理论基础。它们研究了不同环境因素对疏散时间的影响,为优化房间布局和出口设计提供了宝贵的见解。然而,传统模型需要调整参数以适应不同的场景,这限制了它们的通用性。
为了克服这些缺点,最近的研究探索了将强化学习(RL)应用于疏散建模[9]。RL允许智能体通过与动态环境的互动来自适应地优化出口选择和移动策略。尽管前景广阔,但在大规模疏散中应用RL面临两个主要挑战。首先是设计奖励函数,以协调个体疏散目标与群体效率;其次是当人口规模变大时,训练多智能体系统的计算成本很高。
本文通过提出一种基于多智能体深度强化学习(CDF-MADRL)的协作决策框架来应对这些挑战。该框架结合了动态奖励权重机制和局部观察策略,以实现真实且可扩展的仿真。具体而言,动态权重机制能够根据出口拥堵程度和居住者密度的变化自适应地平衡个体疏散时间和集体效率,而局部观察策略使智能体能够关注其周围的相关环境信息,而不是整个全局状态,从而降低了计算复杂性。
本文的其余部分安排如下:第2节回顾相关工作,第3节介绍模型框架和算法设计,第4节报告实验验证,第5节总结结论和未来工作。
模型片段
强化学习
机器学习是人工智能技术的一个重要分支。随着计算机计算能力的提高和新计算机技术的探索,机器学习已成为设计各种算法的研究热点。在许多学习方法中,强化学习已成功应用于许多领域,表现出强大的在线适应性和自我学习能力。
许多学者[8,9,16,35,40]将强化学习方法应用于规划
强化学习算法
强化学习(RL)通过智能体与环境之间的互动来学习策略。环境被建模为一个马尔可夫决策过程(MDP)。对于单智能体环境,当智能体在状态下执行动作时,环境会根据状态转移概率转移到下一个状态,同时获得即时奖励。RL的核心目标是找到一个策略,以最大化累积总奖励。
模型框架
本研究的模型过程如图1所示,分为四个步骤:
步骤1:智能体根据策略在环境中执行动作,获取环境观察和任务完成状态信息。使用经验回放缓冲区存储智能体与环境互动过程中生成的状态、动作、奖励和下一个状态数据,从而提高数据利用率[23]。
步骤2:将所有智能体的观察结果整合成状态并输入
仿真和学习设置
本研究为CDF-MADRL创建了一个仿真环境,并使用Python进行了执行。所有实验都在配备AMD Ryzen 7 7840HS处理器和64GB RAM的笔记本电脑上进行。深度强化学习算法的主要参数如表3所示。
具体来说,学习率控制优化器更新网络参数的步长。折扣因子计算未来奖励的现值。Lambda(λ)用于平衡偏差和方差
结论
本研究通过提出一种基于多智能体深度强化学习(CDF-MADRL)的协作决策框架,解决了复杂多出口建筑环境中高效协调人群疏散的核心挑战。针对传统静态路径查找模型和现有基于强化学习的方法的局限性(如出口使用不均衡、拥堵和可扩展性差),该框架整合了两项关键创新,以实现这两点目标
利益冲突声明
作者声明他们没有已知的可能会影响本文所报告工作的竞争性财务利益或个人关系。
致谢
本研究得到了国家自然科学基金(72574208)和浙江省交通运输厅科技计划项目(ZJXL-SJT-202315A2)的支持。