基于深度强化学习的动态集成调度技术:用于自动化引导车辆和堆场起重机在集装箱码头装卸作业中的协同工作

《Engineering Applications of Artificial Intelligence》:Deep reinforcement learning-based dynamic integrated scheduling of automated guided vehicles and yard cranes for container terminal loading operations

【字体: 时间:2025年10月25日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  该研究提出基于半开排队网络(LO-SOQN)的动态集成调度方法,利用深度强化学习(DRL)训练通用策略以应对AGV与 yard cranes的不确定性和灵活配置,仿真结果显示其平均周转时间降低10.28%-18.94%。

  在现代物流和港口运营中,自动化导引车(AGVs)与场桥(YCs)的集成调度问题备受关注。这一问题的核心在于如何在面对不确定性时,提高集装箱码头的装卸效率。随着全球贸易的不断发展,集装箱吞吐量也在持续增长,这对港口运营提出了更高的要求。根据联合国贸发会议(UNCTAD)的数据,从2012年到2022年,全球集装箱吞吐量从620.0百万标准箱(TEU)增长到了852.3百万TEU。这表明,集装箱码头的运营效率已成为决定港口整体性能的关键因素之一。

集装箱码头的运作通常包括卸货和装货两个主要环节。卸货是指将集装箱从船舶运送到堆场,而装货则是将集装箱从堆场运送到船舶。在这一过程中,码头的装卸效率不仅受到船舶和堆场之间运输流程的影响,还受到场桥和AGVs调度策略的制约。场桥负责将集装箱从船舶卸下或装载到船舶,而AGVs则在水平运输区域中负责在船舶与堆场之间搬运集装箱。AGVs与场桥的调度相互关联,因为AGVs直接与场桥进行交互,其调度策略直接影响场桥的作业效率。理想情况下,场桥不应等待AGVs,以确保集装箱装卸作业的连续性。因此,码头管理者希望优化AGV调度策略,以减少场桥的等待时间,从而提升整体吞吐效率。

然而,目前大多数关于AGVs和YCs集成调度的研究仍基于确定性和静态模型,这些模型在面对实际运行中的不确定性时显得力不从心。不确定性可能来源于多个方面,包括装卸时间的波动、运输路径的改变、设备故障以及作业计划的调整等。在这样的环境下,传统的调度方法往往无法提供有效的应对策略。因此,研究人员开始探索基于实时信息的反应性调度政策,以更好地适应动态变化的环境。这种反应性策略能够根据实际观察到的系统状态进行调整,从而提高调度的灵活性和效率。

本文提出了一种新的方法,将装卸作业建模为一种半开放排队网络(SOQN),称为LO-SOQN。LO-SOQN结合了开放排队网络和封闭排队网络的特点,能够同时描述集装箱和AGVs的流动情况。与传统的排队网络不同,LO-SOQN考虑了非指数分布的服务时间,从而更准确地反映实际作业过程中的不确定性。通过引入时间特征,本文将经典多类排队网络的马尔可夫决策过程(MDP)进行了改进,使其能够更好地用于集成调度问题的建模和求解。

在模型建立的基础上,本文提出了一种基于深度强化学习(DRL)的方法,用于寻找近似最优的调度策略。DRL方法通过与环境进行交互,学习低维的参数化策略表示,从而避免了对状态转移函数的估计。这一特性使得DRL方法能够在面对复杂的系统状态空间时,依然保持较高的计算效率。此外,DRL方法能够通过单次前向传播做出决策,使得调度策略能够快速响应系统变化,满足实时调度的需求。因此,DRL方法在需要实时性能的场景中,如物流控制和生产调度,已被广泛研究和应用。

然而,DRL方法在实际应用中仍面临一个重要挑战,即策略的泛化能力。集装箱码头的设备配置通常是灵活调整的,这意味着一个在特定配置下训练的调度策略可能无法适用于其他配置。如果为每种可能的配置单独训练模型,不仅成本高昂,而且难以满足实际应用中的多样化需求。因此,本文提出了一种能够从具有灵活设备配置的场景中训练出具有泛化能力的调度策略的方法。通过引入加权多图来表示系统状态,本文使得不同场景下的MDP保持相同的结构,从而提高了策略的泛化能力。同时,利用基于关系图卷积网络(RGCN)的参数化策略,本文能够在多个不同的装卸场景中获得统一的嵌入表示,从而提升策略的适应性。

本文的主要贡献可以总结为以下几点:首先,提出了LO-SOQN模型,该模型能够同时描述集装箱和AGVs的流动情况,并考虑非指数分布的服务时间,从而更准确地反映装卸作业的不确定性。其次,提出了一种基于DRL的方法,该方法能够学习具有泛化能力的策略表示,使得调度策略能够适用于不同的设备配置。最后,通过大量的仿真实验验证了所提出方法的有效性,并提供了实际应用中的见解。实验结果表明,所提出的调度策略在面对不确定性时,能够显著优于传统的基于库存和鲁棒流的策略。此外,泛化曲线也表明,所提出的策略能够适用于灵活的设备配置,只需少量的场景数据,就能推广到其他未见过的场景。

在方法的实施过程中,本文首先回顾了相关领域的研究进展,包括AGV调度和多类排队网络的控制方法。随后,介绍了LO-SOQN模型及其在动态集成调度问题中的应用。通过将LO-SOQN的动态特性转化为离散时间马尔可夫链(DTMC),本文建立了MDP的数学模型,为后续的DRL方法提供了理论基础。在DRL方法部分,本文详细讨论了如何克服高维状态空间的问题,以及如何通过神经网络学习低维的参数化策略表示。通过引入时间特征,本文确保了MDP的马尔可夫属性,同时扩展了状态空间的维度,使得传统的随机动态规划方法难以处理。因此,本文采用DRL方法,通过与环境的交互,学习低维的参数化策略表示,从而提高了计算效率和策略的适应性。

在仿真实验部分,本文设计了一系列实验,评估所提出方法在不同设备配置下的性能。实验结果表明,所提出的调度策略能够显著提高装卸效率,并减少场桥的等待时间。此外,泛化曲线也表明,所提出的策略能够适用于多种不同的设备配置,这为实际应用中的调度问题提供了有力的支持。通过对比实验,本文验证了所提出方法在面对不确定性时的优势,表明其能够找到比传统策略更优的反应性调度策略。

最后,本文总结了研究的成果和未来的研究方向。通过LO-SOQN模型和DRL方法的结合,本文为解决集装箱码头的动态集成调度问题提供了一种新的思路。未来的研究可以进一步探索如何在实际运营中应用所提出的策略,并结合更多的实时数据进行优化。此外,可以考虑如何将该方法推广到其他类似的物流场景,以提高整体的调度效率和灵活性。

总之,本文的研究成果为集装箱码头的动态集成调度问题提供了一种有效的解决方案。通过引入LO-SOQN模型和DRL方法,本文不仅提高了调度策略的适应性和灵活性,还验证了其在面对不确定性时的有效性。这些成果对于提升港口运营效率、优化物流调度具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号