基于Double DQN的物流机器人集群任务调度方法、装置及可读介质制造方法及图纸

技术编号：40405419 阅读：4 留言：0更新日期：2024-02-20 22:28

本发明专利技术公开了一种基于Double DQN的物流机器人集群任务调度方法、装置及可读介质，通过获取任务集，根据任务集构建状态；根据状态确定分配动作，对所有后续搬运任务实施分配动作并执行完成后计算回报值，将状态、分配动作及回报值存入经验记忆池中；构建当前值网络和目标值网络，选择经验记忆池中的数据对当前值网络进行训练，得到经训练的当前值网络，间隔第一时间后将经训练的当前值网络的参数拷贝至目标值网络中对参数进行更新，得到经训练的目标值网络；获取待调度任务的状态，将待调度任务的状态输入经训练的目标值网络，得到分配动作。本发明专利技术采用深度强化学习，可以在复杂高维的状态动作空间中进行端到端的感知决策，兼具在线学习和快速响应特性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及任务调度领域，具体涉及一种基于double dqn的物流机器人集群任务调度方法、装置及可读介质。

技术介绍

1、长期以来，针对agv/amr物流机器人集群的调度问题研究，主要有两类方法：

2、(1)最优化方法，即首先建立单(多)目标优化模型，然后用群体智能算法求解(次)最优值，例如遗传算法、粒子群算法、蚁群算法、多目标进化算法等。实际中，当调度的规模较大时，即使能够建立精确的优化模型，模型的求解也将非常耗时，为此专门有学者开展基于gpu或fpga等硬件加速的解空间搜索研究。

3、(2)多智能体(multi-agent)方法，通过设计竞争、协作机制来实现集群调度，如竞拍、合同网、模糊逻辑、分层协同、强化学习等。多智能体方法避免了计算密集的解空间搜索，但存在着决策维度爆炸、协商机制的收敛性难以保障等问题。

4、可以发现，两类传统研究都面临着快速决策的挑战，以满足实际调度的快速响应需求。与此同时，随着消费结构升级，市场竞争与客户的个性化需求使现代制造业中多品种、中小批量生产所占的比重越来越大，导致生产物流作业因为柔性制造发生变化的频率远超以往。因此，除了快速响应，调度方法还需要有在线学习的能力，能够感知和自适应相应的变化。

5、目前已有的agv/amr物流机器人集群调度研究多采用单(多)目标优化算法，但是随着集群规模的扩大，路线交叠程度的增加，异常干扰状况的增多，这类方法即使能够建立合理的优化模型，模型的求解也将非常耗时，难以满足实际应用的需要。

>技术实现思路

1、针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于doubledqn的物流机器人集群任务调度方法、装置及可读介质，来解决以上
技术介绍
部分提到的技术问题。

2、第一方面，本专利技术提供了一种基于double dqn的物流机器人集群任务调度方法，包括以下步骤：

3、s1，获取任务集，任务集包括物流机器人的当前搬运任务和后续搬运任务，根据任务集构建状态；

4、s2，根据状态确定分配动作，对所有后续搬运任务实施分配动作并执行完成后计算回报值，将状态、分配动作及回报值存入经验记忆池中；

5、s3，构建当前值网络和目标值网络，选择经验记忆池中的数据对当前值网络进行训练，得到经训练的当前值网络，间隔第一时间后将经训练的当前值网络的参数拷贝至目标值网络中，对目标值网络的参数进行更新，得到经训练的目标值网络；

6、s4，获取待调度任务的状态，将待调度任务的状态输入经训练的目标值网络，得到对应的分配动作。

7、作为优选，状态采用二维矩阵st∈sm*n＝{sij|sij∈n；i,j∈[1,m]}表示，其中，物流机器人的数量与后续搬运任务的数量均为m，n表示自然数，t表示调度时间，sij表示物流机器人rj完成当前搬运任务后继续执行和完成后续搬运任务ji所需的时间，即：

8、sij＝wj+eij；

9、其中，wj为物流机器人rj完成当前搬运任务和已分配搬运任务的剩余时间，eij为物流机器人rj完成当前搬运任务后从当前搬运任务完成的位置去执行和完成后续搬运任务ji的时间。

10、作为优选，分配动作取值表示为{α11,α12,...,αij,...,αmm}，其中，aij表示将后续搬运任务ji分配给物流机器人rj。

11、作为优选，步骤s2中根据状态确定分配动作，具体包括：

12、响应于确定调度时间小于第二时间，根据ε概率采用随机选择方式生成分配动作；

13、响应于确定调度时间大于或等于第二时间，将状态输入目标值网络，输出新的状态和对应的动作，在目标值网络输出的动作中采用bolzmann探索策略选择出分配动作。

14、作为优选，步骤s2中，回报值采用回报函数进行计算，公式如下：

15、

16、其中，j表示任务集中的所有搬运任务，ti表示后续搬运任务ji的持续时间，包括后续搬运任务ji的等待时间和执行时间。

17、作为优选，步骤s3中选择经验记忆池中的数据对当前值网络进行训练，具体包括，在经验记忆池中采用mini-batch训练方式随机抽取批量样本并使用随机梯度下降法对当前值网络进行训练。

18、作为优选，步骤s3和s4之间还包括：

19、将调度时间增加一个步长，判断增加一个步长后的调度时间是否小于第三时间，若是，则重复执行步骤s1-s3，否则结束训练。

20、第二方面，本专利技术提供了一种基于double dqn的物流机器人集群任务调度装置，包括：

21、状态构建模块，被配置为获取任务集，任务集包括物流机器人的当前搬运任务和后续搬运任务，根据任务集构建状态；

22、动作分配模块，被配置为根据状态确定分配动作，对所有后续搬运任务实施分配动作并执行完成后计算回报值，将状态、分配动作及回报值存入经验记忆池中；

23、网络训练模块，被配置为构建当前值网络和目标值网络，选择经验记忆池中的数据对当前值网络进行训练，得到经训练的当前值网络，间隔第一时间后将经训练的当前值网络的参数拷贝至目标值网络中，对目标值网络的参数进行更新，得到经训练的目标值网络；

24、调度输出模块，被配置为获取待调度任务的状态，将待调度任务的状态输入经训练的目标值网络，得到对应的分配动作。

25、第三方面，本专利技术提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

26、第四方面，本专利技术提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

27、相比于现有技术，本专利技术具有以下有益效果：

28、(1)本专利技术采用端到端的深度强化学习方法double deep q network(ddqn)来实现物流机器人集群调度，借助强化学习的在线学习机制，以试错的方式与环境进行在线交互，通过最大化累积奖赏的方式来获得最优策略。

29、(2)本专利技术，采用mini-batch训练方式对神经网络进行训练，这种方式能够克服样本间的关联性和非平稳分布问题，使样本相互独立，有利于模型更快收敛和提升泛化能力，并且利用深度学习的感知能力追踪环境的动态变化，为强化学习提供可靠的反馈，提高任务调度的准确性。

30、(3)本专利技术采用深度强化学习方法，建立具有在线学习特性、端到端的集群协同调度决策方法，可快速响应突发异常情况。可将ddqn中耗时的训练离线进行，即使针对大规模或突发的调度需求，深度强化学习方法也具有快速的响应能力。

本文档来自技高网...

【技术保护点】

1.一种基于Double DQN的物流机器人集群任务调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Double DQN的物流机器人集群任务调度方法，其特征在于，所述状态采用二维矩阵St∈SM*N＝{sij|sij∈N；i,j∈[1,M]}表示，其中，物流机器人的数量与后续搬运任务的数量均为M，N表示自然数，t表示调度时间，sij表示物流机器人Rj完成当前搬运任务后继续执行和完成后续搬运任务Ji所需的时间，即：

3.根据权利要求1所述的基于Double DQN的物流机器人集群任务调度方法，其特征在于，所述分配动作取值表示为{α11,α12,...,αij,...,αMM}，其中，aij表示将后续搬运任务Ji分配给物流机器人Rj。

4.根据权利要求2所述的基于Double DQN的物流机器人集群任务调度方法，其特征在于，所述步骤S2中根据状态确定分配动作，具体包括：

5.根据权利要求1所述的基于Double DQN的物流机器人集群任务调度方法，其特征在于，所述步骤S2中，所述回报值采用回报函数进行计算，公式如下：p>

6.根据权利要求1所述的基于Double DQN的物流机器人集群任务调度方法，其特征在于，所述步骤S3中选择所述经验记忆池中的数据对所述当前值网络进行训练，具体包括，在所述经验记忆池中采用Mini-batch训练方式随机抽取批量样本并使用随机梯度下降法对所述当前值网络进行训练。

7.根据权利要求1所述的基于Double DQN的物流机器人集群任务调度方法，其特征在于，所述步骤S3和S4之间还包括：

8.一种基于Double DQN的物流机器人集群任务调度装置，其特征在于，包括：

9.一种电子设备，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

...

【技术特征摘要】

1.一种基于double dqn的物流机器人集群任务调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于double dqn的物流机器人集群任务调度方法，其特征在于，所述状态采用二维矩阵st∈sm*n＝{sij|sij∈n；i,j∈[1,m]}表示，其中，物流机器人的数量与后续搬运任务的数量均为m，n表示自然数，t表示调度时间，sij表示物流机器人rj完成当前搬运任务后继续执行和完成后续搬运任务ji所需的时间，即：

3.根据权利要求1所述的基于double dqn的物流机器人集群任务调度方法，其特征在于，所述分配动作取值表示为{α11,α12,...,αij,...,αmm}，其中，aij表示将后续搬运任务ji分配给物流机器人rj。

4.根据权利要求2所述的基于double dqn的物流机器人集群任务调度方法，其特征在于，所述步骤s2中根据状态确定分配动作，具体包括：

...

【专利技术属性】
技术研发人员：赵集民，刘源岗，
申请(专利权)人：厦门博睿智造物联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人