【技术实现步骤摘要】
一种基于深度强化学习的自动化码头协同调度方法
[0001]本专利技术涉及港口调度领域,尤其涉及一种基于深度强化学习的自动化码头协同调度方法。
技术介绍
[0002]随着近年来港口贸易的快速发展,自动化集装箱码头逐渐成为重要的交通枢纽,岸桥、ART和场桥协同配合完成集装箱装卸任务,自动化码头的装卸效率主要受这3种设备联合调度的影响,因此对这3种设备协调调度的优化研究具有重要意义。
[0003]集装箱在岸桥、ART和场桥之间的作业过程可以视作一个混合流水车间调度问题,流水车间调度问题是一种典型的NP
‑
Hard问题,目前针对流水车间调度问题传统的求解方法有精确算法和近似算法,其中近似算法又分为启发式算法和元启发式算法。传统的求解方法存在许多局限性:精确算法只适用于小规模问题的求解,实用性较差;传统的启发式和与元启发式方法虽然能够在较短时间内求得问题的近似最优解,但其所产生的调度结果是针对静态的生产环境,不能较好的适用于现实中动态的生产环境,比如机器故障等紧急情况。
[0004]近年来,随着机器学 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的自动化码头协同调度方法,其特征在于,该方法包括以下步骤:步骤1、将自动化集装箱码头岸桥、ART与场桥协同作业过程建模为一个三阶段的带不相关并行机的混合流水车间调度模型;步骤2、将混合流水车间调度模型建模为多agent的马尔科夫决策过程;步骤3、初始化经验池D和其容量N,初始化critic网络参数与actor网络参数初始化环境得到最初状态S0,初始化动作空间;步骤4、根据ε
‑
greedy策略,以ε概率随机选择一个动作a
t
,执行相应调度作业,得到当前状态s
t
,更新对应状态矩阵,观察即时奖励r
t
,感知下一状态s
t+1
;步骤5、将序列(s
t
,a
t
,r
t
,s
t+1
)存入经验池D中,作为训练当前网络的数据集;步骤6、训练critic当前网络与actor当前网络,更新当前网络的参数和使用soft方法更新critic目标网络与actor目标网络的参数和直至达到设定的迭代次数;步骤7、所有作业完成后,计算最大完工时间C
max
,生成最优调度计划。2.根据权利要求1所述的基于深度强化学习的自动化码头协同调度方法,其特征在于,所述步骤1中混合流水车间调度模型具体为:将集装箱视为工件,依次通过3个阶段加工作业:第一阶段为码头前沿阶段,并行机为岸桥;第二阶段为水平运输阶段,并行机为ART;第三阶段为堆场卸货阶段,并行机为场桥。3.根据权利要求1所述的基于深度强化学习的自动化码头协同调度方法,其特征在于,所述步骤2中马尔科夫决策过程具体为:智能体:将每台设备作为一个智能体,设备包括岸桥、ART和场桥,一共有m台设备则对应m个智能体;状态空间:将状态特征表示为三个矩阵,分别是由每道工序的加工时间所组成的加工时间矩阵T、由当前装卸设备作业状所组成的设备操作矩阵M和由每个作业完成状态所组成的作业完成矩阵;动作空间:将动作空间按阶段特性分为2类,第一类为启发式Johnson规则,对应岸桥卸货阶段的并行机和堆场卸货阶段的并行机;第二类对应ART运输阶段,包括5条启发式优先级规则:先到先加工原则、优先选择加工时间最短的工件、优先选择剩余加工时间最短的工件、优先选择工序时间与总加工时间比值最小的工件、优先选择除当前工序外所剩加工时间最短的工件;奖励函数:调度目标是使最大完工时间最小,由于生产周期为加工时间的总和,因此,将即时奖励r定义为:r
k
=λt
p
,其中,λ为[0,1]之间的常数,t
p
为每台机器的加工时间;将长远奖励设置为为其中,γ为一个[0,1]之间的数,C
opt
为最优调度结果,C
max
为预测的最大完工时间。4.根据权利要求1所述的基于深度强化学习的自动化码头协同调度方法,其特征在于,所述步骤1中的三阶段的带不相关并行机的混合流水车间调度模型具体为:
步骤11、通过对实际场景的简化,对模型做如下假设:(1)岸桥和场桥的作业是以贝位为单位的,在岸桥/场桥对某一个贝位卸货处理完成之前,不会移动到下一个贝位;(2)由于各阶段设备的准备时间较长,包括岸桥/场桥移动时间、ART掉头和避让时间,所以计算总完工时间时应当考虑设备准备时间;(3)不考虑设备故障情况,不考虑翻箱时间;步骤12、数学模型如下:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:约束条件s.t.为:其中,公式(1)为目标函数,表示使最大完工时间最短;公式(2)表示每一个贝位在每个阶段有且仅有一台设备服务;公式(3)表示保证每一个正在被服务的贝位有且仅有一个贝位在其之前和之后;公式(4)表示阶段1中的作业由优先级Φ约束,作业i在作业j之后完成;公式(5)表示阶段2和阶段3中,贝位j开始被服务的时间;公式(6)表示阶段1中每个任务的开始时间;公式(7)表示阶段1中每个任务的结束时间;公式(8)表示每台岸桥开始作业的最早时间;公式(9)表示任一作业贝位必须被前一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。