新型集装箱堆场作业模式的自动化双场桥智能调度方法技术

技术编号:38613261 阅读:16 留言:0更新日期:2023-08-26 23:40
本发明专利技术公开了新型集装箱堆场作业模式的自动化双场桥智能调度方法,涉及集装箱调度优化技术领域;包括:获取共享区域作业模式;将集装箱动态调度问题转化为具有马尔科夫性质的离散时间连续决策过程,海、陆侧场桥被定义为两个智能体,集装箱任务及运输车辆被定义为环境,同时分别定义状态空间、动作空间和立即回报;以最小化运输车辆的平均等待时间为优化目标,建立双场桥动态调度MDP模型;通过DANSQ和DADQN两种强化学习算法分别对所述双场桥动态调度MDP模型进行求解;设计增量学习与调度应用框架以提高动态调度精度。本方法提高场桥协同作业效率,以减少运输车辆的等待时间;实现了自动化双场桥的动态协同调度,提高了场桥优化调度精度。化调度精度。化调度精度。

【技术实现步骤摘要】
新型集装箱堆场作业模式的自动化双场桥智能调度方法


[0001]本专利技术涉及集装箱调度优化
,具体涉及新型集装箱堆场作业模式的自动化双场桥智能调度方法。

技术介绍

[0002]海运是经济全球化和国际贸易的主力军,占全球和我国进出口货物的绝大部分。集装箱运输是海运的主要形式之一,集装箱码头是海上运输的重要枢纽。但传统码头存在效率低下、安全隐患和环境污染等问题,已成为全球供应网络的瓶颈。港口运营商需要提高效率和营运效益,以增强竞争力。自动化集装箱码头是一种采用自动化技术和前沿管理方式的码头,其主要特征体现在码头前沿、堆场和闸口三个环节实施自动化作业工艺。堆场作业是集装箱码头装卸效率的关键环节,堆场中场桥的作业效率直接影响岸桥和场桥的效率,因此提高堆场中场桥的作业效率是港口运营商提升服务水平、提高竞争力的重要保障。
[0003]集装箱码头堆场的布局主要有两种配置形式:欧洲布局和亚洲布局。与亚洲布局相比,欧洲布局的优势是可以有效的利用堆场空间、提高场桥和运输车辆的利用率、降低运输车辆的等待时间和行驶路程、降低能耗和排放等,但缺点是调度系统和控制策略更为复杂,因此需要对其进行更为深入的研究。欧洲布局中每个箱区两端分别设置海陆侧交接区,且每个箱区部署两台同轨道的双场桥,两台场桥不能互相穿越且为了安全必须保持最小安全距离。在实际堆场作业过程中,海侧场桥可能需要跨越整个箱区来完成海侧集装箱作业,为了避免两台场桥的相互干扰,陆侧场桥需要避让海侧场桥,甚至极端情况下会退出整个箱区,同理陆侧集装箱任务的作业过程亦是如此,这会导致场桥严重空载,进而影响堆场的装卸作业效率和运营成本。因此需要一种合适的集装箱堆存及双场桥协同合作策略来提高场桥的作业效率。
[0004]传统的调度优化方法通常针对特定时期、特定条件下的作业情况进行优化调度。然而,在实际作业中,由于集装箱船或运输车辆的到达时间可能会受到天气、交通等动态环境下不确定性因素的干扰,导致其到达时间难以预测。如何根据实时情况对双场桥进行动态调度优化,提高堆场的作业效率,是该领域面临的技术挑战。
[0005]欧洲布局下的集装箱码头堆场的双场桥动态调度优化问题,通常采用以下三种方法解决:
[0006](1)常规调度方法:该类方法通常设定特定规则,在场桥完成上一任务后,依据设定的特定规则进行后续的任务选择。目前应用较多的常规调度策略有先到先服务、短作业优先和临近作业等,这些策略不涉及复杂的计算,应用效率较高,但调度效果不是很理想。
[0007](2)数学规划方法:主要包括整数规划、混合整数规划、分支定界算法等,这类方法大多依赖于简单的假设,能够求得最优解,即最优的调度方案。双场桥调度问题是NP完全的,数学规划方法的求解难度与调度问题规模成正比,这使得数学规划方法在实际问题求解中缺乏实时性。而且,数学规划方法往往建立在理想化的假设上,不适合解决实际的调度问题。
[0008](3)启发式方法:启发式方法是一种针对NP问题提出的求解方法。启发式方法与数学规划方法的区别在于,它不追求NP问题的最优解,而是在计算时间和计算精度(调度效果)之间寻找一种平衡,以较小的计算量得到最优解或近似最优解。常用的启发式算法有遗传算法、蚁群算法、粒子群算法等。由于这类方法计算成本小、精度高等,在静态调度问题中被广泛采用。但堆场作业的实际情况非常复杂,经常遇到任务延误、车辆阻塞、外集卡随机抵达等不确定因素。这些因素增加了堆场调度的动态性,使得该类方法难以满足堆场的动态响应需求,限制了其实际应用。

技术实现思路

[0009]本专利技术的目的在于,提出新型集装箱堆场作业模式的自动化双场桥智能调度方法,其设计了一种新型共享区域作业模式,建立了双场桥动态调度模型,并设计了两种智能调度算法对该模型进行优化求解,最后针对两种算法提出了相应的增量学习与调度应用框架,以提高双场桥的动态调度性能。
[0010]为实现上述目的,本申请提出的新型集装箱堆场作业模式的自动化双场桥智能调度方法,包括:
[0011]获取共享区域作业模式;
[0012]基于马尔科夫理论,将集装箱动态调度问题转化为具有马尔科夫性质的离散时间连续决策过程,海、陆侧场桥被定义为两个智能体,集装箱任务及运输车辆被定义为环境,同时分别定义状态空间、动作空间和立即回报;
[0013]以最小化运输车辆的平均等待时间为优化目标,建立双场桥动态调度MDP模型;
[0014]通过DANSQ和DADQN两种强化学习算法分别对所述双场桥动态调度MDP模型进行求解;
[0015]针对DANSQ和DADQN两种强化学习算法,设计增量学习与调度应用框架以提高动态调度精度。
[0016]进一步的,所述共享区域作业模式为:当共享区域容量充足时,陆侧场桥先将集装箱从陆侧交接区放置到共享区域的目标箱位,然后海侧场桥将集装箱从共享区域放置到海侧交接区;当共享区域容量达到某一上限前,采用两种处理方式:1)当目标侧区域容量充足时,目标侧场桥提前将共享区域的集装箱转移到目标侧区域;2)将目标箱位在共享区域的集装箱临时存放在初始侧区域进行过渡,当接收到提货请求或共享区域容量充足时,初始侧区域场桥再将其放置到共享区域,然后目标侧区域场桥将集装箱送至交接区完成取箱作业;当海陆两侧没有新任务到达时,场桥进行集装箱在箱区内不同区域间的转移作业;
[0017]在共享区域作业模式中,对于临时存放在目标侧区域的进、出口集装箱,依据PSCW原则确定临时存放箱位;而对于临时存放在初始侧区域的进、出口集装箱,按照翻箱量和转移距离最小化原则确定临时存放箱位,即选择翻箱量最少的贝位进行临时存放,若多个贝位的翻箱量最少且相等,则优先选择距离共享区域距离最近的贝位进行临时存放。
[0018]进一步的,环境状态特征包括场桥状态特征、箱区状态特征和任务状态特征;所述场桥状态特征通过一个四元组(LA,SA,RS,OI)来描述,其中LA表示陆侧场桥在箱区中的当前位置,SA表示海侧场桥在箱区中的当前位置,RS表示对立侧场桥的工作状态,OI表示对立侧场桥执行的任务信息,所述对立侧场桥执行的任务信息包括集装箱作业性质(存箱、取
箱、装船、卸船)以及目标箱位;箱区状态特征通过一个五元组(B1,B2,B3,B4,B5)来描述,其中B1、B2和B3分别表示陆侧区域、共享区域和海侧区域的容量状态,其取值由式(1)表示,B4和B5为陆侧区域和海侧区域中需要转移到共享区域的集装箱数量;这样,场桥在进行任务决策时依据箱区状态特征进行集装箱在初始侧区域、目标侧区域和共享区域之间的转移:
[0019][0020]其中n
c,i
表示当前箱区内集装箱个数,n
limit,i
表示当前箱区容量上限,ρ为箱区容量占比;
[0021]所述任务状态特征通过一个三元组(TA,JC,TP)来描述,其中TA表示每辆集卡到达时间排名,JC表示集装箱作业性质,TP表示集装箱的目标箱位;
[0022]则状态空间中的每个状态由下式表示:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特征在于,包括:获取共享区域作业模式;基于马尔科夫理论,将集装箱动态调度问题转化为具有马尔科夫性质的离散时间连续决策过程,海、陆侧场桥被定义为两个智能体,集装箱任务及运输车辆被定义为环境,同时分别定义状态空间、动作空间和立即回报;以最小化运输车辆的平均等待时间为优化目标,建立双场桥动态调度MDP模型;通过DANSQ和DADQN两种强化学习算法分别对所述双场桥动态调度MDP模型进行求解;针对DANSQ和DADQN两种强化学习算法,设计增量学习与调度应用框架。2.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特征在于,所述共享区域作业模式为:当共享区域容量充足时,陆侧场桥先将集装箱从陆侧交接区放置到共享区域的目标箱位,然后海侧场桥将集装箱从共享区域放置到海侧交接区;当共享区域容量达到某一上限前,采用两种处理方式:1)当目标侧区域容量充足时,目标侧场桥提前将共享区域的集装箱转移到目标侧区域;2)将目标箱位在共享区域的集装箱临时存放在初始侧区域进行过渡,当接收到提货请求或共享区域容量充足时,初始侧区域场桥再将其放置到共享区域,然后目标侧区域场桥将集装箱送至交接区完成取箱作业;当海陆两侧没有新任务到达时,场桥进行集装箱在箱区内不同区域间的转移作业;在共享区域作业模式中,对于临时存放在目标侧区域的进、出口集装箱,依据PSCW原则确定临时存放箱位;而对于临时存放在初始侧区域的进、出口集装箱,按照翻箱量和转移距离最小化原则确定临时存放箱位,即选择翻箱量最少的贝位进行临时存放,若多个贝位的翻箱量最少且相等,则优先选择距离共享区域距离最近的贝位进行临时存放。3.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特征在于,环境状态特征包括场桥状态特征、箱区状态特征和任务状态特征;所述场桥状态特征通过一个四元组(LA,SA,RS,OI)来描述,其中LA表示陆侧场桥在箱区中的当前位置,SA表示海侧场桥在箱区中的当前位置,RS表示对立侧场桥的工作状态,OI表示对立侧场桥执行的任务信息,所述对立侧场桥执行的任务信息包括集装箱作业性质以及目标箱位;箱区状态特征通过一个五元组(B1,B2,B3,B4,B5)来描述,其中B1、B2和B3分别表示陆侧区域、共享区域和海侧区域的容量状态,其取值由式(1)表示,B4和B5为陆侧区域和海侧区域中需要转移到共享区域的集装箱数量;这样,场桥在进行任务决策时依据箱区状态特征进行集装箱在初始侧区域、目标侧区域和共享区域之间的转移:其中n
c,i
表示当前箱区内集装箱个数,n
limit,i
表示当前箱区容量上限,ρ为箱区容量占比;所述任务状态特征通过一个三元组(TA,JC,TP)来描述,其中TA表示每辆集卡到达时间排名,JC表示集装箱作业性质,TP表示集装箱的目标箱位;则状态空间中的每个状态由下式表示:s={LA,SA,RS,OI,B1,B2,B3,B4,B5,TA1,JC1,TP1,...,TA
c
,JC
c
,TP
c
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中c表示交接区的容量。4.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特
征在于,环境动作表示为40个组合启发式动作策略和4个箱区内不同区域间的转移动作策略,其中40个组合启发式动作策略如表1和表2所示,4个箱区间的转移动作策略分别为:按照最早装船(海侧)或提箱(陆侧)原则将集装箱从初始侧区域转移至共享区域,用OTST表示此动作;按照最早装船(海侧)或提箱(陆侧)原则将集装箱从共享区域转移至目标侧区域,用STDT表示此动作;按照最少翻箱量原则将集装箱从初始侧区域转移至共享区域,用OTSH表示此动作;按照最少翻箱量原则将集装箱从共享区域转移至目标侧区域,用STDH表示此动作;因此动作空间表示为:A={a1=1,a2=2,...,a
42
=42,a
43
=43,a
44
=44}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)表1子动作信息及符号表2组合动作及编码5.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特征在于,立即回报函数为:
其中n
v
为当前任务完成时当前侧(海侧或陆侧)交接区中等待的运输车辆的数量;Δ为常正整数;其中t
max
为当前任务序列中单个运输车辆的最长等待时间。6.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特征在于,DANSQ强化学习算法为:采用式(5)对状态空间进行压缩,即每β个连续位置与该区间内的中间位置建立映射关系:其中s
p
是近邻映射后的位置;N
p
是真实的位置;β是近邻因子;[x]表示对x进行取整操作;DANSQ强化学习算法通过增加一个临时变量来记录各个智能体之间的学习经验并考虑各个智能体间的相互影响,该临时变量称为经验共享Q值,由式(6)表示:其中Q
s
(s,a
*
)为状态s下的经验共享Q值,m为智能体的个数,m=2;故各个智能体间相互影响的第i个智能体Q值更新如式(7)所示:其中ζ为经验共享因子,表示智能体在更新Q值时考虑自身Q值和另一个智能体Q值的比重,用于控制各个智能体之间Q值的平衡;ζ的取值范围为0到1。7.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特征在于,DADQN强化学习算法为:DADQN强化学习算法采用的网络包括输入层、隐含层、共享层和输出层;所述输入层有|s|个神经元,其中s的数学描述如式(2)所示,输出层有|A|个神经元,其中A的数学描述如式(3)所示,该层采用Linear激活函数,隐含层为全连接网络,该层采用ReLU激活函数,共享层分为价值流和优势流两部分,这两个流通过一个聚合层进行组合,以产生Q值的估计值;所述价值流表示在给定状态下采取任何动作的预期立即回报,即所有动作的平均立即回报;价值流仅与当前状态有关,而与采取的动作无关;所述优势流表示采取某个动作相对于采取其它动作的优势,仅与当前采取的动作有关,而与当前状态无关;Q值为当前状态价值V(s;θ)和动作优势价值A(s,a;θ)的和,用式(8)表示:DADQN强化学习算法更新的误差函数如式(9)所示:其中θ和θ

分别是Q值网络和目标网络的权重系数,α为学习率。
8.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法,其特征在于,通过DANSQ和DADQN两种强化学习算法训练双场桥动态调度MDP模型学习阶段,采用式(10)对探索率及学习率进行衰减:其中φ表示学习率或探索率;φ0表示学习率或探索率的初值;φ
min
表示衰减后学习率或探索率的最小值;B是衰减系数,决定衰减的快慢;N是当前训练轮数;N
max
是训练的最大轮数;其中DANSQ强化学习算法训练双场桥动态调度MDP模型学习阶...

【专利技术属性】
技术研发人员:周鹏飞张全昊
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1