一种集装箱区垂直布置的双自动化场桥动态调度方法技术

技术编号:27537121 阅读:117 留言:0更新日期:2021-03-03 11:25
本发明专利技术公开了一种集装箱区垂直布置的双自动化场桥动态调度方法,将箱区垂直岸线布置的堆场双自动化场桥的作业调度问题转化为可执行新任务的场桥的任务指派问题,分别针对海、陆侧场桥构建基于深度强化学习的场桥调度智能体。场桥调度Agent的基本思路是:将强化学习与深度学习结合,利用深度学习的深度置信网络代替强化学习的状态

【技术实现步骤摘要】
一种集装箱区垂直布置的双自动化场桥动态调度方法


[0001]本专利技术涉及一种场桥调度方法,具体涉及一种集装箱区垂直布置的双自动化场桥动态调度方法。

技术介绍

[0002]随着国际经济一体化进程的不断推进,各国之间的贸易往来变得愈来愈频繁,港口货物吞吐量也与日俱增。与此同时,为满足更大的货物承运需求,集装箱船舶不断向大型化方向发展,近年来已经有多艘2万标准箱以上的集装箱船舶投入使用。在海运货物吞吐量与日俱增以及船舶大型化的双重趋势下,提升港口码头的作业效率和服务水平以匹配各方需求已经成为了亟需解决的重要问题。堆场作为码头作业的核心区域,是提升码头整体作业效率重要的瓶颈环节。实现码头堆场作业设备的优化调度,对加速车船周转、降低运营成本、提升码头整体运营能力具有十分重要的作用。
[0003]自动化集装箱码头堆场可采用垂直岸线或平行岸线布置两种形式,其中垂直岸线布置形式具有水平运输车辆搬运箱距离短,容易实现自动化与非自动化作业区分离等优点,近年来被广泛采用。垂直布置的集装箱堆场箱区的海、陆两端分别设置海、陆侧集装箱交接点,堆场自身以物理隔离的形式将两侧的车辆分流。每个箱区内通常布置两台不可穿越的自动化龙门起重机,分别负责海陆两侧各自的作业任务。两台场桥需保证一定的安全作业距离。场桥作业过程中存在多种动态不确定性因素,比如车辆到达的动态不确定性等。如何适应场桥作业的动态不确定环境,对场桥进行动态优化调度,以提升堆场作业效率,是该领域的技术难点问题。
[0004]深度强化学习算法是一种新型的智能算法,解决了传统强化学习算法受状态动作维度限制而难以应对复杂环境的问题。它利用深度学习网络强大的非线性拟合能力逼近状态-动作价值函数,通过强化学习思想与动态环境的不断交互学习以实现优化决策,是解决大规模的动态决策问题的有效方式,目前已经在梯控管理、流水车间调度、微电网储能调度等诸多领域得到了成功应用。目前解决集装箱码头堆场箱区垂直岸线布置的自动化场桥调度问题主要通过以下三种方式:
[0005](1)基于运筹学和智能算法的离线调度。该类方法通常假定作业任务的信息已知且通常是静态的,依据堆场实际作业过程的约束条件建立数学模型,并通过遗传算法、模拟退火算法、蚁群算法等进行数学模型的求解,得到固定任务序列的优化排序;该类方法针对静态问题的求解精度相对较高,但计算时间通常较长。该类方法属于离线调度范畴。
[0006](2)基于启发式规则的在线调度。该类方法通常设定启发式规则进行动态的场桥调度,在场桥完成上一任务后,依据设定的启发式策略进行后续的任务选择。常见的调度策略有:最近策略、先到先服务策略、最短时间策略、最小翻箱量策略以及组合策略等。通过设定的启发式规则动态地确定场桥下一作业任务。该类方法属于在线调度范畴。
[0007](3)基于贪婪算法和近似改进算法的滚动调度。该类方法通过拆分决策过程或引入滚动时间窗来缩小调度任务的搜索空间,借助贪婪性搜索算法或改进遗传算法等进行求
解。该类方法能够在可接受的时间内获得调度解,并随着时间的推移,滚动更新后续时间窗内的作业调度解。该类方法可以依据动态环境变化进行多次重调度,能够在一定程度上适应场桥调度的动态不确定因素变化。
[0008]对于基于运筹学和诸多智能算法的离线调度方法,通常假设任务序列已知并在此基础上求解最优解或近似最优解,求解精度通常较高。但是,该类方法的求解是基于确定的任务序列等静态条件假设,而实际堆场作业中经常需要面对任务延误、车辆阻塞、外集卡随机抵达等不确定因素的干扰,具有显著的动态性,该类方法难于适应堆场调度的动态响应需求,实际应用受到很大限制。对于基于启发式规则的在线调度,通常计算量较小,调度系统可以针对实时信息,依据预先设定的规则选择动作,响应实时动态任务需求和环境变化。但是,该类方法需要基于先验的调度知识经验进行启发式规则和策略的设计,调度效果很大程度上取决于先验知识经验,人为因素影响大;并且由于堆场双场桥协同调度问题涉及任务次序、场桥协同作业等多种复杂因素,启发式规则设计难度大,该类方法调度精度通常较低。对于基于贪婪算法和近似改进算法的滚动调度,引入滚动调度的思想,可响应堆场双场桥作业的动态不确定调度环境,但是该方法属于局部近似最优调度,并且该方法每次滚动都需要舍弃上一滚动求解的非执行窗口部分方案,影响实际优化调度效果;此外,滚动周期也需要考虑计算消耗,不能过于频繁,不利于动态因素响应。

技术实现思路

[0009]为解决动态环境下垂直岸线式布局的码头堆场双自动化场桥的动态调度问题,本申请通过双自动化场桥动态调度的自适应学习方法实现智能调度,提高堆场自动化场桥的作业效率,减少作业任务等待时间。
[0010]为实现上述目的,本申请的技术方案为:一种集装箱区垂直布置的双自动化场桥动态调度方法,在训练学习阶段包括场桥调度Agent的深度置信神经网络DBN无监督学习步骤、场桥调度Agent的深度置信神经网络DBN有监督学习步骤;在自适应调度应用阶段包括场桥调度Agent的动作选择与自适应学习步骤。
[0011]所述场桥调度Agent的深度置信神经网络DBN无监督学习步骤,包括:
[0012]基于集装箱码头实际作业记录数据,获得无监督训练样本集J1,所述样本集J1由场桥调度Agent的环境状态向量<s>组成;
[0013]构建场桥调度Agent的深度置信神经网络DBN;
[0014]利用样本集J1无监督训练DBN的第1层受限玻尔兹曼机RBM网络参数θ1;
[0015]利用训练后的RBM网络生成下一层RBM网络训练样本集J
i+1
,并对下一层RBM网络参数进行无监督训练,直至DBN所有隐含层RBM网络无监督训练完毕。
[0016]所述场桥调度Agent的深度置信神经网络DBN有监督学习步骤,包括:
[0017]将无监督训练后的DBN复制两份,分别称为动作DBN和目标DBN,其网络参数向量分别表示为θ和θ';动作DBN用于训练场桥调度Agent动作的选择,其网络参数θ根据小批量训练样本进行学习更新;目标DBN用于存储之前的学习参数并生成动作DBN训练样本标签值,其网络参数θ'根据动作DBN的参数θ进行柔性更新;
[0018]DBN有监督学习初始时,其经验回放样本池为空,场桥调度Agent依据动作探索利用策略选择当前场桥作业环境状态s下的动作a
+

[0019]依据场桥执行动作a
+
后环境返回的立即回报r和下一环境状态s'计算获得样本标签值q
a
,并构造有监督学习样本<s,a
+
,q
a
>;
[0020]若有监督经验回放样本池中的样本量小于容量上限,则将学习样本<s,a
+
,q
a
>加入样本池;否则,用学习样本<s,a
+...

【技术保护点】

【技术特征摘要】
1.一种集装箱区垂直布置的双自动化场桥动态调度方法,其特征在于,在训练学习阶段包括场桥调度Agent的深度置信神经网络DBN无监督学习步骤、场桥调度Agent的深度置信神经网络DBN有监督学习步骤;在自适应调度应用阶段包括场桥调度Agent的动作选择与自适应学习步骤;所述场桥调度Agent的深度置信神经网络DBN无监督学习步骤,包括:基于集装箱码头实际作业记录数据,获得无监督训练样本集J1,所述样本集J1包括场桥调度Agent的环境状态向量<s>;构建场桥调度Agent的深度置信神经网络DBN;利用样本集J1无监督训练DBN的第1层受限玻尔兹曼机RBM网络参数θ1;利用训练后的RBM网络生成下一层RBM网络训练样本集J
i+1
,并对下一层RBM网络参数进行无监督训练,直至DBN所有隐含层无监督训练完毕;所述场桥调度Agent的深度置信神经网络DBN有监督学习步骤,包括:将无监督训练后的DBN复制两份,分别称为动作DBN和目标DBN,其网络参数向量分别表示为θ和θ';动作DBN用于训练场桥调度Agent动作的选择,其网络参数θ根据小批量训练样本进行学习更新;目标DBN用于存储之前的学习参数并生成动作DBN训练样本标签值,其网络参数θ'根据动作DBN的参数θ进行柔性更新;DBN有监督学习初始时,其经验回放样本池为空,场桥调度Agent依据动作探索利用策略选择当前场桥作业环境状态s下的动作a
+
;依据场桥执行动作a
+
后环境返回的立即回报r和下一环境状态s'计算获得q
a
,并构造有监督学习样本<s,a
+
,q
a
>;若有监督经验回放样本池中的样本量小于容量上限,则将学习样本<s,a
+
,q
a
>加入样本池;否则,用学习样本<s,a
+
,q
a
>随机替换样本池中的一个旧样本;重复进行有监督学习,直至满足动作DBN更新条件;从经验回放样本池中随机选取小批量学习样本<s,a
+
,q
a
>,依据损失函数计算小批量样本集的误差损失值,并利用梯度下降法反向更新动作DBN的网络参数θ;用动作DBN的网络参数θ更新目标DBN网络参数θ';重复进行有监督学习,直至满足迭代次数要求;所述场桥调度Agent的动作选择与自适应学习步骤,包括:经过训练的场桥调度Agent接收到环境发来的场桥动作指令请求,场桥调度Agent依据最优动作选择策略和当前场桥的环境状态s选择最优的场桥动作a
*
;依据执行场桥动作a
*
后环境返回的立即回报r和场桥的下一环境状态s'计算获取q
a
,并构造场桥调度Agent有监督学习样本<s,a
*
,q
a
>;根据损失函数获取当前样本的误差损失值,并利用梯度下降算法反向更新场桥调度Agent动作DBN的网络参数θ;场桥调度Agent的动作DBN网络参数θ每更新一定次数后,利用所述动作DBN网络参数θ更新一次目标DBN网络参数θ'。2.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法,其特征在于,环境状态特征变量包括:堆取箱任务相关和场桥相关的两类特征量;所述堆取箱任务相关的状态特征量包括:任务类型特征量x1,任务到达时刻特征量x2,堆取箱目标位置特征
量x3,关联翻箱特征量x4;场桥相关的状态特征量包括:场桥当前位置特征量y1,对侧场桥当前位置特征量y2,对侧场桥目标位置特征量y3;所述环境状态特征变量具体描述如下:任务类型特征量x1,表示任务类型,取箱时为0,堆箱时为1;任务到达时刻特征量x2,表示待装卸任务车辆到达堆场交接区,等待装卸的开始时刻特征;其取值公式为:其中I-和I
+
为度量参数;堆取箱目标位置特征量x3,表示场桥堆取目标箱所在的位置,陆侧场桥Agent的特征量x3的取值为目标箱所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数;海侧场桥Agent的特征量x3的取值为目标箱所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数;关联翻箱特征量x4,表示堆取箱任务执行所关联的翻箱量特征,指提取任务目标箱时所需要翻倒的阻碍箱的箱量,取值集合为{0,1/4,1/2,3/4,1},其值依次表示:不需要翻箱、需要1个翻箱、2个翻箱、3个翻箱、4个及以上翻箱;场桥当前位置特征量y1,表示当前场桥自身所在位置,陆侧场桥Agent的特征量y1的取值为陆侧场桥所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数;海侧场桥Agent的特征量y1的取值为海侧场桥所在贝位与海侧交接区之间的贝位数比上箱区总的...

【专利技术属性】
技术研发人员:周鹏飞高雪峰
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1