【技术实现步骤摘要】
一种集装箱区垂直布置的双自动化场桥动态调度方法
[0001]本专利技术涉及一种场桥调度方法,具体涉及一种集装箱区垂直布置的双自动化场桥动态调度方法。
技术介绍
[0002]随着国际经济一体化进程的不断推进,各国之间的贸易往来变得愈来愈频繁,港口货物吞吐量也与日俱增。与此同时,为满足更大的货物承运需求,集装箱船舶不断向大型化方向发展,近年来已经有多艘2万标准箱以上的集装箱船舶投入使用。在海运货物吞吐量与日俱增以及船舶大型化的双重趋势下,提升港口码头的作业效率和服务水平以匹配各方需求已经成为了亟需解决的重要问题。堆场作为码头作业的核心区域,是提升码头整体作业效率重要的瓶颈环节。实现码头堆场作业设备的优化调度,对加速车船周转、降低运营成本、提升码头整体运营能力具有十分重要的作用。
[0003]自动化集装箱码头堆场可采用垂直岸线或平行岸线布置两种形式,其中垂直岸线布置形式具有水平运输车辆搬运箱距离短,容易实现自动化与非自动化作业区分离等优点,近年来被广泛采用。垂直布置的集装箱堆场箱区的海、陆两端分别设置海、陆侧集装箱交接点,堆场自身以物理隔离的形式将两侧的车辆分流。每个箱区内通常布置两台不可穿越的自动化龙门起重机,分别负责海陆两侧各自的作业任务。两台场桥需保证一定的安全作业距离。场桥作业过程中存在多种动态不确定性因素,比如车辆到达的动态不确定性等。如何适应场桥作业的动态不确定环境,对场桥进行动态优化调度,以提升堆场作业效率,是该领域的技术难点问题。
[0004]深度强化学习算法是一种新型的智能算法,解决了传统
【技术保护点】
【技术特征摘要】
1.一种集装箱区垂直布置的双自动化场桥动态调度方法,其特征在于,在训练学习阶段包括场桥调度Agent的深度置信神经网络DBN无监督学习步骤、场桥调度Agent的深度置信神经网络DBN有监督学习步骤;在自适应调度应用阶段包括场桥调度Agent的动作选择与自适应学习步骤;所述场桥调度Agent的深度置信神经网络DBN无监督学习步骤,包括:基于集装箱码头实际作业记录数据,获得无监督训练样本集J1,所述样本集J1包括场桥调度Agent的环境状态向量<s>;构建场桥调度Agent的深度置信神经网络DBN;利用样本集J1无监督训练DBN的第1层受限玻尔兹曼机RBM网络参数θ1;利用训练后的RBM网络生成下一层RBM网络训练样本集J
i+1
,并对下一层RBM网络参数进行无监督训练,直至DBN所有隐含层无监督训练完毕;所述场桥调度Agent的深度置信神经网络DBN有监督学习步骤,包括:将无监督训练后的DBN复制两份,分别称为动作DBN和目标DBN,其网络参数向量分别表示为θ和θ';动作DBN用于训练场桥调度Agent动作的选择,其网络参数θ根据小批量训练样本进行学习更新;目标DBN用于存储之前的学习参数并生成动作DBN训练样本标签值,其网络参数θ'根据动作DBN的参数θ进行柔性更新;DBN有监督学习初始时,其经验回放样本池为空,场桥调度Agent依据动作探索利用策略选择当前场桥作业环境状态s下的动作a
+
;依据场桥执行动作a
+
后环境返回的立即回报r和下一环境状态s'计算获得q
a
,并构造有监督学习样本<s,a
+
,q
a
>;若有监督经验回放样本池中的样本量小于容量上限,则将学习样本<s,a
+
,q
a
>加入样本池;否则,用学习样本<s,a
+
,q
a
>随机替换样本池中的一个旧样本;重复进行有监督学习,直至满足动作DBN更新条件;从经验回放样本池中随机选取小批量学习样本<s,a
+
,q
a
>,依据损失函数计算小批量样本集的误差损失值,并利用梯度下降法反向更新动作DBN的网络参数θ;用动作DBN的网络参数θ更新目标DBN网络参数θ';重复进行有监督学习,直至满足迭代次数要求;所述场桥调度Agent的动作选择与自适应学习步骤,包括:经过训练的场桥调度Agent接收到环境发来的场桥动作指令请求,场桥调度Agent依据最优动作选择策略和当前场桥的环境状态s选择最优的场桥动作a
*
;依据执行场桥动作a
*
后环境返回的立即回报r和场桥的下一环境状态s'计算获取q
a
,并构造场桥调度Agent有监督学习样本<s,a
*
,q
a
>;根据损失函数获取当前样本的误差损失值,并利用梯度下降算法反向更新场桥调度Agent动作DBN的网络参数θ;场桥调度Agent的动作DBN网络参数θ每更新一定次数后,利用所述动作DBN网络参数θ更新一次目标DBN网络参数θ'。2.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法,其特征在于,环境状态特征变量包括:堆取箱任务相关和场桥相关的两类特征量;所述堆取箱任务相关的状态特征量包括:任务类型特征量x1,任务到达时刻特征量x2,堆取箱目标位置特征
量x3,关联翻箱特征量x4;场桥相关的状态特征量包括:场桥当前位置特征量y1,对侧场桥当前位置特征量y2,对侧场桥目标位置特征量y3;所述环境状态特征变量具体描述如下:任务类型特征量x1,表示任务类型,取箱时为0,堆箱时为1;任务到达时刻特征量x2,表示待装卸任务车辆到达堆场交接区,等待装卸的开始时刻特征;其取值公式为:其中I-和I
+
为度量参数;堆取箱目标位置特征量x3,表示场桥堆取目标箱所在的位置,陆侧场桥Agent的特征量x3的取值为目标箱所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数;海侧场桥Agent的特征量x3的取值为目标箱所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数;关联翻箱特征量x4,表示堆取箱任务执行所关联的翻箱量特征,指提取任务目标箱时所需要翻倒的阻碍箱的箱量,取值集合为{0,1/4,1/2,3/4,1},其值依次表示:不需要翻箱、需要1个翻箱、2个翻箱、3个翻箱、4个及以上翻箱;场桥当前位置特征量y1,表示当前场桥自身所在位置,陆侧场桥Agent的特征量y1的取值为陆侧场桥所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数;海侧场桥Agent的特征量y1的取值为海侧场桥所在贝位与海侧交接区之间的贝位数比上箱区总的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。