当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于深度强化学习的货箱堆叠优化方法技术

技术编号:33635514 阅读:19 留言:0更新日期:2022-06-02 01:47
本发明专利技术公开了一种基于深度强化学习的货箱堆叠优化方法,包括如下步骤:根据货箱堆叠顺序及提箱优先级,设计m个环境状态变量来代表每个栈的堆存状态,再根据当前步骤使用的n个栈状态及其待堆叠的货箱状态,计算得到当前时刻的状态矩阵S;通过设计特征提取网络,进一步提取状态矩阵S中的特征,得到特征矩阵T;将特征矩阵T作为堆叠决策网络的输入数据,输出为各个栈的概率分布,进而选择一个栈堆叠货箱;使用深度强化学习算法进行特征提取网络和堆叠决策网络的训练,训练时采用决策评价网络对输出进行评价,优化堆叠决策并更新参数。本发明专利技术所公开的方法能够适应货箱数和栈最高堆叠层数发生变化的情况,以达到提高货箱堆叠和提取效率的目的。提取效率的目的。提取效率的目的。

【技术实现步骤摘要】
一种基于深度强化学习的货箱堆叠优化方法


[0001]本专利技术涉及货箱堆叠
,特别涉及一种基于深度强化学习的货箱堆叠优化方法。

技术介绍

[0002]货箱堆叠问题,是一个在物流中有广泛应用的基本决策问题,在港口堆场以及仓库等存储系统中经常可见。一般来说,货箱的存储顺序和提箱顺序并非存在完全的联系,后被提取的货箱最好不要堆在先被提取的货箱之上,同时存在使用栈数和栈最高堆叠层数的限制,因此若采用随机堆叠的方式,会造成大量的无序堆叠,为提箱造成麻烦。若对同时提取的货箱堆叠在一起,即使用专用堆叠,也会造成存储空间的浪费。因此,需要一种优化方法实现高效的货箱堆叠,提高效率。
[0003]针对此货箱堆叠优化问题的求解,目前有多种方法,比如精确求解方法、堆叠规则、启发式方法和元启发式方法等。精确求解方法,主要通过CPLEX等商用求解软件对建立的数学模型进行求解,此方法受限于模型的复杂度,一般只在小规模问题上使用。堆叠规则的制定,需要一定的专业知识和经验,且不同的规则适用于不同的问题,难以找到一个普适的规则。启发式方法的求解易陷入局部最优解,而元本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的货箱堆叠优化方法,其特征在于,包括如下步骤:步骤一,状态获取:根据货箱堆叠顺序及提箱优先级,设计m个环境状态变量来代表每个栈的堆存状态,再根据当前步骤使用的n个栈状态及其待堆叠的货箱状态,计算得到当前时刻的n
×
m维状态矩阵S,并将其传递给特征提取网络;步骤二,特征提取:通过设计特征提取网络,提取状态矩阵S中适合于堆叠决策网络决策的特征,得到n
×
p维的特征矩阵T,并将其传递给堆叠决策网络;步骤三,堆叠决策:首先设计堆叠决策网络的结构,然后再将特征矩阵T作为堆叠决策网络的输入数据,输出为各个栈的概率分布,进而选择一个栈堆叠货箱;步骤四,堆叠策略训练:使用深度强化学习算法进行特征提取网络和堆叠决策网络的训练,采用决策评价网络对特征提取网络和堆叠决策网络的输出进行评价,优化堆叠决策并更新特征提取网络和堆叠决策网络的参数,通过训练后的特征提取网络和堆叠决策网络进行特征提取和堆叠决策。2.根据权利要求1所述的一种基于深度强化学习的货箱堆叠优化方法,其特征在于,步骤一中,环境状态变量的个数m=6,具体包括如下:(1)栈中已堆叠货箱数占最高堆叠层数的百分比;(2)下一个要堆放的货箱优先级;(3)待堆叠货箱中的最高优先级;(4)栈优先级,等于栈最顶部货箱的优先级;(5)待堆叠货箱中优先级高于栈优先级的个数;(6)栈中货箱的无序堆叠数。3.根据权利要求1所述的一种基于深度强化学习的货箱堆叠优化方法,其特征在于,步骤二中,特征提取网络为基于自注意力机制的特征提取网络,将状态矩阵S进行变换得到特征矩阵T的计算公式如下:Q=S
×
W
q
,K=S
×
W
k
,V=S
×
W
v
其中,T为特征矩阵,Attention表示自注意力机制层,SoftMax为激活函数,Q、K和V分别是状态矩阵S通过不同的权重矩阵变换得到的矩阵;和分别是用于生成Q、K和V的权重矩阵,均为可学习的参数;d
q
,d
k
和d
v
分别表示权重矩阵W
q
、W
k
和W
v
中最后一维的维度大小。4.根据权利要求1所述的一种基于深度强化学习的货箱堆叠优化方法,其特征在于,...

【专利技术属性】
技术研发人员:李歧强段振堂宋文
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1