当前位置: 首页 > 专利查询>山东大学专利>正文

基于深度强化学习的机械臂装箱与倒库协同方法及系统技术方案

技术编号:35487046 阅读:24 留言:0更新日期:2022-11-05 16:40
本发明专利技术提供了基于深度强化学习的机械臂装箱与倒库协同方法及系统,属于物流自动化技术领域;本发明专利技术通过装箱与倒库网络(PUN)来学习装箱动作和倒库动作间的协同作用,提高了装箱精度和效率;本发明专利技术基于人类经验提出装箱启发式和倒库启发式,并将其结合到PUN中,进一步提高了装箱精度和效率。提高了装箱精度和效率。提高了装箱精度和效率。

【技术实现步骤摘要】
基于深度强化学习的机械臂装箱与倒库协同方法及系统


[0001]本专利技术涉及物流自动化
,特别涉及一种基于深度强化学习的机械 臂装箱与倒库协同方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
,并不必然构成现有 技术。
[0003]随着电子商务和快递行业的飞速发展,建立智能化的仓储物流系统成为了 一个新兴的研究热点。在典型的物流装箱场景中,装箱工人从传送带上一件一 件的挑选物品,然后将其打包至不同的产品箱中建立产品订单,同时要充分利 用每个产品箱内的空间,尽可能的减少产品箱内的体积浪费。为了解决这一任 务,大多数研究人员将其表述为在线三维装箱问题(3D

BPP),并提出了许多 装箱算法。该问题旨在仅观察当前要装箱的物品的情况下,将一组物品装入尽 可能少的三维箱子中。3D

BPP作为一个经典的NP

hard组合优化问题,在一次 只能获取一个物体信息的情况下,找到最优的装箱策略十分不容易。
[0004]早期的解决方法主要是启发式装箱算法,这种算法本质上是将人类工人的 装箱经验建模为规则作为装箱策略,虽然这是解决装箱任务的一种直观方式, 通常可以保持良好的工作效率,但建模出的经验规则并不具有普适性,在没有 学习过程的情况下,启发式算法不太可能在各种场景中都找到最佳装箱策略。 受深度强化学习(DRL)最新进展的启发,研究人员试图通过DRL来解决装箱 问题,他们将该问题定义为一个马尔可夫决策过程,通过与环境的不断交互试 错获得奖励来学习最优的装箱策略。相对于传统的启发式算法,基于深度强化 学习的装箱算法能够学习到更加优化的装箱策略,同时算法的鲁棒性和泛化性 也更好。
[0005]尽管现有的装箱算法取得了一些不错的进展,但是他们都只关注于如何将 当前观察的物品放的更好,却忽略了一个至关重要的人类倒库经验。所谓倒库, 就是在当产品箱中没有合适的位置放置当前物品时,通过移走产品箱内的一些 摆放不合适的物品来空出更多的空间放置当前物品。在一次只能观测一个待装 箱的物品信息的情况下,这种倒库方式对于装箱问题十分重要。
[0006]现有的解决3D

BPP的算法主要分为两类:启发式算法和基于深度强化学习 的算法。
[0007]启发式算法专注于将一组立方体物体以尽可能高的空间利用率装进一个有 限的三维空间中(例如一个运输箱),这是一个典型的NP

hard组合优化问题, 在线3D

BPP问题假设只有当前待装箱的物体信息是可以获取的,而其他的物体 信息是未知的,早期的工作主要是设计不同的启发式算法,例如禁忌搜索算法、 首次适应算法和极值点摆放算法;启发式算法本质上是对人类工作者的真实装 箱经验的提炼,对于不同的装箱场景来说并不都是完美的。
[0008]基于深度强化学习的算法已经被证明可以有效的解决组合优化问题;因此, 一些研究人员开始尝试使用DRL来解决3D

BPP;例如,Verma等人开发了一 种DRL算法用于解决
针对不同尺寸和数量的箱子的三维装箱问题;Zhao等人将 3D

BPP表述为一个受约束的马尔可夫决策过程,他们提出一个带约束的DRL 框架来解决装箱问题并在仿真环境中演示了先进的装箱性能;Yang等人还尝试 将启发式算法与DRL结合来学习更加优化的装箱策略。
[0009]但是,然而相比于真正的人类工作者,现有的算法仍有很多缺陷,如果在 产品箱中找不到合适的位置放置当前物体,人类工作者可以进行倒库从产品箱 中拿出一些物体,从而空出更多的位置放置当前物体,而这是现有的人工智能 算法所无法完成的。

技术实现思路

[0010]为了解决现有技术的不足,本专利技术提供了一种基于深度强化学习的机械臂 装箱与倒库协同方法及系统,通过装箱与倒库网络(PUN)来学习装箱动作和 倒库动作间的协同作用,提高了装箱精度和效率;基于人类经验提出装箱启发 式和倒库启发式,并将其结合到PUN中,进一步提高了装箱精度和效率。
[0011]为了实现上述目的,本专利技术采用如下技术方案:
[0012]本专利技术第一方面提供了一种基于深度强化学习的机械臂装箱与倒库协同方 法。
[0013]一种基于深度强化学习的机械臂装箱与倒库协同方法,包括以下过程:
[0014]获取产品箱高度图和物体尺寸映射图;
[0015]对产品箱高度图和物体尺寸映射图进行特征提取;
[0016]根据提取的特征,基于装箱行动者网络得到在高度图上所有位置执行装箱 动作的概率分布,基于倒库行动者网络得到在高度图上所有位置执行倒库动作 的概率分布;
[0017]根据提取的特征,基于装箱评论者网络得到装箱预测状态值,基于倒库评 论者网络得到倒库预测状态值;
[0018]根据产品箱高度图和物体尺寸映射图,装箱掩码预测器基于启发式规则得 到装箱掩码,倒库掩码预测器基于启发式规则得到倒库掩码;
[0019]装箱掩码对装箱动作的概率分布进行调制得到装箱位置,倒库掩码对倒库 动作的概率分布进行调制得到倒库位置,以装箱预测状态值和倒库预测状态值 的最大值为最终动作类型以进行装箱或者倒库动作。
[0020]作为可选的一种实现方式,对于尺寸为p的产品箱,将其在t时刻的状态观 测离散化为一个高度图高度图为一个L
×
W的离散网格,每 个单元格的值表示该位置放置物体的累积高度。
[0021]作为可选的一种实现方式,对于尺寸为l
n
×
w
n
×
h
n
的待装箱物体n,表征为一 个L
×
W
×
3的三通道尺寸映射图,所述尺寸映射图的三个通道分别被赋值为 l
n
,w
n
,h
n

[0022]作为可选的一种实现方式,装箱动作和倒库动作中,每个动作被参数化为 一个在位置p处执行的基本动作,该位置p对应于产品箱的高度图表征中的一个 单元格。
[0023]进一步的,装箱动作,包括:将物体放置在单元格上,物体放置位置的左 前角坐标与单元格的坐标对应一致,使用一个2D坐标(x
n
,y
n
)来表示单元格的位 置坐标,动作(packing,(x
n
,y
n
))表示将物体n放置在高度图的位置(x
n
,y
n
)处。
[0024]进一步的,倒库动作,包括:p表示将物体从单元格上移走,该物体位于产 品箱中且左前角坐标与单元格坐标相同,设置一个临时物体暂存区来储存最多B 个被倒库移出的物体,动作(unpacking,(x
m
,y
m
))表示从高度图的位置(x
m
,y
m
)处移走本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:包括以下过程:获取产品箱高度图和物体尺寸映射图;对产品箱高度图和物体尺寸映射图进行特征提取;根据提取的特征,基于装箱行动者网络得到在高度图上所有位置执行装箱动作的概率分布,基于倒库行动者网络得到在高度图上所有位置执行倒库动作的概率分布;根据提取的特征,基于装箱评论者网络得到装箱预测状态值,基于倒库评论者网络得到倒库预测状态值;根据产品箱高度图和物体尺寸映射图,装箱掩码预测器基于启发式规则得到装箱掩码,倒库掩码预测器基于启发式规则得到倒库掩码;装箱掩码对装箱动作的概率分布进行调制得到装箱位置,倒库掩码对倒库动作的概率分布进行调制得到倒库位置,以装箱预测状态值和倒库预测状态值的最大值为最终动作类型以进行装箱或者倒库动作。2.如权利要求1所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:对于尺寸为p的产品箱,将其在t时刻的状态观测离散化为一个高度图Z
+
∈[0,H],高度图为一个L
×
W的离散网格,每个单元格的值表示该位置放置物体的累积高度;或者,对于尺寸为l
n
×
w
n
×
h
n
的待装箱物体n,表征为一个L
×
W
×
3的三通道尺寸映射图,所述尺寸映射图的三个通道分别被赋值为l
n
,w
n
,h
n
。3.如权利要求1所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:装箱动作和倒库动作中,每个动作被参数化为一个在位置p处执行的基本动作,该位置p对应于产品箱的高度图表征中的一个单元格。4.如权利要求3所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:装箱动作,包括:将物体放置在单元格上,物体放置位置的左前角坐标与单元格的坐标对应一致,使用一个2D坐标(x
n
,y
n
)来表示单元格的位置坐标,动作(packing,(x
n
,y
n
))表示将物体n放置在高度图的位置(x
n
,y
n
)处;或者,倒库动作,包括:p表示将物体从单元格上移走,该物体位于产品箱中且左前角坐标与单元格坐标相同,设置一个临时物体暂存区来储存最多B个被倒库移出的物体,动作(unpacking,(x
m
,y
m
))表示从高度图的位置(x
m
,y
m
)处移走物体n,并将其放置在临时物体暂存区中。5.如权利要求1所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:对于在时间步t下的待装箱物体,得到预测执行的基本动作和位置,待装箱物体来自传送带或者物体暂存区;如果预测了装箱动作,从传送带或者物体暂存区上抓取待装箱物体并将其放置在产品箱内的目标位置p处,然后进入时间步t+1选择下一个待装箱物体;如果预测了倒库动作,从产品箱内的目标位置...

【专利技术属性】
技术研发人员:宋然宋帅张伟杨硕褚石磊李贻斌
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1