【技术实现步骤摘要】
基于深度强化学习的机械臂装箱与倒库协同方法及系统
[0001]本专利技术涉及物流自动化
,特别涉及一种基于深度强化学习的机械 臂装箱与倒库协同方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
,并不必然构成现有 技术。
[0003]随着电子商务和快递行业的飞速发展,建立智能化的仓储物流系统成为了 一个新兴的研究热点。在典型的物流装箱场景中,装箱工人从传送带上一件一 件的挑选物品,然后将其打包至不同的产品箱中建立产品订单,同时要充分利 用每个产品箱内的空间,尽可能的减少产品箱内的体积浪费。为了解决这一任 务,大多数研究人员将其表述为在线三维装箱问题(3D
‑
BPP),并提出了许多 装箱算法。该问题旨在仅观察当前要装箱的物品的情况下,将一组物品装入尽 可能少的三维箱子中。3D
‑
BPP作为一个经典的NP
‑
hard组合优化问题,在一次 只能获取一个物体信息的情况下,找到最优的装箱策略十分不容易。
[0004]早期的解决方法主要是启发式装箱算法,这种算法本质上是将人类工人的 装箱经验建模为规则作为装箱策略,虽然这是解决装箱任务的一种直观方式, 通常可以保持良好的工作效率,但建模出的经验规则并不具有普适性,在没有 学习过程的情况下,启发式算法不太可能在各种场景中都找到最佳装箱策略。 受深度强化学习(DRL)最新进展的启发,研究人员试图通过DRL来解决装箱 问题,他们将该问题定义为一个马尔可夫决策过程,通过与环境的不 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:包括以下过程:获取产品箱高度图和物体尺寸映射图;对产品箱高度图和物体尺寸映射图进行特征提取;根据提取的特征,基于装箱行动者网络得到在高度图上所有位置执行装箱动作的概率分布,基于倒库行动者网络得到在高度图上所有位置执行倒库动作的概率分布;根据提取的特征,基于装箱评论者网络得到装箱预测状态值,基于倒库评论者网络得到倒库预测状态值;根据产品箱高度图和物体尺寸映射图,装箱掩码预测器基于启发式规则得到装箱掩码,倒库掩码预测器基于启发式规则得到倒库掩码;装箱掩码对装箱动作的概率分布进行调制得到装箱位置,倒库掩码对倒库动作的概率分布进行调制得到倒库位置,以装箱预测状态值和倒库预测状态值的最大值为最终动作类型以进行装箱或者倒库动作。2.如权利要求1所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:对于尺寸为p的产品箱,将其在t时刻的状态观测离散化为一个高度图Z
+
∈[0,H],高度图为一个L
×
W的离散网格,每个单元格的值表示该位置放置物体的累积高度;或者,对于尺寸为l
n
×
w
n
×
h
n
的待装箱物体n,表征为一个L
×
W
×
3的三通道尺寸映射图,所述尺寸映射图的三个通道分别被赋值为l
n
,w
n
,h
n
。3.如权利要求1所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:装箱动作和倒库动作中,每个动作被参数化为一个在位置p处执行的基本动作,该位置p对应于产品箱的高度图表征中的一个单元格。4.如权利要求3所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:装箱动作,包括:将物体放置在单元格上,物体放置位置的左前角坐标与单元格的坐标对应一致,使用一个2D坐标(x
n
,y
n
)来表示单元格的位置坐标,动作(packing,(x
n
,y
n
))表示将物体n放置在高度图的位置(x
n
,y
n
)处;或者,倒库动作,包括:p表示将物体从单元格上移走,该物体位于产品箱中且左前角坐标与单元格坐标相同,设置一个临时物体暂存区来储存最多B个被倒库移出的物体,动作(unpacking,(x
m
,y
m
))表示从高度图的位置(x
m
,y
m
)处移走物体n,并将其放置在临时物体暂存区中。5.如权利要求1所述的基于深度强化学习的机械臂装箱与倒库协同方法,其特征在于:对于在时间步t下的待装箱物体,得到预测执行的基本动作和位置,待装箱物体来自传送带或者物体暂存区;如果预测了装箱动作,从传送带或者物体暂存区上抓取待装箱物体并将其放置在产品箱内的目标位置p处,然后进入时间步t+1选择下一个待装箱物体;如果预测了倒库动作,从产品箱内的目标位置...
【专利技术属性】
技术研发人员:宋然,宋帅,张伟,杨硕,褚石磊,李贻斌,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。