【技术实现步骤摘要】
一种基于深度强化学习的机器人推拨装箱方法及系统
[0001]本专利技术涉及机器人装箱领域,尤其涉及一种基于深度强化学习的机器人推拨装箱方法及系统。
技术介绍
[0002]三维装箱问题是一个组合优化问题,广泛存在于物流、仓储、码垛等领域。通过优化装箱过程,可以提高空间利用率,减小运输成本,增加经济效益。
[0003]随着机器人技术的发展,机器人在仓储自动化领域得到广泛的应用,用机器人代替工人完成重复繁琐的工作,大大提高了生产效率。其中一个重要应用就是机器人的打包装箱。这项工作通常需要将一定数量的物体装进一个容积有限的箱子中,在这个过程中需要利用视觉技术获取物体信息,并用合适的算法规划物体位置,使用机器人完成装箱。机器人装箱不仅需要针对装箱问题本身进行优化,还要考虑机器人的操作问题。
[0004]现有对机器人装箱问题的研究大多针对放置物体位置的优化。对于三维装箱问题,通过传统的分析计算的方法可以在一些简单情况下得到精确解,如Martello在《Operations Research》发表的论文《The three
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的机器人推拨装箱方法,其特征在于,所述方法包括以下步骤:S101:在仿真环境中使用强化学习方法训练推拨深度神经网络;S103:将物体放置在箱子中,通过训练好的所述推拨深度神经网络,获取所述推拨深度神经网络输出的推拨动作;S105:机器人执行所述推拨动作,将所述物体推动至所述箱子中的合适位置。2.如权利要求1所述的机器人推拨装箱方法,其特征在于,所述强化学习方法使用Q
‑
learning算法,将状态空间表示为所述箱子内所述物体的RGB图像和高度图像,动作空间参数化为所述物体的X、Y坐标和推动方向。3.如权利要求2所述的机器人推拨装箱方法,其特征在于,所述S101步骤包括如下步骤:S1011:在所述仿真环境中采用DBLF算法确定放置位置,将所述物体放置在所述放置位置上;S1012:通过所述推拨深度神经网络选择推拨动作,使用机器人完成所述推拨动作,计算本次推拨的奖励值并训练所述推拨深度神经网络,所述奖励值采用如下奖励函数计算得到:其中,R
t
表示t时刻奖励期望,γ表示折扣因子,γ=0.5,R
a
(s
t
,s
t+1
)表示状态从S
t
转移到S
t+1
的动作奖励;S1013:当所述推拨次数未超过预定次数时,继续执行所述S1012步骤;S1014:放入下一个所述物体,当放入所述物体的数量未超过预定数量时,执行步骤所述S1011
‑
S1013步骤,否则,完成本轮所述推拨深度神经网络的训练。4.如权利要求3所述的机器人推拨装箱方法,其特征在于,所述S1012步骤还包括如下步骤:使用RGBD相机采集箱内所述物体的RGB图像和深度图像,并沿重力方向投影获得高度图;将所述RGB图像和所述深度图像输入所述推拨深度神经网络中提取特征,通过两层卷积神经网络和一层上采样得到与输入图像大小相同的输出,所述输出包括16张与输入图...
【专利技术属性】
技术研发人员:吴建华,张浩东,熊振华,朱向阳,盛鑫军,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。