【技术实现步骤摘要】
本申请涉及计算机,具体而言,涉及一种码垛规划模型训练方法、码垛方法及相关装置。
技术介绍
1、在基于深度强化学习的码垛算法中,通常使用单步奖励函数来引导智能体的学习方向,单步奖励函数一般仅当前箱子的空间占有率来设计,奖励函数的作用是引导智能体在码垛空间中放置尽可能多的箱子,并未考虑箱子的放置顺序。如此,在训练完成后,基于上述智能体进行码垛时,物体的放置顺序可能无法很好地满足实际码垛对稳定性和安全性的要求。
技术实现思路
1、本申请实施例提供了一种码垛规划模型训练方法、码垛方法及相关装置,其能够在实际码放过程中尽可能地优先向在码盘平面距离码垛机器人较远、较低的位置放置物体,从而提升安全性和稳定性。
2、本申请的实施例可以这样实现:
3、第一方面,本申请实施例提供一种码垛规划模型训练方法,所述方法包括:
4、在深度强化学习过程中,基于第一待码垛物体的第一物体尺寸信息,利用当前码垛规划模型在整个码垛空间中进行位置规划,得到所述第一待码垛物体的第一放置位置;
...【技术保护点】
1.一种码垛规划模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据总奖励函数、所述第一物体尺寸信息及第一放置位置,计算得到总奖励,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一距离得到距离奖励,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一距离比值得到所述距离奖励,包括:
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一位置高度得到高度奖励,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一高度比值得到
...【技术特征摘要】
1.一种码垛规划模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据总奖励函数、所述第一物体尺寸信息及第一放置位置,计算得到总奖励,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一距离得到距离奖励,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一距离比值得到所述距离奖励,包括:
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一位置高度得到高度奖励,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一高度比值得...
【专利技术属性】
技术研发人员:王岩,
申请(专利权)人:法奥意威苏州机器人系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。