一种基于图像域的机械臂高效操控归置学习奖励训练方法技术

技术编号:35529884 阅读:32 留言:0更新日期:2022-11-09 14:53
本发明专利技术公开了一种基于图像域的机械臂高效操控归置学习奖励训练方法,实现杂乱场景中机械臂自主归置物体任务。该任务中,由于空间受限、复杂碰撞等约束的存在,导致终止状态是不可预测的,从而对奖励函数的设计带来了困难。本专利对强化学习的奖励是“步骤奖励”和“完成奖励”的组合,通过在图像域中合并来量化终端状态的性能,这将引导终端状态收敛到一个更好的域,而不是特定的值。以鼓励快速排列盒子中分散的对象,同时最小化对象之间的间隙,对不同数量、不规则形状的物体以及间断情况具有更好的适应性。有更好的适应性。有更好的适应性。

【技术实现步骤摘要】
一种基于图像域的机械臂高效操控归置学习奖励训练方法


[0001]本专利技术涉及深度强化学习
,更具体的,涉及一种基于图像域的机械臂高效操控归置学习奖励训练方法。

技术介绍

[0002]机械臂的应用大大解放了人类的工作,但是传统机械臂控制都是对机械臂进行运动学和动力学建模并在笛卡尔空间规划末端运动轨迹,再通过运动学反解求解各个关节的角度值,从而控制电机驱动机械臂运动完成特定的任务。然而,基于模型和规则的控制方法已经越来越无法适应日趋复杂的应用场景,比如杂乱场景中机械臂自主抓取和归置任务,即当几个任意形状的对象分散在一个容器中时,如何尽可能地将它们排列在一起,以便为将来的物体腾出空间?
[0003]这项任务有几个有趣且具有挑战性的特点。首先,没有明确的指南或量化标准来衡量流程中当前操作的好坏。当对象具有任意形状时,间隙始终存在。其次,由于对象的特殊结构和不同形状的互补性,当前动作可能与子序列动作具有短期或长期相关性。因而,相比于传统方法,强化学习对于解决这类问题体现出巨大的优势,且无需建模和规则设计。
[0004]奖励足以驱动本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图像域的机械臂高效操控归置学习奖励训练方法,其特征在于:包括:步骤1:设计应用场景,通过rgbd相机对工作空间进行4通道RGBD

heightmap采集;步骤2:选择单通道D

heightmap在图像域进行奖励函数总体设计;步骤3:对步骤2中的单步奖励进行设计:学习的单步奖励r
step
包括移动奖励r
change
、碰撞奖励r
contact
、重复奖励r
repeat
;步骤4:对步骤2中的终止奖励进行设计:学习的终止奖励r
terminal
包括任务完成终止奖励r
done
和序列动作奖励r
req
;步骤5:把步骤4和步骤5的奖励结合起来,获得网络学习的奖励计算函数为r
t
=r
step
+r
terminal
;步骤6:结合步骤1

5,搭建强化仿真学习训练工程进行学习训练,并将训练好的网络进行物理迁移试验。2.根据权利要求1所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法,其特征在于:应用场景具体为:将长方体有限容积容器作为机械臂工作空间,随机放置任意个数的物体;通过rgbd相机对工作空间进行4通道RGBD图像采集,并根据相机内参将图像转成俯视方向的4通道RGBD

heightmap,该4通道RGBD

heightmap作为神经网络状态输入,通过Resnet

50将原始图像提取成高维特征向量,并基于强化学习算法进行学习。3.根据权利要求2所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法,其特征在于:对强化学习算法设计单步奖励r
step
和终止奖励r
terminal
的组合奖励,以鼓励快速归置盒子中分散的对象,同时最小化对象之间的间隙。4.根据权利要求3所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法,其特征在于:所述步骤3对单步奖励进行设计,具体为:学习的单步奖励r
step
包括移动奖励r
change
、碰撞奖励r
contact
、重复奖励r
repeat
;(1)移动奖励设计:通过比较前后两个环境状态D

heightmap差异来判断物体是否移动,如果移动了,那么移动奖励r
change
=0.1;(2)碰撞奖励设计:当检测到当前动作会导致手爪与物体有垂直方向的碰撞时,施加碰撞奖励r
contact


0.5,通过检测动作点所对应的D

heightmap是否存在物体进行判断;(3)重复奖励设计:如果同一个动作重复超过三次,则给予重复奖励r
repeat


1.5;(4)当移动奖励r
change
、碰撞奖励r
contact
、重复奖励r
repeat
三个奖励均不满足时,单步奖励为0。5.根据权利要求4所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法,其特征在于:单步奖励r
step
具体为:
6.根据权利要求3所述的一种基于图像域的机械臂高效操...

【专利技术属性】
技术研发人员:刘昊黄煌汤亮谢心如
申请(专利权)人:北京控制工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1