一种基于卷积神经网络的生成最佳抓取位姿的方法技术

技术编号:24742080 阅读:194 留言:0更新日期:2020-07-04 06:59
本发明专利技术公开了一种基于卷积神经网络的生成最佳抓取位姿的方法,包括以下步骤:S1、设定抓取过程中用来表征抓取质量的参数;S2、构建卷积神经网络模型;S3、采用Cornell Grasping数据集来训练神经网络模型;S4、将摄像头采集到的物体深度图输入至训练好的神经网络模型,计算出抓取参数,所述抓取参数用于驱动机械臂进行抓取。本发明专利技术提出的基于卷积神经网络模型的生成最佳抓取位姿的算法,仅需要输入物体的深度信息,便可快速得到物体的最佳抓取位姿,模型精简,可广泛推广在机械臂视觉抓取,动态追踪等领域。

【技术实现步骤摘要】
一种基于卷积神经网络的生成最佳抓取位姿的方法
本专利技术涉及机械臂视觉抓取领域,具体为一种基于卷积神经网络的生成最佳抓取位姿的方法。
技术介绍
近年来,随着计算机视觉的快速发展,将机械臂与视觉相结合,融入更多的环境感知能力,也逐渐成为研究热点。如果机械臂希望抓取某个物体,首先需要通过摄像头(传感器)得到物体的具体位置,然后通过内部评估算法找到适合该物体的最佳的抓取位姿,这里涉及两个过程,确认该物体的种类和根据物体状态筛选出最佳的抓取位姿。假如此类物体是电脑(算法)之前没有见过的,那对于未见过的物体,如何产生最佳抓取位姿则是更加困难的事情。解决此类问题,加州伯克利大学《Dex-Net2.0:DeepLearningtoPlanRobustGraspswithSyntheticPointCloudsandAnalyticGraspMetrics》提出一种卷积神经网络的算法,此算法对于一般物体的抓取成功率比较高,遗憾的是,此算法中包含的网络参数太多(百万级),运算速率相对较低,且难以在一般机器上面复现,所以在实际推广上面临着挑战。
技术实现思路
本专利技术提出了一种基于卷积神经网络的生成最佳抓取位姿的方法,主要解决了目前抓取算法缺乏对未见过的物体快速生成最佳抓取位姿的问题,实现了从数据集处理、网络训练和模型优化的一系列工作,仅需要输入物体的深度信息,便可快速得到物体的最佳抓取位姿,模型精简,训练的参数远远小于其他网络,与此同时,对于日常生活中的物体包括未见过的物体,识别生成抓取位姿的成功率达到90%以上,具备卓越的泛化能力,可广泛推广在机械臂视觉抓取,动态追踪等领域。本专利技术至少通过如下技术方案之一实现。一种基于卷积神经网络的生成最佳抓取位姿的方法,包括以下步骤:S1、设定抓取过程中用来表征抓取质量的参数;S2、构建卷积神经网络模型;S3、采用CornellGrasping数据集来训练神经网络模型;S4、将摄像头采集到的物体深度图输入至训练好的神经网络模型,计算出抓取位姿参数,所述抓取位姿参数用于驱动机械臂进行抓取。进一步地,步骤S1中的参数包括G、Q、Φ、W;其中,G表示每次抓取中的一系列参数,对应于每一像素:对于给定的2.5D深度图H表示深度图高度,W表示深度图宽度,H和W参数从摄像头内获取到,代表维数;Q表示每次抓取的质量,是一个在(0,1)内的标量,Q越接近1,抓取质量越高;Φ表示每次抓取中,夹爪到达理想位置需要旋转的角度,所述理想位置是数据集中设定的最佳抓取矩形的位置,旋转角度指的是抓取矩形相对于水平线旋转的角度;W表示抓取过程中夹爪需要张开的宽度,以保证完全将物体抓紧。进一步地,步骤S3所述的CornellGrasping数据集提供280种不同物体的1035张图片,每张图片带有RGB图、深度信息和设定的用于抓取该物体的最佳抓取矩形的数据,所述数据包括矩形的大小、矩形中心点的三维位置。进一步地,所述神经网络模型的结构包括不同的网络层:神经网络模型的第一层包含9*9卷积核以及32个滤波器,移动步长为3,第二层包括5*5卷积核以及16个滤波器,移动步长为2,第三层包括3*3卷积核以及8个滤波器,移动步长为2,第四五六层为反卷积层,目的是保持输入和输出的分辨率一致,第四层为反卷积层包括3*3卷积核以及8个滤波器,移动步长为2,第五层为反卷积层包括3*3卷积核以及16个滤波器,移动步长为2,第六层为反卷积层包括9*9卷积核以及32个滤波器,移动步长为3。进一步地,神经网络模型的损失函数采用L2损失方程,作为评估网络性能的度量,用神经网络去逼近一个复杂的方程M:I→G,神经网络模型的参数计算包括:M(I)=(Q,Φ,W)G=(Φ,W,Q)Mθ(I)=(Qθ,Φθ,Wθ)≈M(I)其中,M(I)代表对于输入的深度图像I,Mθ(I)指的是神经网络模型得到的实际抓取位姿参数组成的方程,Qθ,Φθ,Wθ是QT,ΦT,WT的集合,代表整个网络中所有物体的抓取参数,将数据集中的深度信息IT输入到神经网络模型中进行训练,得出最佳抓取位姿GT,因此定义损失函数为:进一步地,步骤S4的抓取位姿参数包括抓取质量QT、旋转角度ΦT,夹爪张开宽度WT,计算方式如下:抓取质量QT:抓取某物体的时候,将IntelRealsenseSR300摄像头中获取到的物体的深度信息输入到经过步骤S3训练好模型中,把物体的深度信息与模型中的信息比较,如果深度信息一致的部分设定为1,不一致的部分设定为0,然后统计全部像素中的1和0的值,算出该物体的抓取质量值QT;旋转角度值的范围为并根据sin(2ΦT)和cos(2ΦT),得到唯一的真实值ΦT:夹爪张开的宽度WT,在物体的宽度基础上增加1cm~2cm得到,物体的宽度通过物体的深度信息得到,物体的深度信息通过IntelRealsenseSR300摄像头得到。进一步地,神经网络模型计算抓取位姿的方程如下:Mθ(I)=(Qθ,Φθ,Wθ)其中,I,Qθ,Φθ,Wθ分别为图片参数,Qθ,Φθ,Wθ分别是QT,ΦT,WT的集合,代表神经网络模型中所有物体的抓取参数。进一步地,卷积神经网络模型的训练过程包括以下步骤:(1)卷积神经网络模型进行权值的初始化;(2)选取CornellGrasping数据集的80%作为网络模型的训练集,向卷积神经网络模型输入训练集的深度信息数据,经过卷积层、反卷积层的传播得到输出值;(3)求出网络模型的输出值与目标值之间的误差,即损失函数的值;(4)当误差大于期望值时,将误差传回网络模型中,依次求得各网络层的误差;各网络层的误差为对于网络的总误差;(5)根据求得的误差进行权值更新,然后再进入到步骤(2);当误差等于或小于期望值时,结束训练。相比现有技术,本专利技术的优点及有益效果是:1.解决了目前抓取算法缺乏对未见过的物体快速生成最佳抓取位姿的问题,实现了从数据集处理、网络训练和模型优化的一系列工作,仅需要输入物体的深度信息,便可快速得到物体的最佳抓取位姿,模型精简,运算效率高,训练的参数远远小于其他网络。2.对于日常生活中的物体包括未见过的物体,识别生成抓取位姿的成功率达到90%以上,具备卓越的泛化能力,部署简易,可广泛推广在机械臂视觉抓取,动态追踪等领域。附图说明图1为本实施例的神经网络模型结构示意图;图2为本实施例一种基于卷积神经网络的生成最佳抓取位姿的方法的流程图;图3为本实施例对于目标物体抓取过程中旋转角度和夹爪张开宽度计算示意图图4为本专利技术实施例中网络结构层次图;图中:1-抓取矩形a;2-抓取矩形b;3-目标抓取物体。具体实施方式下面结合附图,对本专利技术的工作原理和工作过程作进一步详细说明。一种基于卷积神经网络的生成最佳抓取位姿的方法,包括本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的生成最佳抓取位姿的方法,其特征在于,包括以下步骤:/nS1、设定抓取过程中用来表征抓取质量的参数;/nS2、构建卷积神经网络模型;/nS3、采用Cornell Grasping数据集来训练神经网络模型;/nS4、将摄像头采集到的物体深度图输入至训练好的神经网络模型,计算出抓取位姿参数,所述抓取位姿参数用于驱动机械臂进行抓取。/n

【技术特征摘要】
1.一种基于卷积神经网络的生成最佳抓取位姿的方法,其特征在于,包括以下步骤:
S1、设定抓取过程中用来表征抓取质量的参数;
S2、构建卷积神经网络模型;
S3、采用CornellGrasping数据集来训练神经网络模型;
S4、将摄像头采集到的物体深度图输入至训练好的神经网络模型,计算出抓取位姿参数,所述抓取位姿参数用于驱动机械臂进行抓取。


2.根据权利要求1所述的基于卷积神经网络的生成最佳抓取位姿的方法,其特征在于:步骤S1中的参数包括G、Q、Φ、W;其中,G表示每次抓取中的一系列参数,对应于每一像素:



对于给定的2.5D深度图H表示深度图高度,W表示深度图宽度,H和W参数从摄像头内获取到,代表维数;
Q表示每次抓取的质量,是一个在(0,1)内的标量,Q越接近1,抓取质量越高;
Φ表示每次抓取中,夹爪到达理想位置需要旋转的角度,所述理想位置是数据集中设定的最佳抓取矩形的位置,旋转角度指的是抓取矩形相对于水平线旋转的角度;
W表示抓取过程中夹爪需要张开的宽度,以保证完全将物体抓紧。


3.根据权利要求1所述的基于卷积神经网络的生成最佳抓取位姿的方法,其特征在于:步骤S3所述的CornellGrasping数据集提供280种不同物体的1035张图片,每张图片带有RGB图、深度信息和设定的用于抓取该物体的最佳抓取矩形的数据,所述数据包括矩形的大小、矩形中心点的三维位置。


4.根据权利要求1所述的基于卷积神经网络的生成最佳抓取位姿的方法的网络结构,其特征在于:所述神经网络模型的结构包括不同的网络层:第一层包含9*9卷积核以及32个滤波器,移动步长为3,第二层包括5*5卷积核以及16个滤波器,移动步长为2,第三层包括3*3卷积核以及8个滤波器,移动步长为2,第四五六层为反卷积层,目的是保持输入和输出的分辨率一致,第四层为反卷积层包括3*3卷积核以及8个滤波器,移动步长为2,第五层为反卷积层包括3*3卷积核以及16个滤波器,移动步长为2,第六层为反卷积层包括9*9卷积核以及32个滤波器,移动步长为3。


5.根据权利要求1所述的基于卷积神经网络的生成最佳抓取位姿的方法,其特征在于:神经网络模型的损失函数采用L2损失方程,作为评估网络性能的度量,用神经网络去逼近一个复杂的方程M:I→G,神经网络模型的参数计算包括
M(I)=(Q...

【专利技术属性】
技术研发人员:庞剑坤魏武
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1