System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于物体边界引导和旋转感知的抓取检测方法技术_技高网

一种基于物体边界引导和旋转感知的抓取检测方法技术

技术编号:41391466 阅读:5 留言:0更新日期:2024-05-20 19:13
一种基于物体边界引导和旋转感知的抓取检测方法属于机器学习和计算机视觉领域,本发明专利技术包含主干网络,基于边界注意力的物体特征编码模块,抓取矩形框预测模块三个部分。在抓取检测网络通用的抓取矩形框回归损失的基础上,OBRNet增加了用于监督网络学习物体边界的多尺度边界损失和用于联合约束预测抓取矩形框宽度和角度的对角线相似度损失。本发明专利技术解决已有抓取检测方法得到的抓取矩形框宽度和角度预测精度不够高,使得基于预测的抓取矩形框宽度和角度指导机器人执行实际抓取任务时可能导致抓取失败的问题。

【技术实现步骤摘要】

本专利技术属于机器学习和计算机视觉领域,目标是预测物体的抓取矩形框,可用于支持真实场景下的机器人抓取任务。


技术介绍

1、基于rgb图像(代表实数集,w代表图像宽度,h代表图像高度)的2d抓取检测任务预测物体的抓取矩形框,用于指导机器人完成真实场景下的抓取,抓取矩形框宽度和角度预测的准确性对于能否实现准确且稳定的抓取至关重要。现有的基于深度学习的2d抓取检测方法在学习抓取特征时忽略了物体的形状特征,而机器人在抓取物体时其夹爪是与物体的外表面发生接触的,因此抓取矩形框宽度是与物体形状直接相关的。此外,现有的基于深度学习的2d抓取检测方法对抓取框的宽度和角度是独立约束的,忽略了抓取框宽度和角度的关联关系,因此影响抓取矩形框宽度和角度的预测精度。基于不精准的预测结果指导机器人进行实际抓取时,存在抓取效果不理想的情况。首先,抓取矩形框的预测宽度决定了机器人夹爪张开的程度。宽度太小可能会导致机器人夹爪与物体碰撞,宽度太大可能会导致机器人夹爪与周围物体发生碰撞。其次,抓取矩形框的预测角度决定了机器人夹爪的旋转角度。当预测的抓取角度存在偏差时,机器人夹爪在抓取物体时有可能发生拧动进而导致抓取不稳定。


技术实现思路

1、针对已有抓取检测方法得到的抓取矩形框宽度和角度预测精度不够高,使得基于预测的抓取矩形框宽度和角度指导机器人执行实际抓取任务时可能导致抓取失败的问题,本专利技术提出了一个新的抓取检测网络。

2、本专利技术提出的物体边界引导和旋转感知的抓取检测网络(obrnet,graspdetectionnetwork with object boundary-guide and rotation-awareness)结构如图1所示,包含主干网络,基于边界注意力的物体特征编码模块,抓取矩形框预测模块三个部分。在抓取检测网络通用的抓取矩形框回归损失的基础上,obrnet增加了用于监督网络学习物体边界的多尺度边界损失和用于联合约束预测抓取矩形框宽度和角度的对角线相似度损失(diagonal vector similarity loss)。

3、1.obrnet网络结构

4、如图1所示,物体边界引导和旋转感知的抓取检测网络包括三部分:

5、主干网络提取多尺度图像特征;基于边界注意力的物体特征编码模块学习像素级抓取特征;抓取矩形框预测模块为图像的每个像素点(i,j)预测一个五维的抓取配置m∈{q,c,s,w,h}。其中gq(i,j)表示抓取矩形框中心点(i,j)的质量分数,gc(i,j)表示以(i,j)为中心点的抓取矩形框角度的二倍的余弦函数值,gs(i,j)表示以(i,j)为中心点的抓取矩形框角度的二倍的正弦函数值,gw(i,j)表示以(i,j)为中心点的抓取矩形框的宽度,gh(i,j)表示以(i,j)为中心点的抓取矩形框的高度。通过gc(i,j)和gs(i,j)可计算得到以(i,j)为中心点的抓取矩形框角度,将其标记为ga(i,j)。通过ga(i,j),gw(i,j)和gh(i,j)联合计算,可以得到以(i,j)为中心点的抓取矩形框的对角线向量,将其标记为gd(i,j)。

6、(a)主干网络

7、obrnet使用resnet101作为obrnet的主干网络。主干网络每个阶段的最后一个残差块输出的特征作为基于边界注意力的物体特征编码模块的输入。

8、(b)基于边界注意力的物体特征编码模块

9、该模块利用注意力机制融合主特征fmain和边界特征fboundary用于抓取矩形框的预测。

10、计算主特征fmain:利用主干网络最后阶段残差块输出的特征fl,依据公式(1)计算主特征fmain:

11、fmain=bn(conv(fl))  (1)

12、其中,conv代表卷积操作,bn代表归一化操作。具体来说,在主干网络的最后一层3个bottleneck中,每个bottleneck包含的3个block中卷积层的参数分别为:卷积核大小为1×1,步长为1;卷积核大小为3×3,步长为1;卷积核大小为1×1,步长为1。

13、计算边界特征fboundary:利用主干网络输出的多尺度特征{fl,fl-1,fl-2,fl-3}计算多尺度边界特征{fbl,fbl-1,fbl-2,fbl-3},计算方法如公式(2):

14、fbl-s=relu(bn(conv(fl-s))),s=0,1,2,3  (2)

15、其中,relu代表激活操作。卷积层中卷积核大小为3×3,输出通道数为256,步长为1。

16、接下来,利用resize操作将多尺度边界特征{fbl-1,fbl-2,fbl-3}的尺寸调整至和fbl的尺寸相同,得到特征{f′bl-1,f′bl-2,f′bl-3},如公式(3)所示:

17、f′bl-n=resize(fbl-n),n=1,2,3  (3)

18、其中,resize代表调整特征图尺寸操作。

19、对多尺度特征{fbl,f′bl-1,f′bl-2,f′bl-3}进行拼接、卷积和归一化操作,得

20、到边界特征计算方法如公式(4):

21、fboundary=bn(conv(concate(fbl,f′bl-1,f′bl-2,f′bl-3)))  (4)

22、其中,concate代表拼接操作。卷积层中卷积核大小均为1×1,输出通道数为256,步长为1。

23、基于主干网络输出的多尺度特征{fl,fl-1,fl-2,fl-3}得到多尺度边界{bl,bl-1,bl-2,bl-3},计算方法如公式(5):

24、bl-s=sigmoid(conv(fbl-s)),s=0,1,2,3  (5)

25、其中,sigmoid代表激活操作。卷积层中卷积核大小为1×1,输出通道数为256,步长为1。

26、计算边界注意力:对主特征fmain和边界特征fboundary进行reshape操作,得到特征和特征其中将特征图f′main转置并与f′boundary相乘得到注意力图fattention,具体计算过程如公式(6)所示:

27、fattention=(f′main)t×f′boundary  (6)

28、其中,t代表转置操作。

29、融合主特征和边界特征:对fattention进行归一化操作后与f′boundary相乘得到增强的边界特征,然后与特征f′main相结合得到最终的联合特征ffinal,如式(7)所示:

30、ffinal=resize(reshape(softmax(fattention)×f′boundary+f′main))  (7)

31、(c)抓取矩形框预测模块

32、在预测模块中,利用5个预测器pm,m∈{q,c,s,w,h},基于ffinal得到抓取配置计算过程如公式(8本文档来自技高网...

【技术保护点】

1.一种基于物体边界引导和旋转感知的抓取检测方法,其特征在于步骤如下:

【技术特征摘要】

1.一种基于物体边界引导和旋转感知的...

【专利技术属性】
技术研发人员:王立春马静信建佳尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1