基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法技术

技术编号:39143461 阅读:10 留言:0更新日期:2023-10-23 14:55
本发明专利技术公开了基于Transformer

【技术实现步骤摘要】
基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法


[0001]本专利技术涉及机械臂
,具体为基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法。

技术介绍

[0002]机器人广泛应用于工业、医疗、公共服务等领域。对机器人来说,正确感知位置随机的物体并找到不同形状物体的最佳抓取姿势是一个极具挑战性的问题。不恰当的抓取位姿很容易导致错误操作,因此一种准确、快速的抓握检测方法对机器人的抓取至关重要。物体的抓取检测是在给定的抓取物品上检测出适合物体拾取的抓取位姿。早期人们大多采用手工编写抓取规则或建立物体的三维抓取模型的方法来实现物体的抓取检测。Alvaro等人提出了一种使用多个图像的局部描述符来构建对象的度量3D模型的抓取检测方法。每个模型都要经过优化以拟合一组校准的训练图像,从而获得3D模型和真实对象之间的最佳对准实施抓取检测。Florian等人提出了一种使机器人能够通过在公共空间中表示物体并共同抓取物体来推理、转移和优化对各种物体的抓取检测方法。该方法从各种物体的点云数据开始,利用这个由抓取和光滑表面组成的空间,连续变形各种表面/抓取配置,以合成新物体上的力闭合抓取。近年来,随着深度学习技术的兴起,越来越多的深度学习方法被应用于抓取检测领域。深度学习的方法根据不同的检测方式可大致分为2D平面抓取检测和3D六自由度抓取检测。2D平面抓取的检测目标是检测出物品的适合抓取的抓取矩形。Lenz提出的两阶段抓取检测方法是早期的2D平面抓取检测之一,该方法首先运用网络模型在检测出图像中生成一系列抓取矩形,然后通过筛选网络筛选出适合物品的抓取矩形。Redmon把抓取检测视为一种回归问题构建了一个单阶段的抓取检测方法,这种单阶段的检测方法实现了端到端的训练和检测,具有较快的检测速度。3D六自由度抓取检测的目标是在系统构建的三维点云系统中生成适合物品抓取的抓取位姿。Arsalan等人利用PointNet++3D物体分割网络设计了一种基于三维点云的深度学习抓取检测网络,该网络能够在物体三维点云信息完整的情况下提供物品有效的抓取位姿。Xinchen Yan等人构建了一种两阶段的三维抓检测网络,首先根据RGB

D图像生成场景和物品的点云信息,然后根据这些点云信息生成物品的抓取预测;
[0003]早期的一些基于手工编写抓取规则和建立三维抓取模型的方法必须在特定的环境下实施抓取,如结构化的车间以及工厂流水线。当遇到新的产品或者更换环境就必须重新更换程序。机械臂的操作取决于预先设计的抓取规则。在不确定的抓取场景中面对不同的抓取对象,机械臂抓取规划的设计者很难设计出合理的规则和三维模型。Alvaro的方法必须每次根据待抓取的物品建立三维模型才能进行抓取,对象比较单一。而Florian的方法实施抓取检测的过程相对繁琐并且必须建立在点云数据完整精确的前提下才能实施抓取。目前,大多数研究都是基于深度学习展开的。3D六自由度抓取检测方法需要大量准确的点云数据的支撑,并且相对于2D的抓取检测3D的抓取检测更加复杂,目前大多数深度学习的
方法是基于2D平面抓取展开的。Lenz提出两阶段抓取检测的方法证明了深度学习在抓取检测领域运用的有效性,但是这种两阶段的抓取检测方法检测速度比较慢。为了提高检测速率,Redmon提出了单阶段的抓取检测方法,但是该方法检测准确率有待提升,并且在多目标的检测效果比较差。许多深度学习的抓取检测方法把研究重心集中在网络架构的设计,而忽略了对网络输入数据本身的处理效率。如何提取和组合多模态信息仍然值得研究。Redmon将Depth信息替换RGB图像的蓝色通道作为图像输入。许多方法把三通道的RGB图像与单通道的Depth图像组合成四通道的RGB

D数据作为网络的输入。这些级联处理方法有效提升了抓取准确率,但是忽略了RGB图像和Depth图像的本质差异。图像的深度数据与RGB数据并不是良好对齐的,并且Depth图像在拍摄时往往会丢失一些信息还同时伴随着噪声,这种简单的级联操作限制了多模态特征的潜在性能增益。Kumra选择两个并行的残差网络分别提取颜色和深度特征,然后将两个特征流融合。这种并行的特征融合网络增强了特征表示,但是缺少中间过程的特征校准,细节特征仍然有待提升,因此需要对以上问题提出一种新的解决方案。

技术实现思路

[0004]本专利技术的目的在于提供基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法。
[0005]为实现上述目的,本专利技术提供如下技术方案:基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法,至少包括以下步骤:
[0006]S1:由编码器、解码器和抓取预测模块组成网络架构,编码器用于对输入图像进行下采样编码提取抓取检测图像的特征信息,解码器对这些特征信息进行上采样解码分析,最后在抓取预测模型中实现像素级的抓取预测;
[0007]S2:图像特征编码,图像的特征编码是在网络的编码器模组中完成;
[0008]S3:图像特征解码,RGB和Depth图像经过编码器编码后得到了F1、F2、F3三个不同层级的特征编码,将这三个特征编码输入到解码器进行特征解码;
[0009]S4:抓取位姿预测,检测图像经过编码器的编码和解码器的解码后转化成了满足抓取检测所需的特征向量,把该特征向量输入抓取预测模块实现端到端的基于关键点的像素级抓取预测,最后利用网络生成与检测图像大小相同的像素图来预测抓取位姿;
[0010]S5:基于关键点的像素级的抓取检测表示,对于平行夹爪式抓取器,抓取检测的目标是检测出图像中满足抓取任务的抓取矩形;
[0011]S6:训练数据的生成;
[0012]S7:损失函数,网络的损失函数L包括抓取矩形中心点损失L
s
抓取矩形角度和宽度损失L
A
、L
W

[0013]优选的,所述解码器至少包括残差上采样模块、跳跃特征融合模块以及双流特征提取模块,所述编码器至少包括残差下采样模块、Transformer

CNN双流特征提取模块以及跨模态交互融合编码器构成,所述Transformer

CNN双流特征提取模块与双流特征提取模块相同。
[0014]优选的,所述S1至少包括以下步骤:
[0015]同一场景的RGB图像和Depth图像被分别单独送入编码器中;
[0016]在编码器中两个图像分别输入两个相同结构的编码网络中,在编码过程中提取出两种模态各层级的特征信息输入跨模态交互融合编码器进行特征校准和交互融合;
[0017]收集到编码器各个阶段的特征信息输入到解码器各阶段进行解码获得解码特征;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法,其特征在于:至少包括以下步骤:S1:由编码器、解码器和抓取预测模块组成网络架构,编码器用于对输入图像进行下采样编码提取抓取检测图像的特征信息,解码器对这些特征信息进行上采样解码分析,最后在抓取预测模型中实现像素级的抓取预测;S2:图像特征编码,图像的特征编码是在网络的编码器模组中完成;S3:图像特征解码,RGB和Depth图像经过编码器编码后得到了F1、F2、F3三个不同层级的特征编码,将这三个特征编码输入到解码器进行特征解码;S4:抓取位姿预测,检测图像经过编码器的编码和解码器的解码后转化成了满足抓取检测所需的特征向量,把该特征向量输入抓取预测模块实现端到端的基于关键点的像素级抓取预测,最后利用网络生成与检测图像大小相同的像素图来预测抓取位姿;S5:基于关键点的像素级的抓取检测表示,对于平行夹爪式抓取器,抓取检测的目标是检测出图像中满足抓取任务的抓取矩形;S6:训练数据的生成;S7:损失函数,网络的损失函数L包括抓取矩形中心点损失L
s
抓取矩形角度和宽度损失L
A
、L
W
。2.根据权利要求1所述的基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法,其特征在于:所述解码器包括残差上采样模块、跳跃特征融合模块以及双流特征提取模块,所述编码器至少包括残差下采样模块、Transformer

CNN双流特征提取模块以及跨模态交互融合编码器构成,所述Transformer

CNN双流特征提取模块与双流特征提取模块相同。3.根据权利要求2所述的基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法,其特征在于:所述S1至少包括以下步骤:同一场景的RGB图像和Depth图像被分别单独送入编码器中;在编码器中两个图像分别输入两个相同结构的编码网络中,在编码过程中提取出两种模态各层级的特征信息输入跨模态交互融合编码器进行特征校准和交互融合;收集到编码器各个阶段的特征信息输入到解码器各阶段进行解码获得解码特征;解码特征再输入到抓取预测模块抓取预测模块获得抓取预测所需要的三种像素图:抓取分数图S、抓取角度图A和抓取宽度图W;最后根据这三个像素图得到抓取矩形的中心位置、宽、高以及抓取矩形的旋转角度。4.根据权利要求3所述的基于Transformer

CNN混合架构的RGB

D跨模态交互融合机械臂抓取检测方法,其特征在于:所述S2至少包括以下步骤:残差下采样模块采用的是残差网络的设计,与原始的残差网络不同的是残差下采样模块使用泛化性更强的Leaky

Relu激活函数和更加稳定通用的FRN归一化层替换了Relu和BN层,在残差下采样模块中,第一个3x3卷积层用来使通道数翻倍,第二个3x3卷积层使分辨率减半,而残差连接流用1x1卷积和最大池化操作完成着两个操作;Transformer

CNN双流特征提取模块结合了CNN组成的残差网络和Swin

Transformer模块,以利用这两种网络架构的优势,在Transformer

CNN双流特征提取模块中,输入的特征向量f
in
经过一个1
×
1卷积层(Conv1
×
1(
·
))后被分别输入到SwinT分支(Trans(
·
))和
残差卷积网络分支(Res(
·
))中进行特征提取获得在两个分支分别进行特征提取的时候互不干扰,这样局部和非局部特征可以独立并行处理,有助于更好地提取特征,保证网络性能的同时具有更强的网络稳定性;把拼接(Concat(
·
))后再用一个1x1的卷积层使其通道数目恢复与f
in
一致并与f
in
融合相加得到最后的特征输出向量f
out
,整个过程公式化如下:,整个过程公式化如下:,整个过程公式化如下:跨模态交互融合编码器用于对RGB和Depth图像特征流进行特征校正,减少噪声影响,并融合多模态互补特征信息形成增强的特征表示,利用RGB和Depth两个模态特征的通道和空间相关性,对图像特征进行相互校准,实现更好的多模态特征提取和交互,形成更稳健的多模态特征信息;跨模态交互融合编码器模块设计,使用全局平均池化来获得RGB特征图F
RGB
和深度特征图F
Depth
中的全局特征向量,将两个特征向量输入一个3x3的卷积层和Sigmoid激活函数中,以获得通道注意力向量和分别反映RGB特征和Depth特征的重要性,按通道相乘将注意力向量应用于输入特征,通过这种方式,得到的特征图将明确地关注重要的信息,并抑制不必要的信息加强对场景理解;此过程定义为:的信息,并抑制不必要的信息加强对场景理解;此过程定义为:其中,i∈[RGB,Depth],Conv3
×
3(
·
)表示卷积核大小为3
×
3的卷积操作,AvgPooling(
·
)表示全局平均池化操作,表示按通道相乘;注意力向量和通过最大聚合函数MAX来获得RGB流和Depth流中的权重最大特征通道注意力向量,然后对其做归一化运算(N(
·
)得到交互融合通道注意力向量Att
f
,有效地抑制了两种模态低质量的特征响应,保留了信息量最大的视觉外观和几何特征;利用RGB流中的高置信特征来过滤掉相同级别的异常Depth特征,同时也抑制了Depth流中的噪声特征;Att
f
分别与F
RGB
和F
Depth
进行通道相乘获得通道上相互校准的特征向量和然后分别与和相加获得跨模态交互的通道增强特征和此过程定义为:
其中,N(
·
)、MAX(
·
)分别表示归一化和最大聚合操作,表示逐元素相加;为了克服不同模态间特征差异性,同时对局部信息的空间特征进行校正,在跨模态交互融合编码器中还利用两种模态特...

【专利技术属性】
技术研发人员:王勇李邑灵安春艳
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1