基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法技术

技术编号：39143461 阅读：10 留言：0更新日期：2023-10-23 14:55

本发明专利技术公开了基于Transformer

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer
‑
CNN混合架构的RGB
‑
D跨模态交互融合机械臂抓取检测方法

[0001]本专利技术涉及机械臂
，具体为基于Transformer
‑
CNN混合架构的RGB
‑
D跨模态交互融合机械臂抓取检测方法。

技术介绍

[0002]机器人广泛应用于工业、医疗、公共服务等领域。对机器人来说，正确感知位置随机的物体并找到不同形状物体的最佳抓取姿势是一个极具挑战性的问题。不恰当的抓取位姿很容易导致错误操作，因此一种准确、快速的抓握检测方法对机器人的抓取至关重要。物体的抓取检测是在给定的抓取物品上检测出适合物体拾取的抓取位姿。早期人们大多采用手工编写抓取规则或建立物体的三维抓取模型的方法来实现物体的抓取检测。Alvaro等人提出了一种使用多个图像的局部描述符来构建对象的度量3D模型的抓取检测方法。每个模型都要经过优化以拟合一组校准的训练图像，从而获得3D模型和真实对象之间的最佳对准实施抓取检测。Florian等人提出了一种使机器人能够通过在公共空间中表示物体并共同抓取物体来推理、转移和优化对各种物体的抓取检测方法。该方法从各种物体的点云数据开始，利用这个由抓取和光滑表面组成的空间，连续变形各种表面/抓取配置，以合成新物体上的力闭合抓取。近年来，随着深度学习技术的兴起，越来越多的深度学习方法被应用于抓取检测领域。深度学习的方法根据不同的检测方式可大致分为2D平面抓取检测和3D六自由度抓取检测。2D平面抓取的检测目标是检测出物品的适合...

【技术保护点】

【技术特征摘要】
1.基于Transformer
‑
CNN混合架构的RGB
‑
D跨模态交互融合机械臂抓取检测方法，其特征在于：至少包括以下步骤：S1：由编码器、解码器和抓取预测模块组成网络架构，编码器用于对输入图像进行下采样编码提取抓取检测图像的特征信息，解码器对这些特征信息进行上采样解码分析，最后在抓取预测模型中实现像素级的抓取预测；S2：图像特征编码，图像的特征编码是在网络的编码器模组中完成；S3：图像特征解码，RGB和Depth图像经过编码器编码后得到了F1、F2、F3三个不同层级的特征编码，将这三个特征编码输入到解码器进行特征解码；S4：抓取位姿预测，检测图像经过编码器的编码和解码器的解码后转化成了满足抓取检测所需的特征向量，把该特征向量输入抓取预测模块实现端到端的基于关键点的像素级抓取预测，最后利用网络生成与检测图像大小相同的像素图来预测抓取位姿；S5：基于关键点的像素级的抓取检测表示，对于平行夹爪式抓取器，抓取检测的目标是检测出图像中满足抓取任务的抓取矩形；S6：训练数据的生成；S7：损失函数，网络的损失函数L包括抓取矩形中心点损失L
s
抓取矩形角度和宽度损失L
A
、L
W
。2.根据权利要求1所述的基于Transformer
‑
CNN混合架构的RGB
‑
D跨模态交互融合机械臂抓取检测方法，其特征在于：所述解码器包括残差上采样模块、跳跃特征融合模块以及双流特征提取模块，所述编码器至少包括残差下采样模块、Transformer
‑
CNN双流特征提取模块以及跨模态交互融合编码器构成，所述Transformer
‑
CNN双流特征提取模块与双流特征提取模块相同。3.根据权利要求2所述的基于Transformer
‑
CNN混合架构的RGB
‑
D跨模态交互融合机械臂抓取检测方法，其特征在于：所述S1至少包括以下步骤：同一场景的RGB图像和Depth图像被分别单独送入编码器中；在编码器中两个图像分别输入两个相同结构的编码网络中，在编码过程中提取出两种模态各层级的特征信息输入跨模态交互融合编码器进行特征校准和交互融合；收集到编码器各个阶段的特征信息输入到解码器各阶段进行解码获得解码特征；解码特征再输入到抓取预测模块抓取预测模块获得抓取预测所需要的三种像素图：抓取分数图S、抓取角度图A和抓取宽度图W；最后根据这三个像素图得到抓取矩形的中心位置、宽、高以及抓取矩形的旋转角度。4.根据权利要求3所述的基于Transformer
‑
CNN混合架构的RGB
‑
D跨模态交互融合机械臂抓取检测方法，其特征在于：所述S2至少包括以下步骤：残差下采样模块采用的是残差网络的设计，与原始的残差网络不同的是残差下采样模块使用泛化性更强的Leaky
‑
Relu激活函数和更加稳定通用的FRN归一化层替换了Relu和BN层，在残差下采样模块中，第一个3x3卷积层用来使通道数翻倍，第二个3x3卷积层使分辨率减半，而残差连接流用1x1卷积和最大池化操作完成着两个操作；Transformer
‑
CNN双流特征提取模块结合了CNN组成的残差网络和Swin
‑
Transformer模块，以利用这两种网络架构的优势，在Transformer
‑
CNN双流特征提取模块中，输入的特征向量f
in
经过一个1
×
1卷积层(Conv1
×
1(
·
))后被分别输入到SwinT分支(Trans(
·
))和
残差卷积网络分支(Res(
·
))中进行特征提取获得在两个分支分别进行特征提取的时候互不干扰，这样局部和非局部特征可以独立并行处理，有助于更好地提取特征，保证网络性能的同时具有更强的网络稳定性；把拼接(Concat(
·
))后再用一个1x1的卷积层使其通道数目恢复与f
in
一致并与f
in
融合相加得到最后的特征输出向量f
out
，整个过程公式化如下：，整个过程公式化如下：，整个过程公式化如下：跨模态交互融合编码器用于对RGB和Depth图像特征流进行特征校正，减少噪声影响，并融合多模态互补特征信息形成增强的特征表示，利用RGB和Depth两个模态特征的通道和空间相关性，对图像特征进行相互校准，实现更好的多模态特征提取和交互，形成更稳健的多模态特征信息；跨模态交互融合编码器模块设计，使用全局平均池化来获得RGB特征图F
RGB
和深度特征图F
Depth
中的全局特征向量，将两个特征向量输入一个3x3的卷积层和Sigmoid激活函数中，以获得通道注意力向量和分别反映RGB特征和Depth特征的重要性，按通道相乘将注意力向量应用于输入特征，通过这种方式，得到的特征图将明确地关注重要的信息，并抑制不必要的信息加强对场景理解；此过程定义为：的信息，并抑制不必要的信息加强对场景理解；此过程定义为：其中，i∈[RGB,Depth],Conv3
×
3(
·
)表示卷积核大小为3
×
3的卷积操作，AvgPooling(
·
)表示全局平均池化操作，表示按通道相乘；注意力向量和通过最大聚合函数MAX来获得RGB流和Depth流中的权重最大特征通道注意力向量，然后对其做归一化运算(N(
·
)得到交互融合通道注意力向量Att
f
，有效地抑制了两种模态低质量的特征响应，保留了信息量最大的视觉外观和几何特征；利用RGB流中的高置信特征来过滤掉相同级别的异常Depth特征，同时也抑制了Depth流中的噪声特征；Att
f
分别与F
RGB
和F
Depth
进行通道相乘获得通道上相互校准的特征向量和然后分别与和相加获得跨模态交互的通道增强特征和此过程定义为：
其中，N(
·
)、MAX(
·
)分别表示归一化和最大聚合操作，表示逐元素相加；为了克服不同模态间特征差异性，同时对局部信息的空间特征进行校正，在跨模态交互融合编码器中还利用两种模态特...

【专利技术属性】
技术研发人员：王勇，李邑灵，安春艳，
申请(专利权)人：重庆理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人