一种基于多模态输入与注意力机制的单视图位姿估计方法及其系统技术方案

技术编号:37064150 阅读:14 留言:0更新日期:2023-03-29 19:42
本发明专利技术公开了一种基于多模态输入与注意力机制的单视图位姿估计方法,构建一个包括预测模块和位姿回归模块的单视图位姿估计系统,结合多模态输入与注意力特征增强技术,从二维图像中学习对象的多种中间表示特征,进而回归对象6D位姿,包括:预测模块采用ResNet

【技术实现步骤摘要】
一种基于多模态输入与注意力机制的单视图位姿估计方法及其系统


[0001]本专利技术属于从单视图中估计物体6D位姿的
,涉及一种基于多模态输入与注意力机制的单视图位姿估计方法及其系统。

技术介绍

[0002]在机器人抓取或增强现实等应用中,从RGB图像中估计物体的6D位姿是一项重要任务。尽管引入深度图像可以给该任务带来显著改善,然而深度图像并非总是很容易获得。例如手机、平板电脑、工业相机,大多没有提供深度数据。因此,大量研究致力于仅使用RGB图像估计已知对象的6D位姿。传统方法将RGB图像特征与物体的3D模型进行匹配来解决这个问题,这些方法依赖人工标注特征,且对光照变化、背景杂波或少纹理物体缺乏鲁棒性。深度学习的发展加速了从RGB图像中估计物体6D位姿的研究。目前较为流行的关键点方法,利用关键点作为中间监督信号,进行模型训练,然后将神经网络预测出的2D关键点结合PnP算法估计物体的6D位姿,例如PvNet【Peng S等,Pixel

wise voting network for 6dof pose estimation IEEE/CVF 2019】、Pix2pose【Park K等,Pixel

wise coordinate regression of objects for6d pose estimation.IEEE/CVF 2019】等。
[0003]但是关键点方法的性能依赖于以下两个假设:1)深度学习模型可以准确预测二维关键点位置;2)预测出的二维关键点提供了足够的约束条件以回归物体6D位姿。然而物体存在部分被遮挡等因素会导致关键点预测不准确,因此这两种假设在许多现实环境中不易成立。

技术实现思路

[0004]本专利技术的目的是克服现有单视图6D位姿估计方法存在的不足之处,提供一种基于多模态输入与注意力机制的单视图位姿估计方法及其系统,结合多模态输入与注意力特征增强技术,从二维图像中学习对象多种中间表示特征,进而从单张RGB图像中估计对象的6D位姿,具有更高的鲁棒性和位姿估计精度。
[0005]为解决上述技术问题,本专利技术采用以下技术方案。
[0006]本专利技术的一种基于多模态输入与注意力机制的单视图位姿估计方法,构建一个包括预测模块和位姿回归模块的单视图位姿估计系统,结合多模态输入与注意力特征增强技术,从二维图像中学习对象的多种中间表示特征,进而回归对象6D位姿,其方法包括以下步骤:
[0007]步骤1、预测模块利用多种中间表示来表达RGB图像中的几何信息,同时引入注意力机制,以提升网络训练效率;所述的多种中间表示包括RGB图像的关键点κ、边缘向量ε和密集逐像素对应关系S;
[0008]所述的预测模块,包括第一预测网络第二预测网络第三预测网络和一个全连接网络,三个预测网络的每个降采样模块之间都嵌入了通道注意力模块;使用
PVNet作为主干网,是一个基于关键点的位姿估计网络,采用投票的方法预测可见和不可见的k个关键点;预测网络用以优化物体位姿;
[0009]步骤2、位姿回归模块获取预测模块得到的中间表示结果,将关键点、边缘向量和密集逐像素对应关系信息组合起来,通过EPnP计算和奇异值分解从中间表示结果中回归物体6D位姿;
[0010]所述的位姿回归模块,用预测模块的各网络预测出的中间表示{κ,ε,S}作为输入,输出物体I的6D位姿:R
I
∈SO(3),
[0011]具体地,所述的步骤1包括:
[0012]以关键点作为节点构造一个完全连通图ε:是预测沿着该图的图边缘向量的网络,采用ResNet

18作为骨干网络;ε显式表达每对关键点之间的位移,|ε|表示预定义图形中的边数,因此
[0013]预测生成反映像素对称对应关系的第三种中间表示S,来反映物体的潜在反射对称性;扩展FlowNet的网络架构,将FlowNet预测的密集像素流与PVNet预测出的掩码图相融合,预测掩码区域内每个像素的对称对应关系;
[0014]的损失l1,的损失l2,的损失l3均使用Fast RCNN中平滑损失进行训练;为体现不同中间表示对位姿估计网络效果的重要程度,使用x,y,z三个参数分别对三种中间表示的损失进行加权处理,其中x+y+z=1,因此总损失为:
[0015]L=xl1+yl2+zl3ꢀꢀ
(1)
[0016]通道注意力模块,将和每个残差块输出维度为的张量F作为注意力模块输入,进行平均池化操作,通道注意力模块通过执行卷积核大小为n=5的一维卷积来生成维度为的信道权重;得到的权重通过激活函数处理和维度还原后得到结果F

,并将其作为下一个残差块的输入。
[0017]具体地,所述的步骤2包括:
[0018]将标准坐标系中的三维关键点真值坐标表示为边缘向量真值表示为为将预测模块输出的关键点坐标表示为边缘向量表示为边缘向量表示为对称对应表示为为便于计算,使用齐次坐标标以及对应于p
k
,ν
e
,q
s,1
和q
s,2
,这些齐次坐标由已知的相机内参归一化;
[0019]使用EPnP算法,并结合中间表示的约束计算物体6D位姿;首先为三种预测元素引入以下差分向量:
[0020][0021][0022][0023]其中e
s
和e
t
是边e的端点,是基坐标系下反射对称平面的法线;
[0024]其次,(2)式转化为形如A1x,A2x,A3x的形式,同理将(3)式转换为A4x,A5x,A6x,(4)式转化为A7x;将A1,A2,A3,A4,A5,A6合并为A;为描述预测值与真实值之间的关系,引入形式为Ax=0的线性系统,其中A是维度为(3|κ|+3|ε|+|S|)
×
12的矩阵;x是一个在仿射空间中包含旋转矩阵R和平移向量t参数的向量;
[0025]接着,使用EPnP算法计算:
[0026][0027](5)式中v
i
是A的第i个最小奇异值对应的右奇异向量;理想情况下当预测元素无噪声时,N=1,x=v
i
是最优解;选择与EPnP相同的N=4;为了计算最优的x,使用以下目标函数在交替优化过程中优化隐变量λ
i
和旋转矩阵R:
[0028][0029](6)式中包括v
i
的前9个元素;在获得最优λ
i
后,运用SVD分解将投影至SO(3),即得到旋转矩阵R=Udiag(1,1,1)V
T
;最后利用Ax=0得到相对应的平移向量t:
[0030][0031](7)式中A1=A
[:,1:9],A2=A
[:,10:12],由R展平得到。
[0032]本专利技术的一种基于多模态输入与注意力机制的单视图位姿估计系统,包括:
[0033]预测模块,利用多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态输入与注意力机制的单视图位姿估计方法,其特征在于,构建一个包括预测模块和位姿回归模块的单视图位姿估计系统,结合多模态输入与注意力特征增强技术,从二维图像中学习对象的多种中间表示特征,进而回归对象6D位姿,包括以下步骤:步骤1、预测模块利用多种中间表示来表达RGB图像中的几何信息,同时引入注意力机制,以提升网络训练效率;所述的多种中间表示包括RGB图像的关键点κ、边缘向量ε和密集逐像素对应关系S;所述的预测模块,包括第一预测网络第二预测网络第三预测网络和一个全连接网络,三个预测网络的每个降采样模块之间都嵌入了通道注意力模块;使用PVNet作为主干网,是一个基于关键点的位姿估计网络,采用投票的方法预测可见和不可见的k个关键点;预测网络用以优化物体位姿;步骤2、位姿回归模块获取预测模块得到的中间表示结果,将关键点、边缘向量和密集逐像素对应关系信息组合起来,通过EPnP计算和奇异值分解从中间表示结果中回归物体6D位姿;所述的位姿回归模块,用预测模块的各网络预测出的中间表示{κ,ε,S}作为输入,输出物体I的6D位姿:R
I
∈SO(3),2.根据权利要求1所述的一种基于多模态输入与注意力机制的单视图位姿估计方法,其特征在于,所述的步骤1包括:以关键点作为节点构造一个完全连通图ε:是预测沿着该图的图边缘向量的网络,采用ResNet

18作为骨干网络;ε显式表达每对关键点之间的位移,|ε|表示预定义图形中的边数,因此形中的边数,因此预测生成反映像素对称对应关系的第三种中间表示S,来反映物体的潜在反射对称性;扩展FlowNet的网络架构,将FlowNet预测的密集像素流与PVNet预测出的掩码图相融合,预测掩码区域内每个像素的对称对应关系;的损失l1,的损失l2,的损失l3均使用Fast RCNN中平滑损失进行训练;为体现不同中间表示对位姿估计网络效果的重要程度,使用x,y,z三个参数分别对三种中间表示的损失进行加权处理,其中x+y+z=1,因此总损失为:L=xl1+yl2+zl3ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)通道注意力模块,将和每个残差块输出维度为的张量F作为注意力模块输入,进行平均池化操作,通道注意力模块通过执行卷积核大小为n=5的一维卷积来生成维度为的信道权重;得到的权重通过激活函数处理和维度还原后得到结果F

,并将其作为下一个残差块的输入。3.根据权利要求1所述的一种基于多模态输入与注意力机制的单视图位姿估计方法,其特征在于,所述的步骤2包括:将标准坐标系中的三维关键点真值坐标表示为1≤k≤|κ|,边缘向量真值表示为
1≤e≤|ε|,将预测模块输出的关键点坐标表示为1≤k≤|κ|;边缘向量表示为1≤e≤|ε|;对称对应表示为1≤s≤|S|;为便于计算,使用齐次坐标坐标以及对应于p
k
,ν
e
,q
s,1
和q
s,2
,这些齐次坐标由已知的相机内参归一化;使用EPnP算法,并结合中间表示的约束计算物体6D位姿;首先为三种预测元素引入以下差分向量:下差分向量:下差分向量:其中e
s
和e
t
是边e的端点,是边e的端点,是基坐标系下反射对称平面的法线;其次,(2)式转化为形如A1x,A2x,A3x的形式,同理将(3)式转换为A4x,A5x,A6x,(4)式转化为A7x;将A1,A2,A3,A4,A5,A6合并为A;为描述预测值与真实值之间的关系,引入形式为Ax=0的线性系统,其中A是维度为(3|κ|+3|ε|+|S|)
×
12的矩阵;x是一个在仿射空间中包含旋转矩阵R和平移向量t参数的向量;接着,使用EPnP算法计算:(5)式中v
i
是A的第i个最小奇异值对应的右奇异向量;理想情况下当预测元素无噪声时,N=1,x=v
i
是最优解;选择与EPnP相同的N=4;为了计算最优的x,使用以下目标函数在交替优化过程中优化隐变量λ
i
和旋转矩阵R:(6)式中包括v
i
的前9个元素;在获得最优λ
i
后,运用SVD分解将投影至SO(3),即得到旋转矩阵R=Udiag(1,1,1)V
T
;最后利用Ax=0得到相对应的平移向量t:(7)式中A1=A
[:,1:9]
...

【专利技术属性】
技术研发人员:史金龙张文睿钱强欧镇白素琴钱萍田朝晖邓权耀
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1