基于多尺度特征融合的6D位姿估计方法技术

技术编号:38530021 阅读:12 留言:0更新日期:2023-08-19 17:04
本发明专利技术为一种基于多尺度特征融合的6D位姿估计方法,该方法使用的6D位姿估计模型包括ResNet

【技术实现步骤摘要】
基于多尺度特征融合的6D位姿估计方法


[0001]本专利技术属于人工智能
,具体涉及一种基于多尺度特征融合的6D位姿估计方法。

技术介绍

[0002]6D位姿估计的目标是得到相机坐标系与目标对象坐标系间的平移与旋转变换关系,包括目标物体的3D旋转矩阵和3D平移向量。6D位姿估计在人工智能领域发挥着重要作用,可以应用于很多场景,例如在工业机器人领域,准确识别出待抓取物体的6D位姿可以提高抓取准确性;在增强现实场景中,准确的6D位姿可以增加人与物体的交互感;在自动驾驶领域,准确估计行人或者静止物体的6D位姿进行实现精准避让。
[0003]传统的RGB

D方法从RGB

D数据中提取特征,并进行对应分组和假设验证,这种方法因过于依赖特征描述符和固定的匹配程序而限制了其在杂乱复杂场景的估计性能。基于深度学习的方法可以直接从RGB

D数据中估计6D位姿,但是这种方法需要详细的后处理步骤,需利用Iterative Closest Point(ICP)等算法优化位姿信息,很难满足实时性。考虑到输入源为两种不同模态的数据信息,Chen Wang(Chen Wang.Densefusion:6d object pose estimation by iterative dense fusion.[C].2019)提出了端到端的逐像素融合网络,将RGB纹理特征和点云几何特征逐像素融合来实时估计6D位姿,保证了推理性能和实时性。然而,这种方法直接利用最后一层的特征信息进行6D位姿回归,没有充分考虑不同模态数据的多尺度特征间的相互依赖关系,同时忽略了特征图中语义丰富的区域,故估计精度较低。

技术实现思路

[0004]针对现有技术的不足,本专利技术拟解决的技术问题是,提出了一种基于多尺度特征融合的6D位姿估计方法。
[0005]本专利技术解决所述技术问题采用的技术方案如下:
[0006]一种基于多尺度特征融合的6D位姿估计方法,其特征在于,该方法包含以下步骤:
[0007]步骤S1、采集估计对象的RGB

D图像;
[0008]步骤S2、构建6D位姿估计模型,包括ResNet

18网络、PointNet网络和多尺度特征提取网络;将RGB图像输入到ResNet

18网络中,提取RGB纹理特征;将深度图像转换为点云数据,并利用PointNet网络提取点云几何特征;将RGB纹理特征和点云几何特征输入到多尺度特征提取网络中,RGB纹理特征经过四次上采样,得到多尺度特征和特征和分别通过权值重分配得到特征和点云几何特征经过四次上采样,得到多尺度特征和特征和分别通过权值重分配得到特征和特征和经过通道拼接得到特征F
XY
,特征和经过通道拼接得到特征特征和经过通道拼接得到特征特征和经过通道拼接得到特征
[0009]特征F
XY
和经过通道拼接和卷积后,与特征进行通道拼接,拼接得到的特征经过卷积,与特征进行通道拼接后,再经过卷积得到高维度的特征特征与经过通道拼接和卷积后,再与特征进行通道拼接,拼接得到的特征经过卷积得到中维度的特征特征与经过通道拼接和卷积,得到低维度的特征三个维度的特征经过通道拼接,得到特征F
γ
;特征F
γ
经过多层感知机进行回归预测,得到估计的6D位姿;
[0010]步骤S3、对6D位姿估计模型进行训练,将估计对象的RGB

D图像输入到训练后的6D位姿估计模型中进行6D位姿估计。
[0011]进一步的,在步骤S2中,特征通过权值重分配得到特征的过程为:特征经过全局池化、全连接层和激活后,再经过全连接层和激活后,与特征相乘,得到特征
[0012]进一步的,在步骤S3中,若估计对象是非对称对象,则位姿估计损失用预测位姿与真实位姿之间的平均欧式距离表示,计算公式为:
[0013][0014]其中,为第j个采样像素点的位姿估计损失,M为采样像素点的总数,x
j
为第j个采样像素点,(Rx
j
+t)为第j个采样像素点的真实位姿,为第j个采样像素点的预测位姿,分别为世界坐标系到相机坐标系转换的真实旋转矩阵和真实平移向量,分别为世界坐标系到相机坐标系转换的估计旋转矩阵和估计平移向量;
[0015]若估计对象是对称对象,则位姿估计损失用预测位姿与真实位姿之间的平均最小欧式距离的百分比表示,计算公式为:
[0016][0017]其中,x
k
为第k个采样像素点,为从第k个采样像素点中预测的预测位姿;
[0018]最终的损失函数表示为:
[0019][0020]其中,C
i
为第i个采样像素点预测位姿的置信度,ω为置信度的权重,N为随机抽取的密集像素特征的个数。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022]本专利技术创新性地构建了一个端到端的多尺度特征提取网络,多尺度特征提取网络由两条独立的分支组成,分别是RGB纹理特征提取分支和点云几何特征提取分支;每条分支均由编、解码结构组成,通过四次上采样得到多尺度特征,而位姿估计性能取决于特征提取程度,因此上采样得到的特征经过权值重分配模块进行特征细化,充分关注特征图中语义丰富的区域。特征解码在多尺度体系结构的作用下将多尺度特征进行相互关联,关注不同尺度特征的上下文信息和相互依赖关系,生成低、中、高三种维度的特征,可以充分估计小、中、大三种类型的目标对象,提高网络的泛化能力和估计性能。RGB图像和深度图像分别生
成多尺度的RGB纹理特征和点云几何特征,将背景点与估计对象很好地区分开,便于6D姿态估计。
附图说明
[0023]图1是本专利技术的整体框架图;
[0024]图2是本专利技术的多尺度特征提取网络的结构图;
[0025]图3是本专利技术的权值重分配模块的结构图。
具体实施方式
[0026]下面结合附图给出具体实施例,具体实施例仅用于详细说明本专利技术的技术方案,并不以此限定本申请的保护范围。
[0027]本专利技术为一种基于多尺度特征融合的6D位姿估计方法(简称方法,参见图1~3),包含以下步骤:
[0028]步骤S1、采集估计对象的RGB

D图像;
[0029]本实施例采用LineMOD和YCB

Video公共数据集,数据集中每个物体都包含RGB

D图像;LineMOD数据集包含13个低纹理物体,每个物体约1200张图片,总共15783张JPEG图片,大小为640
×
480;每个物体的200张图片用于训练,1000张图片用于测试;YCB

Video数据集由92个RGB

D视频序列组成,还提供8万张合成渲染图像来充实训练集,选取其中80个RGB
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征融合的6D位姿估计方法,其特征在于,该方法包含以下步骤:步骤S1、采集估计对象的RGB

D图像;步骤S2、构建6D位姿估计模型,包括ResNet

18网络、PointNet网络和多尺度特征提取网络;将RGB图像输入到ResNet

18网络中,提取RGB纹理特征;将深度图像转换为点云数据,并利用PointNet网络提取点云几何特征;将RGB纹理特征和点云几何特征输入到多尺度特征提取网络中,RGB纹理特征经过四次上采样,得到多尺度特征和特征和分别通过权值重分配得到特征和点云几何特征经过四次上采样,得到多尺度特征和特征和分别通过权值重分配得到特征和特征和经过通道拼接得到特征F
XY
,特征和经过通道拼接得到特征特征和经过通道拼接得到特征特征和经过通道拼接得到特征特征F
XY
和经过通道拼接和卷积后,与特征进行通道拼接,拼接得到的特征经过卷积,与特征进行通道拼接后,再经过卷积得到高维度的特征特征与经过通道拼接和卷积后,再与特征进行通道拼接,拼接得到的特征经过卷积得到中维度的特征特征与经过通道拼接和卷积,得到低维度的特征三个维度的特征经过通道拼接,得到特征F
γ
;特征F
γ
经过多层感知机进行回归预测,得到估计的6D位姿;步骤S...

【专利技术属性】
技术研发人员:安韵男杨德东葛浩然栗扬扬宋梦园
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1