一种6D姿态估计方法技术

技术编号:29493020 阅读:26 留言:0更新日期:2021-07-30 19:05
本发明专利技术公开了一种6D姿态估计方法,属于姿态估计领域,S1:通过图像分割获得目标在图像上的掩膜;S2:根据掩膜范围提取目标图像块与XYZ map,并将目标图像块与XYZ map输入XYZNet进行特征提取,获得密集2D‑3D特征;S3:将密集2D‑3D特征输入三个CNN分支,分别回归3D平移、旋转四元数、置信度,用来估计目标物体6D位姿;S4:选择置信度最大的一组姿态结果,通过此方法,XYZNet将点云数据以XYZ map的格式保存,使点云与图像严格对齐(alignment),并使用2D卷积在RGB图像和XYZ map上进行2D‑3D特征提取,这样的设计利用了卷积的窗口结构对原本在3D空间的点进行聚合,能高效提取点云局部几何特征。我们提出了PrimADD(S)loss,使得算法在训练阶段能够正确处理对称物体,同时也为非对称物体的估计带来了提升。

【技术实现步骤摘要】
一种6D姿态估计方法
本专利技术涉及姿态估计领域,尤其涉及一种6D姿态估计方法。
技术介绍
6D姿态估计的目的是在场景中检测出目标,并估计目标相对参考坐标系(canonicalframe)的旋转和平移。高效精确的6D姿态估计是实时交互应用的关键技术,比如增强现实、自动驾驶、机器人应用等。由于现实场景存在光照变化、数据噪声、遮挡残缺等情况,所以设计鲁棒的姿态估计算法是很具有挑战性的。近几年得益于深度学习强大的特征提取和拟合能力,基于数据驱动的姿态估计算法表现出极好的性能。这些基于深度学习的姿态估计算法按照使用的输入数据,可以分为基于2D图像的方法、基于3D点云的方法和基于2D图像-3D点云的方法。早期基于2D图像的6D位姿估计方法通过CNN提取2D纹理特征来进行姿态回归,因为2D图像缺少深度信息,所以这类算法很难获得精确的估计结果,也很难处理弱纹理或者无纹理物体。基于3D点云的方法,特征提取一般使用PointNet,PointNet++等网络,相比基于2D图像的算法有了较大的性能提升。近年来出现了以DenseFusion为代表的结合2D图像特征和3D点云特征来进行姿态估计的算法,并获得进一步性能提升,并且其提出的Point-wise特征聚合方式在面对点云残缺,目标遮挡等情况时,表现出了优异的鲁棒性。但目前的2D-3D特征聚合框架是异构的架构,一个分支在图像上进2D特征提取,另一个分支在点云空间中进行3D特征提取,再根据点云在图像上的索引进行聚合,这种方式耗时长,结构也不够优雅。通过总结存在以下缺点:1、特征提取阶段,目前最高水平的算法都是Point-based的提取方式,这些算法利用PointNet++提取3D特征。PointNet++需要频繁进行点云分组,是比较耗时的特征提取网络。同时为了获得Point-wise的2D-3D特征,Densefusion、PVN3D等算法需要通过点云与像素的关联索引进行特征聚合,这种异构结构不够高效也不易实现;2、过去的深度学习算法都不能很好的处理对称物体,因为对称物体存在旋转多义性,所以在训练阶段,会使得网络在面对同一个输入时,接收到不同的惩罚,最终导致网络学习不到正确的解。本专利提出了一个面向现实场景,既高效又鲁棒的姿态估计算法,以及新的代价函数,使姿态估计算法可以应用于对称物体上。
技术实现思路
为了克服现有技术的缺陷,本专利技术所要解决的技术问题在于提出一种6D姿态估计方法,通过此方法,解决了密集2D-3D特征提取不高效及对称物体的旋转多义性的问题。为达此目的,本专利技术采用以下技术方案:本专利技术提供的一种6D姿态估计方法,一种6D姿态估计方法,包括以下步骤:S1:通过图像分割获得目标在图像上的掩膜;S2:根据掩膜范围提取目标图像块与XYZmap,并将目标图像块与XYZmap输入XYZNet进行特征提取,获得密集2D-3D特征;S3:将密集2D-3D特征输入三个CNN分支,分别回归3D平移、旋转四元数、置信度,用来估计目标物体6D位姿;S4:选择置信度最大的一组姿态结果。本专利技术优选地技术方案在于,通过图像分割获得目标在图像上的掩膜具体步骤为:通过图像分割把图像分成若干个特定的、具有独特性质的区域并提取感兴趣目标,并对感兴趣目标做掩膜处理。本专利技术优选地技术方案在于,XYZNet包括:多层级局部特征提取模块,用于对目标的图像块以及对应的XYZmap经过多层卷积进行局部特征提取;全局几何信息编码模块,用于将局部特征和坐标串联,并使用多层1x1卷积进行特征编码,并使用maxpooling提取代表目标的全局特征;密集2D-3D特征聚合模块,用于将局部特征与全局特征串联,全局特征提供感受野更大的上下文信息,局部特征提供细致且具有差异的信息。本专利技术优选地技术方案在于,所述S4具体为:将S3得到的置信度值经过argmax函数筛选,得到置信度最大的一组姿态结果。本专利技术优选地技术方案在于,根据掩膜范围提取目标图像块与XYZmap,并将目标图像块与XYZmap输入XYZNet进行特征提取具体为:将点云保存为XYZmap数据格式,与目标图像块一起输入XYZNet全卷积网络进行密集2D-3D特征提取,获取特征结果。本专利技术优选地技术方案在于,在所述S1之前包括:对卷积神经网络进行训练;所述对卷积神经网络进行训练具体为,随机初始化网络参数,根据数据集及其对应的真值,卷积神经网络对数据进行处理,输出预测值;使用预测值和真值计算loss,将loss进行反向传导以修改卷积神经网络的参数。本专利技术优选地技术方案在于,根据预测值和真值计算loss,提出PrimADD(S)loss用于处理对称物体旋转多义性;所述PrimADD(S)包括ADD(S)和primitiveerror;所述ADD(S)由ADD和ADD-S组成;所述ADD用于计算非对称物体目标,所述ADD-S用于计算对称物体目标,具体公式如下:其中[R,t]是网络估计的姿态,是真值,xj、xk是目标3D模型上的第j个点和第k个点,M是目标3D模型中的点个数。本专利技术优选地技术方案在于,通过坐标基元及无多义性坐标基元计算primitiveerror;所述坐标基元具体为一组和物体自身坐标轴相平行的单位向量,所述无多义性坐标基元具体为在旋转变换中,物体的外观与该坐标基元的状态一一对应,不存在一对多的关系的向量。本专利技术优选地技术方案在于,在姿态估计任务中,坐标基元和估计的旋转矩阵之间的关系如下:[px,py,pz]=R借助无多义性坐标基元,primitiveerror计算公式定义如下:a为非对称物体,b为只有一个无多义性坐标基元,c为不存在无多义性坐标基元,up是指估计的无多义性坐标基元,是对应的真值。。本专利技术优选地技术方案在于,PrimADD(S)loss的形式如下:PrimADD(S)i=ADD(S)i+hp·PrimEiλp是一个平衡ADD(S)和PrimE的权重,这里我们取值0.3。本专利技术的有益效果为:本专利技术提供的一种6D姿态估计方法,具有如下优势:第一个是特征提取模块XYZNet的优势,XYZNet是一个在RGBD数据上提取密集2D-3D特征的架构。这种全卷积的架构相比于DenseFusion等异构架构更加高效而简洁,非常适用于实时性要求高,计算力低的应用场景,比如手机端和嵌入式端的应用,同时所提取的特征具有强大的表征能力,可以用于检测、分割、高精度的姿态估计,密集特征对于遮挡残缺等情况也更鲁棒。第二个优势在于本专利技术大大拓宽了姿态估计的应用范围,过去的方法没法正确估计对称物体的姿态,这限制了该项技术的应用,现实生活中,对称物体比比皆是,生活场景的瓶瓶罐罐,圆木家具,工业场景的各种对称工件等,提出的primitveerror则有效消除了局部最优的情况,使得网络学习到正本文档来自技高网
...

【技术保护点】
1.一种6D姿态估计方法,其特征在于:包括以下步骤:/nS1:通过图像分割获得目标在图像上的掩膜;/nS2:根据掩膜范围提取目标图像块与XYZ map,并将目标图像块与XYZ map输入XYZNet进行特征提取,获得密集2D-3D特征;/nS3:将所述密集2D-3D特征输入三个CNN分支,分别回归3D平移、旋转四元数、置信度,用来估计目标物体6D位姿;/nS4:选择置信度最大的一组姿态结果。/n

【技术特征摘要】
20201210 CN 20201143626961.一种6D姿态估计方法,其特征在于:包括以下步骤:
S1:通过图像分割获得目标在图像上的掩膜;
S2:根据掩膜范围提取目标图像块与XYZmap,并将目标图像块与XYZmap输入XYZNet进行特征提取,获得密集2D-3D特征;
S3:将所述密集2D-3D特征输入三个CNN分支,分别回归3D平移、旋转四元数、置信度,用来估计目标物体6D位姿;
S4:选择置信度最大的一组姿态结果。


2.根据权利要求1所述的6D姿态估计方法,其特征在于:通过图像分割获得目标在图像上的掩膜具体步骤为:
通过图像分割把图像分成若干个特定的、具有独特性质的区域并提取感兴趣目标,并对感兴趣目标做掩膜处理。


3.根据权利要求2所述的6D姿态估计方法,其特征在于:XYZNet包括:
多层级局部特征提取模块,用于对目标的图像块以及对应的XYZmap经过多层卷积进行局部特征提取;
全局几何信息编码模块,用于将局部特征和坐标串联,并使用多层1x1卷积进行特征编码,并使用maxpooling提取代表目标的全局特征;
密集2D-3D特征聚合模块,用于将局部特征与全局特征串联,全局特征提供感受野更大的上下文信息,局部特征提供细致且具有差异的信息。


4.根据权利要求1所述的6D姿态估计方法,其特征在于:所述S4具体为:
将S3得到的置信度值经过argmax函数筛选,得到置信度最大的一组姿态结果。


5.根据权利要求3所述的6D姿态估计方法,其特征在于:根据掩膜范围提取目标图像块与XYZmap,并将目标图像块与XYZmap输入XYZNet进行特征提取具体为:
将点云保存为XYZmap数据格式,与目标图像块一并输入XYZNet全卷积网络进行密集2D-3D特征提取,获取特征结果。


6.根据权利要求1所述的6D姿态估计方法,其特征在于:在步骤S1之前还包括:
对卷积神经...

【专利技术属性】
技术研发人员:陈世峰莫柠锴
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1