一种基于自监督学习的目标三维重建方法技术

技术编号:22136275 阅读:168 留言:0更新日期:2019-09-18 09:50
本发明专利技术涉及一种基于自监督学习的目标三维重建方法,包括:S1、训练点云自编码网络;S2、训练二值图自编码网络;S3、输入RGB图像,获取真实二值图;S4、采用Pose net提取图像位姿;S5、训练图像编码器,并生成初步点云模型;S6、生成变换点云模型;S7、训练点云编码器,并生成恢复二值图;S8、计算恢复二值图与真实二值图的均方差值,若均方差值小于预设阈值,则输出结果,否则执行步骤S9;S9、反馈均方差值给图像编码器,并重新返回步骤S5。与现有技术相比,本发明专利技术采用Pose net提取图像位姿和增加二维监督信息,解决了输入图像视角模糊、缺乏监督项信息等问题,提高了目标三维重建的精确性。

A Self-supervised Learning Based Method for Object 3D Reconstruction

【技术实现步骤摘要】
一种基于自监督学习的目标三维重建方法
本专利技术涉及计算机视觉与图像处理
,尤其是涉及一种基于自监督学习的目标三维重建方法。
技术介绍
作为计算机视觉与计算机图像学高度交叉的一个研究方向,三维重建通过特定的装置及算法对现实世界中的三维物体的数学模型进行重新构建,已经广泛应用于智能无人系统、机器人、计算机辅助医疗、虚拟现实、增强现实等多个行业。传统的三维重建方法的研究多集中在多视图几何上,包括SFM和SLAM,尽管这些方法都在特定场景中取得了一定的效果,但也存在一些弊端:1)多视图几何无法重建视图中缺失的部分,需要输入足够多的视图以保证重建对象的完整性;2)对多视图的重建意味着计算复杂度的增加,很难做到实时重建的效果。这些弊端都限制了多视图重建的应用,因此,基于学习的方法实现单视图的重建显得尤为重要。目前基于学习的单视图图像重建主要包括两种方法:一种方法是依据2DCNN生成图像的方法,通过3DCNN生成,并以体素形状表示;另一种方法是基于弱监督机制,通过变分编码器拟合出3D形状,3D-RecGAN是基于GAN结构而被提出的一种新的网络,可以直接从单张深度图回复物体的体素结构。上述两种方法得到的体素均为256^3,对硬件设备的要求非常高,由于体素表示的三维形状是通过增加三维立体快的数目来提高表面精确度,为了平衡计算复杂度与表面精确度,近期又有一些基于网格和点云的重建方法被提出来,例如,Pixel2Mesh结合图卷积的思想,可以直接将单张彩色图像生成三角网格;PSG-Net利用无序点云的网络框架和损失函数实现了优于体素表示的点云重建。但是由于单视图重建本身缺少足够的监督项信息且部分输入图像视角模糊,导致重建出的模型存在部分缺失、缺乏细节丰富的表面等情况。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自监督学习的目标三维重建方法,以提高目标三维重建的精确度。本专利技术的目的可以通过以下技术方案来实现:一种基于自监督学习的目标三维重建方法,包括以下步骤:S1、训练点云自编码网络,获取点云潜在特征其中,点云自编码网络包括点云自编码器和点云解码器DP;S2、训练二值图自编码网络,获取二值图潜在特征其中,二值图自编码网络包括二值图自编码器和二值图解码器DI;S3、输入RGB图像,通过二值化处理得到真实二值图;S4、采用Posenet对输入的RGB图像进行特征提取,得到输入的RGB图像的图像位姿;S5、根据输入的RGB图像,训练图像编码器获取第一空间特征FP,通过所述步骤S1中的点云解码器DP,将输入的RGB图像生成初步点云模型;S6、由图像位姿对初步点云模型进行平移和旋转变换,生成变换点云模型;S7、根据变换点云模型,训练点云编码器获取第二空间特征FB,通过所述步骤S2中的二值图解码器DI,生成恢复二值图;S8、计算恢复二值图与真实二值图的均方差值,若所述均方差值小于预设阈值,则输出变换点云模型为输入RGB图像的目标三维重建结果,否则执行步骤S9;S9、反馈均方差值给图像编码器并重新返回步骤S5。优选的,所述步骤S1中获取点云潜在特征的具体过程为:S11、将真实点云数据输入点云自编码器经过5层1维卷积后得到B×N×512的特征;S12、所述步骤S11中B×N×512的特征经过最大池化层操作,得到B×512的点云潜在特征其中,k=512。优选的,所述步骤S1中点云解码器DP包括三层全连接层,以将点云潜在特征转换成B×N×3的点云格式。优选的,所述步骤S2中获取二值图潜在特征的具体过程为:S21、对RGB图像进行二值化处理,得到真实二值图其中,二值化处理是将像素值为0的地方用0表示,像素值为非零的地方用1表示;S22、将真实二值图输入二值图自编码器得到二值图潜在特征其中,k=512。优选的,所述步骤S2中二值图解码器DI采用反卷积操作进行图像内容填充,以使图像内容逐渐丰富从而恢复二值图。优选的,所述步骤S4中Posenet采用全连接层回归出图像视角信息,以得到图像位姿,所述图像视角信息包括(α,β,γ,a,b,c)共六个参量,其中,(α,β,γ)为方向角,分别表示偏航角,俯仰角和滚转角,(a,b,c)为平移向量;所述图像位姿为(R,t),其中,R为旋转矩阵,t=(a,b,c),由方向角(α,β,γ)到旋转矩阵R的转换公式如下:优选的,所述步骤S5具体包括以下步骤:S51、输入RGB图像给图像编码器得到第一空间特征FP;S52、由第一空间特征FP和点云潜在特征构成第一损失函数;S53、根据第一损失函数和第一空间特征FP,采用点云解码器DP生成初步点云模型。优选的,所述步骤S6中生成变换点云模型具体是将图像位姿与初步点云模型相乘,从而使初步点云模型变换到相机平面:x′i=Rxi+ti∈[0,N-1]其中,xi为初步点云模型中的点,x′i为变换点云模型中的点,N表示三维结构中包含的点的个数,每个点xi与图像位姿(R,t)相乘变换后得到x′i。优选的,所述步骤S7具体包括以下步骤:S71、将变换点云模型输入点云编码器得到第二空间特征FB;S72、由第二空间特征FB和二值图潜在特征构成第二损失函数;S73、根据第二损失函数和第二空间特征FB,采用二值图解码器DI生成恢复二值图。与现有技术相比,本专利技术具有以下优点:一、本专利技术采用Posenet对RGB图像进行特征提取,以得到图像位姿,使网络具有分辨图像视角的能力,解决了输入图像视觉模糊的问题,通过有效约束能生成合理的点云模型。二、本专利技术基于图像位姿对初步点云模型进行平移、旋转变换,并通过网络生成恢复二值图,以作为生成点云模型的监督项信息,充分利用二值图信息进行自监督,提高了目标三维重建结果的精确性。附图说明图1为本专利技术的方法流程示意图;图2为实施例的目标三维重建过程示意图;图3为Posenet的网络结构示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。如图1所示,一种基于自监督学习的目标三维重建方法,包括以下步骤:S1、训练点云自编码网络,获取点云潜在特征其中,点云自编码网络包括点云自编码器和点云解码器DP;S2、训练二值图自编码网络,获取二值图潜在特征其中,二值图自编码网络包括二值图自编码器和二值图解码器DI;S3、输入RGB图像,通过二值化处理得到真实二值图;S4、采用Posenet对输入的RGB图像进行特征提取,得到输入的RGB图像的图像位姿;S5、根据输入的RGB图像,训练图像编码器获取第一空间特征FP,通过所述步骤S1中的点云解码器DP,将输入的RGB图像生成初步点云模型;S6、由图像位姿对初步点云模型进行平移和旋转变换,生成变换点云模型;S7、根据变换点云模型,训练点云编码器获取第二空间特征FB,通过所述步骤S2中的二值图解码器DI,生成恢复二值图;S8、计算恢复二值图与真实二值图的均方差值,若所述均方差值小于预设阈值,则输出变换点云模型为输入RGB图像的目标三维重建结果,否则执行步骤S9;S9、反馈均方差值给图像编码器并重新返回步骤S5。本实施例中,点云自编码器二值图自编码器图像编码器点云编码器点云解码器DP和二值图解码器DI的网络结构如表1所示:表1其中,步骤S1的具体过程包括:将一组带有飞机真实点云数据B×X×3本文档来自技高网
...

【技术保护点】
1.一种基于自监督学习的目标三维重建方法,其特征在于,包括以下步骤:S1、训练点云自编码网络,获取点云潜在特征

【技术特征摘要】
1.一种基于自监督学习的目标三维重建方法,其特征在于,包括以下步骤:S1、训练点云自编码网络,获取点云潜在特征其中,点云自编码网络包括点云自编码器和点云解码器DP;S2、训练二值图自编码网络,获取二值图潜在特征其中,二值图自编码网络包括二值图自编码器和二值图解码器DI;S3、输入RGB图像,通过二值化处理得到真实二值图;S4、采用Posenet对输入的RGB图像进行特征提取,得到输入的RGB图像的图像位姿;S5、根据输入的RGB图像,训练图像编码器获取第一空间特征FP,通过所述步骤S1中的点云解码器DP,将输入的RGB图像生成初步点云模型;S6、由图像位姿对初步点云模型进行平移和旋转变换,生成变换点云模型;S7、根据变换点云模型,训练点云编码器获取第二空间特征FB,通过所述步骤S2中的二值图解码器DI,生成恢复二值图;S8、计算恢复二值图与真实二值图的均方差值,若所述均方差值小于预设阈值,则输出变换点云模型为输入RGB图像的目标三维重建结果,否则执行步骤S9;S9、反馈均方差值给图像编码器并重新返回步骤S5。2.根据权利要求1所述的一种基于自监督学习的目标三维重建方法,其特征在于,所述步骤S1中获取点云潜在特征的具体过程为:S11、将真实点云数据输入点云自编码器经过5层1维卷积后得到B×N×512的特征;S12、所述步骤S11中B×N×512的特征经过最大池化层操作,得到B×512的点云潜在特征其中,k=512。3.根据权利要求1所述的一种基于自监督学习的目标三维重建方法,其特征在于,所述步骤S1中点云解码器DP包括三层全连接层,以将点云潜在特征转换成B×N×3的点云格式。4.根据权利要求1所述的一种基于自监督学习的目标三维重建方法,其特征在于,所述步骤S2中获取二值图潜在特征的具体过程为:S21、对RGB图像进行二值化处理,得到真实二值图其中,二值化处理是将像素值为0的地方用0表示,像素值为非零的...

【专利技术属性】
技术研发人员:孙冉方志军高永彬周恒严娟黄漫
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1