一种单幅图像的三维模型重建方法技术

技术编号:22755795 阅读:17 留言:0更新日期:2019-12-07 04:16
公开一种单幅图像的三维模型重建方法,其不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了通过学习所见拓展所知,重建所未知的能力;改进了预测不完整、噪声多,训练时间长的问题;不仅能够准确地重建图像,同时还能避免噪声的引入。该方法包括:(1)输入深度图像;(2)转换为2.5D体素网格;(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。

A method of 3D model reconstruction for single image

A 3D model reconstruction method for single image is disclosed, which does not need complex feature algorithm designed manually, avoids complex camera calibration and fine process design, and has the ability to expand knowledge through learning what you see and reconstruct what you don't know; improves the problems of incomplete prediction, more noise and long training time; it can not only accurately reconstruct the image, but also avoid the problem of complex process design The introduction of noise free. This method includes: (1) inputting depth image; (2) converting to 2.5D voxel mesh; (3) in the generator part, first encode the input single depth image into a potential vector, then use the attention mechanism to learn a potential vector based on attention, and then decode the potential variables of attention to generate 3D reconstruction shape; (4) in the discriminator part, re implement 3D reconstruction shape A discriminator is constructed, and a mask discriminator is implemented on the shape of the visible part.

【技术实现步骤摘要】
一种单幅图像的三维模型重建方法
本专利技术涉及计算机视觉和计算机图形学的
,尤其涉及一种单幅图像的三维模型重建方法。
技术介绍
随着服务机器人、自主驾驶、虚拟现实和增强现实技术的发展,三维重建已成为计算机视觉领域的一个重要研究课题。传统重建方法存在一定的局限性,如运动恢复结构(StructurefromMotion,SFM)、即时定位和地图构建(SimultaneousLocalizationandMapping,SLAM)等方法要求密集的视点图像,它们严重依赖于跨视图之间的特征匹配,重建过程涉及环节较多,导致误差累计,进而导致重建质量较低。近年来随着深度学习模型的迅速发展和大量3D几何模型数据库的公开,给传统的三维重建带来了新思路,其主要思想是希望通过设计的深度神经网络代替传统人工设计算法提取特征的方式,学习训练数据的先验知识,然后将其应用到测试数据,从而达到预定义的目标。由此可见将深度神经网络应用于三维重建,可以克服传统重建方法的一些局限。然而,深度神经网络的选择和设计对于3D形状的高效准确重建非常关键。目前,最广泛应用于三维本文档来自技高网...

【技术保护点】
1.一种单幅图像的三维模型重建方法,其特征在于:该方法包括以下步骤:/n(1)输入深度图像;/n(2)转换为2.5D体素网格;/n(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;/n(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。/n

【技术特征摘要】
1.一种单幅图像的三维模型重建方法,其特征在于:该方法包括以下步骤:
(1)输入深度图像;
(2)转换为2.5D体素网格;
(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;
(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。


2.根据权利要求1所述的单幅图像的三维模型重建方法,其特征在于:所述步骤(3)中编码为:首先通过四个三维卷积层获得尺寸为4,通道数为512的特征图,其中每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层,四个卷积层的通道数分别为64,128,256,512。然后编码器将二维特征展平成为一个维数为32768的向量。


3.根据权利要求2所述的单幅图像的三维模型重建方法,其特征在于:所述步骤(3)中利用注意力机制学习一个基于注意力的潜在向量通过基于注意力的全连接层AFCs获得:
将编码后的特征X∈Rn×1划分为多个片段特征,然后每个片段特征xi∈Rd×1(i=1,…,c)被转换为一个二维特征,接着将所有的二维特征x映射到两个新的特征空间f,g,从而计算其注意力图其中,



ajk=FjTGk(2)
其中,Fj表示矩阵F的第j列,其每一列是特征向量fm中的第j个位置;Gk表示矩阵G的第k列,其每一列是特征向量gn中的第k个位置;sjk表示模型在合成第k个位置时对第j个位置的关注程度。
再次将所有的二维特征x映射到第3个新的特征空间h,通过c3组1×1的卷积核提取特征,并进行与上述方法相似的处理,得到矩阵H,那么基于注意力的特征为其中,



其中,Hj表示矩阵H的第j列,B=ST,bkj是矩阵B中第k行第j列的元素;
设置
将O展平,得到基于注意力的全连接输出Z∈Rm×1,其中m=c3×d。


4.根据权利要求3所述的单幅图像的三维模型重建方法,其特征在于:所述注意力图通过以下获得:对于特征空间f,首先通过c1组1×1的卷积核将所有二维特征处理成新特征,然后将每个新特征图展平成向量fm(m=1,…c1),再拼接得到矩阵F;通过c2组1×1的卷积核得到特征空间g下的新特征,然后将每个新特征图展平成向量gn(n=1,…c2),再拼接得到矩阵G;最后对两个矩阵进行乘法运算,得到注意力图





5.根据权利要求4所述的单幅图像的三维模型重建方法,其特征在于:该方法包括两层AFCs:通过编码,得到一个特征向量X∈R32768×1,将特征向量划分为c=512个维度为d=64的片段特征,将每个片段特征xi转换为一个8×8的二维特征,然后将所有的二维特征x映射到三个特征空间...

【专利技术属性】
技术研发人员:孔德慧刘彩霞王少帆李敬华王立春
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1