一种基于深度学习的三维重建方法技术

技术编号:21573665 阅读:23 留言:0更新日期:2019-07-10 15:57
公开一种基于深度学习的三维重建方法,该方法包括:(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。

A 3-D Reconstruction Method Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的三维重建方法
本专利技术涉及计算机视觉和三维重建的
,尤其涉及一种基于深度学习的三维重建方法。
技术介绍
基于视觉的三维重建是从视觉传感器获取的图像恢复对象的三维信息(形状,纹理等)的计算过程和技术。精确的三维重建对于许多应用至关重要,如文物修复、机器人抓取和自动避障等。目前传统的三维重建方法存在一定局限性,包括:需要精确校准的相机和高质量的视觉成像元件;重建过程包含图像预处理、点云配准、数据融合等多个步骤,易导致误差累积,降低重建精度;且难以重建出感知对象被遮挡或发生信息丢失部分的形状。这些缺陷导致传统方法的重建结果质量较低,使得它们在实践中不能被广泛应用,因此,基于视觉的高精度三维重建问题具有很大的挑战性。近年来,深度学习的快速发展和大量三维几何模型数据库的公布,为高精度三维重建方法带来了新思路。目前较为多见的基于深度学习的方法利用深度生成模型,如生成对抗网络(GenerativeAdversarialNetworks,GAN),自编码器(AutoEncoder,AE)和变分自动编码器(VariationalAutoEncoder,VAE),从单视角图像进行三维重建。这些方法的主体框架包括编码和解码两个阶段,在编码阶段将输入数据编码为潜在特征,在解码阶段将此特征解码生成完整三维形状。基于GAN的重建方法采用随机噪声作为输入,通过判别器与生成器的对抗来保证重建精度,但由于随机噪声不能反映重建对象的先验信息,导致重建结果不具有特异性;而基于AE的重建方法仅将生成器的重建损失极小视为优化目标而没有考虑判别器的对抗性损失,使得重建结果受限于已知的输入信息而难以扩展出未知部分。自然地,将AE类方法保持的先验信息和GAN类方法具有的判别性相结合,即将AE的解码器设置为GAN的生成器,可以同时克服以上两类方法的缺陷。然而,这种基于GAN和AE融合的方法虽然改进了重建精度,但是不能完全恢复被遮挡和缺失的区域,并且会产生噪声,这在模型的跨类别重建过程中更为明显。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供一种基于深度学习的三维重建方法,其不需要人工设计复杂的特征算法,能够避免复杂的相机校准及精细的流程设计,并具备通过学习“所见”拓展“所知”,重建“所未知”的能力,可以弥补传统重建方法“所知即所见”的内在缺陷,使其不仅能够将输入的深度信息可以高度保真,还能够准确预测对象的缺失部分,从而实现高精度三维重建。本专利技术的技术方案是:这种基于深度学习的三维重建方法,该方法包括以下步骤:(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。本专利技术利用深度神经网络进行了高性能的特征提取、避免了人工设计的多环节误差积累;通过学习三维形状的潜在信息约束了输入图像,使缺失部分能够准确预测;将预测的三维形状进行了深度投影一致性约束,使输入的信息可以高度保真;利用空间局部模式分类器将预测的三维形状进行了二值化重建,实现了高精度三维重建;因此模型不需要人工设计复杂的特征算法,也避免了复杂的相机校准及精细的流程设计,并具备了通过学习“所见”拓展“所知”,重建“所未知”的能力,弥补了传统重建方法“所知即所见”的内在缺陷,实验表明,基于三维GAN-LFPC模型的重建结果不仅能够重建对象未知的部分,同时还能避免噪声的引入,其定性及定量评价指标均优于目前主流重建算法。附图说明图1示出了根据本专利技术的基于深度学习的三维重建方法的框架,图1a是训练框架,图1b是测试框架。图2示出了根据本专利技术的基于深度学习的三维重建方法的网络结构设计。图3示出了根据本专利技术的基于深度学习的三维重建方法的流程图。具体实施方式如图3所示,这种基于深度学习的三维重建方法,该方法包括以下步骤:(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。本专利技术利用深度神经网络进行了高性能的特征提取、避免了人工设计的多环节误差积累;通过学习三维形状的潜在信息约束了输入图像,使缺失部分能够准确预测;将预测的三维形状进行了深度投影一致性约束,使输入的信息可以高度保真;利用空间局部模式分类器将预测的三维形状进行了二值化重建,实现了高精度三维重建;因此模型不需要人工设计复杂的特征算法,也避免了复杂的相机校准及精细的流程设计,并具备了通过学习“所见”拓展“所知”,重建“所未知”的能力,弥补了传统重建方法“所知即所见”的内在缺陷,实验表明,基于三维GAN-LFPC模型的重建结果不仅能够重建对象未知的部分,同时还能避免噪声的引入,其定性及定量评价指标均优于目前主流重建算法。优选地,所述步骤(1)包括以下分步骤:(1.1)三维GAN重建和判别约束的实现;(1.2)潜在特征一致性约束的实现;(1.3)深度投影一致性约束的实现。优选地,所述步骤(1.1)采用改进的WassersteinGAN进行训练;对于生成器,目标函数Lg通过公式(1)获得:Lg=η(-βytlog(yp)-(1-β)(1-yt)log(1-yp))-(1-η)E[D(yp|x)](1)其中,x为深度图像转化后的三维体素值,yp是网络生成的三维对象值,实验中β被设置为0.85,η被设置为5;对于判别器,通过缩小真实对和生成对之间的Wasserstein距离来训练,其目标函数Ld为公式(2):其中,λ用来优化梯度惩罚和原始目标之间的权衡。优选地,所述步骤(1.2)利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量,以指导模型生成目标三维形状数据,使缺失部分能够准确预测,其损失函数Ll为公式(3):Ll=E(Zt)-E(Zp)(3)其中,Zt是三维真实对象学习到的潜在向量,Zp是单幅深度图像学习到的潜在向量,E(·)表示期望。优选地,所述步骤(1.3)在预测的三维形状和输入的深度图像之间进行了投影约束,投影后的深度值与输入的深度值保持一致,提高输入信息的保真度,以便模型对生成的三维形状进行微调,其损失函数Lproject为公式(4):其中,yp(x,y,z)表示预测的三维形状yp在位置(x,y,z)处的值,yp(x,y,z)∈{0,1},dx,y是输入图像x在位置(x,y)处的深度值。优选地,所述步骤(2)采用一个具有跳跃连接的三维深度卷积AE,编码器的特征层会被相应地连接到解码器。优选地,所述步骤(2)中网络结构包括编码器和解码器:编码器有四个三维卷积层,每个卷积层有一组4×4×4的滤波器,滑动步幅为1×1×1,接着是一个ReLU激活函数和一个最大池化层;然后有两个完全连接层,其中第二个完全连接层是学习到的潜在向量;解码器由四个对称的反卷积层组成,除最后一层使用Sigmoid激活函数外,其它反卷积层都使用ReLU激活本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的三维重建方法,其特征在于:该方法包括以下步骤:(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。

【技术特征摘要】
1.一种基于深度学习的三维重建方法,其特征在于:该方法包括以下步骤:(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。2.根据权利要求1所述的基于深度学习的三维重建方法,其特征在于:所述步骤(1)包括以下分步骤:(1.1)三维GAN重建和判别约束的实现;(1.2)潜在特征一致性约束的实现;(1.3)深度投影一致性约束的实现。3.根据权利要求2所述的基于深度学习的三维重建方法,其特征在于:所述步骤(1.1)采用改进的WassersteinGAN进行训练;对于生成器,目标函数Lg通过公式(1)获得:Lg=η(-βytlog(yp)-(1-β)(1-yt)log(1-yp))-(1-η)E[D(yp|x)](1)其中,x为深度图像转化后的三维体素值,yp是网络生成的三维对象值,实验中β被设置为0.85,η被设置为5;对于判别器,通过缩小真实对和生成对之间的Wasserstein距离来训练,其目标函数Ld为公式(2):其中,λ用来优化梯度惩罚和原始目标之间的权衡。4.根据权利要求3所述的基于深度学习的三维重建方法,其特征在于:所述步骤(1.2)利用学习到的三维真实对象的潜在特征向量信息约束输入图像的潜在向量,以指导模型生成目标三维形状数据,使缺失部分能够准确预测,其损失函数Ll为公式(3):Ll=E(Zt)-E(Zp)(3)其中,Zt是三维真实对象学习到的潜在向量,Zp是单幅深度图像学习到的潜在向量,E(·)表示期望。5.根据权利要求3所述的基于深度学习的三维重建方法,其特征在于:所述步骤(1.3)在预测的三维形状和输入的深度图像之间进行了投影约束,投影后的深度值与输入的深度值保持一致,提高输入信息的保真度,以便模型对生成的三维形状进行微调,其损失函数Lproject为公式(4):其中,yp(x,y,z)表示预测的三维形状yp在位置(x,y,z)处的值,yp(x,y,z)∈{0,1},dx,y是...

【专利技术属性】
技术研发人员:孔德慧刘彩霞王少帆李敬华王立春
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1