当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于深度学习视频监督的单图像三维重建方法技术

技术编号:26377908 阅读:98 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供了一种基于深度学习视频监督的单图像三维重建方法,包括以下步骤:1)构建了物体位姿预测模块:根据输入图像中的物体可以得到其相机拍摄相对于物体的位置;2)构建了物体三维形状估计模块:根据输入的单幅物体图像通过迭代优化损失预测得到它的三维点云;3)构建了多帧形状融合模块:将视频图线序列并行得输入以上两模块中,可以得到单帧的相机位姿及三维形状预测,通过多帧权重融合以及一致性约束、平滑性约束得到更准确地预测;4)整体训练框架:包括数据预处理、模型框架训练及测试三个阶段。本发明专利技术方法实现了端到端的三维重建,能够使用视频序列进行训练,在测试阶段仅使用单图像就能够预测其三维点云。

【技术实现步骤摘要】
一种基于深度学习视频监督的单图像三维重建方法技术邻域本专利技术属于三维重建技术邻域,具体涉及一种基于深度学习视频监督的单图像三维重建方法。
技术介绍
近年来,随着深度学习的发展计算机视觉问题的解决都得到了较大程度的发展。近期各种二维图像处理的技术逐渐被完善适用于三维问题中,物体三维形状的重建也成为了热点问题之一。以往的许多方法都需要完整的三维模型数据进行监督,然而这样的数据是稀少且获取过程复杂代价昂贵的。由此又出现了利用众多多图像以及单图像的重建方法,由于监督信息的减弱,将导致局部细节精度的降低以及物体视角的歧义性。同时多图像方法需要依赖训练输入图像间的相关性,这在真实场景下是较难大量得获取的,而单图像由于信息总量的减少,不仅需要引入其他额外信息,还会导致重建精度的大幅降低。为解决三维重建的问题,目前主要的技术思路有如文献1:J.L.Sch€onbergerandJ.-M.Frahm,“Structure-from-motionrevisited,”inProc.IEEEConf.Comput.Vis.PatternRecognit.,2016,pp.4104–4113利用传统优化方法进行重建。如文献2:H.Fan,H.Su,andL.Guibas,“Apointsetgenerationnetworkfor3Dobjectreconstructionfromasingleimage,”inIEEECVPR,vol.38,2017使用大规模三维数据集,最早使用点云表示进行三维重建,并提出了点云见距离的计算标准。文献3:C.B.Choy,D.Xu,J.Gwak,K.Chen,andS.Savarese.3DR2N2:Aunifiedapproachforsingleandmulti-view3Dobjectreconstruction.InECCV2016提出了一种使用循环神经网络的多图像三维重建方法,该方法可以利用之前输入的图像信息完成后续输入的重建。文献4:M.Wang,L.Wang,andY.Fang.3DensiNet:Arobustneuralnetworkarchitecturetowards3Dvolumetricobjectpredictionfrom2Dimage.InACMMM2017使用最大池化来聚合来自输入图像的特征以用于重建。文献5:[38]Multi-viewConsistencyasSupervisorySignalforLearningShapeandPosePrediction2018提出了不需要真实拍摄视角输入的多图像重建方法。虽然这些重建方法都能够得到较理想的三维重建结果,但是由于三维数据的获取困难及昂贵,多图像相关性的输入约束以及运行过程的耗时耗内存、对输入顺序的敏感等各种问题,以上方法都有着不足。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于深度学习视频监督的单图像三维重建方法,包括如下步骤:步骤1,构建物体位姿预测模块:搭建位姿预测网络,将物体图像输入到位姿预测网络模型中,得到对输入图像中物体的位姿预测;步骤2,构建物体三维形状估计模块:搭建三维点云预测网络,将物体图像输入到三维点云预测网络模型中,得到对输入图像中物体的三维点云预测;步骤3,构建多帧形状融合模块:利用步骤1,步骤2中预测得到的物体的位姿预测和三维点云预测一起输入到融合模块中,通过迭代优化多帧一致性约束、多帧平滑约束及多帧形状融合以进一步进行三维点云预测结果处理;步骤4,整体框架训练:将输入视频序列通过实例分割方法得到物体及其掩码序列每一帧并行的输入至模型中,得到每一帧的视角及三维点云预测,输入至多帧融合模块得到融合的点云,通过重投影以及多帧约束联合优化位姿预测模块和三维形状估计模块,利用训练好的三维形状估计模块实现单图像三维点云预测。步骤1包括以下步骤:步骤1-1,搭建位姿预测网络包括构建物体位姿预测网络模型G;步骤1-2,将输入的视频帧序列{It}生成对每一帧的物体的位姿预测其中t∈{1,2,...,n},n为帧序列总长度,It表示第t帧图像,Pt表示对第t帧图像的位姿预测结果。步骤1-1中,所述物体位姿预测网络G包含一个编码器及一个解码器,网络各层中的可训练参数表示为θG;编码器部分包含3×3的九层卷积层,卷积层后连接批规范池化层,选取ReLU作为激活函数,再连接两个全连接层,选取ReLU作为激活函数,最终得到对输入的编码。解码器部分包含三层全连接层,选取ReLU作为激活函数。这里ReLU激活函数为f(x)=max(0,x)。步骤2中包括以下步骤:步骤2-1,搭建三维点云预测网络包括构建三维形状预测网络模型K;步骤2-2,将输入的视频帧序列{It}生成对每一帧的物体的三维点云预测及每个点的置信度{St},其中t∈{1,2,...,n},n为帧序列总长度,Ct表示对第t帧图像的三维点云预测结果,St表示对第t帧图像的三维点云预测结果置信度。步骤2-1中,所述三维形状预测网络K包含一个编码器及一个解码器,网络各层中的可训练参数表示为θK;编码器部分包含3×3的九层卷积层,卷积层后连接批规范池化层,选取ReLU作为激活函数,再连接两个全连接层,选取ReLU作为激活函数,最终得到对输入的编码;解码器部分包含一层全连接层,选取双曲函数tanh作为激活函数。这里ReLU激活函数为f(x)=max(0,x)。步骤3包括以下步骤:步骤3-1,融合多帧预测结果得到对输入物体视频序列统一的预测C;步骤3-2,将预测C在不同视角下进行重投影;步骤3-3,设计对于位姿预测模块和三维形状估计模块的损失函数L;步骤3-4,将位姿预测点云预测和准备好的与输入对应的真实图像掩码Maskt输入,并计算损失L,通过不断迭代优化L以联合更新位姿预测网络模型G的参数θG和三维点云估计网络模型K的参数θK。步骤3-1中,所述的融合多帧预测结果计算公式如下:其中,f为输入视频序列总长度,Ci为第i帧的点云预测置信度,Si为第i帧的点云预测结果,i取值1-f。步骤3-2包括以下步骤:步骤3-2-1,将预测位姿{Pt}旋转作用于点云C;步骤3-2-2,定义点云所要映射到的体积网格D1×D2×D3,定义张量其中k1∈[1,D1],k2∈[1,D2],k3∈[1,D3],i={1,2,3},n∈[1,N],N表示预测点云个数,D1,D2,D3分别表示映射的体积网格在xyz三个方向上的长度,坐标系定义为标准右手系,(k1,k2,k3)表示点云中的点坐标,i表示坐标维度;步骤3-2-3,将预测点云中每一个点计算其在标准右手系xyz三个方向上的高斯分布其中xn为对第n个点的预测点云坐标,σn为对第n个点高斯分布的方差;步骤3-2-4,计算网格中每个位置的占用概率其中N为预测点云中点的个数,表示第n个点在坐标(k1,k2,k3)处的出现概率;步本文档来自技高网
...

【技术保护点】
1.一种基于深度学习视频监督的单图像三维重建方法,其特征在于,包括如下步骤:/n步骤1,构建物体位姿预测模块:搭建位姿预测网络,将物体图像输入到位姿预测网络模型中,得到对输入图像中物体的位姿预测;/n步骤2,构建物体三维形状估计模块:搭建三维点云预测网络,将物体图像输入到三维点云预测网络模型中,得到对输入图像中物体的三维点云预测;/n步骤3,构建多帧形状融合模块:利用步骤1,步骤2中预测得到的物体的位姿预测和三维点云预测一起输入到融合模块中,通过迭代优化多帧一致性约束、多帧平滑约束及多帧形状融合以进一步进行三维点云预测结果处理;/n步骤4,整体框架训练:将输入视频序列通过实例分割方法得到物体及其掩码序列每一帧并行的输入至模型中,得到每一帧的视角及三维点云预测,输入至多帧融合模块得到融合的点云,通过重投影以及多帧约束联合优化位姿预测模块和三维形状估计模块,利用训练好的三维形状估计模块实现单图像三维点云预测。/n

【技术特征摘要】
1.一种基于深度学习视频监督的单图像三维重建方法,其特征在于,包括如下步骤:
步骤1,构建物体位姿预测模块:搭建位姿预测网络,将物体图像输入到位姿预测网络模型中,得到对输入图像中物体的位姿预测;
步骤2,构建物体三维形状估计模块:搭建三维点云预测网络,将物体图像输入到三维点云预测网络模型中,得到对输入图像中物体的三维点云预测;
步骤3,构建多帧形状融合模块:利用步骤1,步骤2中预测得到的物体的位姿预测和三维点云预测一起输入到融合模块中,通过迭代优化多帧一致性约束、多帧平滑约束及多帧形状融合以进一步进行三维点云预测结果处理;
步骤4,整体框架训练:将输入视频序列通过实例分割方法得到物体及其掩码序列每一帧并行的输入至模型中,得到每一帧的视角及三维点云预测,输入至多帧融合模块得到融合的点云,通过重投影以及多帧约束联合优化位姿预测模块和三维形状估计模块,利用训练好的三维形状估计模块实现单图像三维点云预测。


2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,搭建位姿预测网络模块包括构建物体位姿预测网络模型G;
步骤1-2,将输入的视频帧序列{It}生成对每一帧的物体的位姿预测其中t∈{1,2,...,n},n为视频帧序列总长度,It表示第t帧图像,Pt表示对第t帧图像的位姿预测结果。


3.根据权利要求2所述的方法,其特征在于,步骤1-1中,所述物体位姿预测网络G包含一个编码器及一个解码器,网络G各层中可训练的参数表示为θG;编码器部分包含3×3的九层卷积层,卷积层后连接批规范池化层,选取ReLU作为激活函数,再连接两个全连接层,选取ReLU作为激活函数,最终得到对输入的编码;解码器部分包含三层全连接层,选取ReLU作为激活函数。


4.根据权利要求1所述的方法,其特征在于,步骤2中包括以下步骤:
步骤2-1,搭建三维点云预测网络包括构建三维形状预测网络模型K,网络K各层中的可训练参数表示为θK;
步骤2-2,将输入的视频帧序列{It}生成对每一帧的物体的三维点云预测及每个点的置信度{St},其中t∈{1,2,...,n},n为视频帧序列总长度,Ct表示对第t帧图像的三维点云预测结果,St表示对第t帧图像的三维点云预测结果置信度。


5.根据权利要求4所述的方法,其特征在于,步骤2-1中,所述三维形状预测网络K包含一个编码器及一个解码器,网络K各层中的可训练参数表示为θK;编码器部分包含3×3的九层卷积层,卷积层后连接批规范池化层,选取ReLU作为激活函数,再连接两个全连接层,选取ReLU作为激活函数,最终得到对输入的编码;解码器部分包含一层全连接层,选取双曲函数tanh作为激活函数。


6.根据权利要求1所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1,融合多帧预测结果得到对输入物体视频序列统一的预测C;
步骤3-2,将预测C在不同视角下进行重投影;
步骤3-3,设计对于位姿预测模块和三维形状估计模块的损失函数L;
步骤3-4,将位姿预测点云预测和准备好的与输入对应的真实图像掩码Maskt输入,并计算损失L,通过不断迭代优化L以联合更新位姿预测网络模型G的参数θG和三维点云估计网络模型K的参数θ...

【专利技术属性】
技术研发人员:孙正兴仲奕杰武蕴杰宋有成
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1