【技术实现步骤摘要】
一种基于深度学习视频监督的单图像三维重建方法技术邻域本专利技术属于三维重建技术邻域,具体涉及一种基于深度学习视频监督的单图像三维重建方法。
技术介绍
近年来,随着深度学习的发展计算机视觉问题的解决都得到了较大程度的发展。近期各种二维图像处理的技术逐渐被完善适用于三维问题中,物体三维形状的重建也成为了热点问题之一。以往的许多方法都需要完整的三维模型数据进行监督,然而这样的数据是稀少且获取过程复杂代价昂贵的。由此又出现了利用众多多图像以及单图像的重建方法,由于监督信息的减弱,将导致局部细节精度的降低以及物体视角的歧义性。同时多图像方法需要依赖训练输入图像间的相关性,这在真实场景下是较难大量得获取的,而单图像由于信息总量的减少,不仅需要引入其他额外信息,还会导致重建精度的大幅降低。为解决三维重建的问题,目前主要的技术思路有如文献1:J.L.Sch€onbergerandJ.-M.Frahm,“Structure-from-motionrevisited,”inProc.IEEEConf.Comput.Vis.PatternRecognit.,2016,pp.4104–4113利用传统优化方法进行重建。如文献2:H.Fan,H.Su,andL.Guibas,“Apointsetgenerationnetworkfor3Dobjectreconstructionfromasingleimage,”inIEEECVPR,vol.38,2017使用大规模三维数据集,最早使用点云表示进行三维重建,并提出了点云见距离的计算标准。文献3:C. ...
【技术保护点】
1.一种基于深度学习视频监督的单图像三维重建方法,其特征在于,包括如下步骤:/n步骤1,构建物体位姿预测模块:搭建位姿预测网络,将物体图像输入到位姿预测网络模型中,得到对输入图像中物体的位姿预测;/n步骤2,构建物体三维形状估计模块:搭建三维点云预测网络,将物体图像输入到三维点云预测网络模型中,得到对输入图像中物体的三维点云预测;/n步骤3,构建多帧形状融合模块:利用步骤1,步骤2中预测得到的物体的位姿预测和三维点云预测一起输入到融合模块中,通过迭代优化多帧一致性约束、多帧平滑约束及多帧形状融合以进一步进行三维点云预测结果处理;/n步骤4,整体框架训练:将输入视频序列通过实例分割方法得到物体及其掩码序列每一帧并行的输入至模型中,得到每一帧的视角及三维点云预测,输入至多帧融合模块得到融合的点云,通过重投影以及多帧约束联合优化位姿预测模块和三维形状估计模块,利用训练好的三维形状估计模块实现单图像三维点云预测。/n
【技术特征摘要】
1.一种基于深度学习视频监督的单图像三维重建方法,其特征在于,包括如下步骤:
步骤1,构建物体位姿预测模块:搭建位姿预测网络,将物体图像输入到位姿预测网络模型中,得到对输入图像中物体的位姿预测;
步骤2,构建物体三维形状估计模块:搭建三维点云预测网络,将物体图像输入到三维点云预测网络模型中,得到对输入图像中物体的三维点云预测;
步骤3,构建多帧形状融合模块:利用步骤1,步骤2中预测得到的物体的位姿预测和三维点云预测一起输入到融合模块中,通过迭代优化多帧一致性约束、多帧平滑约束及多帧形状融合以进一步进行三维点云预测结果处理;
步骤4,整体框架训练:将输入视频序列通过实例分割方法得到物体及其掩码序列每一帧并行的输入至模型中,得到每一帧的视角及三维点云预测,输入至多帧融合模块得到融合的点云,通过重投影以及多帧约束联合优化位姿预测模块和三维形状估计模块,利用训练好的三维形状估计模块实现单图像三维点云预测。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,搭建位姿预测网络模块包括构建物体位姿预测网络模型G;
步骤1-2,将输入的视频帧序列{It}生成对每一帧的物体的位姿预测其中t∈{1,2,...,n},n为视频帧序列总长度,It表示第t帧图像,Pt表示对第t帧图像的位姿预测结果。
3.根据权利要求2所述的方法,其特征在于,步骤1-1中,所述物体位姿预测网络G包含一个编码器及一个解码器,网络G各层中可训练的参数表示为θG;编码器部分包含3×3的九层卷积层,卷积层后连接批规范池化层,选取ReLU作为激活函数,再连接两个全连接层,选取ReLU作为激活函数,最终得到对输入的编码;解码器部分包含三层全连接层,选取ReLU作为激活函数。
4.根据权利要求1所述的方法,其特征在于,步骤2中包括以下步骤:
步骤2-1,搭建三维点云预测网络包括构建三维形状预测网络模型K,网络K各层中的可训练参数表示为θK;
步骤2-2,将输入的视频帧序列{It}生成对每一帧的物体的三维点云预测及每个点的置信度{St},其中t∈{1,2,...,n},n为视频帧序列总长度,Ct表示对第t帧图像的三维点云预测结果,St表示对第t帧图像的三维点云预测结果置信度。
5.根据权利要求4所述的方法,其特征在于,步骤2-1中,所述三维形状预测网络K包含一个编码器及一个解码器,网络K各层中的可训练参数表示为θK;编码器部分包含3×3的九层卷积层,卷积层后连接批规范池化层,选取ReLU作为激活函数,再连接两个全连接层,选取ReLU作为激活函数,最终得到对输入的编码;解码器部分包含一层全连接层,选取双曲函数tanh作为激活函数。
6.根据权利要求1所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1,融合多帧预测结果得到对输入物体视频序列统一的预测C;
步骤3-2,将预测C在不同视角下进行重投影;
步骤3-3,设计对于位姿预测模块和三维形状估计模块的损失函数L;
步骤3-4,将位姿预测点云预测和准备好的与输入对应的真实图像掩码Maskt输入,并计算损失L,通过不断迭代优化L以联合更新位姿预测网络模型G的参数θG和三维点云估计网络模型K的参数θ...
【专利技术属性】
技术研发人员:孙正兴,仲奕杰,武蕴杰,宋有成,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。