变视角图像生成方法,装置,存储介质及电子设备制造方法及图纸

技术编号:22388448 阅读:17 留言:0更新日期:2019-10-29 06:50
本公开涉及一种变视角图像生成方法,装置,存储介质及电子设备。该方法包括:将第一源视图的三原色图像输入深度及语义网络,得到所述深度及语义网络输出的深度图以及语义图;将所述语义图以及所述三原色图像输入特征编码器网络,得到所述特征编码器网络输出的特征图;根据所述深度图以及所述第一源视图与目标视图之间的位姿变换矩阵,对所述语义图和所述特征图分别进行变换,得到目标语义图和目标特征图;根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图,其中,所述目标视图和所述第一源视图是同一对象不同视角的图像。如此,利用源视图的深度图,语义图和特征图来生成变视角图像,可以使生成的图像更加清晰和逼真。

Image generation method, device, storage medium and electronic equipment with variable viewing angle

【技术实现步骤摘要】
变视角图像生成方法,装置,存储介质及电子设备
本公开涉及图像处理领域,具体地,涉及一种变视角图像生成方法,装置,存储介质及电子设备。
技术介绍
新视角图像合成技术是计算机视觉,计算机图形学以及深度学习领域中的一个热门话题。新视角图像合成,是指给定一幅或多幅同一三维场景的图像,由这些图像合成新的视点下该三维场景的图像。随着新视图合成技术的不断发展,基于单幅或多幅图像生成变视角图像的方法不断被提出。相关技术中,新视角图像合成方法可分为基于像素生成的方法、基于外观流的方法、基于几何感知的方法等。这些方法对生成图像数据的质量不断的进行提升,使生成的变视角图像的效果不断增强,但是,生成的变视角图像仍然存在较严重的图像模糊和扭曲的现象。
技术实现思路
本公开主要目的是提供一种变视角图像生成方法,装置,存储介质及电子设备,用以解决现有技术中存在的问题。为了实现上述目的,根据本公开实施例的第一方面,提供一种变视角图像生成方法,所述方法包括:将第一源视图的三原色图像输入深度及语义网络,得到所述深度及语义网络输出的深度图以及语义图;将所述语义图以及所述三原色图像输入特征编码器网络,得到所述特征编码器网络输出的特征图;根据所述深度图以及所述第一源视图与目标视图之间的位姿变换矩阵,对所述语义图和所述特征图分别进行变换,得到目标语义图和目标特征图;根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图,其中,所述目标视图和所述第一源视图是同一对象不同视角的图像。可选地,所述根据所述深度图以及所述第一源视图与目标视图之间的位姿变换矩阵,对所述语义图和所述特征图分别进行变换,包括:分别针对所述特征图以及所述语义图中的每一像素通过如下公式计算该像素在目标视图中的坐标:[pt]=dK[R|t]K-1[ps][R|t]=[Rs|ts]-1[Rt|tt]其中,d代表所述深度图中该像素处的深度值,K代表相机的内参,[R|t]代表所述位姿变换矩阵,R代表旋转,t代表平移,[Rs|ts]、[Rt|tt]分别代表所述第一源视图及所述目标视图下相机在世界坐标系下的位姿,ps表示该像素在所述第一源视图下的坐标,pt表示该像素在目标视图下的坐标。可选地,所述根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图包括:在得到所述第一源视图的目标语义图和目标特征图,以及第二源视图的目标语义图和目标特征图后,将所述第一源视图的目标语义图以及所述第二源视图的目标语义图输入优化网络,得到所述优化网络输出的将两张目标语义图合成的新的目标语义图;并,将所述第一源视图的目标特征图以及所述第二源视图的目标特征图输入优化网络,得到所述优化网络输出的将两张目标特征图合成的新的目标特征图;根据所述新的目标语义图和所述新的目标特征图生成所述目标视图。可选地,所述根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图包括:将所述第一源视图的目标语义图和所述第一源视图的目标特征图输入生成对抗网络中的生成器网络,得到所述生成器网络输出的所述目标视图。可选地,所述生成对抗网络的损失函数为:其中,λF为超参,用于控制特征匹配损失的重要程度,表示图像判别器网络中的图像损失,所述图像损失函数为:并且,所述特征匹配损失函数为:其中Dk代表多尺度的判别器网络,k代表所述多尺度的判别器网络的数目,D1、D2分别代表两个不同尺度的所述多尺度的判别器网络,代表所述图像判别器网络中的第k个所述多尺度的判别器网络,s代表源视图,x代表目标视图,n代表感知机的层数,Ni代表每层元素的数目,i代表第几层,代表第i层特征提取器对应的多尺度判别器网络Dk,G代表生成器网络,D代表判别器网络,||||1代表1范数,GAN代表生成对抗网络;所述生成对抗网络的训练是通过如下公式对所述损失函数进行最大化和最小化的交替训练:其中,表示为:其中,D代表鉴别器网络,G代表生成器网络,s代表源视图,x代表目标视图。可选地,所述生成对抗网络是采用如下方式训练得到的:将同一对象已有的不同视角的视图,分别作为目标视图样本和源视图样本;获取所述目标视图样本相对所述源视图样本的位姿变换矩阵;根据所述源视图样本的特征图以及语义图,所述位姿变换矩阵,以及对应的所述目标视图样本的三原色图像构建模型训练样本;根据所述模型训练样本训练所述生成对抗网络。根据本公开实施例的第二方面,提供一种变视角图像生成装置,所述装置包括:第一获取模块,用于将第一源视图的三原色图像输入深度及语义网络,得到所述深度及语义网络输出的深度图以及语义图;第二获取模块,用于将所述语义图以及所述三原色图像输入特征编码器网络,得到所述特征编码器网络输出的特征图;变换模块,用于根据所述深度图以及所述第一源视图与目标视图之间的位姿变换矩阵,对所述语义图和所述特征图分别进行变换,得到目标语义图和目标特征图;生成模块,用于根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图,其中,所述目标视图和所述第一源视图是同一对象不同视角的图像。可选地,所述变换模块,包括:计算子模块,用于分别针对所述特征图以及所述语义图中的每一像素通过如下公式计算该像素在目标视图中的坐标:[pt]=dK[R|t]K-1[ps][R|t]=[Rs|ts]-1[Rt|tt]其中,d代表所述深度图中该像素处的深度值,K代表相机的内参,[R|t]代表所述位姿变换矩阵,R代表旋转,t代表平移,[Rs|ts]、[Rt|tt]分别代表所述第一源视图及所述目标视图下相机在世界坐标系下的位姿,ps表示该像素在所述第一源视图下的坐标,pt表示该像素在目标视图下的坐标。可选地,所述生成模块包括:第一执行子模块,用于在得到所述第一源视图的目标语义图和目标特征图,以及第二源视图的目标语义图和目标特征图后,将所述第一源视图的目标语义图以及所述第二源视图的目标语义图输入优化网络,得到所述优化网络输出的将两张目标语义图合成的新的目标语义图;第二执行子模块,用于将所述第一源视图的目标特征图以及所述第二源视图的目标特征图输入优化网络,得到所述优化网络输出的将两张目标特征图合成的新的目标特征图;第一生成子模块,用于根据所述新的目标语义图和所述新的目标特征图生成所述目标视图。可选地,所述生成模块还包括:第二生成子模块,用于将所述第一源视图的目标语义图和所述第一源视图的目标特征图输入生成对抗网络中的生成器网络,得到所述生成器网络输出的所述目标视图。可选地,所述生成对抗网络的损失函数为:其中,λF为超参,用于控制特征匹配损失的重要程度,表示图像判别器网络中的图像损失,所述图像损失函数为:并且,所述特征匹配损失函数为:其中Dk代表多尺度的判别器网络,k代表所述多尺度的判别器网络的数目,D1、D2分别代表两个不同尺度的所述多尺度的判别器网络,代表所述图像判别器网络中的第k个所述多尺度的判别器网络,s代表源视图,x代表目标视图,n代表感知机的层数,Ni代表每层元素的数目,代表第i层特征提取器对应的多尺度判别器网络Dk,G代表生成器网络,D代表判别器网络,||||1代表1范数,GAN代表生成对抗网络;所述生成对抗网络的训练是通过如下公式对所述损失函数进行最大化和最小化的交替训练:其中,表示为:其中,D代表鉴别器网络,G代表生本文档来自技高网...

【技术保护点】
1.一种变视角图像生成方法,其特征在于,所述方法包括:将第一源视图的三原色图像输入深度及语义网络,得到所述深度及语义网络输出的深度图以及语义图;将所述语义图以及所述三原色图像输入特征编码器网络,得到所述特征编码器网络输出的特征图;根据所述深度图以及所述第一源视图与目标视图之间的位姿变换矩阵,对所述语义图和所述特征图分别进行变换,得到目标语义图和目标特征图;根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图,其中,所述目标视图和所述第一源视图是同一对象不同视角的图像。

【技术特征摘要】
1.一种变视角图像生成方法,其特征在于,所述方法包括:将第一源视图的三原色图像输入深度及语义网络,得到所述深度及语义网络输出的深度图以及语义图;将所述语义图以及所述三原色图像输入特征编码器网络,得到所述特征编码器网络输出的特征图;根据所述深度图以及所述第一源视图与目标视图之间的位姿变换矩阵,对所述语义图和所述特征图分别进行变换,得到目标语义图和目标特征图;根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图,其中,所述目标视图和所述第一源视图是同一对象不同视角的图像。2.根据权利要求1所述的方法,其特征在于,所述根据所述深度图以及所述第一源视图与目标视图之间的位姿变换矩阵,对所述语义图和所述特征图分别进行变换,包括:分别针对所述特征图以及所述语义图中的每一像素通过如下公式计算该像素在目标视图中的坐标:[pt]=dK[R|t]K-1[ps][R|t]=[Rs|ts]-1[Rt|tt]其中,d代表所述深度图中该像素处的深度值,K代表相机的内参,[R|t]代表所述位姿变换矩阵,R代表旋转,t代表平移,[Rs|ts]、[Rt|tt]分别代表所述第一源视图及所述目标视图下相机在世界坐标系下的位姿,ps表示该像素在所述第一源视图下的坐标,pt表示该像素在目标视图下的坐标。3.根据权利要求1或2所述的方法,其特征在于,所述根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图包括:在得到所述第一源视图的目标语义图和目标特征图,以及第二源视图的目标语义图和目标特征图后,将所述第一源视图的目标语义图以及所述第二源视图的目标语义图输入优化网络,得到所述优化网络输出的将两张目标语义图合成的新的目标语义图;并将所述第一源视图的目标特征图以及所述第二源视图的目标特征图输入优化网络,得到所述优化网络输出的将两张目标特征图合成的新的目标特征图;根据所述新的目标语义图和所述新的目标特征图生成所述目标视图。4.根据权利要求1所述的方法,其特征在于,所述根据至少一张源视图对应的目标语义图和目标特征图生成所述目标视图包括:将所述第一源视图的目标语义图和所述第一源视图的目标特征图输入生成对抗网络中的生成器网络,得到所述生成器网络输出的所述目标视图。5.根据权利要求4所述的方法,其特征在于,所述生成对抗网络的损失函数为:其中,λF为超参,用于控制特征匹配损失的重要程度,表示图像判别器网络中的图像损失,所述图像损失函数为:并且,所述特征匹配损失函数为:其中Dk代表多尺度的判别器网络,k代表所述多尺度的判别器网络的数目,D1、D2分别代表两个不同尺度的所述多尺度的判别器网络,代表所述图像判别器网络中的第k个所述多尺度的判别器网络,s代表源视图,x代表目标视图,n代表感知机的层数,Ni代表每层元素的数目,代表第i层特征提取器对应的多尺度判别器网络Dk,G代表生成器网络,D代表判别器网络,||||1代表1范数,GAN代表生成对抗网络;所述生成对抗网络的训练是通过如下公式对所述损失函数进行最大化和最小化的交替训练:其中,表示为:其中,D代表鉴别器网络,G代表生成器网络,s代表源视图,x代表目标视图。6.根据权利要求4所述的方法,其特征在于,所述生成对抗网络是采用如下方式训练得到的:将同一对象已有的不同视角的视图,分别作为目标视图样本和源视图样本;获取所述目标视图样本相对所述源视图样本的位姿变换矩阵;根据所述源视图样本的特征图以及语义图,所述位姿变换矩阵,以及对应的所述目标视图样本的三原色图像构建模型训练样本;根据所述模型训练样本训练所述生成对抗网络。7.一种变视角图像生成装置,其特征在于,所述装置包括:第一获取模块,用于将第一源视图的三原色图像输入深度及语义网络,得到所述深度及语...

【专利技术属性】
技术研发人员:王超鹏林义闽廉士国
申请(专利权)人:深圳前海达闼云端智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1