基于稀疏采样的环拍图像到任意视点图像生成方法及系统技术方案

技术编号:34335562 阅读:18 留言:0更新日期:2022-07-31 02:54
本发明专利技术公开了一种基于稀疏采样的环拍图像到任意视点图像生成方法及系统,借鉴神经渲染的优势,通过给定邻近的源视图,使用体积渲染以新颖的相机位姿合成目标视图,并估计该视图的颜色和体积密度,从多个源视图动态绘制外观信息。对于新视点合成的应用场景,基于深度卷积神经网络并结合经典的体渲染技术,能够基于有限角度稀疏采样得到的环拍图像数据,来渲染生成360度任意视角下渲染的2D图像,从而进行任意观察轨迹下的视频合成,本发明专利技术方法不仅可以有效解决物体的拍摄死角问题,而且可以大大减少物体或场景拍摄的成本。大减少物体或场景拍摄的成本。大减少物体或场景拍摄的成本。

【技术实现步骤摘要】
基于稀疏采样的环拍图像到任意视点图像生成方法及系统


[0001]本专利技术涉及新视点图像合成
,具体涉及基于稀疏采样的环拍图像到任意视点图像生成方法及系统。

技术介绍

[0002]给定场景的一组姿势图像,新视图合成的目标是在任意新视点生成同一场景的照片般逼真的图像。也就是说,基于有限角度稀疏采样得到的环拍图像数据,我们可以通过神经渲染技术,在360度任意新相机视角条件下合成图像。但对于此类任务,其最主要的挑战是来自于场景的三维结构观测比较稀疏,需要在仅有的几个观测视角下合成出新视角的图像,同时还需要补全新视角下被遮挡或者没有在观测中被包含的部分。
[0003]在经典计算机视觉中,人们主要基于多视角立体视觉来实现物体或场景几何重建,用反射变换来构建基于图像的渲染效果。但在稀疏观测或者欠观测的情况下,这种方法得到的结果会具有孔洞,或是留下较为明显的人工凿斧痕迹。而在神经渲染中,可以通过少量的已有视角观测结果来学习出场景,再利用可差分的渲染器生成新视角下的照片般逼真的图像,能够显著改善传统场景几何重建中产生的孔洞、明显痕迹等问题。另外,在对物体拍摄时,也会因为物体的几何形状而不可避免的出现一些拍摄死角的问题,这对获取物体的任意视角图像带来了一定的阻碍,而基于神经渲染的新视点图像生成有效的解决了此类问题。

技术实现思路

[0004]为此,本专利技术提供一种基于稀疏采样的环拍图像到任意视点图像生成方法及系统,以解决现有新视点图像合成方法存在的物体存在拍摄死角,对获取物体的任意视角图像带来阻碍的问题
[0005]为了实现上述目的,本专利技术提供如下技术方案:
[0006]根据本专利技术实施例的第一方面,提出了一种基于稀疏采样的环拍图像到任意视点图像生成方法,所述方法包括:
[0007]基于稀疏采样获取物体或场景的不同视角的环拍图像,相邻视角的图像之间具有一定的重合区域,随机选择一个目标视图,然后采样N个邻近的与目标视图具有不小于预设角度重合区域的视图作为源视图来构建源视图集与目标视图对,建立训练集,根据所述训练集得到有效工作集;
[0008]基于所述训练集对所述物体或场景进行稀疏重建,得到全局三维点云,根据所述三维点云得到图像的位姿信息;
[0009]基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练,所述神经网络模型包括图像特征提取网络模型和神经渲染网络模型,所述神经渲染网络模型包括体积密度预测模块和颜色预测模块,分别用于预测输出的新视图的密度和颜色;
[0010]利用训练好的神经渲染网络模型渲染生成指定观察轨迹下的多张新视点图像。
[0011]进一步地,根据所述训练集得到有效工作集,具体包括:
[0012]选择N个源视图中与目标视图具有最大重合区域的视图子集作为工作集。
[0013]进一步地,根据所述三维点云得到图像的位姿信息,具体包括:
[0014]所述全局三维点云中包含了图像所有像素点在空间中的包括3D空间位置和2D观看方向的5D位置信息,即为图像的位姿信息。
[0015]进一步地,基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练,具体包括:
[0016]将以工作集为单位的数据送入图像特征提取网络,来提取图像的2D特征,输出一组特征图;
[0017]将提取到的特征图与图像位姿信息输入神经渲染网络,该网络包含体积密度预测模块与颜色预测模块,两个模块均采用多层感知机结构MLP作为基本单元,具体处理流程为:
[0018]通过体积密度预测模块中的第一MLP单元对所有源视图中提取到的2D图像特征的局部和全局信息进行聚合,得到多视图的感知特征;
[0019]将多视图感知特征输入至体积密度预测模块中的第二MLP单元完成新视图密度特征的预测;
[0020]将多视图的图像位姿与得到的多视图感知特征同时送入颜色预测模块,得到5D点所对应源视图中图像颜色的混合权重,并以此预测出新视图中所对应的图像像素颜色。
[0021]进一步地,基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练,具体还包括:
[0022]采用均方误差损失来表示目标图像C与渲染图像像素颜色之间的差异,定义为神经渲染损失,以此来优化渲染图像的质量,其函数表达式为:
[0023][0024]其中,r表示图像的单个像素颜色,R为图像的所有像素颜色值集合;
[0025]使用所述损失函数对模型进行迭代训练,当损失函数值不再下降时,停止训练。
[0026]进一步地,利用训练好的神经网络模型渲染生成指定观察轨迹下的多张视点图像,具体包括:
[0027]生成指定观察路径下多个新视点图像的位姿信息,将该路径中的新视点图像位姿输入到训练好的神经渲染网络,即可渲染生成对应新视点图像位姿下的RGB图像。
[0028]进一步地,所述方法还包括:
[0029]通过插值法在每相邻的两张源视图的图像位姿之间按照平均步长进行插值生成新视点图像位姿,插值的步长通过最终要渲染得到的图像数量来确定。
[0030]进一步地,所述方法还包括:
[0031]将得到的指定观察轨迹下的多张新视点图像合称为视频。
[0032]根据本专利技术实施例的第二方面,提出了一种基于稀疏采样的环拍图像到任意视点图像生成系统,所述系统包括:
[0033]训练集构建模块,用于基于稀疏采样获取物体或场景的不同视角的环拍图像,相
邻视角的图像之间具有一定的重合区域,随机选择一个目标视图,然后采样N个邻近的与目标视图具有不小于预设角度重合区域的视图作为源视图来构建源视图集与目标视图对,建立训练集,根据所述训练集得到有效工作集;
[0034]图像位姿获取模块,用于基于所述训练集对所述物体或场景进行稀疏重建,得到全局三维点云,根据所述三维点云得到图像的位姿信息;
[0035]模型训练模块,用于基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练,所述神经网络模型包括图像特征提取网络模型和神经渲染网络模型,所述神经渲染网络模型包括体积密度预测模块和颜色预测模块,分别用于预测输出的新视图的密度和颜色;
[0036]图像生成模块,用于利用训练好的神经渲染网络模型渲染生成指定观察轨迹下的多张新视点图像。
[0037]本专利技术具有如下优点:
[0038]本专利技术提出的一种基于稀疏采样的环拍图像到任意视点图像生成方法及系统,借鉴神经渲染的优势,通过给定邻近的源视图,使用体积渲染以新颖的相机位姿合成目标视图,并估计该视图的颜色和体积密度,从多个源视图动态绘制外观信息。对于新视点合成的应用场景,基于深度卷积神经网络并结合经典的体渲染技术,能够基于有限角度稀疏采样得到的环拍图像数据,来渲染生成360度任意视角下渲染的2D图像,从而进行任意观察轨迹下的视频合成,本专利技术方法不仅可以有效解决物体的拍摄死角问题,而且可以大大减少物体或场景拍摄的成本。
附图说明
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于稀疏采样的环拍图像到任意视点图像生成方法,其特征在于,所述方法包括:基于稀疏采样获取物体或场景的不同视角的环拍图像,相邻视角的图像之间具有一定的重合区域,随机选择一个目标视图,然后采样N个邻近的与目标视图具有不小于预设角度重合区域的视图作为源视图来构建源视图集与目标视图对,建立训练集,根据所述训练集得到有效工作集;基于所述训练集对所述物体或场景进行稀疏重建,得到全局三维点云,根据所述三维点云得到图像的位姿信息;基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练,所述神经网络模型包括图像特征提取网络模型和神经渲染网络模型,所述神经渲染网络模型包括体积密度预测模块和颜色预测模块,分别用于预测输出的新视图的密度和颜色;利用训练好的神经渲染网络模型渲染生成指定观察轨迹下的多张新视点图像。2.根据权利要求1所述的一种基于稀疏采样的环拍图像到任意视点图像生成方法,其特征在于,根据所述训练集得到有效工作集,具体包括:选择N个源视图中与目标视图具有最大重合区域的视图子集作为工作集。3.根据权利要求1所述的一种基于稀疏采样的环拍图像到任意视点图像生成方法,其特征在于,根据所述三维点云得到图像的位姿信息,具体包括:所述全局三维点云中包含了图像所有像素点在空间中的包括3D空间位置和2D观看方向的5D位置信息,即为图像的位姿信息。4.根据权利要求1所述的一种基于稀疏采样的环拍图像到任意视点图像生成方法,其特征在于,基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练,具体包括:将以工作集为单位的数据送入图像特征提取网络,来提取图像的2D特征,输出一组特征图;将提取到的特征图与图像位姿信息输入神经渲染网络,该网络包含体积密度预测模块与颜色预测模块,两个模块均采用多层感知机结构MLP作为基本单元,具体处理流程为:通过体积密度预测模块中的第一MLP单元对所有源视图中提取到的2D图像特征的局部和全局信息进行聚合,得到多视图的感知特征;将多视图感知特征输入至体积密度预测模块中的第二MLP单元完成新视图密度特征的预测;将多视图的图像位姿与得到的多视图感知特征同时送入颜色预测模块,得到5D点所对应源视图中图像颜色的混合权重,并以此预测出新视图中所对应的图像像素颜色。5.根据...

【专利技术属性】
技术研发人员:李翔
申请(专利权)人:北京影数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1