基于深度图像和神经辐射场的新视角合成方法技术

技术编号:31024645 阅读:15 留言:0更新日期:2021-11-30 03:23
本发明专利技术涉及一种基于深度图像和神经辐射场的新视角合成方法。适用于计算机图形学以及深度学习领域。本发明专利技术的技术方案为:一种基于深度图像和神经辐射场的新视角合成方法,其特征在于:获取场景多个视角的真实RGB

【技术实现步骤摘要】
基于深度图像和神经辐射场的新视角合成方法


[0001]本专利技术涉及一种基于深度图像和神经辐射场的新视角合成方法。适用于计算机图形学以及深度学习领域,尤其适用于场景或物体的新视角合成领域。

技术介绍

[0002]新视角合成技术是计算机视觉和计算机图形学的一个重要研究课题,它已广泛应用于数字和娱乐行业,从电影制作到游戏,以及蓬勃发展的虚拟现实和增强现实应用。
[0003]目前,使用少量已知图像生成任意视角下的高真实感图像仍然是一个亟待解决的问题。如果拥有物体或场景精确的几何结构,可以通过渲染来生成任意视角下的高真实感图像,但这还需要了解物体的表面材质、光照环境等条件,渲染过程通过对渲染方程的积分求解,能得到非常逼真的结果。然而,针对现实世界中的物体或场景仍然充满挑战,一方面,现实世界中的物体或场景很难获得精确的几何、曲面法线和材质信息;另一方面,真实环境的光照非常复杂,多光源环境难以建模。
[0004]Mildenhall等人的“Nerf:Representing scenes as neural radiance fields forview synthesis”首先提出了神经辐射场工作,利用全连接网络(MLP)和体渲染从图片中拟合重建场景的几何和外观,由于其简单的结构和令人惊艳的效果,吸引了大量关注。但它也存在着渲染速度过慢,实现理想的效果仍需要大量图片等问题,这导致其距离实际使用还存在着一定距离。
[0005]Lingjie Liu等人的“Neural Sparse Voxel Fields”提出使用稀疏体素组织场景,让光线上的采样点数量减少,加速了渲染时间,但他们的方法仍旧需要大量输入图片来完成体素的剪枝和细分。
[0006]AlexYu等人的“pixelNeRF:Neural Radiance Fields from One orFew Images”实现了仅从一幅或几幅输入图像进行新视角合成,该工作虽然减少了对输入图像数量的要求,但新视角生成的结果存在明显瑕疵,极大地影响了用户在实际使用中的体验。
[0007]Ajay Jain等人的“PuttingNeRF on a Diet:Semantically Consistent Few

Shot View Synthesis”同样致力于减少输入图片的数量,他们通过引入一种语义一致性损失函数,在新视角下保持场景属性不变。这种损失函数建立在预训练好的网络模块提取的语义信息上。
[0008]QianqianWang等人的“IBRNet:Learning Multi

View Image

Based Rendering”在多个场景上训练,可以做到使用少量图片微调网络,即可泛化到新场景上,但该方法依赖相似场景的预训练,同时从输入图片上提取二维特征,在深度上存在歧义性,使用少量图片泛化到新场景上的效果难以满足用户需求。

技术实现思路

[0009]本专利技术要解决的技术问题是:针对上述存在的问题,提供一种基于深度图像和神经辐射场的新视角合成方法,以实现利用少量拍摄视角完成高质量新视角合成。
[0010]本专利技术所采用的技术方案是:一种基于深度图像和神经辐射场的新视角合成方法,其特征在于:
[0011]获取场景多个视角的真实RGB

D图像;
[0012]基于场景多个视角的RGB

D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB

D图像相应位置的颜色对应;
[0013]基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;
[0014]渲染带颜色的三角网格表示生成大量渲染图像;
[0015]利用渲染图像作为网络真值预训练神经辐射场网络;
[0016]利用所述RGB

D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;
[0017]通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。
[0018]所述利用所述RGB

D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:
[0019]引入图像判别器网络D,将所述神经辐射场网络作为生成器G,形成生成对抗网络;
[0020]利用所述RGB图像和神经辐射场网络生成的生成图像训练所述生成对抗网络。
[0021]所述图像判别器网络D采用基于图像分块的判别器。
[0022]所述生成对抗网络的损失函数为:
[0023][0024]其中P
fake
是假图像块的集合,而P
real
是真图像块的集合。
[0025]所述利用所述RGB

D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:
[0026]取场景每个体素所包含点云的平均颜色值作为该体素的体素颜色c
voxel

[0027]将体素颜色特征Enc(c
voxel
)作为条件输入到所述神经辐射场网络的颜色预测网络F
c
中。
[0028]所述基于场景多个视角的RGB

D图像生成该场景完整的场景彩色点云,包括:
[0029]在每个视角重建原始点云,并为每个视角下点云的每个点分配颜色值;
[0030]采用带颜色的迭代最近点算法来对齐不同视角下的点云,对齐后使用盒式网格过滤器将来自不同视角的彩色点云合并在一起,获得场景完整的场景彩色点云。
[0031]所述基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示,包括:将完整的场景彩色点云通过泊松表面重建转换为带颜色的三角网格表示。
[0032]所述神经辐射场网络的预训练过程由RGB损失函数监督,其公式为:
[0033][0034]其中,R是分批训练中一个批次的光线集,C(r)是光线r对应像素点的真实颜色;
[0035][0036][0037]其中,δ
i
=t
i+1

t
i
,表示第i+1个采样点和第i个采样点之间的距离;σ为神经辐射场网络中密度预测网络F
σ
预测的采样点体积密度;c为神经辐射场网络中颜色预测网络F
c
预测的采样点颜色值。
[0038]一种基于神经辐射场的新视角合成装置,其特征在于:
[0039]图像获取模块,用于获取场景多个视角的真实RGB

D图像;
[0040]点云生成模块,用于基于场景多个视角的RGB

D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB

D图像相应位置的颜色对应;
[0041]网格生成模块,用于基于场景完整的场景彩色点云生成该场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度图像和神经辐射场的新视角合成方法,其特征在于:获取场景多个视角的真实RGB

D图像;基于场景多个视角的RGB

D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB

D图像相应位置的颜色对应;基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;渲染带颜色的三角网格表示生成大量渲染图像;利用渲染图像作为网络真值预训练神经辐射场网络;利用所述RGB

D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。2.根据权利要求1所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述利用所述RGB

D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:引入图像判别器网络D,将所述神经辐射场网络作为生成器G,形成生成对抗网络;利用所述RGB图像和神经辐射场网络生成的生成图像训练所述生成对抗网络。3.根据权利要求2所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于:所述图像判别器网络D采用基于图像分块的判别器。4.根据权利要求3所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述生成对抗网络的损失函数为:其中P
fake
是假图像块的集合,而P
real
是真图像块的集合。5.根据权利要求1~4任意一项所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述利用所述RGB

D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:取场景每个体素所包含点云的平均颜色值作为该体素的体素颜色c
voxel
;将体素颜色特征Enc(c
voxel
)作为条件输入到所述神经辐射场网络的颜色预测网络F
c
中。6.根据权利要求1所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述基于场景多个视角的RGB

D图像生成该场景完整的场景彩色点云,包括:在每个视角重建原始点云,并为每个视角下点云的每个点分配颜色值;采用带颜色的迭代最近点算法来对齐不同视角下的点云,对齐后使用盒式网格过滤器将来自不同视角的彩色点云合并在一起,获得场景完整的场景彩色点云。7.根据权...

【专利技术属性】
技术研发人员:高林袁宇杰黄熠华
申请(专利权)人:中科计算技术创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1