一种基于神经网络的大场景自由视点插值方法及装置制造方法及图纸

技术编号：39755599 阅读：16 留言：0更新日期：2023-12-17 23:54

本发明专利技术公开了一种基于神经网络的大场景自由视点插值方法及装置，包括以下四个步骤，

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的大场景自由视点插值方法及装置

[0001]本专利技术涉及计算机视觉及图形学领域，特别是涉及一种基于神经网络的大场景自由视点插值方法及装置
。

技术介绍

[0002]近年来基于神经网络的视点插值算法发展迅速，其基本理论是编码一个基于坐标点的三维空间光照场，并利用体渲染技术
(
参见
Mildenhall B,Srinivasan P P,Tancik M,et al.Nerf:Representing scenes as neural radiance fields for view synthesis[C]//European conference on computer vision.Springer,Cham,2020:405
‑
421.)
完成对光照场的渲染
。
神经光照场的优势在于可以较好地重建出反射，压缩场景存储消耗
。
[0003]当前基于神经网络来编码光场仍然存在许多问题，尤其是应用到大规模场景上
。
首先，相机位姿在大规模场景重建中的精准度不高，导致最终渲染质量低，存在模糊区域；其次，大场景的训练速度慢，细节重建难度大，单卡训练大场景容易存在显存溢出等问题；最后，如何实现高质量大场景渲染仍具有挑战
。

技术实现思路

[0004]本专利技术目的在于针对现有技术的不足，提供了一种基于神经网络的大场景自由视点插值方法及装置
。
可以分布式优化大场...

【技术保护点】

【技术特征摘要】
1.
一种基于神经网络的大场景自由视点插值方法，其特征在于，包括以下步骤：
(1)
对某个视角下的场景进行拍摄，基于图片计算全局网格模型和相机参数；
(2)
把步骤
(1)
计算得到的全局网格模型剖分成块，并为每个块创建哈希网格
、
漫反射解码器和反射解码器，基于哈希网格得到哈希特征，并通过漫反射解码器和反射解码器得到三维点颜色，并通过体渲染积分得到一条光线的颜色；
(3)
为步骤
(2)
建立的块分配训练的光线，然后进行并行训练，训练过程中同时优化哈希网格特征
、
解码器参数以及相机位姿，训练使用交替方向乘子法来保证块间相机位姿的一致性；
(4)
利用步骤
(3)
训练完成的模型，在光线上进行采样点，基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色
。2.
根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤
(1)
中，将拍摄的图片输入三维重建软件
CapturingReality
，得到拍摄场景的全局网格模型以及图片对应的相机内参和外参
。3.
根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤
(2)
中，设定块的尺寸，从全局网格模型的最小角点开始剖分块，块与块之间存在
20
％的重叠区域，并丢弃内部不包含相机的块
。4.
根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法，其特征在于，步骤
(2)
中，哈希网格的输入是世界坐标系下的三维点
x
，输出是多层级哈希特征
f
x
：
f
x
＝
φ
θ
(x)
其中，
φ
θ
表示哈希网格，
θ
表示优化参数；漫反射解码器输入多层级哈希特征
f
x
，输出为
64
维度的特征，基于前
32
维度的特征得到体密度
、
漫反射颜色以及反射系数：
D
θ
(f
x
)
＝
(
σ
x
,c
d
,s,h
x
)
其中，
D
θ
表示漫反射解码器，
σ
x
表示体密度，
c
d
表示漫反射颜色，
s
表示反射系数，
h
x
表示后
32
维度的特征；反射解码器输入为球谐基函数
sh
对光线方向
ω
的编码以及漫反射解码器输出的后
32
维特征
h
x
，输出是反射颜色
c
s
：
S
θ
(sh(
ω
),h
x
)
＝
c
s
其中，
S
θ
表示反射解码器，因此，三维点颜色被表示为：
c
＝
c
d
+s
·
c
s
...

【专利技术属性】
技术研发人员：许威威，吴秀超，张鑫，鲍虎军，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人