当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于神经网络的大场景自由视点插值方法及装置制造方法及图纸

技术编号:39755599 阅读:16 留言:0更新日期:2023-12-17 23:54
本发明专利技术公开了一种基于神经网络的大场景自由视点插值方法及装置,包括以下四个步骤,

【技术实现步骤摘要】
一种基于神经网络的大场景自由视点插值方法及装置


[0001]本专利技术涉及计算机视觉及图形学领域,特别是涉及一种基于神经网络的大场景自由视点插值方法及装置


技术介绍

[0002]近年来基于神经网络的视点插值算法发展迅速,其基本理论是编码一个基于坐标点的三维空间光照场,并利用体渲染技术
(
参见
Mildenhall B,Srinivasan P P,Tancik M,et al.Nerf:Representing scenes as neural radiance fields for view synthesis[C]//European conference on computer vision.Springer,Cham,2020:405

421.)
完成对光照场的渲染

神经光照场的优势在于可以较好地重建出反射,压缩场景存储消耗

[0003]当前基于神经网络来编码光场仍然存在许多问题,尤其是应用到大规模场景上

首先,相机位姿在大规模场景重建中的精准度不高,导致最终渲染质量低,存在模糊区域;其次,大场景的训练速度慢,细节重建难度大,单卡训练大场景容易存在显存溢出等问题;最后,如何实现高质量大场景渲染仍具有挑战


技术实现思路

[0004]本专利技术目的在于针对现有技术的不足,提供了一种基于神经网络的大场景自由视点插值方法及装置

可以分布式优化大场景的同时优化相机位姿,实现高质量渲染

[0005]为了达到上述目的,本专利技术采用以下技术方案:第一方面,本专利技术提供了一种基于神经网络的大场景自由视点插值方法,包括以下步骤:
[0006](1)
对某个视角下的场景进行拍摄,基于图片计算全局网格模型和相机参数;
[0007](2)
把步骤
(1)
计算得到的全局网格模型剖分成块,并为每个块创建哈希网格

漫反射解码器和反射解码器,基于哈希网格得到哈希特征,并通过漫反射解码器和反射解码器得到三维点颜色,并通过体渲染积分得到一条光线的颜色;
[0008](3)
为步骤
(2)
建立的块分配训练的光线,然后进行并行训练,训练过程中同时优化哈希网格特征

解码器参数以及相机位姿,训练使用交替方向乘子法来保证块间相机位姿的一致性;
[0009](4)
利用步骤
(3)
训练完成的模型,在光线上进行采样点,基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色

[0010]进一步地,步骤
(1)
中,将拍摄的图片输入三维重建软件
CapturingReality
,得到拍摄场景的全局网格模型以及图片对应的相机内参和外参

[0011]进一步地,步骤
(2)
中,设定块的尺寸,从全局网格模型的最小角点开始剖分块,块与块之间存在
20
%的重叠区域,并丢弃内部不包含相机的块

[0012]进一步地,步骤
(2)
中,哈希网格的输入是世界坐标系下的三维点
x
,输出是多层级哈希特征
f
x

[0013]f
x

φ
θ
(x)
[0014]其中,
φ
θ
表示哈希网格,
θ
表示优化参数;
[0015]漫反射解码器输入多层级哈希特征
f
x
,输出为
64
维度的特征,基于前
32
维度的特征得到体密度

漫反射颜色以及反射系数:
[0016]D
θ
(f
x
)

(
σ
x
,c
d
,s,h
x
)
[0017]其中,
D
θ
表示漫反射解码器,
σ
x
表示体密度,
c
d
表示漫反射颜色,
s
表示反射系数,
h
x
表示后
32
维度的特征;
[0018]反射解码器输入为球谐基函数
sh
对光线方向
ω
的编码以及漫反射解码器输出的后
32
维特征
h
x
,输出是反射颜色
c
s

[0019]S
θ
(sh(
ω
),h
x
)

c
s
[0020]其中,
S
θ
表示反射解码器,因此,三维点颜色被表示为:
[0021]c

c
d
+s
·
c
s
[0022]其中,
c
为三维点
x
的颜色,利用体渲染公式积分得到一条光线的颜色

[0023]进一步地,步骤
(3)
中,利用相机位姿和全局网格模型为每个块分配光线,如果光线发射位置位于块内,则直接被选为该块的训练光线;如果光线发射位置位于块外,满足光线与块相交且没有被遮挡,则被选为该块的训练光线;每个块独立编码块内前景以及块外背景颜色,块内空间三维点用于表达前景,块外三维点用于表达背景;前景与背景共享哈希网格特征以及两个解码器参数

[0024]进一步地,步骤
(3)
中,训练过程中为每个块存储一份几何网格,通过哈希网格和解码器获得几何网格内三维点的体密度,若1‑
exp(

σ
x
)<
λ
,则对几何网格进行剪枝,
λ
为剪枝的阈值;
[0025]通过两条导数链优化相机位姿:
1.
损失对哈希网格特征的梯度通过空间三维点传递到相机位姿;
2.
扭曲损失对相机变换矩阵的梯度传递到相机位姿;
[0026]扭曲损失帮助优化几何以及相机位姿,优化后参数回传,优化哈希网格特征,解码器参数

[0027]进一步地,渲染光线的前景颜色具体过程为:若一个采样点只被某个块单独占有,则使用该块对应的哈希网格和解码器推理该点的颜色与体密度;若该采样点在块间重叠区域,则使用点混合方式推理该点的前景颜色
c
f
与体密度:
[0028][0029][0030]其中,
S(x
n
)
表示包含点
x<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于神经网络的大场景自由视点插值方法,其特征在于,包括以下步骤:
(1)
对某个视角下的场景进行拍摄,基于图片计算全局网格模型和相机参数;
(2)
把步骤
(1)
计算得到的全局网格模型剖分成块,并为每个块创建哈希网格

漫反射解码器和反射解码器,基于哈希网格得到哈希特征,并通过漫反射解码器和反射解码器得到三维点颜色,并通过体渲染积分得到一条光线的颜色;
(3)
为步骤
(2)
建立的块分配训练的光线,然后进行并行训练,训练过程中同时优化哈希网格特征

解码器参数以及相机位姿,训练使用交替方向乘子法来保证块间相机位姿的一致性;
(4)
利用步骤
(3)
训练完成的模型,在光线上进行采样点,基于点混合的多块渲染分别渲染光线的前景颜色和背景颜色
。2.
根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤
(1)
中,将拍摄的图片输入三维重建软件
CapturingReality
,得到拍摄场景的全局网格模型以及图片对应的相机内参和外参
。3.
根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤
(2)
中,设定块的尺寸,从全局网格模型的最小角点开始剖分块,块与块之间存在
20
%的重叠区域,并丢弃内部不包含相机的块
。4.
根据权利要求1所述的一种基于神经网络的大场景自由视点插值方法,其特征在于,步骤
(2)
中,哈希网格的输入是世界坐标系下的三维点
x
,输出是多层级哈希特征
f
x

f
x

φ
θ
(x)
其中,
φ
θ
表示哈希网格,
θ
表示优化参数;漫反射解码器输入多层级哈希特征
f
x
,输出为
64
维度的特征,基于前
32
维度的特征得到体密度

漫反射颜色以及反射系数:
D
θ
(f
x
)

(
σ
x
,c
d
,s,h
x
)
其中,
D
θ
表示漫反射解码器,
σ
x
表示体密度,
c
d
表示漫反射颜色,
s
表示反射系数,
h
x
表示后
32
维度的特征;反射解码器输入为球谐基函数
sh
对光线方向
ω
的编码以及漫反射解码器输出的后
32
维特征
h
x
,输出是反射颜色
c
s

S
θ
(sh(
ω
),h
x
)

c
s
其中,
S
θ
表示反射解码器,因此,三维点颜色被表示为:
c

c
d
+s
·
c
s
...

【专利技术属性】
技术研发人员:许威威吴秀超张鑫鲍虎军
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1