当前位置: 首页 > 专利查询>烟台大学专利>正文

一种基于显式和隐式混合编码的动态场景重建方法技术

技术编号:39813954 阅读:11 留言:0更新日期:2023-12-22 19:31
本发明专利技术公开了一种基于显式和隐式混合编码的动态场景重建方法,应用于动态场景重建技术领域,分为三个部分,在形变网络中,采用可优化的显式体素网格来存储

【技术实现步骤摘要】
一种基于显式和隐式混合编码的动态场景重建方法


[0001]本专利技术涉及动态场景重建
,更具体的说是涉及一种基于显式和隐式混合编码的动态场景重建方法


技术介绍

[0002]使用一组
2D
图像重建和渲染
3D
场景的问题一直是计算机视觉和图形学领域的一个挑战

这项任务在虚拟现实

互动游戏和电影制作等各种应用中具有重要意义

最近,神经辐射场
(NeRF)
通过使用可微分体绘制技术,使静态场景重建任务的性能取得了显著的进步
。NeRF
仅需要将
3D
位置
(X

Y

Z)

2D
观察方向
(
θ

φ
)
作为输入,采用单个多层感知器
(MLP)
来拟合静态场景,即可得到
3D
点的颜色和密度,使其能够从多个
2D
图像准确地重建
3D
结构,并从以前未见过的视点生成逼真的图像

然而,由于现实世界是动态的,并且在复杂场景中经常涉及运动,因此将
NeRF
重建静态场景的功能扩展到动态场景是亟待解决的问题

但是,由于
NeRF
完全依赖于
MLP
这种隐式表示,为了获取采样点的颜色和密度,在每轮迭代中采样点都要经过数百万次的查询,使得动态场景的重建方法更加复杂

例如,
D

NeRF
利用形变网络和规范网络来建模和拟合动态场景,但需要注意的是,这个过程要
20
多个小时才能收敛

与时间处理相关的高计算成本对这些技术在现实生活场景中的广泛应用提出了挑战

[0003]最近的几种静态场景重建方法通过使用显式和隐式混合表示的方法,证明了比
NeRF
这种纯隐式
MLP
场景表达具有更快的速度,仅需要十几分钟就可使模型收敛,这种速度的提高是利用体素网格的三线性插值来填充体素内的
3D
空间来实现的

但是,这种方法大多数是为静态场景重建而设计的,现有的方法不能直接应用于动态场景重建

主要原因是直接将静态场景的
3D
空间
(x,y,z)
表示扩展到具有时间维度的
4D
空间
(x,y,z,t)
会带来巨大的存储成本,该成本随着时间帧的数量呈线性增加,造成单一场景训练参数需要几十
GB
来存储,这是不切实际的

为了改善这个问题,一些动态
NeRF
方法利用形变网络来学习点的映射关系,并将形变后的采样点输入到规范空间中

变形网络将三维点从观察空间
(t≠0)
映射到规范空间
(t

0)
,有效地将动态场景重建问题转化为熟悉的静态场景

这种方法节省了大量存储空间,但是这些方法过度依赖于准确的位移估计模块,并且位移的累积误差估计会对规范网络的学习产生负面影响

另一方面,现有的体素表达通常采用单一分辨率体素网格来重建场景,然而,高分辨率体素网格不足以模拟大幅度运动,而低分辨率体素网格则无法捕获小小幅度运动中的细节

最终导致无法兼顾不同程度的运动,使得渲染结果变低


技术实现思路

[0004]有鉴于此,本专利技术提供了一种基于显式和隐式混合编码的动态场景重建方法,以解决
技术介绍
中的问题

[0005]为了实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于显式和隐式混合编码的动态场景重建方法,具体步骤包括如下:
[0007]构建动态场景重建模型,包括依次连接的形变网络

规范网络和体渲染场;形变网络利用显式体素网格来存储
3D
动态特征,同时采用轻量级
MLP
来解码所述
3D
动态特征,输出位移估计;所述规范网络修正所述形变网络中位移估计的误差,将时间信息编码融入到密度和颜色的估计中;所述体渲染场利用规范网络预测的颜色和密度来计算像素点的颜色值;
[0008]构建批处理数据,并将批处理数据送入构建好的动态场景重建模型中进行训练,通过渲染得到的图像与真实图像的像素值做损失,利用损失函数值来优化网络参数直到收敛,得到最优动态场景重建模型;
[0009]输入待测数据到所述最优动态场景重建模型,获得渲染后的图像

[0010]优选的,在上述的一种基于显式和隐式混合编码的动态场景重建方法中,所述形变网络包括依次设置形变体素网格和形变多层感知器;给定体素网格分辨率每个体素顶点存储的特征向量长度为
N
d
,形变多层感知器
F
d
包括输入层

隐藏层和输出层,用于输出估计的位移量

[0011]优选的,在上述的一种基于显式和隐式混合编码的动态场景重建方法中,所述规范网络包括密度模块和颜色模块;
[0012]在所述密度模块中依次设置密度体素网格
G
σ
,密度多层感知器
F
σ
,给定体素网格分辨率每个体素顶点存储的特征向量长度为
N
σ
,密度多层感知器
F
σ
包括输入层

隐藏层和输出层,用以输出估计的密度
σ

[0013]在所述颜色模块中依次设置颜色体素网格
G
c
,颜色多层感知器
F
c
,给定体素网格分辨率每个体素顶点存储的特征向量长度为
N
c
,颜色多层感知器
F
c
包括输入层

隐藏层和输出层,用以输出估计的颜色
RGB。
[0014]优选的,在上述的一种基于显式和隐式混合编码的动态场景重建方法中,所述体渲染场,计算每条光线的颜色,设
p(h)

o+hd
是从相机光心的中心
o
发射到投影像素的相机射线上的一点,其中射线方向
d
即投影像素点到光心的单位向量,经过密度模块和颜色模块后得到一条光线上
n
个采样点的密度
σ
和颜色
c
,则该光线的估计颜色为其中,
h
n

h
f
表示场景体积的边界,
p
...

【技术保护点】

【技术特征摘要】
1.
一种基于显式和隐式混合编码的动态场景重建方法,其特征在于,具体步骤包括如下:构建动态场景重建模型,包括依次连接的形变网络

规范网络和体渲染场;形变网络利用显式体素网格来存储
3D
动态特征,同时采用轻量级
MLP
来解码所述
3D
动态特征,输出位移估计;所述规范网络修正所述形变网络中位移估计的误差,将时间信息编码融入到密度和颜色的估计中;所述体渲染场利用规范网络预测的颜色和密度来计算像素点的颜色值;构建批处理数据,并将批处理数据送入构建好的动态场景重建模型中进行训练,通过渲染得到的图像与真实图像的像素值做损失,利用损失函数值来优化网络参数直到收敛,得到最优动态场景重建模型;输入待测数据到所述最优动态场景重建模型,获得渲染后的图像
。2.
根据权利要求1所述的一种基于显式和隐式混合编码的动态场景重建方法,其特征在于,所述形变网络包括依次设置形变体素网格和形变多层感知器;给定体素网格分辨率每个体素顶点存储的特征向量长度为
N
d
,形变多层感知器
F
d
包括输入层

隐藏层和输出层,用于输出估计的位移量
。3.
根据权利要求1所述的一种基于显式和隐式混合编码的动态场景重建方法,其特征在于,所述规范网络包括密度模块和颜色模块;在所述密度模块中依次设置密度体素网格
G
σ
,密度多层感知器
F
σ
,给定体素网格分辨率每个体素顶点存储的特征向量长度为
N
σ
,密度多层感知器
F
σ
包括输入层

隐藏层和输出层,用以输出估计的密度
σ
;在所述颜色模块中依次设置颜色体素网格
G
c
,颜色多层感知器
F
c
,给定体素网格分辨率每个体素顶点存储的特征向量长度为
N
c
,颜色多层感知器
F
c
包括输入层

隐藏层和输出层,用以输出估计的颜色
RGB。4.
根据权利要求3所述的一种基于显式和隐式混合编码的动态场景重建方法,其特征在于,所述体渲染场,计算每条光线的颜色,设
p(h)

o+hd
是从相机光心的中心
o
发射到投影像素的相机射线上的一点,其中射线方向
d
即投影像素点到光心的单位向量,经过密度模块和颜色模块后得到一条光线上
n
个采样点的密度
σ
和颜色
c
,则该光线的估计颜色为其中,
h
n

h
f
表示场景体积的边界,
p

(h,t)
是通过变形网络从观察空间变换到标规范空间的采样点,是
h
n
到当前采样点
h
的累计透射率
。5.
根据权利要求1所述的一种基于显式和隐式混合编码的动态场景重建方法,其特征在于,构建批处理数据具体步骤如下:每轮从训练集图像中随机选取
N_rays
个像素点,以相机光心为原点
o
,沿着投影像素方向
d
发出一条射线,获得批处理所用的
N_rays
条光线,同时记录每条光线所属相片的时间
N_rays_t
,以光线的近端
near
和远端
far
为区间,在光线上采样
N_sample
个采样点
p(x

y

z)
,至此获得批处理数据为
(N_rays

【专利技术属性】
技术研发人员:阎维青陈延顺徐金东刘兆伟任金来
申请(专利权)人:烟台大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1