基于自注意力机制的单目输入动态场景新视图合成方法技术

技术编号:36206601 阅读:11 留言:0更新日期:2023-01-04 12:01
本发明专利技术公开了一种基于自注意力机制的单目输入动态场景新视图合成方法,提出了一种动态场景新视图合成新范式,即利用自注意力机制表达动态场景在时间维度上的内在关联,从而利用时间全局信息来完成动态场景的新视点合成,可以得到真实可靠的新视图合成结果,同时去除了光流与场景流的约束,简化模型的训练,并降低模型的内存开销与训练时间;去除了场景流的预测以及光流信息的先验,在得到可靠的新视图合成结果的同时简化了模型的优化,同时降低了内存开销。内存开销。内存开销。

【技术实现步骤摘要】
基于自注意力机制的单目输入动态场景新视图合成方法


[0001]本专利技术属于新视图合成领域,更具体地,涉及一种基于自注意力机制的单目输入动态场景新视图合成方法。

技术介绍

[0002]随着计算机视觉领域的不断发展,新视图合成已经成为了计算机视觉领域的基本问题之一。它之所以受到人们的关注,是因为其应用非常的广泛。比如当今流行的VR技术,虚拟3D地图都用到了这项技术,甚至它在体育,电影等行业中也具有广阔的前景。因此近几年在学术界出现了许多有关新视图合成的研究。
[0003]动态场景的新视点合成是新视图合成领域的一个研究热点,该任务的目的是根据动态场景的输入视频或图像,利用算法重建出场景在时间与空间上的四维信息,最终可以达到在时间与视角两个维度的新视图合成效果。动态场景的新视点合成可以应用于电影制作、体育比赛回放等应用当中,它可以打破二维平面带来的观察局限性,为人们提供更加全面直观的场景展示。
[0004]目前利用神经辐射场模型完成动态场景的新视点合成算法总共可以分为两大类:基于基准模型与形变模型的算法与基于动态模型与静态模型的算法。基于基准模型与形变模型的方法主要通过基准模型生成动态场景的基准平均场景表达,而对于每一个时间点的场景则使用形变模型生成变化量从平均场景形变到每一时刻的具体场景,从而实现动态场景的表达。基于动态场景与静态场景的方法则使用静态模型重建场景中的静态部分,使用动态模型重建场景中的动态部分,最终将两个模型的结果进行融合得到最终的动态场景表达。以上的方法若想要达到很好的效果都需要预测场景流信息来表示场景的变化,并使用光流的先验来对场景流进行约束。这使得模型的优化变得复杂,同时需要过多的内存消耗。

技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于自注意力机制的单目输入动态场景新视图合成方法,其目的在于利用自注意力机制的高性能解决动态场景的重建问题,同时去除场景流参数的预测,简化模型优化,降低内存开销
[0006]为实现上述目的,按照本专利技术的第一方面,提供一种基于自注意力机制的单目输入动态场景新视图合成方法,包括:
[0007]训练阶段:
[0008]以动态场景的单目视频序列作为训练集,对合成模型进行训练;其中,以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像的均方差为损失函数;所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块:
[0009]其中,所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列;所述位置编码模块用于将各特征图与与其大小相同且带有位置信息的3D张量进行相加,得到
引入位置信息的特征图序列;
[0010]所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作,得到引入全局信息的特征图序列;所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列进行自注意力操作后得到的结果作为query,以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value,进行注意力操作,得到输出特征图序列;
[0011]所述视图生成模块用于将时间信息、场景空间点的坐标、视图方向输入至动态模型,将场景空间点的坐标、视图方向输入至静态模型,并将所述动态模型及静态模型的输出结果进行融合、渲染,得到RGB图像及深度图像;其中,以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息;所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取;所述视图方向从所述单目视频序列对应的相机参数中得到;
[0012]应用阶段:
[0013]将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型,将特定视图方向、及场景空间点坐标输入至所述静态模型,将所述动态模型及静态模型的输出结果进行融合、渲染,得到所述特定视图方向及特定时间下的RGB图像;其中,所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作后得到的结果进行全局池化得到的特征向量。
[0014]按照本专利技术的第二方面,提供了一种基于自注意力机制的单目输入动态场景新视图合成系统,包括:计算机可读存储介质和处理器;
[0015]所述计算机可读存储介质用于存储可执行指令;
[0016]所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。
[0017]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0018]1、本专利技术提供的基于自注意力机制的单目输入动态场景新视图合成方法,提出了一种动态场景新视图合成新范式,即利用自注意力机制表达动态场景在时间维度上的内在关联,从而利用时间全局信息来完成动态场景的新视点合成,可以得到真实可靠的新视图合成结果,同时去除了光流与场景流的约束,简化模型的训练,并降低模型的内存开销与训练时间。
[0019]2、本专利技术提供的基于自注意力机制的单目输入动态场景新视图合成方法,去除了场景流的预测以及光流信息的先验,在得到可靠的新视图合成结果的同时简化了模型的优化,同时降低了内存开销。
[0020]3、本专利技术提供的基于自注意力机制的单目输入动态场景新视图合成方法,利用神经辐射场模型进行新视图合成,可以得到真实合理的新时间以及新视角的新视点图像。
附图说明
[0021]图1是本专利技术实施例提供的基于自注意力机制的单目输入动态场景新视图合成方法的流程图;
[0022]图2是本专利技术实施实施例提供的特征提取网络结构图;
[0023]图3是本专利技术实施例提供的卷积自注意力层网络结构图;
[0024]图4是本专利技术实施例提供的自注意力编码器与注意力解码器的技术流程图;
[0025]图5中的(a)、(b)分别为本专利技术实施例提供的神经辐射场网络结构图;
[0026]图6是本专利技术实施例提供的三种不同形式的模型输出结果示意图。
具体实施方式
[0027]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0028]本专利技术实施例提供一种基于自注意力机制的单目输入动态场景新视图合成方法,如图1所示,包括:
[0029]训练阶段:
[0030]以动态场景的单目视频序列作为训练集,对合成模型进行训练;其中,以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像(真实的RGB图像即输入的单目视频序列,真实的深度图像是将单目视频序列输入至例如midas、dpt等深度预测模型得到)的均方差为损失函数;所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块:
[0031]其中,所述特征提取网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的单目输入动态场景新视图合成方法,其特征在于,包括:训练阶段:以动态场景的单目视频序列作为训练集,对合成模型进行训练;其中,以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像的均方差为损失函数;所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块:其中,所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列;所述位置编码模块用于将各特征图与与其大小相同且带有位置信息的3D张量进行相加,得到引入位置信息的特征图序列;所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作,得到引入全局信息的特征图序列;所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列进行自注意力操作后得到的结果作为query,以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value,进行注意力操作,得到输出特征图序列;所述视图生成模块用于将时间信息、场景空间点的坐标、视图方向输入至动态模型,将场景空间点的坐标、视图方向输入至静态模型,并将所述动态模型及静态模型的输出结果进行融合、渲染,得到RGB图像及深度图像;其中,以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息;所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取;所述视图方向从所述单目视频序列对应的相机参数中得到;应用阶段:将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型,将特定视图方向、及场景空间点坐标输入至所述静态模型,将所述动态模型及静态模型的输出结果进行融合、渲染,得到所述特定视图方向及特定时间下的RGB图像;其中,所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作后得到的结果进行全局池化得到的特征向量。2.如权利要求1所述的方法,其特征在于,对特征图序列进行插值操作得到插帧特征图序列。3.如权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:孙慧强曹治国李星毅鲜可王一然申立奥
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1