基于自注意力机制的单目输入动态场景新视图合成方法技术

技术编号：36206601 阅读：11 留言：0更新日期：2023-01-04 12:01

本发明专利技术公开了一种基于自注意力机制的单目输入动态场景新视图合成方法，提出了一种动态场景新视图合成新范式，即利用自注意力机制表达动态场景在时间维度上的内在关联，从而利用时间全局信息来完成动态场景的新视点合成，可以得到真实可靠的新视图合成结果，同时去除了光流与场景流的约束，简化模型的训练，并降低模型的内存开销与训练时间；去除了场景流的预测以及光流信息的先验，在得到可靠的新视图合成结果的同时简化了模型的优化，同时降低了内存开销。内存开销。内存开销。

全部详细技术资料下载

【技术实现步骤摘要】
基于自注意力机制的单目输入动态场景新视图合成方法

[0001]本专利技术属于新视图合成领域，更具体地，涉及一种基于自注意力机制的单目输入动态场景新视图合成方法。

技术介绍

[0002]随着计算机视觉领域的不断发展，新视图合成已经成为了计算机视觉领域的基本问题之一。它之所以受到人们的关注，是因为其应用非常的广泛。比如当今流行的VR技术，虚拟3D地图都用到了这项技术，甚至它在体育，电影等行业中也具有广阔的前景。因此近几年在学术界出现了许多有关新视图合成的研究。
[0003]动态场景的新视点合成是新视图合成领域的一个研究热点，该任务的目的是根据动态场景的输入视频或图像，利用算法重建出场景在时间与空间上的四维信息，最终可以达到在时间与视角两个维度的新视图合成效果。动态场景的新视点合成可以应用于电影制作、体育比赛回放等应用当中，它可以打破二维平面带来的观察局限性，为人们提供更加全面直观的场景展示。
[0004]目前利用神经辐射场模型完成动态场景的新视点合成算法总共可以分为两大类：基于基准模型与形变模型的算法与基于动态模型与静态模型的算法。基于基准模型与形变模型的方法主要通过基准模型生成动态场景的基准平均场景表达，而对于每一个时间点的场景则使用形变模型生成变化量从平均场景形变到每一时刻的具体场景，从而实现动态场景的表达。基于动态场景与静态场景的方法则使用静态模型重建场景中的静态部分，使用动态模型重建场景中的动态部分，最终将两个模型的结果进行融合得到最终的动态场景表达。以上的方法若想要达到很好的效果都需要预测场景流...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的单目输入动态场景新视图合成方法，其特征在于，包括：训练阶段：以动态场景的单目视频序列作为训练集，对合成模型进行训练；其中，以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像的均方差为损失函数；所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块：其中，所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列；所述位置编码模块用于将各特征图与与其大小相同且带有位置信息的3D张量进行相加，得到引入位置信息的特征图序列；所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作，得到引入全局信息的特征图序列；所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列进行自注意力操作后得到的结果作为query，以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value，进行注意力操作，得到输出特征图序列；所述视图生成模块用于将时间信息、场景空间点的坐标、视图方向输入至动态模型，将场景空间点的坐标、视图方向输入至静态模型，并将所述动态模型及静态模型的输出结果进行融合、渲染，得到RGB图像及深度图像；其中，以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息；所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取；所述视图方向从所述单目视频序列对应的相机参数中得到；应用阶段：将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型，将特定视图方向、及场景空间点坐标输入至所述静态模型，将所述动态模型及静态模型的输出结果进行融合、渲染，得到所述特定视图方向及特定时间下的RGB图像；其中，所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作后得到的结果进行全局池化得到的特征向量。2.如权利要求1所述的方法，其特征在于，对特征图序列进行插值操作得到插帧特征图序列。3.如权利要求1所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：孙慧强，曹治国，李星毅，鲜可，王一然，申立奥，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人