面向3D视频的时间空间双维度帧合成方法技术

技术编号：41003984 阅读：9 留言：0更新日期：2024-04-18 21:41

本发明专利技术公开了面向3D视频的时间空间双维度帧合成方法。本发明专利技术首先对输入视频中的每帧原始输入图像通过特征提取网络提取特征信息，生成多个不同尺度下的特征图；然后对输入视频在时间维度进行插帧操作，生成时间维度插帧图像，在视点维度进行插帧操作，生成视点维度合成图像；最后通过维度融合网络，将原始输入图像以及对应的特征图、生成的光流信息和掩膜、时间维度插帧图像和视点维度合成图像进行融合，生成同时考虑两个维度信息的高质量生成帧。本发明专利技术结合时间、视点双维度信息，生成高质量的中间合成帧，保证了整体网络的并行度，避免了使用不同网络时造成的时延不同步在降低计算冗余的情况下克服了深层网络丢失图像原始信息的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理，具体是3d视频帧插以及自由视点合成领域，涉及一种面向3d视频的时间空间双维度帧合成方法。

技术介绍

1、视频帧插值在很长一段时间内在图像领域都是一项重要的任务，其目的是通过若干参考帧合成中间帧，以提高视频的时间分辨率。视频帧插值已经应用与很多下游任务，包括慢动作生成、视频压缩、通过文本生成视频等等。在3d视频、vr技术、以及可交互式媒体快速发展的今天，人们已经不满足于仅仅提高视频的帧率了。人们希望在视频播放过程中，不仅可以在时间维度上通过快进，回退，慢放等操作与之交互，也希望可以在空间维度上，操作观看视频的角度与位置，以达到更加身临其境的体验。虚拟视点合成技术，通过给定的一个或多个视点图像，生成新的视点图像，这使得在视频中自由转换视角成为了可能。

2、然而，不论在时间维度上的视频帧插值领域还是在空间维度上的自由视点合成领域，目前都存在着诸多问题和挑战。在视频帧插领域，近年来基于流的算法取得了令人印象深刻的进展，这些方法通常通过双向光流前向或后向将输入帧扭曲绘制到中间帧位置，因此实际的绘制效果很大程度上依赖于光流的准确度。实际上，想要估计近似的中间光流是很困难的，许多情况下，生成的光流在运动边界上可能存在缺陷，因为物体的移动会给光流的准确性带来较大的影响。缓解这一问题的较为可行的方法是以端到端的训练方式估计面向任务的流。然而，受制于视频的大尺度运动或者非均匀运动等影响，还有许多问题需要解决。

3、在自由视点合成领域，想要合成准确的指定视点的图像也是具有挑战性的，因为它需要对场景的全面

技术实现思路

1、本专利技术的目的就是提供一种面向3d视频的时间空间双维度帧合成方法。

2、本专利技术方法具体如下：

3、步骤(1)对输入视频中的每帧原始输入图像通过特征提取网络提取特征信息，每帧原始输入图像生成多个不同尺度下的特征图。这些特征图被视为公共信息，供整体架构中的所有需要原始图像特征信息的模块共享使用，从而实现信息的共享，减少不必要的重复计算。

4、步骤(2)对输入视频在时间维度进行插帧操作，生成时间维度插帧图像，具体是：

5、(2-1)首先前、后两帧图像经过timenet网络生成前一帧到目标帧和后一帧到目标帧的光流，以及一个掩膜；

6、(2-2)利用生成的光流信息，将输入的前、后两帧图像绘制到目标帧的位置；

7、(2-3)通过掩膜对绘制的图像进行融合，生成时间维度插帧图像。

8、以上操作通过单一视点的视频前后帧图像来生成中间帧图像，即使在没有其他视点图像信息的情况下，也能够独立完成视频帧插值任务。

9、步骤(3)对输入视频在视点维度进行插帧操作，生成视点维度合成图像，具体是：

10、(3-1)首先左、右视点的两帧图像经过viewnet网络生成左方视点帧到目标帧和右方视点帧到目标帧的光流，以及一个掩膜；

11、(3-2)利用生成的光流信息，将输入的左、右视点两帧图像绘制到目标帧的位置；

12、(3-3)通过掩膜对绘制的图像进行融合，生成视点维度合成图像。

13、以上操作通过同一时刻的视频左右视点图像来生成中间视点图像，即使在没有其他时间信息的情况下，也能够独立完成视点融合任务。

14、步骤(4)通过维度融合网络，将原始输入图像以及对应的特征图、步骤(2)生成的光流信息和掩膜、步骤(3)生成的光流信息和掩膜、时间维度插帧图像和视点维度合成图像进行融合，生成同时考虑两个维度信息的高质量生成帧。

15、本专利技术方法构建了一种通用的时空双维度帧合成网络架构，使得网络可以分别实现时间维度帧插和空间维度虚拟视点合成，同时可以结合双维度信息，生成高质量的中间合成帧。此外，网络的不同模块区域，可替换成其他网络结构，以针对性的提高网络性能。本专利技术设计了可同时完成视频帧插值和虚拟视点合成的网络，保证了整体网络的并行度，避免了时间和空间两个维度使用不同网络时造成的时延不同步所导致的性能浪费；并设计了一种可将特征图共享给整体网络架构中各个模块的特征提取网络，使得原始图像特征信息一次提取多次复用，在降低计算冗余的情况下克服了深层网络丢失图像原始信息的问题。

本文档来自技高网...

【技术保护点】

1.面向3D视频的时间空间双维度帧合成方法，其特征在于，该方法具体是：

2.如权利要求1所述的面向3D视频的时间空间双维度帧合成方法，其特征在于：所述的特征提取网络由四个串联相同的编码单元构成，前一个编码单元的输出作为下一个编码单元的输入；编码单元首先经过普通卷积层，卷积后通过第一次激活函数，将得到的结果通过三个并行不同膨胀率的膨胀卷积层，提取图像在不同尺度下的特征信息；将得到的三个特征信息在通道维度上进行拼接；再通过一个卷积层，将得到的结果与通过第一次激活函数的结果相加，再经过第二次激活函数输出；第一次和第二次激活函数采用PReLU；第一个编码单元的输入为输入视频中的每帧原始输入图像，四个编码单元的输出为四个不同尺度下的特征图，分别第一、第二、第三和第四编码单元特征图。

3.如权利要求2所述的面向3D视频的时间空间双维度帧合成方法，其特征在于：所述的TimeNet网络主体结构由六个编码单元和三个解码单元构成；输入数据为前、后两帧原始图像，首先经过第一编码单元，将得到的结果与第一编码单元特征图在通道维度上进行拼接；之后经过第二编码单元，将得到的结果与第二编

4.如权利要求3所述的面向3D视频的时间空间双维度帧合成方法，其特征在于：所述的ViewNet网络网络主体结构由六个编码单元和三个解码单元构成；输入数据为左、右视点的两帧原始图像，首先经过第一编码单元，将得到的结果与第一编码单元特征图在通道维度上进行拼接；之后经过第二编码单元，将得到的结果与第二编码单元特征图在通道维度上进行拼接；之后经过第三编码单元，将得到的结果与第三编码单元特征图在通道维度上进行拼接；之后经过第四编码单元，将得到的结果与第四编码单元特征图在通道维度上进行拼接；之后经过第五编码单元，得到视点维度中间特征图；将视点维度中间特征图中的最后四个通道作为视点维度第一光流，使用视点维度第一光流将第四编码单元特征图进行warp操作，将得到的结果与视点维度中间特征图在通道维度进行拼接，结果经过第一解码单元，得到视点维度第一解码单元特征图；将视点维度第一解码单元特征图中最后四个通道与视点维度第一光流经过上采样后的结果进行相加，作为视点维度第二光流，使用视点维度第二光流将第三编码单元特征图进行warp操作；将得到的结果与视点维度第一解码单元特征图在通道维度进行拼接，结果经过第二解码单元，得到视点维度第二解码单元特征图；将视点维度第二解码单元特征图中最后四个通道与视点维度第二光流经过上采样后的结果进行相加，作为视点维度第三光流，使用视点维度第三光流将第二编码单元特征图进行w...

【技术特征摘要】

1.面向3d视频的时间空间双维度帧合成方法，其特征在于，该方法具体是：

2.如权利要求1所述的面向3d视频的时间空间双维度帧合成方法，其特征在于：所述的特征提取网络由四个串联相同的编码单元构成，前一个编码单元的输出作为下一个编码单元的输入；编码单元首先经过普通卷积层，卷积后通过第一次激活函数，将得到的结果通过三个并行不同膨胀率的膨胀卷积层，提取图像在不同尺度下的特征信息；将得到的三个特征信息在通道维度上进行拼接；再通过一个卷积层，将得到的结果与通过第一次激活函数的结果相加，再经过第二次激活函数输出；第一次和第二次激活函数采用prelu；第一个编码单元的输入为输入视频中的每帧原始输入图像，四个编码单元的输出为四个不同尺度下的特征图，分别第一、第二、第三和第四编码单元特征图。

3.如权利要求2所述的面向3d视频的时间空间双维度帧合成方法，其特征在于：所述的timenet网络主体结构由六个编码单元和三个解码单元构成；输入数据为前、后两帧原始图像，首先经过第一编码单元，将得到的结果与第一编码单元特征图在通道维度上进行拼接；之后经过第二编码单元，将得到的结果与第二编码单元特征图在通道维度上进行拼接；之后经过第三编码单元，将得到的结果与第三编码单元特征图在通道维度上进行拼接；之后经过第四编码单元，将得到的结果与第四编码单元特征图在通道维度上进行拼接；之后经过第五编码单元，得到时间维度中间特征图；将时间维度中间特征图中的最后四个通道作为时间维度第一光流，使用时间维度第一光流将第四编码单元特征图进行warp操作，将得到的结果与时间维度中间特征图在通道维度进行拼接，结果经过第一解码单元，得到时间维度第一解码单元特征图；将时间维度第一解码单元特征图中最后四个通道与时间维度第一光流经过上采样后的结果进行相加，作为时间维度第二光流，使用时间维度第二光流将第三编码单元特征图进行warp操作；将得到的结果与时间维度第一解码单元特征图在通道维度进行拼接，结果经过第二解码单元，得到时间维度第二解码单元特征图；将时间维度第二解码单元特征图中最后四个通道与时间维度第二光流经过上采样后的结果进行相加，作为时间维度第三光流，使用时间维度第三光流将第二编码单元特征图进行warp操作，结果与时间维度第二解码单元特征图在通道维度进行拼接，经过第三解码单元，得到时间维度第三解码单元特征图；将时间维度第三解码单元特征图中最后四个通道与时间维度第三光流经过上采样后的结果进行相加，作为时间维度第四光流，使用时间维度第四光流将第一编码单元特征图进行warp操作，将结果与时间维度第三解码单元特征图在通道维度进行拼接，再经过第六编码单元，结果为四个时间维度光流通道与一个时间维度掩膜通道，光流通道与时间维度第四光流经过上采样后的结果相加，得到时间维度输出光流，使用时间维度输出光流将输入的前、后两帧原始图像分别进行warp操作得到两张时间维度绘制图像，再使用时间维度掩膜将两张时间维度绘制图像进行融合，输出时间维度插帧图像itime＝mtime⊙framef-c+(1-mtime)⊙frameb-c，mtime表示timenet网络生成的掩膜，framef-c表示前一帧通过光流绘制到中间帧的绘制图像，frameb-c表示后一帧通过光流绘制到中间帧的图像，⊙表示矩阵对应位置元素相乘。

4.如权利要求3所述的面向3d视频的时间空间双维度帧合成方法，其特征在于：所述的viewnet网...

【专利技术属性】
技术研发人员：刘春晖，周洋，赵俊能，张志，殷海兵，黄晓峰，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人