一种基于3D-DoubleU-Net的视频帧生成方法技术

技术编号:36292489 阅读:57 留言:0更新日期:2023-01-13 10:05
本发明专利技术提供了一种基于3D

【技术实现步骤摘要】
一种基于3D

DoubleU

Net的视频帧生成方法


[0001]本专利技术涉及计算机视觉
,具体而言,特别涉及一种基于3D

DoubleU

Net的视频帧生成方法。

技术介绍

[0002]随着视频显示设备的升级和视频传输带宽的提升,人们对视频视觉质量的要求越来越高。帧率是关系视频质量的重要指标之一,表示视频每秒播放的帧图像的数量。较低帧率的视频在播放时会出现画面延迟和跳动现象,从而影响用户的观看体验。
[0003]视频帧生成是利用视频/图像处理技术,以原始视频帧图像为参考,在连续两帧中间生成并插入一帧或者多帧的技术,进而实现视频帧率由低到高的转化。视频帧生成技术是视频处理领域的关键技术之一,引起了研究人员的关注,并在视频增强、数据压缩、视频特效处理等领域得到广泛的应用。
[0004]近年来随着深度学习技术的发展,大量基于深度学习的视频帧生成方法被提出,主要包括基于光流估计的方法、基于核估计的方法、光流估计与核估计相结合的方法。
[0005]基于光流估计的方法是使用最广泛的方法,以估计输入帧间的光流为基础,但该类算法在具有挑战性的情况下无法准确估计光流,以至于产生模糊的结果。基于核估计的方法通常自适应估计每个像素的核,然后将估计得到的核与输入帧图像进行卷积得到中间帧,但该类方法不能指向任何位置,因此不能处理超出核大小的物体运动。光流估计和核估计相结合的方法能使用光流法对输入帧进行运动估计,又能对参考点周围的像素信息进行采样。但该类方法可使用的参考点仍然较少,对光流估计和核估计方法的缺点并没有做出明显改进。
[0006]在实际采集的视频场景中,通常存在场景复杂、物体运动迅速、物体遮挡、光照变化剧烈等问题,对视频帧生成研究带来了极大挑战。因此,视频帧生成方法研究也是目前计算机视觉领域的难点之一,鲁棒准确的视频帧生成方法研究具有重要的理论意义和应用价值。

技术实现思路

[0007]为了弥补现有技术的不足,本专利技术提供了一种基于3D

DoubleU

Net的视频帧生成方法。
[0008]本专利技术是通过如下技术方案实现的:一种基于3D

DoubleU

Net的视频帧生成方法,其特征在于,具体包括以下步骤:S1、构建数据集:训练和测试数据集均包含多个三元组,一个三元组由三个时域上的连续帧组成,记为,其中是前一帧,是真实中间帧,是后一帧;S2、设计3D

DoubleU

Net网络模型:模型包含两个带有双跨视角空间注意力机制(VISTA)的三维U

Net网络,每个三维U

Net网络由一个三维编码器(3D

Encoder)、空洞卷积空间金字塔池化(ASPP)和一个三维解码器(3D

Decoder)组成;
拼接后的相邻帧依次输入两个三维U

Net网络,经过第一个三维U

Net网络得到的结果为;随后,与一同输入第二个三维U

Net网络,得到的结果为;最后,和拼接后输入二维卷积得到最终结果;S3、训练模型:本专利技术通过最小化初始结果、和最终结果与真实中间帧之间的差距来实现最优模型的训练;使用的损失函数如下:(1);(2);(3);(4);其中,本专利技术使用训练网络,,,;使用范数度量、与之间的差异;使用Charbonnier函数优化范数来度量与之间的差异,;为感知损失,使用在ImageNet预训练后的VGG

16网络中的conv4_3卷积层作为特征提取器,得到与之间的感知损失;S4、测试模型:将测试集的前后两帧输入训练好的模型,能够直接生成中间帧结果;S5、使用模型:将真实视频输入训练好的网络模型,能够得到高帧率视频。
[0009]作为优选方案,步骤S1具体包括以下步骤:S1

1、模型训练使用包含51312个三元组的Vimeo

90K数据集,其中三元组中的和为相邻帧,作为网络的输入,第二帧为真实帧,用来监督网络的训练;S1

2、选用UCF101和DAVIS数据集对模型进行测试。
[0010]作为优选方案,步骤S2具体包括以下步骤:S2

1、设计3D

DoubleU

Net网络模型:模型包含两个带有双跨视角空间注意力机制(VISTA)的三维U

Net网络;S2

2、第一个三维U

Net由编码器和解码器构成,其中编码器的基本主干是预训练好的ResNet18

3D(R3D

18)三维卷积神经网络;从R3D

18去掉池化操作和最后一个分类层,并使用空间步幅为2的三维卷积;S2

3:使用像素级相乘操作对和进行融合,将融合后的结果输入到第二个三维U

Net网络,进行特征提取和上采样,得到结果输出2,记为;S2

4:第二个三维U

Net与第一个三维U

Net结构相同,由编码器、空洞卷积空间金字塔池化(ASPP)和解码器构成;
S2

5、将输入编码器得到提取后的特征,随后输入ASPP,获得多尺度上下文信息,;S2

6、解码器也包含四个解码块,但是与解码器只使用来自编码器的跳跃连接不同,使用来自两个编码器的跳跃连接。将输入解码器得到第二个生成帧结果;S2

7、在第二个三维U

Net中,每个编码块和解码块的最后一层,均对特征使用双跨视角空间注意力机制(VISTA);S2

8、将和拼接后的结果输入二维卷积,得到最终结果。
[0011]进一步地,步骤S2

3具体包括以下步骤:S2
‑3‑
1、将级联后的输入帧输入到编码器提取特征,得到。
[0012]S2
‑3‑
2、采用空洞卷积空间金字塔池化(ASPP)捕获多尺度上下文,得到特征。
[0013]S2
‑3‑
3、包含四个解码块的解码器被用来重建初步中间帧结果输出1,即。
[0014]进一步地,步骤S2
‑3‑
3中解码器使用步幅为2的三维转置卷积层(3DTransConv),三维转置卷积层最后一层后添加了三维卷积层;每个解码块的最后一层均对特征使用双跨视角空间注意力机制(VISTA)。
[0015]进一步地,步骤S2

4中ResNet18

3D(R3D

18)三维卷积神经网络是编码器的主干结构,编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于3D

DoubleU

Net的视频帧生成方法,其特征在于,具体包括以下步骤:S1、构建数据集:训练和测试数据集均包含多个三元组,一个三元组由三个时域上的连续帧组成,记为,其中是前一帧,是真实中间帧,是后一帧;S2、设计3D

DoubleU

Net网络模型:模型包含两个带有双跨视角空间注意力机制(VISTA)的三维U

Net网络,每个三维U

Net网络由一个三维编码器(3D

Encoder)、空洞卷积空间金字塔池化(ASPP)和一个三维解码器(3D

Decoder)组成;拼接后的相邻帧依次输入两个三维U

Net网络,经过第一个三维U

Net网络得到的结果为;随后,与一同输入第二个三维U

Net网络,得到的结果为;最后,和拼接后输入二维卷积得到最终结果;S3、训练模型:本发明通过最小化初始结果、和最终结果与真实中间帧之间的差距来实现最优模型的训练;使用的损失函数如下:(1);(2);(3);(4);其中,本发明使用训练网络,,,;使用范数度量、与之间的差异;使用Charbonnier函数优化范数来度量与之间的差异,;为感知损失,使用在ImageNet预训练后的VGG

16网络中的conv4_3卷积层作为特征提取器,得到与之间的感知损失;S4、测试模型:将测试集的前后两帧输入训练好的模型,能够直接生成中间帧结果;S5、使用模型:将真实视频输入训练好的网络模型,能够得到高帧率视频。2.根据权利要求1所述的一种基于3D

DoubleU

Net的视频帧生成方法,其特征在于,所述步骤S1具体包括以下步骤:S1

1、模型训练使用包含51312个三元组的Vimeo

90K数据集,其中三元组中的和为相邻帧,作为网络的输入,第二帧为真实帧,用来监督网络的训练;S1

2、选用UCF101和DAVIS数据集对模型进行测试。3.根据权利要求1所述的一种基于3D

DoubleU

Net的视频帧生成方法,其特征在于,所述步骤S2具体包括以下步骤:S2

1、设计3D

DoubleU

Net网络模型:模型包含两个带有双跨视角空间注意力机制(VISTA)的三维U

Net网络;S2

2、第一个三维U

【专利技术属性】
技术研发人员:蹇木伟张昊然王芮举雅琨杨成东武玉增
申请(专利权)人:山东九德智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1