【技术实现步骤摘要】
一种基于3D
‑
DoubleU
‑
Net的视频帧生成方法
[0001]本专利技术涉及计算机视觉
,具体而言,特别涉及一种基于3D
‑
DoubleU
‑
Net的视频帧生成方法。
技术介绍
[0002]随着视频显示设备的升级和视频传输带宽的提升,人们对视频视觉质量的要求越来越高。帧率是关系视频质量的重要指标之一,表示视频每秒播放的帧图像的数量。较低帧率的视频在播放时会出现画面延迟和跳动现象,从而影响用户的观看体验。
[0003]视频帧生成是利用视频/图像处理技术,以原始视频帧图像为参考,在连续两帧中间生成并插入一帧或者多帧的技术,进而实现视频帧率由低到高的转化。视频帧生成技术是视频处理领域的关键技术之一,引起了研究人员的关注,并在视频增强、数据压缩、视频特效处理等领域得到广泛的应用。
[0004]近年来随着深度学习技术的发展,大量基于深度学习的视频帧生成方法被提出,主要包括基于光流估计的方法、基于核估计的方法、光流估计与核估计相结合的方法。
[0005]基于光流估计的方法是使用最广泛的方法,以估计输入帧间的光流为基础,但该类算法在具有挑战性的情况下无法准确估计光流,以至于产生模糊的结果。基于核估计的方法通常自适应估计每个像素的核,然后将估计得到的核与输入帧图像进行卷积得到中间帧,但该类方法不能指向任何位置,因此不能处理超出核大小的物体运动。光流估计和核估计相结合的方法能使用光流法对输入帧进行运动估计,又能对参考点周围的像 ...
【技术保护点】
【技术特征摘要】
1.一种基于3D
‑
DoubleU
‑
Net的视频帧生成方法,其特征在于,具体包括以下步骤:S1、构建数据集:训练和测试数据集均包含多个三元组,一个三元组由三个时域上的连续帧组成,记为,其中是前一帧,是真实中间帧,是后一帧;S2、设计3D
‑
DoubleU
‑
Net网络模型:模型包含两个带有双跨视角空间注意力机制(VISTA)的三维U
‑
Net网络,每个三维U
‑
Net网络由一个三维编码器(3D
‑
Encoder)、空洞卷积空间金字塔池化(ASPP)和一个三维解码器(3D
‑
Decoder)组成;拼接后的相邻帧依次输入两个三维U
‑
Net网络,经过第一个三维U
‑
Net网络得到的结果为;随后,与一同输入第二个三维U
‑
Net网络,得到的结果为;最后,和拼接后输入二维卷积得到最终结果;S3、训练模型:本发明通过最小化初始结果、和最终结果与真实中间帧之间的差距来实现最优模型的训练;使用的损失函数如下:(1);(2);(3);(4);其中,本发明使用训练网络,,,;使用范数度量、与之间的差异;使用Charbonnier函数优化范数来度量与之间的差异,;为感知损失,使用在ImageNet预训练后的VGG
‑
16网络中的conv4_3卷积层作为特征提取器,得到与之间的感知损失;S4、测试模型:将测试集的前后两帧输入训练好的模型,能够直接生成中间帧结果;S5、使用模型:将真实视频输入训练好的网络模型,能够得到高帧率视频。2.根据权利要求1所述的一种基于3D
‑
DoubleU
‑
Net的视频帧生成方法,其特征在于,所述步骤S1具体包括以下步骤:S1
‑
1、模型训练使用包含51312个三元组的Vimeo
‑
90K数据集,其中三元组中的和为相邻帧,作为网络的输入,第二帧为真实帧,用来监督网络的训练;S1
‑
2、选用UCF101和DAVIS数据集对模型进行测试。3.根据权利要求1所述的一种基于3D
‑
DoubleU
‑
Net的视频帧生成方法,其特征在于,所述步骤S2具体包括以下步骤:S2
‑
1、设计3D
‑
DoubleU
‑
Net网络模型:模型包含两个带有双跨视角空间注意力机制(VISTA)的三维U
‑
Net网络;S2
‑
2、第一个三维U
【专利技术属性】
技术研发人员:蹇木伟,张昊然,王芮,举雅琨,杨成东,武玉增,
申请(专利权)人:山东九德智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。