模型训练方法、视频插帧方法及对应装置制造方法及图纸

技术编号:30427657 阅读:17 留言:0更新日期:2021-10-24 17:14
本申请涉及视频处理技术领域,提供一种模型训练方法、视频插帧方法及对应装置。其中,模型训练方法包括:获取第一视频帧、第二视频帧以及参考中间帧;基于第一视频帧和第二视频帧,分别利用第一神经网络和第二神经网络获得第一中间帧光流和第二中间帧光流;利用第一中间帧光流对第一视频帧和第二视频帧进行映射,融合映射得到的第一映射视频帧和第二映射视频帧,获得第一中间帧,并类似获得第二中间帧;计算第一图像损失和光流损失,并根据第一图像损失和光流损失更新第一神经网络的参数;计算第二图像损失,并根据第二图像损失更新第二神经网络的参数。该方法提供了一种在缺少光流数据标注的情况下实现高质量视频插帧的解决方案。案。案。

【技术实现步骤摘要】
模型训练方法、视频插帧方法及对应装置


[0001]本专利技术涉及视频处理
,具体而言,涉及一种模型训练方法、视频插帧方法及对应装置。

技术介绍

[0002]视频插帧是视频处理中的一个经典任务,旨在根据一段视频中的前后两帧合成过渡平滑的中间帧。视频插帧的应用场景包括:第一,用于提高设备显示的视频帧率,让用户感觉视频更加清晰流畅;第二,在视频制作和编辑上,用于辅助实现视频的慢动作效果,或者用于在动画的关键帧之间增加中间帧,减少动画制作的人力支出;第三,用于视频的中间帧压缩,或者为其他计算机视觉任务提供辅助数据。
[0003]目前的视频插帧方法中,效果较好的是基于深度学习光流估计的方法。然而,对于实际视频,很难通过人工进行光流数据标注,导致这类方法所依赖的神经网络模型训练困难,限制了图像重建质量的进一步提高。

技术实现思路

[0004]本申请实施例的目的在于提供一种模型训练方法、视频插帧方法及对应装置,以改善上述技术问题。
[0005]为实现上述目的,本申请提供如下技术方案:
[0006]第一方面,本申请实施例提供一种模型训练方法,包括:获取第一视频帧、第二视频帧以及所述第一视频帧和所述第二视频帧的参考中间帧;基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流;以及,基于所述第一视频帧和所述第二视频帧,利用第二神经网络获得第二中间帧光流;利用所述第一中间帧光流对所述第一视频帧和所述第二视频帧进行映射,获得第一映射视频帧和第二映射视频帧,并融合所述第一映射视频帧和所述第二映射视频帧,获得第一中间帧;以及,利用所述第二中间帧光流对所述第一视频帧和所述第二视频帧进行映射,获得第三映射视频帧和第四映射视频帧,并融合所述第三映射视频帧和所述第四映射视频帧,获得第二中间帧;计算表征所述第一中间帧和所述参考中间帧的差异的第一图像损失,以及表征所述第一中间帧光流和所述第二中间帧光流的差异的光流损失,并根据所述第一图像损失和所述光流损失更新所述第一神经网络的参数;以及,计算表征所述第二中间帧和所述参考中间帧的差异的第二图像损失,并根据所述第二图像损失更新所述第二神经网络的参数。
[0007]上述方法中的第一神经网络为实际进行视频插帧时用来估计中间帧光流的网络,第二神经网络仅在模型训练阶段使用。上述方法在训练第一神经网络时,除了利用参考中间帧作为监督信号,还利用第二神经网络预测的中间帧光流作为监督信号,使得第一神经网络不仅能够自主学习中间帧光流的预测,还能够学习第二神经网络对中间帧光流的预测,从而可以改善第一神经网络的光流预测精度,进而提高利用光流重建的中间帧的图像质量。并且,该方法并不依赖于人工标注的光流数据,从而提供了一种在缺少光流数据标注
的情况下进行模型训练、实现高质量视频插帧的解决方案。
[0008]在第一方面的一种实现方式中,所述基于所述第一视频帧和所述第二视频帧,利用第二神经网络获得第二中间帧光流,包括:基于所述第一视频帧、所述第二视频帧和所述参考中间帧,利用所述第二神经网络获得第二中间帧光流。
[0009]在上述实现方式中,第一神经网络和第二神经网络的输入是非对称的,第二神经网络的输入除了第一视频帧和第二视频帧之外,还包括参考中间帧,从而第二神经网络在中间帧光流的预测准确性上,大概率要优于第一神经网络,因此将其输出的光流预测结果作为监督信号,有利于提高第一神经网络的光流预测精度。
[0010]在第一方面的一种实现方式中,所述基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流,包括:基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络预测得到所述第一视频帧和所述参考中间帧之间的光流、以及所述第二视频帧和所述参考中间帧之间的光流。
[0011]第一中间帧光流包括第一视频帧和参考中间帧之间的光流、以及所述第二视频帧和参考中间帧之间的光流,在上述实现方式中,这两个光流都利用第一神经网络来预测,可以提高光流的预测精度。注意,在此种实现方式下,第二神经网络也要对这两个光流进行预测。
[0012]在第一方面的一种实现方式中,所述基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流,包括:基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络预测得到所述第一视频帧和所述参考中间帧之间的光流,并将该光流的相反光流确定为所述第二视频帧和所述参考中间帧之间的光流;或者,基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络预测得到所述第二视频帧和所述参考中间帧之间的光流,并将该光流的相反光流确定为所述第一视频帧和所述参考中间帧之间的光流。
[0013]第一中间帧光流包括第一视频帧和参考中间帧之间的光流、以及所述第二视频帧和参考中间帧之间的光流。若视频帧中的物体近似为匀速直线运动(若第一视频帧和第二视频帧间隔时间较短,该条件容易满足),则这两个光流互为相反光流,即光流方向相反,大小相同。此时,可以只用第一神经网络预测其中一个光流,另一个光流则通过计算出的光流取反得到,这样可以节约一定的运算量,提高光流估计的效率。注意,在此种实现方式下,第二神经网络也只需对这两个光流中的一个进行预测,另一个光流则通过取反运算得到。
[0014]在第一方面的一种实现方式中,所述基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流,包括:基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络获得第一中间帧光流和第一融合掩膜;所述融合所述第一映射视频帧和所述第二映射视频帧,获得第一中间帧,包括:利用所述第一融合掩膜融合所述第一映射视频帧和所述第二映射视频帧,获得第一中间帧;所述方法还包括:计算表征所述第一融合掩膜和第二融合掩膜的差异的融合权重损失,并根据所述融合权重损失更新所述第一神经网络的参数;其中,所述第二融合掩膜是基于所述第一视频帧和所述第二视频帧,利用所述第二神经网络获得的。
[0015]在上述实现方式中,通过融合掩膜来实现第一映射视频帧和第二映射视频帧的融合,融合掩膜通过学习得到,从而有利于改善融合效果。此时,第二神经网络预测的融合掩
膜也可以作为第一神经网络预测的融合掩膜的监督信号,改善第一神经网络对融合掩膜的预测精度。
[0016]在第一方面的一种实现方式中,所述第二神经网络在规模上大于所述第一神经网络。
[0017]在上述实现方式中,第二神经网络实现为一个较大的网络(例如,卷积层个数更多、卷积核个数更多),第一神经网络实现为一个较小的网络,从而第二神经网络在中间帧光流的预测准确性上,大概率要优于第一神经网络,因此将其输出的光流预测结果作为监督信号,有利于提高第一神经网络的光流预测精度。
[0018]在第一方面的一种实现方式中,所述第一神经网络和所述第二神经网络均采用编解码器结构。
[0019]编解码器结构即编码器和解码器串联的结构,其中,编码器将输入图像下采样,而解码器将下采样后的图像恢复为输入图像的分辨率。采用编解码器结构一方面能够提高特征图的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取第一视频帧、第二视频帧以及所述第一视频帧和所述第二视频帧的参考中间帧;基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流;以及,基于所述第一视频帧和所述第二视频帧,利用第二神经网络获得第二中间帧光流;利用所述第一中间帧光流对所述第一视频帧和所述第二视频帧进行映射,获得第一映射视频帧和第二映射视频帧,并融合所述第一映射视频帧和所述第二映射视频帧,获得第一中间帧;以及,利用所述第二中间帧光流对所述第一视频帧和所述第二视频帧进行映射,获得第三映射视频帧和第四映射视频帧,并融合所述第三映射视频帧和所述第四映射视频帧,获得第二中间帧;计算表征所述第一中间帧和所述参考中间帧的差异的第一图像损失,以及表征所述第一中间帧光流和所述第二中间帧光流的差异的光流损失,并根据所述第一图像损失和所述光流损失更新所述第一神经网络的参数;以及,计算表征所述第二中间帧和所述参考中间帧的差异的第二图像损失,并根据所述第二图像损失更新所述第二神经网络的参数。2.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述第一视频帧和所述第二视频帧,利用第二神经网络获得第二中间帧光流,包括:基于所述第一视频帧、所述第二视频帧和所述参考中间帧,利用所述第二神经网络获得第二中间帧光流。3.根据权利要求1或2所述的模型训练方法,其特征在于,所述基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流,包括:基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络预测得到所述第一视频帧和所述参考中间帧之间的光流、以及所述第二视频帧和所述参考中间帧之间的光流。4.根据权利要求1或2所述的模型训练方法,其特征在于,所述基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流,包括:基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络预测得到所述第一视频帧和所述参考中间帧之间的光流,并将该光流的相反光流确定为所述第二视频帧和所述参考中间帧之间的光流;或者,基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络预测得到所述第二视频帧和所述参考中间帧之间的光流,并将该光流的相反光流确定为所述第一视频帧和所述参考中间帧之间的光流。5.根据权利要求1

4中任一项所述的模型训练方法,其特征在于,所述基于所述第一视频帧和所述第二视频帧,利用第一神经网络获得第一中间帧光流,包括:基于所述第一视频帧和所述第二视频帧,利用所述第一神经网络获得第一中间帧光流和第一融合掩膜;所述融合所述第一映射视频帧和所述第二映射视频帧,获得第一中间帧,包括:利用所述第一融合掩膜融合所述第一映射视频帧和所述第二映射视频帧,获得第一中间帧;所述方法还包括:计算表征所述第一融合掩膜和第二融合掩膜的差异的融合权重损失,并根据所述融合权重损失更新所述第一神经网络的参数;其中,所述第二融合掩膜是基于所述第一视频帧
和所述第二视频帧,利用所述第二神经网络获得的。6.根据权利要求1

5中任一项所述的模型训练方法,其特征在于,所述第二神经网络在规模上大于所述第一神经网络。7.根据权利要求1

6中任一项所述的模型训练方法,其特征在于,所述第一神经网络和所述第二神经网络均采用编解码器结构,所述第一神经网络和所述第二神经网络共用一个解码器。8.根据权利要求7所述的模型训练方法,其特征在于,所述方法还包括:计算表征第一特征图和第二特征图的差异的特征图损失,并根据所述特征图损失更新所述第一神经网络的参数;其中,所述第一特征图为所述第一神经网络的编码器输出,所述第二特征图为所述第二神经网络的编码器输出。9.根据权利要求7所述的模型训练方法,其特征在于,所述方法还包括:计算表征多个第三特征图和对应的多个第四特征图的差异的特征图损失,并根据所述特征图损失更新所述第一神经网络的参数;其中,每个第三特征图为所述第一神经网络的编码器的一个卷积层输出,每个第四特征图为所述第二神经网络的编码器的一个卷积层输出。10.根据权利要求1

9中任一项所述的模型训练方法,其特征在于,在获得所述第一中间帧和所述第二中间帧之后,所述方法还包括:确定所述第一中间帧和所述第二中间帧中的学习区域,所述学习区域为所述第二中间帧与所述参考中间帧的差异小于所述第一中间帧与所述参考中间帧的差异的区域;所述计算表征所述第一中间帧光流和所述第二中间帧光流的差异的光流损失,包括:仅在所述第一中间帧和所述第二中间帧中的所述学习区域内,计算表征所述第一中间帧光流和所述第二中间帧光流的差异的光流损失。11.根据权利要求1

4中任一项所述的模型训练方法,其特征在于,所述基于所述第一视频帧和所述第二视频帧,利用第二神经网络获得第二中间帧光流,包括:对所述第一视频帧和所述第二视频帧进行至少一种变换,得到至少一组变换后的第一视频帧和第二视频帧;分别基于所述第一视频帧和所述第二视频帧、以及所述至少一组变换后的第一视频帧和第二视频帧,利用所述第二神经网络获得多个原始第二中间帧光流;计算所述多个原始第二中间帧光流的均值,获得所述第二中间帧光流...

【专利技术属性】
技术研发人员:黄哲威胡晨周舒畅
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1