当前位置: 首页 > 专利查询>济南大学专利>正文

基于轻量化驱动和三尺度编码的视频帧插值方法及系统技术方案

技术编号:37117585 阅读:16 留言:0更新日期:2023-04-01 05:12
本发明专利技术公开了基于轻量化驱动和三尺度编码的视频帧插值方法及系统,获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值图像;其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。得到插值图像。得到插值图像。

【技术实现步骤摘要】
基于轻量化驱动和三尺度编码的视频帧插值方法及系统


[0001]本专利技术涉及计算机视觉
,特别是涉及基于轻量化驱动和三尺度编码的视频帧插值方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]视频帧插值是一种通过从连续的原始帧中提取时空特征来合成一个或多个中间帧的技术,它可以大大提高时间分辨率(帧速率)。视频帧插值作为计算机视觉的一个研究热点,在慢动作生成、图像恢复、视频帧速率上转换等各种应用中发挥着重要作用。然而,现实视频中的复杂运动和遮挡给视频帧插值带来了巨大挑战,导致无法准确生成中间帧。
[0004]早期的传统方法基于运动估计和运动补偿,依赖输入帧之间的运动矢量。运动矢量的估计分为块级和像素级,基于块在一定程度上影响运动信息的准确性而基于像素的方法需要对输入帧的每个像素进行估计这将带来巨大的计算量。因此传统方法无法较好完成帧插入,并可能带来过重的模型。近年来,基于深度神经网络的方法逐渐取代传统方法成为主流。现有的方法大多是基于流的、基于内核的和混合的方法。
[0005]基于流的方法有的利用现成的流模型来提取光流,有的通过网络估计自己所需的特定流,作为像素级任务的指导。然后使用得到的流对原始帧进行扭曲以合成插值帧。然而,预先训练的流模型增加了模型的内存和复杂性,并且面向任务的光流无法精确处理复杂的运动和遮挡。
[0006]基于核的方法将像素插值视为两个输入帧中相应局部面片的卷积,并通过深度神经网络估计输出帧中每个像素的卷积核。然而,它们受到内核大小和运动的限制,无法处理超出核尺寸的大型运动,并带来巨大的计算成本。虽然Niklaus等人通过用可分离卷积核替换正常卷积核来减少参数的数量,但它仍然无法处理大尺寸运动。混合方法结合了上述方法的优点,但模型更重,计算成本更高。

技术实现思路

[0007]为了解决现有技术的不足,本专利技术提供了基于轻量化驱动和三尺度编码的视频帧插值方法及系统;采用通道注意力机制模块融合三尺度特征,采用通道空间注意力机制增强编码特征与解码特征相结合保留运动信息。通过使用循环残差卷积单元和可分离循环残差卷积单元提高网络性能,同时减少模型参数,降低模型尺寸。
[0008]第一方面,本专利技术提供了基于轻量化驱动和三尺度编码的视频帧插值方法;
[0009]基于轻量化驱动和三尺度编码的视频帧插值方法,包括:
[0010]获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;
[0011]将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值
图像;
[0012]其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。
[0013]第二方面,本专利技术提供了基于轻量化驱动和三尺度编码的视频帧插值系统;
[0014]基于轻量化驱动和三尺度编码的视频帧插值系统,包括:
[0015]获取模块,其被配置为:获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;
[0016]处理模块,其被配置为:将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值图像;
[0017]其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。
[0018]第三方面,本专利技术还提供了一种电子设备,包括:
[0019]存储器,用于非暂时性存储计算机可读指令;以及
[0020]处理器,用于运行所述计算机可读指令,
[0021]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0022]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0023]第五方面,本专利技术还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]本专利技术通过三尺度编码器处理大运动和复杂小运动,便于提取更准确的深度特征,采用通道注意力机制模块融合三尺度特征,采用双重注意力机制模块增强编码特征与解码特征相结合保留运动信息。通过使用循环残差卷积单元和可分离循环残差卷积单元提高网络性能,同时减少模型参数,降低模型尺寸。以较少的模型参数取得优秀的插值效果。
附图说明
[0026]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0027]图1为本申请实施例一的系统总体框架;
[0028]图2为本申请实施例一的通道注意力机制模块内部连接结构图;
[0029]图3为本申请实施例一的双重注意力机制模块CBAM内部连接结构图;
[0030]图4为本申请实施例一的循环残差卷积单元RRCU结构图;
[0031]图5为本申请实施例一的可分离循环残差卷积单元S_RRCU结构图;
[0032]图6为本申请实施例一的当t=2时,循环卷积层内部结构。
具体实施方式
[0033]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0034]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0035]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0036]本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
[0037]实施例一...

【技术保护点】

【技术特征摘要】
1.基于轻量化驱动和三尺度编码的视频帧插值方法,其特征是,包括:获取待插值视频的第i帧原始图像和第i+1帧原始图像;分别对第i帧原始图像和第i+1帧原始图像进行尺度缩放,得到第i帧缩小尺度的图像、第i+1帧缩小尺度的图像、第i帧放大尺度的图像、第i+1帧放大尺度的图像;将原始图像和尺度缩放后的图像均输入到训练后的视频帧插值模型中,输出插值图像;其中,训练后的视频帧插值模型,对原始图像和尺度缩放后的图像,分别进行三个尺度的特征提取,采用通道注意力机制模块对三个尺度的特征进行融合,采用双重注意力机制模块对融合后的特征进行增强;再对增强后的特征进行帧扭曲操作,得到插值图像。2.如权利要求1所述的基于轻量化驱动和三尺度编码的视频帧插值方法,其特征是,训练后的视频帧插值模型,其网络结构包括:依次连接的编码器、解码器和帧扭曲模块;所述编码器,包括:三个并列的分支;所述三个并列的分支分别为第一分支、第二分支和第三分支;每个分支均包括三个依次连接的循环残差卷积单元;相邻分支的循环残差卷积单元之间通过通道注意力机制模块进行连接。3.如权利要求2所述的基于轻量化驱动和三尺度编码的视频帧插值方法,其特征是,所述通道注意力机制模块,内部结构包括:并列的分支R1和分支R2;所述分支R1,包括依次连接的平均池化层、二维卷积层、线性整流函数层、二维卷积层和sigmoid激活函数层;平均池化层的输入端,作为通道注意力机制模块的输入端;所述分支R2,包括:加法器J1;加法器J1的输入端与平均池化层的输入端连接,加法器J1的输入端还与sigmoid激活函数层的输出端连接;加法器J1的输出端作为通道注意力模块的输出端;所述通道注意力机制模块,其工作原理包括:两个二维卷积层获得非线性的通道间关系,平均池化层用以聚合通道的统计信息,得到特征图的各个通道的权重,通过各个通道的权重赋予每个通道权重值。4.如权利要求2所述的基于轻量化驱动和三尺度编码的视频帧插值方法,其特征是,所述循环残差卷积单元,包括:并列的分支A1和分支A2;所述分支A1,包括:依次连接的第一循环卷积层和第二循环卷积层;所述分支A2,包括:加法器J2;所述第一循环卷积层的输入端作为循环残差卷积单元的输入端;所述加法器J2的输入端与循环残差卷积单元的输入端连接;所述加法器J2的输入端还与第二循环卷积层的输出端连接;所述加法器J2的输出端作为循环残差卷积单元的输出端;所述循环残差卷积单元,其工作原理包括:将经过两个循环卷积层处理的特征与原始特征执行像素级加法,进行特征积累,以实现特征提取。5.如权利要求2所述的基于轻量化驱动和三尺度编码的视频帧插值方法,其特征是,所述解码器,包括:依次连接的两个可分离循环残差卷积单元和两个循环残差卷积单元;所述解码器的各个层与所述编码器的对应层之间通过双重注意力机制模块CBAM进行连接。6.如权利要求5所述的基于轻量化驱动和三尺度编码的视频帧插值方法,其特征是,所述双重注意力机制模块CBAM,包括:并列的分支B1和分支B2;...

【专利技术属性】
技术研发人员:杨晓晖刘维靖冯志全徐涛郭庆北
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1