一种基于网格结构深度学习的视频高帧率重制方法技术

技术编号:19482071 阅读:22 留言:0更新日期:2018-11-17 10:46
本发明专利技术公开一种基于网格结构深度学习的视频高帧率重制方法,采用网格结构的方式估计到的三维像素流能够在各种运动量的运动场景中得到较为精准的结果。本发明专利技术的方法比现有的技术都更加鲁棒。为了进一步提高三维像素流的精度和高帧率重制的效果,本发明专利技术提出了一种卷积特征提取层与网格网络结构组合的方式。采用本发明专利技术的方法得到的高帧率重制的结果比其他现有技术,在合成帧的细节纹理更加细腻真实。

【技术实现步骤摘要】
一种基于网格结构深度学习的视频高帧率重制方法
本专利技术涉及视频高帧率重制领域,尤其涉及一种基于网格结构深度学习的视频高帧率重制方法。
技术介绍
视频高帧率重制是利用视频序列中的相邻帧的视频图像信息来估计其中间的关键帧,属于一个经典的图像处理问题。一般来说,视频高帧率重制算法可分为内插帧和外插帧。前者是利用连续两帧图像的信息来估计中间的关键帧;后者是利用视频序列中连续两帧视频图像信息来估计前一帧或者后一帧。根据视频序列中的连续的视频图像信息,视频高帧率重制算法是合理地利用视频图像内容变化连续性和线性或非线性关系,估计出其中间的关键视频图像的方法。随着相关研究的深入进行,该算法已被广泛地应用于多个场景之中。比如,为了降低视频传输的数据量和节约带宽,可以先在传输前端有效地丢弃视频图像,随后在接收终端设备利用视频高帧率重制算法生成其对应的丢失帧,从而播放时达到比较流畅的视频画面。另外,因拍摄设备的硬件性能的限制,无法正常地拍摄运动量过于快的运动场景,从而导致视频图像失真或者模糊。因此,很多视频编辑软件将把产生运动模糊的视频图像进行高帧率重制的方式去除运动模糊,也能制作视频慢动作特效。传统的视频高帧率重制算法通常先利用视频图像间的光流估计,然后利用光流变化信息对前、后帧视频图像进行扭曲变换,从而得到合成帧。AmersfoortJV等人提出了一种基于多尺度粗细光流估计网络的视频高帧率重制算法。通过该算法是合成效果依赖于光流估计的准确精度[1]。一般情况下,在运动量比较大的场景中,很难提高光流估计的精准。为了减少光流的估计影响,NiklausS等人提出了利用多个空域自适应卷积核对输入视频帧进行卷积操作,进而合成出中间帧[2]的方法,该算法简化了高帧率重制的计算过程。虽然该算法提高了高帧率重制算法的性能,但是捕捉大运动量的信息需要较大的卷积核,因此,需要更大的内存空间。MathieuM等人提出了一种基于多尺度卷积神经网络的端对端高帧率重制算法[3]。LiuZ等人提出了一种基于编码器-解码器网络结构估计时间和空间的三维像素流信息,然后通过该像素流对视频图像进行重采样获得更加自然的中间帧[4]。虽然相关研究已经能够较好地对视频进行高帧率重制,但是还是存在一些问题。基于光流估计的高帧率重制算法对于具有运动模糊,快速运动的视频场景,很难估计到一个很精确的光流。此外,空域自适应卷积法对于具有遮挡物的视频场景,其表现性能不尽如人意,其合成结果通常会是模糊和错乱的。由于利用编码器-解码器网络结构估计到的三维像素流不够精准,本专利技术借鉴了FourureD等人网格网络的思想[6],提出了一个基于网格网络结构的三维像素流的估计方法。网格网络的结构能够使得不同分辨率的信息流相互连接,更好地学习不同尺度下的运动情况,从而得到一个更精准的三维像素流。
技术实现思路
本专利技术的目的在于提供一种基于网格结构深度学习的视频高帧率重制方法,显著的提高了合成帧的质量和效果。本专利技术采用的技术方案是:一种基于网格结构深度学习的视频高帧率重制方法,其包括如下步骤:步骤1,把原始的图像先统一设置为H*W的大小,然后将图像归一化到[-1,1]区间内,最终形成包含N个图像的配对集其中c∈{1,2,…,N},H为图像高度,W为图像宽度,和分别是t时刻的前一帧和后一帧,是t时刻的当前帧。步骤2,将图像和分别执行初始阶段、特征提取阶段、特征融合阶段、三维像素流估计阶段、重采样阶段,最终获得一帧和类似的图像;所述步骤2具体包括以下步骤:步骤2.1,初始阶段:将输入的图像和分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果和其计算公式是:其中W1和b1分别是本专利技术的第一层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;步骤2.2,特征提取阶段:将初始阶段得到的特征和分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果和其计算公式是:其中W2和b2分别是本专利技术的第二层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;步骤2.3,特征融合阶段:将特征提取阶段得到的两个特征和进行1次堆叠操作,其计算公式是:步骤2.4,三维像素流估计阶段:将融合特征F3作为输入特征Fi输入到网格网络中进行三维像素流估计,输入特征Fi经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后,得到估计到的三维像素流V;其计算公式如下:V=G(Fi)(10)其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络;进一步地,网格网络包括一输入横向卷积组、一输出横向卷积组、第一横向卷积组群、第二横向卷积组群和第三横向卷积组群,输入横向卷积组的输出端连接第一横向卷积组群的输入端,第一横向卷积组群的输出端连接输出横向卷积组,第一横向卷积组群、第二横向卷积组群和第三横向卷积组群均包括依次连接的5个横向卷积组,第一横向卷积组群的前三个横向卷积组的输入端分别通过依次连接的两个下采样卷积组一一对应输出至第三横向卷积组群的前三个横向卷积组的输入端,第三横向卷积组群的后三个横向卷积组的输出端分别各自通过依次连接的两个上采样卷积组一一对应输出至第一横向卷积组群的后三个横向卷积组的输出端,联通第一横向卷积组群的第一个横向卷积组输入端和第三横向卷积组群的第一个横向卷积组输入端的第一个下采样卷积组的输出端与第二横向卷积组群的输入端连接,联通第三横向卷积组群的最后一个横向卷积组输出端和第一横向卷积组群的最后一个横向卷积组输出端的第一个上采样卷积组的输出端与第二横向卷积组群的输出端连接。进一步地,步骤2.4具体包括以下步骤:步骤2.4.1,横向卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Gi+1,其计算公式是:其中和分别是横向卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,和分别是横向卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;步骤2.4.2,上采样卷积组操作:将输入特征Fi进行1次双线性插值,2次激活函数运算和2次卷积运算,得到其对应的输出结果Ri+2,其计算公式是:Ri=f(Fi)(6)其中f是双线性插值,和分别是上采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,和分别是上采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;步骤2.4.3,下采样卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Si+1,其计算公式是:其中和分别是下采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数(其中卷积的步长为2),和分别是下采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;步骤2.4.4,网格网络操作:输入特征Fi经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后,得到估计到的三维像素流V。横向卷积组、下采样卷积组和上采样卷积组的操作如图2所示,最终呈现的是一个网格的结构。计算公式如下:V=G(Fi)(11)其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络。步骤2.5,重采样阶段:用三维像素流估计阶本文档来自技高网
...

【技术保护点】
1.一种基于网格结构深度学习的视频高帧率重制方法,其特征在于:其包括如下步骤:步骤1,把原始的图像先统一设置为H*W的大小,然后将图像归一化到[‑1,1]区间内,最终形成包含N个图像的配对集

【技术特征摘要】
1.一种基于网格结构深度学习的视频高帧率重制方法,其特征在于:其包括如下步骤:步骤1,把原始的图像先统一设置为H*W的大小,然后将图像归一化到[-1,1]区间内,最终形成包含N个图像的配对集其中c∈{1,2,...,N},H为图像高度,W为图像宽度,和分别是t时刻的前一帧和后一帧,是t时刻的当前帧;步骤2,将图像和分别执行初始阶段、特征提取阶段、特征融合阶段、三维像素流估计阶段、重采样阶段,获得一帧的插值图像所述步骤2具体包括以下步骤:步骤2.1,初始阶段:将输入的图像和分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果和其计算公式是:其中W1和b1分别是本发明的第一层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;步骤2.2,特征提取阶段:将初始阶段得到的特征和分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果和其计算公式是:其中W2和b2分别是本发明的第二层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;步骤2.3,特征融合阶段:将特征提取阶段得到的两个特征和进行1次堆叠操作得到融合特征F3,其计算公式是:步骤2.4,三维像素流估计阶段:将融合特征F3作为输入特征Fi输入到网格网络中进行三维像素流估计,输入特征Fi经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后,得到估计到的三维像素流V;其计算公式如下:V=G(Fi)(10)其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络;步骤2.5,重采样阶段:用三维像素流估计阶段得到的像素流V,V={Δx,Δy,Δz};对输入图像和进行重采样,得到插值的图像其计算公式是:其中,代表图像像素的x坐标,代表图像像素的y坐标,L代表的是双线性采样;步骤3,将插值的图像与真实的图像进行比较,计算两幅图像之间的欧式距离;步骤4,基于计算的欧式距离不断更新并优化获得最优的卷积权值参数和偏置参数;当插值的图像与其对应的原始图像进行比较时没有获得预先设定的合成效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤2-步骤3;当插值的图像与其对应的原始图像进行比较时已经获得预先设定的合成效果时,则停止反向传播,并最终求得步骤2所获得的卷积权值参数和偏置参数。2.根据权利要求1所述的一种基于网格结构深度学习的视频高帧率重制方法,其特征在于:步骤1之前还包括:步骤0,训练数据库的图像挑选;采用UCF-101动作数据集,将UCF-101动作数据集涵盖的动作视频进行随机采样,选择高质量的并且具有明显运动量的视频帧,选取24000组...

【专利技术属性】
技术研发人员:刘文哲李根童同高钦泉
申请(专利权)人:福建帝视信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1