一种利用生成网络提高帧速率上转换效果的方法技术

技术编号:17100650 阅读:51 留言:0更新日期:2018-01-21 11:56
本发明专利技术公开了一种利用生成网络提高帧速率上转换效果的方法。本发明专利技术包括如下步骤:1:将原始视频通过JM18.6进行压缩,得到压缩后的视频,然后将压缩后的视频通过保留单数帧,对双数帧进行重构,利用基于方向选择运动估计的帧速率上转换算法得到双数帧的重构帧;2:构造生成网络G,将重构帧IE输入到神经网络中并训练,将原始的视频中的对应帧IR与网络输出做对比,并将误差反向传播,在多次调整后得到最优的修复效果;3:反复执行步骤(1)(2),直至误差变化率不变或小于设定阈值;4:应用训练好的网络,将经过帧速率上转换的重构帧输入网络,得到高质量的图像。本发明专利技术提高重构帧的psnr值和质量,使得帧率上转化效果提高。

A method to improve the rate up conversion effect of frame rate by generating network

The invention discloses a method for improving the rate up conversion effect of frame rate using a generation network. The method comprises the following steps: 1: the original video compression by JM18.6, get the compressed video, then the compressed video frame by preserving the reconstruction of singular, dual frame, frame motion estimation using reconstruction direction selection FRUC algorithm based on double frame number; 2 generation network: G, the input to the neural network IE frame reconstruction and training, compare the corresponding frame IR and network output the original video, and the error back-propagation, repair effect of optimal in several adjustments; 3: repeat steps (1) (2), until the error change rate unchanged or is less than the threshold; 4: application of the trained network, the reconstructed frame input network frame rate up conversion, to obtain higher quality images. The invention improves the PSNR value and quality of the reconstructed frame so that the conversion effect on the frame rate is improved.

【技术实现步骤摘要】
一种利用生成网络提高帧速率上转换效果的方法
本专利技术涉及深度神经网络领域和帧速率上转换领域,尤其涉及CNN结构网络和残差结构。技术背景视频信息是人类最重要的信息源之一,在信号处理领域占有很大的比重。现存的视频源其实质为活动的三维场景投影到二维平面后再对其进行空间时间采样的结果。帧速率上转换也称作时间内插,是视频格式转换技术中的重要组成部分。它主要是用来实现不同帧速率显示格式之间的转换。例如,将以24帧/秒拍摄得到的电影胶片在60帧/秒以上高清晰度电视上播放,必须采用帧速率上转换实现两种格式之间的转换。在低比特率视频通信中,常需要降低传输帧率(降至每秒10或15帧),帧速率上转换作为必要的后处理工具负责在接收端恢复原帧速率。此外,在无线视频通信中,缺失帧的重构以及液晶显示中为减小运动拖尾也需要进行帧率转换。基于以上原因及应用,帧速率上转换技术已经成为当前视频格式转换研究领域的一个新热点。目前基于方向选择的运动向量估计算法在帧率上转化方面有非常好的效果,该算法解决了传统的重构帧方法中的一些失真问题如:空洞,重叠等,另外它缓解了物体遮挡问题,即当画面中有两个物体重叠被遮挡的部分无法计算出运动矢量。该算法使用的双向(即前后向)运动估计使得重构效果更好,并使用了新的度量方法使得到的向量的更可靠。该算法主要由下4个步骤组成1.利用运动估计方法得出前向最优运动矢量vf和后向的最优运动矢量vb。2.利用双向加权运动矢量平滑化算法找出运动矢量中的异常值并纠正得到vfc和vbc。3.利用精化算法得到精化后的运动矢量,解决了向量换位导致的残差问题4.在前后向精化后的运动向量中选择SBAD值小的矢量作为最后的运动矢量。另外,最近新专利技术的深度残差学习结构能够解决深度神经网络在训练过程中准确度随网络层数增加而下降的问题,使得网络层数增加的同时错误率减小,也因此提高了网络提取特征的水平。残差网络中最革新的一点是--它没有选择去拟合原始的函数H(x),而是拟合H(x)的残差函数--F(x)=H(x)-x,这样做能使得拟合过程更简单,解决了梯度问题,最后实现空前的效果。在神经网络领域,基于对抗生成神经网络的图像超分辨率技术可以得到良好的效果,在《Photo-RealisticSingleImageSuper-ResolutionUsingaGenerativeAdversarialNetwork》这篇论文中,作者构造了SRGAN(超辨率生成对抗神经网络模型),并且通过大量的数据集,使网络学会了将一张低分辨率的图象提高为高分辨率图象,与一般的超分辨率技术相比SRGAN生成图象的PSNR(峰值信噪比)更高,这意味着图片的质量更高。另外传统的以MSE(均方误差)为损失函数的技术所得到的图象像素过于平滑,局部纹理细节较少,虽然在PSNR上较低画质图象有很大提升,但在视觉感受上并没有期望的区别,而在SRGAN中构造了一个对抗鉴别模型,并抛弃了传统的损失函数转而将内容损失函数和对抗损失函数结合为感知损失函数,使得生成的图象纹理细节更多,让人们在视觉感知上有了更强的感受。运用了其中生成网络G被构造成一个前传的CNN网络,将数据集中的高分辨率图象IHR经过高斯滤波之后再经过下采样得到一个对应的低分辨率的图像ILR。将该图像首先经过了一个卷积层,这里用到64个大小为3*3的卷积核,且卷积核的步长为1,得到了64个特征图.接着在经过激活层后,将得到的数据命名为x,传统的网络直接将x输入后面的网络中得到H(x),但是论文的作者在网络中加入了残差结构,转而将残差F(x)=H(x)-x输入到后续网络中,并定义损失函数,反向传递误差调整并得到最优的F(x),然后将F(x)与x相加得到H(x),经过后续一系列的操作后得到了高分辨率的图象。值得注意的是,在提高图像的PSNR上,单独使用生成网络G比使用对抗生成网络的效果要好。这创新的模型启发了我们借鉴SRGAN中的生成网络G来提高帧速率上转换后的图像的质量。
技术实现思路
虽然传统的帧速率上转换算法能够得到较好的重构帧,使其在很大程度上与真实图像相似,但是对于经过压缩后的视频使用帧速率上转换得到的重构图像的质量并没有像人们所期待的那样高,因此我们决定在基于H.264压缩后的基础之上,并对间隔帧进行帧速率上转换,然后通过构造一个CNN结构的网络G,将重构帧经过G处理以实现提高其PSNR的目的。另外我们在G网络中将输入图像直接映射到输出图像之前,将其与网络拟合的残差相加,得到最终的输出,这样做有利于收敛,更快更好地训练网络。值得注意的是本方法只针对H.264标准,不适合其他视频编码标准。本专利技术解决其技术问题所采用的技术方案包括如下步骤:步骤1:将原始视频通过JM18.6进行压缩,得到压缩后的视频,然后将压缩后的视频通过保留单数帧,对双数帧进行重构,利用传统的帧速率上转换算法得到双数帧的重构帧。重构帧生成方法如下:1-1.利用运动估计方法得出最优前向运动矢量vf和最优后向运动矢量vb。即在候选前向运动矢量中找到使得式(1)SADf值最小的矢量并作为最优前向运动矢量,同理在候选后向运动矢量中找到使式(3)SADb值最小的矢量并作为最优后向运动矢量。上式中SADf和SADb分别表示前后向运动矢量对应像素值的差的绝对值之和(即sumsoftheabsolutedifferences)。fN-1(S)和fN(S)分别表示前一帧(N-1帧)中点“s”处的像素值,和当前帧(N帧)中点“s”处的像素值,Bi,j表示第i列第j行的块,vc表示候选运动矢量,vf与vb在运动估计方向和参考帧的选取有区别。1-2.利用双向加权运动矢量平滑化算法找出运动矢量中的异常值并纠正得到vfc和vbc。该算法在运动矢量域中使用一个3*3窗口来寻找异常值,如图1(a)和(b)所示,其中v0是待处理的运动矢量,v1→v8与之相邻。这个窗口会遍历整个矢量域并找到所有的异常值。可以将该方法的原理理解为,将一个窗口中的9个运动矢量映射到直角坐标系中如图1(b)所示,其中vx和vy分别代表运动矢量的x轴和y轴分量,求八个邻近的运动矢量坐标的平均值,得到一个大致位于他们中心的点vm如式(5)所示。接着计算八个邻近的运动矢量到中心点的平均距离Dm如式(6)所示,并以vm作圆心,Dm作半径画圆。若v0与vm之间的距离D0小于Dm则判定v0为正常值不做处理,反之判为异常值并进行纠正操作,即将处在圆内的相邻向量加权平均得到v0c如式(9)所示,并将其代替原来的v0。每个圆内相邻运动矢量的权重与其到v0的距离成反比,如式(8)所示。D0=||v0-vm||(7)1-3.利用精化算法得到精化后的运动矢量,解决了向量换位导致的残差问题。每个运动矢量的精化过程中利用了双向差分绝对值SBAD(sumofthebidirectionalabsolutedifferences),该值在式(10)中得到定义:其中Bi,j表示第i列第j行的块,vr表示确定的参考运动矢量,寻找使得SBAD值最小的候选前向或后向运动矢量,并将其作为精化后的前向vfr或后向运动矢量vbr。vfc和vbc表示在步骤1-2中修正后的前向和后向运动矢量。另外,在重构帧上将待处理块加上-vfc或vbc得到在前一帧本文档来自技高网
...
一种利用生成网络提高帧速率上转换效果的方法

【技术保护点】
一种利用生成网络提高帧速率上转换效果的方法,其特征在于包括如下步骤:步骤1:将原始视频通过JM18.6进行压缩,得到压缩后的视频,然后将压缩后的视频通过保留单数帧,对双数帧进行重构,利用基于方向选择运动估计的帧速率上转换算法得到双数帧的重构帧;步骤2:构造生成网络G,将重构帧IE输入到神经网络中并训练,将原始的视频中的对应帧IR与网络输出做对比,并将误差反向传播,在多次调整后得到最优的修复效果;步骤3:反复执行步骤(1)(2),直至误差变化率不变或小于设定阈值;步骤4:应用训练好的网络,将经过帧速率上转换的重构帧输入网络,得到高质量的图像。

【技术特征摘要】
1.一种利用生成网络提高帧速率上转换效果的方法,其特征在于包括如下步骤:步骤1:将原始视频通过JM18.6进行压缩,得到压缩后的视频,然后将压缩后的视频通过保留单数帧,对双数帧进行重构,利用基于方向选择运动估计的帧速率上转换算法得到双数帧的重构帧;步骤2:构造生成网络G,将重构帧IE输入到神经网络中并训练,将原始的视频中的对应帧IR与网络输出做对比,并将误差反向传播,在多次调整后得到最优的修复效果;步骤3:反复执行步骤(1)(2),直至误差变化率不变或小于设定阈值;步骤4:应用训练好的网络,将经过帧速率上转换的重构帧输入网络,得到高质量的图像。2.根据权利要求1所述的一种利用生成网络提高帧速率上转换效果的方法,其特征在于步骤1中所述的帧速率上转化算法具体步骤如下:1-1.利用运动估计方法得出最优前向运动矢量vf和最优后向运动矢量vb;即在候选前向运动矢量中找到使得式(1)SADf值最小的向量并作为最优前向运动向量,同理在候选后向运动矢量中能找到使式(3)SADb值最小的向量并作为最优后向运动矢量;上式中SADf和SADb分别表示前后向运动矢量估计中的对应像素值的差的绝对值之和;fN-1(S)和fN(S)分别表示前一帧(N-1帧)中点“s”处的像素值,和当前帧(N帧)中点“s”处的像素值,Bi,j表示第i列第j行的块,vc表示候选运动矢量,vf与vb在运动估计方向和参考帧的选取有区别;1-2.利用双向加权运动矢量平滑化算法找出运动向量中的异常值并纠正得到vfc和vbc;在运动矢量域中使用一个3*3窗口来寻找异常值,其中v0是待处理的向量v1→v8与之相邻,这个窗口会遍历整个矢量域,并找到所有的异常值;将该方法的原理理解为:将一个窗口中的9个运动矢量映射到直角坐标系中,用vx和vy分别代表运动矢量的x轴和y轴分量,求八个邻近的运动矢量坐标的平均值以此得到一个大致位于他们中心的点vm如式(5)所示;接着计算八个邻近的运动矢量到中心点的平均距离Dm,如式(6)所示,并以vm作圆心,Dm作半径画圆;若v0与vm之间的距离D0小于Dm则判定v0为正常值不做处理,反之判为异常值并进行纠正操作,即将处在圆内的邻近的运动矢量加权平均得到v0c如式(9)所示,并将其代替原来的v0;每个圆内相邻向量的权重与其到v0的距离成反比,如式(8)所示;D0=||v0-vm||(7)1-3.利用精化算法得到精化后的运动向量,解决了向量换位导致的残差问题;每个运动矢量的精化过程中利用了双向差分绝对值SBAD,该值在式(10)中得到定义:

【专利技术属性】
技术研发人员:陈立鑫颜成钢张永兵朱翱宇
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1