【技术实现步骤摘要】
一种基于卷积神经网络的多重帧插值方法
本专利技术涉及视频增强领域,具体涉及一种基于卷积神经网络的多重帧插值方法。
技术介绍
视频帧插值是图像视频处理领域中的一个重要问题,在许多应用中扮演重要角色,例如,帧率提升,电影制作,慢动作视频,视频编码压缩等等。帧插值属于图像合成的一个分支,典型的帧插值方法是基于光流的图像合成方法。首先估计出光流或者光流的变体形式,从而对物体运动进行建模,然后对输入图像进行扭曲变换和合成,得到新的视频帧。传统的光流估计方法往往通过目标函数最优化的方法,在输入的两帧图像上寻找相同像素点的精确匹配,匹配像素点之间的距离就是该点的光流。由于这种方法需要在所有像素点上,对目标函数作全局最优化,计算复杂度很高,而且难以并行化计算。尽管过去的二十年中,光流法得到的长足的发展,但是在光照变化以及大运动场景下,挑战依然存在。与显示寻找像素点匹配不同,一些基于相位的方法隐式地对运动进行建模,将物体的运动表现在单个点的像素值变化。这一类方法又被称为“欧拉方法”(参见论文S.Meyer,O.Wang,H.Zimmer,etal.,“Phase-basedfram ...
【技术保护点】
1.一种基于卷积神经网络的多重帧插值方法,包括以下步骤:(1)收集连续的视频帧,截取连续n帧为一个训练样本组成训练集,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数;(2)对训练样本进行水平垂直翻转、旋转、随机截取方形区域、随机反置时域帧顺序以及图像全局亮度线性调整处理,以实现对训练集的数据增强;(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成 ...
【技术特征摘要】
1.一种基于卷积神经网络的多重帧插值方法,包括以下步骤:(1)收集连续的视频帧,截取连续n帧为一个训练样本组成训练集,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数;(2)对训练样本进行水平垂直翻转、旋转、随机截取方形区域、随机反置时域帧顺序以及图像全局亮度线性调整处理,以实现对训练集的数据增强;(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络;(4)根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数;(5)利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型;(6)应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。2.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,步骤(2)中,采用在线数据增强的方式对训练集的数据增强,包括:以一定的概率随机水平垂直翻转帧图像、随机90度旋转帧图像;随机在每帧图像上截取方形小区域作为深度卷积神经网络的输入图像;随机反置每个训练样本中连续n帧图像的顺序,以实现对训练样本在运动方向上的数据平衡;以小于0.3的概率对每个训练样本进行线性亮度调整,针对需要进行线性亮度调整的训练样本,在一定范围内按照均匀分布选取两个调整率,应用于首帧、尾帧的亮度调整,在首帧和尾帧对应的调整率之间按照均匀的线性比例选取调整率对相应的中间帧进行亮度调整。3.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,所述相位子网络包括:特征提取模块,其包括若干个依次连接的卷积层、非线性层以及平均池化层,其输入为3通道数据,用于提取并输出尺寸为输入图像的1/4的特征图;四层金字塔结构,其输入端与特征提取模块的输出连接,且下采样采用平均池化层,用于对特征图再进行特征提取;复数Gabor滤波器,其作用于金字塔的每层,用于提取每层特征图的相位信息;相位差计算模块,根据复数Gabor滤波器输出的首帧对应的相位信息和尾帧对应的相位信息,计算尾帧相对于首帧的相位差;第一解码模块,其为以卷积层、非线性层以及双线性上采样层为单个尺度的四个尺度的网络,以金字塔四层上的相位差作为分别作为解码子模块四个尺度对应的输入,用于输出相位差特征图。4.如权利要求3所述的基于卷积神经网络的多重帧插值方法,其特征在于,复数Gabor滤波器的公式如下:其中,fω,θ=(ωcos(θ),ωs...
【专利技术属性】
技术研发人员:陈耀武,周橹楠,田翔,刘雪松,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。