当前位置: 首页 > 专利查询>武汉大学专利>正文

基于对抗学习和注意力机制的视频超分辨率方法技术

技术编号:20869569 阅读:33 留言:0更新日期:2019-04-17 09:58
针对视频分辨率传统方法中计算开销大、计算效率低、不能高效处理长序列的缺点,本发明专利技术公开了一种端到端的基于对抗学习和注意力机制的视频超分辨率方法。本发明专利技术采用临帧融合与注意力机制提取时空相关性,采用循环结构以一次性处理长序列,可以获得富于细节、时序连贯的高分辨率重建视频。本发明专利技术的有益效果为:1、本发明专利技术提出了一种新颖的基于注意力机制和对抗学习的视频超分辨率方法,提升了超分辨率的效果;2、本发明专利技术提出的基于注意力机制和对抗学习的视频超分辨率方法效果更好;3、本发明专利技术有助于视频超分辨率被应用于实际场景中,如应用于监控设备,卫星影像。

【技术实现步骤摘要】
基于对抗学习和注意力机制的视频超分辨率方法
本专利技术属于计算机数字图像处理
,具体涉及一种基于注意力模型和对抗学习模型的视频超分辨率方法。
技术介绍
人类获取信息的主要途径是视觉,大部分基于视觉的应用效果取决于图像质量。然而通常由于硬件设备或者恶劣环境等因素,高分辨率视频图像难以获取。超分辨率技术对给定的低分辨率图像或视频帧序列处理,重建出富于细节的高分辨率图像或视频帧,而免去了升级成像系统的成本。早期的超分辨率技术在上世纪八十年代就已提出,最初采用数学方法进行重建,如迭代反复投影法,插值法,未能取得较好的效果。目前,获得较高重建质量的视频超分辨率方法是基于深度神经网络的模型。目前的视频超分辨率方法为了利用视频中的时间相关性,建立了一个约束优化问题以估计相邻帧的运动位移,进而进行运动补偿,之后再利用基本对齐的相邻帧之间的亚像素进行单帧的重建。然而,这种方法存在两个问题。其一,运动补偿属于预处理,需要较大计算开销,而且在训练阶段需要额外训练。其二,运动估计使用的滑动窗口包含了大量的计算冗余,每次利用多帧仅能重建单帧,同一帧会参与计算数次,对于长序列的视频计算效率低。本专利技术采用了对抗生成网络和注意力机制,设计了神经网络模型解决上述问题。注意力机制源于生物感知过程,可以在长序列中根据每个元素在当前时刻的重要程度,从而动态地从不同信息源整合时序信息。多被用于自然语言处理任务中处理较长的序列数据,在本方法中用于提取视频的长时相关性。对抗生成网络是目前主流的生成模型,它具有一个生成网络生成数据和一个判别网络判别数据的真实性。两个网络的目标相反,生成网络意图使生成的数据欺骗判别网络,判别网络意图正确区分出生成数据和真实数据,从而在生成网络和判别网络的博弈中,使生成网络拟合真实数据的分布以生成逼真的数据。在本方法中用于构造视频的感知损失函数和注意力模块的监督信号。
技术实现思路
本专利技术针对目前视频超分辨率方法中运动补偿的缺陷,提出了一种高效的视频超分辨率方法,可以重建出富于细节、时空连贯的高分辨率视频,其具体步骤如下:一种基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,具体步骤如下:步骤1、构建深度神经网络,包括构造生成网络、判别网络Dt以及判别网络Da;步骤2、训练深度神经网络,具体是基于损失函数,使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,得到训练好的深度神经网络;步骤3、利用训练好的模型进行视频超分辨率,具体是首先获取需要进行超分辨率的视频集,将所要处理的视频输入步骤2中训练好的深度神经网络中,获得最终的结果。在上述的基于对抗学习和注意力机制的视频超分辨率方法,构造生成网络具体包括:步骤2.1、进行帧编码,基于一个帧编码神经网络,输入是原始视频的帧序列,输出是各帧的特征图(featuremap);帧编码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络;步骤2.2、进行时空域注意力,基于一个时空域注意力生成网络,输入为帧编码模块所得的各帧特征图(featuremap)的序列,输出为各帧特征图的序列;时空域注意力生成网络包含掩膜生成网络,和上下文特征融合网络;步骤2.3、进行帧解码,基于一个帧解码神经网络,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列;帧解码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络。在上述的基于对抗学习和注意力机制的视频超分辨率方法,所述进行时空域注意力,具体包括:步骤3.1、构造掩模生成网络,其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络;步骤3.2、将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图;步骤3.3、构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络。在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤2中所述构造损失函数具体包括:步骤4.1、构造生成网络G损失函数Lg(G),其具体形式为其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,A为掩膜对正样本,Preal为真实高分辨率视频的概率分布,Ppos为掩模对正样本的概率分布,表示计算L1距离,Dt和Da分别为两个判别网络,γ与δ为预设的超参数;步骤4.2、构造判别网络Dt损失函数Lt(Dt),其具体形式为其中,Y与分别表示自然高分辨率视频与生成高分辨率视频,Preal为真实高分辨率视频的概率分布;步骤4.3、构造判别网络Da损失函数La(Da),其具体形式为其中,A与分别表示掩膜对正样本与掩膜对负样本,Ppos为掩膜对正样本的概率分布,Pneg为掩膜对负样本的概率分布。在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤2中训练神经网络具体包括:步骤5.1、获取公开的、自然场景下的高分辨率视频数据集;步骤5.2、从高分辨率视频通过下采样获得的低分辨率数据集;作为优选,所述的下采样包括高斯滤波、各类插值方法;步骤5.3、对三个神经网络进行参数初始化步骤5.4、训练判别网络Dt步骤5.5、标注ka注意力掩膜对为负样本,加入样本池P步骤5.6、训练生成网络G步骤5.7、标注ka注意力掩膜对为正样本,加入样本池P步骤5.8、训练判别网络Da步骤5.9、不断重复步骤5.4至步骤5.8,直到模型收敛。在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.4中所述训练判别网络Dt,其具体过程如下:步骤5.41收集原始高分辨率视频作为正样本,收集上一轮由生成器网络生成的高分辨率视频作为负样本,作为Dt的输入;步骤5.42计算损失函数Lt(Dt)对网络参数的梯度,基于梯度下降系算法进行参数更新;步骤5.43将上述过程重复kt次,完成该轮迭代训练。在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.6中所述训练生成网络G,其具体过程如下:步骤5.61将视频序列顺次作为当前帧输入生成器,生成预测的高分辨率视频;步骤5.62计算损失函数Lg(G)对网络参数的梯度,基于梯度下降系算法进行参数更新;步骤5.63将上述过程重复kg次,完成该轮迭代训练。在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.8中所述判别网络Da,其具体过程如下:步骤5.81将当前样本池中的正负样本作为判别网络Da的输入;步骤5.82计算损失函数La(Da)对网络参数的梯度,基于梯度下降本文档来自技高网
...

【技术保护点】
1.一种基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,具体步骤如下:步骤1、构建深度神经网络,包括构造生成网络、判别网络Dt以及判别网络Da;步骤2、训练深度神经网络,具体是基于损失函数,使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,得到训练好的深度神经网络;步骤3、利用训练好的模型进行视频超分辨率,具体是首先获取需要进行超分辨率的视频集,将所要处理的视频输入步骤2中训练好的深度神经网络中,获得最终的结果。

【技术特征摘要】
1.一种基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,具体步骤如下:步骤1、构建深度神经网络,包括构造生成网络、判别网络Dt以及判别网络Da;步骤2、训练深度神经网络,具体是基于损失函数,使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,得到训练好的深度神经网络;步骤3、利用训练好的模型进行视频超分辨率,具体是首先获取需要进行超分辨率的视频集,将所要处理的视频输入步骤2中训练好的深度神经网络中,获得最终的结果。2.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,构造生成网络具体包括:步骤2.1、进行帧编码,基于一个帧编码神经网络,输入是原始视频的帧序列,输出是各帧的特征图(featuremap);帧编码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络;步骤2.2、进行时空域注意力,基于一个时空域注意力生成网络,输入为帧编码模块所得的各帧特征图(featuremap)的序列,输出为各帧特征图的序列;时空域注意力生成网络包含掩膜生成网络,和上下文特征融合网络;步骤2.3、进行帧解码,基于一个帧解码神经网络,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列;帧解码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络。3.根据权利要求2所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,所述进行时空域注意力,具体包括:步骤3.1、构造掩模生成网络,其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络;步骤3.2、将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图;步骤3.3、构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrentunit)的神经网络。4.根据权利要求1所述的基于对抗学习和注意力机制的视...

【专利技术属性】
技术研发人员:王浩哲陈艳姣谈震威
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1