基于级联深度残差网络的视频去噪方法技术

技术编号:23606073 阅读:19 留言:0更新日期:2020-03-28 06:49
本发明专利技术公开了一种基于级联深度残差网络的视频去噪方法,该方法可处理亮度或色度分量,以多帧图像为输入,采用两个级联的深度残差网络抑制视频噪声。两个深度残差网络具有相同的结构,按输入样本前向传播时的数据流向,该方法的每级深度残差网络结构依次为输入模块,残差模块和融合模块。对第一级深度残差网络和第二级深度残差网络训练完成后,得到视频图像去噪的模型,将图像序列输入到视频图像去噪模型可对视频进行去燥处理,提高视频图像质量,将其作为编码器的预处理步骤,可有效的提高编码器的性能;或将其作为目标检测器的预处理步骤,则能有效的提高检测器的准确率,降低误检率。

Video denoising method based on cascaded depth residual network

【技术实现步骤摘要】
基于级联深度残差网络的视频去噪方法
本专利技术涉及计算机视觉领域,特别涉及一种基于级联深度残差网络的视频去噪方法。
技术介绍
视频监控系统的摄像机在视频采集过程中会引入各种类型的噪声,视频噪声不仅会降低视觉意义上的图像质量,而且会对后续视频编码系统施加很大的压力。从叠加了噪声的视频信号中去除或者抑制噪声信号,恢复出未受噪声污染的理想视频信号,对于HEVC、H.264等编码系统和目标检测、跟踪、识别系统而言具有重要意义。所以,视频噪声去除或者抑制一直受到学术界和产业界的广泛关注。近年来,随着深度学习在基于图像的目标检测、识别、超分辨率分析等各个领域取得极大的成功,启发了人们将其应用于图像去噪,文献“BeyondaGaussianDenoiser:ResidualLearningofDeepCNNforImageDenoising”(ZhangKaietal,IEEETransactionsonImageProcessing,2017.6)提出了一种用于单帧图像去噪的卷积神经网络模型:DnCNN,针对加性高斯噪声训练权值参数。中国专利201610729038.1提供了的基于深度递归神经网络的视频去噪模型包含两层递归神经网络,分别获取初级和高级特征,最后由输出层解码重构这些特征输出估计所得的去噪视频。
技术实现思路
本专利技术的目的在于解决现有技术中存在的问题,并提供一种基于级联深度残差网络的视频去噪方法。本专利技术具体采用的技术方案如下:一种基于级联深度残差网络的视频去噪方法,包括以下步骤:(1)获取待去噪的视频,设待去噪的视频中的第t帧图像为It,得到图像序列{It-K,…,It,…,It+K},其中It-i和It+i分别为位于t时刻之前和之后,与第t帧图像相隔i帧的图像,K可取值为1、2或3;(2)构建第一级和第二级深度残差网络;第一级和第二级深度残差网络具有相同的网络结构,第一级和第二级深度残差网络均包括输入模块、残差模块和融合模块;所述输入模块包括一个卷积层,该卷积层具有Ninput个3×3×(2K+1)大小的卷积核;所述残差模块包含Nblock个残差块,每个残差块中包含卷积层Conv_k01、PReLU层和卷积层Conv_k02;所述融合模块包含卷积层Conv_B01、卷积层Conv_B02和卷积层Conv_B03;(3)将步骤(1)中的图像序列输入到第一级深度残差网络,图像序列中的每幅图像被当作一个二维矩阵,依次排列这些矩阵形成一个三阶张量,与输入模块中的Ninput个卷积核进行步长为1的卷积运算,产生包含Ninput个通道的特征图,输入到残差模块中;(4)残差模块中的第一残差块的输入为输入模块输出的特征图,除第一残差块之外的任意第k个残差块以第k-1个残差块的输出为输入,设某个残差块的输入为x,前向传播时的数据流向依次为卷积层Conv_k01、PReLU层、卷积层Conv_k02,通过卷积层Conv_k01、PReLU层和卷积层Conv_k02将输入x映射为F(x),最后以F(x)和输入x之和F(x)+x作为残差块的输出;(5)融合模块有两个输入,其中的一个来自残差模块的输出,将其输入到融合模块的卷积层Conv_B01,经卷积运算后产生一个包含4Dout个通道的特征图,其中Dout为输出图像的通道数目;融合模块的另一个输入来自于步骤(3)中依次排列输入图像对应的矩阵所形成的三阶张量,将其输入到融合模块的卷积层Conv_B02,经卷积运算后产生一个包含4Dout个通道的特征图;(6)将融合模块的卷积层Conv_B01和Conv_B02的输出经像素重排,将特征图变换成长宽方向分别为输入图像长和宽的2倍,通道数等于输出图像通道数目的特征图;(7)将融合模块两个经像素重排后的特征图进行加运算,运算结果作为卷积层Conv_B03的输入,经步长为2的卷积运算后得到第一级深度残差网络的输出结果为图像序列其中与第t帧图像It对应的输出结果为(8)将第一级深度残差网络输出的结果图像序列作为第二级深度残差网络中输入模块的输入,重复步骤(3)-(7)的过程,输出最终的结果图像。进一步地,所述第一级深度残差网络各个层次的参数以学习的方式确定,包括如下步骤:步骤a、准备训练样本:采集用于训练的视频,设f是其中的一帧图像,按下式叠加幅度值符合高斯分布、泊松分布或者均匀分布的噪声信号z,形成包含噪声的图像g:g=f+z分别对原始视频中的图像和对应的加噪后的图像依次标号,形成参考图像序列和对应的含噪图像序列,作为训练样本集;训练样本集中的一个样本可表示为(ui,vi),若vi∈RM×N为来自参考图像序列的第t帧ft的图像块,且左上角点位于像素(m,n),图像块大小为M×N,则ui∈RM×N×(2K+1)是一个由2K+1个图像块组成的三阶张量,其中的第1、2、...、2K+1个图像块依次来自含噪图像序列g的第t-K、t-K+1、...、t+K帧,K取值为1、2或3,每个图像块的大小均为M×N,左上角点坐标位于各自对应图像的像素(m,n)位置;步骤b、初始化参数:第一级深度残差网络中的所有卷积层,其参数被初始化为符合均值为0,标准差为的正态分布,其中nl为卷积层中卷积核的数目;PReLU层的参数被初始化为0;步骤c、训练:批量加载训练样本集中的样本,对每个训练样本(ui,vi)按下式计算损失函数:其中M和N是训练样本集中图像的高和宽,是与输入ui对应的输出;以最小化所有训练样本的损失函数累加和为目标,以Adam优化算法更新深度残差网络各层的权值,学习率的初始值可置为0.005~0.01之间的值,以分段下降的方式调整学习率,具体地,将总的训练周期数分为四个阶段,后一个阶段的学习率等于前一个阶段的学习率的三分之一。进一步地,第一级深度残差网络的训练完成以后,再进行第二级深度残差网络的训练;用与第一级深度残差网络相同的方式形成参考图像序列f和含噪图像序列g,对于含噪图像序列g中的任一帧图像gk由训练所得的第一级深度残差网络输出对应的去噪后图像替换,从而获得去噪图像序列将去噪图像序列和参考图像序列f作为第二级深度残差网络训练样本集;并采用与训练第一级深度残差网络相同的方法训练第二级深度残差网络。进一步地,所述的输入模块中卷积核的数量Ninput可取值32。进一步地,所述的残差模块中残差块的数量Nblock可取介于8到16之间的整数;所述第k个残差块中的卷积层Conv_k01具有4倍于卷积层Conv_k02的卷积核数量,Conv_k01的卷积核数目可取为128,Conv_k02的卷积核数目可取为32;Conv_k01的卷积核大小为3×3×C1,Conv_k02的卷积核大小为3×3×C2,C1和C2分别为输入到对应卷积层的特征图的通道数目;为了保证去噪后图像具有与输入图像相同的尺寸,残差模块中的所有卷积层的卷积步长为1。进一步地,所述融合模块中的卷积层Conv_B01的卷积核大小为本文档来自技高网...

【技术保护点】
1.一种基于级联深度残差网络的视频去噪方法,其特征在于,包括以下步骤:/n(1)获取待去噪的视频,设待去噪的视频中的第t帧图像为I

【技术特征摘要】
1.一种基于级联深度残差网络的视频去噪方法,其特征在于,包括以下步骤:
(1)获取待去噪的视频,设待去噪的视频中的第t帧图像为It,得到图像序列{It-K,…,It,…,It+K},其中It-i和It+i分别为位于t时刻之前和之后,与第t帧图像相隔i帧的图像,K可取值为1、2或3;
(2)构建第一级和第二级深度残差网络;第一级和第二级深度残差网络具有相同的网络结构,第一级和第二级深度残差网络均包括输入模块、残差模块和融合模块;所述输入模块包括一个卷积层,该卷积层具有Ninput个3×3×(2K+1)大小的卷积核;所述残差模块包含Nblock个残差块,每个残差块中包含卷积层Conv_k01、PReLU层和卷积层Conv_k02;所述融合模块包含卷积层Conv_B01、卷积层Conv_B02和卷积层Conv_B03;
(3)将步骤(1)中的图像序列输入到第一级深度残差网络,图像序列中的每幅图像被当作一个二维矩阵,依次排列这些矩阵形成一个三阶张量,与输入模块中的Ninput个卷积核进行步长为1的卷积运算,产生包含Ninput个通道的特征图,输入到残差模块中;
(4)残差模块中的第一残差块的输入为输入模块输出的特征图,除第一残差块之外的任意第k个残差块以第k-1个残差块的输出为输入,设某个残差块的输入为x,前向传播时的数据流向依次为卷积层Conv_k01、PReLU层、卷积层Conv_k02,通过卷积层Conv_k01、PReLU层和卷积层Conv_k02将输入x映射为F(x),最后以F(x)和输入x之和F(x)+x作为残差块的输出;
(5)融合模块有两个输入,其中的一个来自残差模块的输出,将其输入到融合模块的卷积层Conv_B01,经卷积运算后产生一个包含4Dout个通道的特征图,其中Dout为输出图像的通道数目;融合模块的另一个输入来自于步骤(3)中依次排列输入图像对应的矩阵所形成的三阶张量,将其输入到融合模块的卷积层Conv_B02,经卷积运算后产生一个包含4Dout个通道的特征图;
(6)将融合模块的卷积层Conv_B01和Conv_B02的输出经像素重排,将特征图变换成长宽方向分别为输入图像长和宽的2倍,通道数等于输出图像通道数目的特征图;
(7)将融合模块两个经像素重排后的特征图进行加运算,运算结果作为卷积层Conv_B03的输入,经步长为2的卷积运算后得到第一级深度残差网络的输出结果为图像序列其中与第t帧图像It对应的输出结果为
(8)将第一级深度残差网络输出的结果图像序列作为第二级深度残差网络中输入模块的输入,重复步骤(3)-(7)的过程,输出最终的结果图像。


2.根据权利要求1所述的基于级联深度残差网络的视频去噪方法,其特征在于,所述第一级深度残差网络各个层次的参数以学习的方式确定,包括如下步骤:
步骤a、准备训练样本:采集用于训练的视频,设f是其中的一帧图像,按下式叠加幅度值符合高斯分布、泊松分布或者均匀分布的噪声信号z,形成包含噪声的图像g:
g=f+z
分别对原始视频中的图像和对应的加噪后的图像依次标号,形成参考图像序列和对应的含噪图像序列,作为训练样本集;
训练样本集中的一个样本可表示为(ui,vi),若vi∈RM×N为来自参考图像序列的第t帧ft的图像块,且左上角点位于像素(m,n),图像块大小为M×N,则ui∈RM×N×(2K+1)是一个由2K+1个图像块组成的三阶张量,其中的第1、2、...、2K+1个图像块依次来...

【专利技术属性】
技术研发人员:陈卫刚
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1