基于深度递归神经网络的视频去噪方法技术

技术编号:14417851 阅读:981 留言:0更新日期:2017-01-12 12:32
本发明专利技术提供一种基于深度递归神经网络的视频去噪方法,所述方法采用端到端的深度神经网络模型,所述深度神经网络模型包含两层递归神经网络,将有噪视频作为输入,第一层递归神经网络通过递归和非线性运算获得视频的初级特征,并将其作为输出传递到下一层递归神经网络,视频在第二层递归网络中获得高级特征,输出层利用两层递归神经网络获得的特征解码重构最终输出去噪后的视频;本发明专利技术利用时间域的递归结构端到端地进行视频去噪,无须通过其他复杂算法获取视频的运动信息;利用深度网络结构强大的表达能力实现有噪视频与去噪视频之间的映射;能够延展并应用在各种不同类型的噪声中,如高斯噪声、泊松‑高斯混合噪声等。

【技术实现步骤摘要】

本专利技术涉及的是一种视频图像处理
的方法,具体是一种基于深度递归神经网络的视频去噪方法
技术介绍
视频去噪是一个视频图像处理
的典型问题,同时也是像素级视频处理方法评价方法。因此该问题在学术界和工业界一直受到广泛的关注。视频去噪过程是输入一个加噪视频Y=X+N,其中X表示为是Y的原始视频,通过特定方法以后,输出一个去噪视频。在过去十多年间,许多方法都在图像去噪和视频去噪取得了巨大的进步,如稀疏编码(sparsecoding)、条件随机域(conditionalrandomfields)、变换技术(variationtechniques)、块方法(patchbasedmethods)等。视频去噪技术与图像去噪技术最大的不同在于视频有大量运动信息和时间域冗余信息可以用于去噪过程。一种通用的方法是将图像去噪通过在时间轴的不同帧中查找相似块的方法,然后利用图像去噪的方法,如小波压缩(waveletshrinkage)或是维纳滤波等方法在三维变换域进行去噪,如VBM3D(Block-matchingand3Dfiltering(BM3D))。VBM4D在VBM3D方法中做了改进并成为目前最为先进的图像去噪技术。VBM4D去噪的方法是查找相似3维时空立体块而不是2维平面块然后将3维立体块堆栈形成一个四维结构。然后利用协同滤波去除该四维结构的相关性,最后利用压缩(shrinkage)和反变换完成视频去噪。目前,深度学习得利于其深度神经网络结构的强大表达能力和GPU(GraphicsProcessingUnits)的快速运算能力,在计算机视觉和模式识别领域取得了巨大进步(如图像分类)。如何将其应用在视频图像处理领域成了人们重点关注和研究的方向。递归神经网络作为具有反馈能力的一种神经网络,能够在时间轴上传递运动信息,是处理序列的强有力工具,并在语音、文字等多个领域得到较好的应用。递归神经网络最先被用在语言处理问题上,如语音识别、图像描述(imagedescription)。在视频处理领域,NitishSrivastava在《UnsupervisedlearningofvideorepresentationsusingLSTMs》一文中证实了递归神经网络能够从视频中学习到运动信息和轮廓特征,并在文中成功将特征表示应用于模式识别问题。
技术实现思路
本专利技术在现有技术的基础上,提出一种基于深度递归神经网络的视频去噪方法,采用深度递归网络模型用于视频序列去噪,无须通过其他复杂算法获取视频的运动信息。为实现上述目的,本专利技术采用以下技术方案:本专利技术提供一种基于深度递归神经网络的视频去噪方法,所述方法采用端到端的深度神经网络模型,利用时间域的递归结构端到端地进行视频去噪;所述深度神经网络模型包含两层递归神经网络,将有噪视频作为输入,第一层递归神经网络通过递归和非线性运算获得视频的初级特征,并将其作为输出传递到下一层递归神经网络,视频在第二层递归网络中获得高级特征,输出层利用两层递归神经网络获得的特征解码重构最终输出去噪后的视频;所述深度神经网络模型,具体表示如下:h1(t)=σ(Wh1xx(t)+Wh1h1h1(t-1)+bh1)]]>hl(t)=σ(Whlhl-1hl-1(t)+Whlhlhl(t-1)+bhl)]]>y(t)=σ(Wyhh(t)+by)其中,x(t)表示输入数据,表示深度递归神经网络第一层t时刻和t-1的状态,表示深度递归神经网络第l层t时刻、第l-1层t时刻、第l层t-1的状态,y(t)表示输出数据。Wyh、by均为模型的参数,通过BPTT(backpropagationthroughtime)算法最小化损失函数获得;t表示视频图像的时间序列索引。本专利技术中,所述深度神经网络模型将视频噪声模型与深度递归网络结合,利用深度网络结构强大的表达能力实现有噪视频与去噪视频之间的映射,对于一段时长为T有噪的视频序列其中t表示视频图像的时间序列索引,在视频序列中任意t时刻的图像xt看作是干净图像yt和噪声nt的叠加:xt=yt+nt视频去噪的目的是建立映射从xt中除去nt以得到具体为:其中X表示带噪视频序列Θ表示模型参数,表示模型预测的去噪结果,参数通过BPTT算法得到,损失函数L为去噪图像和实际无噪图像(公式中简写为)的平方差:本专利技术中,为了降低深度递归神经网络的计算复杂度,采用基于块(patch-based)的方法来进行去噪:生成训练集时,切割视频成为m×n×T的连续图像块作为一个训练样本,其中m×n表示张图像小块的大小,T表示视频连续的T张图像,其对应的第(T+1)/2张图像作为去噪的目标,并将原始的对应第(T+1)/2张图像作为训练时的标注值(groundtruth);测试时,将给定的有噪视频逐帧有重叠地(overlapping)分解为m×n×T的视频立体块(cubes),即用一个m×n×T的三维立体滑窗划过视频,分解后的视频小块通过训练好的深度递归神经网络模型得到对应的去噪图像小块,这些视频小块重新按原位置拼接得到降噪后的视频图像。本专利技术所述方法能够通过模拟不同的视频噪声nt,训练不同的模型以除去不同类型、不同程度的视频噪声,比如:高斯噪声,表示为其中σ表示高斯分布的标准差,表示高斯分布,I表示单位矩阵;泊松-高斯混合噪声表示为:表示零均值标准差为σ的高斯噪声,表示零均值方差为λ=kyt的泊松噪声。与现有技术相比,本专利技术具有以下有益效果:本专利技术利用深度递归神经网络设计一种适合于视频去噪的回归模型,通过训练大量含有原始视频的加噪视频,最终能够有效地去除视频噪声,其中:1)利用时间域的递归结构端到端地进行视频去噪,无须通过其他复杂算法获取视频的运动信息;2)利用深度网络结构强大的表达能力实现有噪视频与去噪视频之间的映射;3)能够延展并应用在各种不同类型的噪声中,如高斯噪声、泊松-高斯混合噪声等。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术一实施例中深度递归神经网络的去噪示意图;图2为本专利技术一实施例中涉及的深度递归神经网络结构图;图3为本专利技术一实施例去除高斯噪声效果示意图;图4为本专利技术一实施例去除泊松-高斯混合噪声效果示意图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。本专利技术提出一种端到端的深度神经网络模型用来视频去噪,该模型包含两层的递归网络如图1所示,在模型中输入设定长度的加噪视频立体块,输出的目标是无噪图像块,即该模型利用视频前后多帧的信息作为输入,对某一帧特定图像进行降噪。递归神经网络是一类强大的神经网络模型,它能通过图模型中的循环来获取时间动态信息。一个简单的神经网络单元如图2(a)所示。在t时刻,隐藏单元h(t)接收到来自当前时刻的输入x(t)和前一时刻隐藏层状态h(t-1)的激活值。输出y(t)由当前时刻t的隐藏层状态h(t)计算得到:h(t)=σ(Whxx(t)+Whhh(t-本文档来自技高网
...
基于深度递归神经网络的视频去噪方法

【技术保护点】
一种基于深度递归神经网络的视频去噪方法,其特征在于:所述方法采用端到端的深度神经网络模型,利用时间域的递归结构端到端地进行视频去噪;所述深度神经网络模型包含两层递归神经网络,将有噪视频作为输入,第一层递归神经网络通过递归和非线性运算获得视频的初级特征,并将其作为输出传递到下一层递归神经网络,视频在第二层递归网络中获得高级特征,输出层利用两层递归神经网络获得的特征解码重构最终输出去噪后的视频;所述深度神经网络模型,具体表示如下:h1(t)=σ(Wh1xx(t)+Wh1h1h1(t-1)+bh1)]]>hl(t)=σ(Whlhl-1hl-1(t)+Whlhlhl(t-1)+bhl)]]> y(t)=σ(Wyhh(t)+by)其中,x(t)表示输入数据,表示深度递归神经网络第一层t时刻和t‑1的状态,表示深度递归神经网络第l层t时刻、第l‑1层t时刻、第l层t‑1的状态,y(t)表示输出数据;by均为模型的参数,通过BPTT算法最小化损失函数获得;t表示视频图像的时间序列索引。

【技术特征摘要】
1.一种基于深度递归神经网络的视频去噪方法,其特征在于:所述方法采用端到端的深度神经网络模型,利用时间域的递归结构端到端地进行视频去噪;所述深度神经网络模型包含两层递归神经网络,将有噪视频作为输入,第一层递归神经网络通过递归和非线性运算获得视频的初级特征,并将其作为输出传递到下一层递归神经网络,视频在第二层递归网络中获得高级特征,输出层利用两层递归神经网络获得的特征解码重构最终输出去噪后的视频;所述深度神经网络模型,具体表示如下:h1(t)=σ(Wh1xx(t)+Wh1h1h1(t-1)+bh1)]]>hl(t)=σ(Whlhl-1hl-1(t)+Whlhlhl(t-1)+bhl)]]>y(t)=σ(Wyhh(t)+by)其中,x(t)表示输入数据,表示深度递归神经网络第一层t时刻和t-1的状态,表示深度递归神经网络第l层t时刻、第l-1层t时刻、第l层t-1的状态,y(t)表示输出数据;by均为模型的参数,通过BPTT算法最小化损失函数获得;t表示视频图像的时间序列索引。2.根据权利要求1所述的基于深度递归神经网络的视频去噪方法,其特征在于,所述深度神经网络模型将视频噪声模型与深度递归网络结合,利用深度网络结构强大的表达能力实现有噪视频...

【专利技术属性】
技术研发人员:宋利陈欣苑杨小康
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1