当前位置: 首页 > 专利查询>南华大学专利>正文

一种针对视频图像的光流估计与去噪联合学习深度网络模型制造技术

技术编号:18400394 阅读:21 留言:0更新日期:2018-07-08 20:15
本发明专利技术公开一种针对视频图像的光流估计与去噪联合学习深度网络模型,属于图像处理领域。该模型包括预处理模块、光流估计模块和去噪模块,每个模块采用Encoder‑Decoder网络结构,利用样本数据集首先单独训练预处理模块,然后固定预处理模块的相关参数,同时训练预处理模块和光流估计模块,最后固定预处理模块和光流估计模块的相关参数,整体训练包含三个模块的深度网络模型,利用训练完成的深度网络模型可直接对含噪视频图像进行光流估计和去噪处理。本发明专利技术提出的联合学习深度网络模型,光流估计和去噪速度快,精度高,便于在实际中快速处理大量视频图像。

A joint learning depth network model for optical flow estimation and denoising in video images

The invention discloses a joint learning depth network model for optical flow estimation and denoising of video images, belonging to the field of image processing. The model includes the preprocessing module, the optical flow estimation module and the denoising module. Each module uses the Encoder Decoder network structure. First, the preprocessing module is trained by the sample data set, then the related parameters of the preprocessing module are fixed, and the preprocessing module and the optical flow estimation module are trained, and the preprocessing module is fixed at the end. With the related parameters of the optical flow estimation module, the overall training includes the depth network model of three modules, and the optical flow estimation and denoising can be carried out directly by the trained depth network model. The joint learning depth network model proposed by the invention is fast and accurate in optical flow estimation and denoising, and is convenient for processing a large number of video images in practice.

【技术实现步骤摘要】
一种针对视频图像的光流估计与去噪联合学习深度网络模型
本专利技术涉及图像处理领域,具体指一种针对视频图像的光流估计与去噪联合学习深度网络模型。
技术介绍
视频图像在采集、压缩、存储、传输等环节中都面临噪声干扰,噪声会显著降低视频图像的视觉质量,并对后续的目标识别和跟踪等智能化分析造成困难。因此,需要在保留视频信息的前提下去除视频图像中的噪声,提高信噪比和改善视觉效果。由于视频图像具有时域相关性,因此可以把光流估计和视频去噪相结合,获得更好的去噪效果,但是现有的联合光流估计与视频去噪算法,需要大量迭代运算,耗费大量计算资源和时间,不便在实际中应用,而且光流估计容易受到视频噪声的干扰,从而影响去噪效果。因此,提出快速有效的联合光流估计与视频去噪算法,是视频图像处理领域急需解决的问题。
技术实现思路
本专利技术为克服上述情况不足,旨在提供一种针对视频图像的光流估计与去噪联合学习深度网络模型,利用深度网络模型从大量训练样本中,联合学习光流估计和视频去噪,以解决现有技术中光流估计精度低,去噪效果差,耗时长的问题。为解决上述技术问题,本专利技术提出的技术方案是:一种针对视频图像的光流估计与去噪联合学习深度网络模型,其特征在于:该联合深度学习网络模型包括三个模块:预处理模块、光流估计模块和去噪模块,首先利用样本数据集对深度网络模型进行训练;然后对输入的噪声图像im_n1和im_n2,利用预处理模块做初步去噪处理,得到预处理后的图像对im_p1和im_p2;利用光流估计模块对图像对im_p1和im_p2进行运动估计,得到光流估计结果flow;把噪声图像im_n2按照光流估计结果flow做变换得到图像im_n2’,再将图像im_n2’和噪声图像im_n1作为去噪模块的输入图像,得到噪声图像im_n1对应的最终去噪图像im_dn。所述输入噪声图像im_n1和im_n2是包含噪声的视频中相邻两帧图像。所述样本数据集的数量不少于20000,其中每个样本中包括视频中相邻两帧噪声图像n1和n2,噪声图像n1和n2对应的标准清晰图像p1和p2,图像对p1和p2对应的光流估计结果f。所述深度网络模型的具体训练方法是利用样本数据集中的相应数据,首先单独训练预处理模块;然后固定预处理模块的相关参数,同时训练预处理模块和光流估计模块;最后固定预处理模块和光流估计模块的相关参数,整体训练包含三个模块的深度网络模型。所述预处理模块、光流估计模块和去噪模块采用Encoder-Decoder网络结构。所述Encoder-Decoder网络结构包括编码Encoder部分和解码Decoder部分,其中编码Encoder部分包括M层卷积层,解码Decoder部分包括M个子网络,每个子网络包括1个反卷积层和N个卷积层,解码Decoder部分的每个子网络层作反卷积时,调用编码Encoder部分对应的卷积层图像特征,上一层的输出结果作为下一层的输入。使用Caffe深度学习框架对所述深度网络模型进行训练。本专利技术有益效果:1)本专利技术所设计的光流估计与去噪联合学习深度网络模型可以同时解决实际中含噪视频的光流估计与去噪问题,与现有技术中基于迭代运算的联合光流估计与视频去噪算法相比,光流估计精度高,基于光流估计辅助的去噪效果更好,而且一旦联合学习深度网络模型训练完成,光流估计和去噪的速度非常快,便于在实际中快速处理大量视频图像。2)本专利技术针对联合学习深度网络模型,采用先单独训练单个网络模块再进行整体网络模型训练的方法,可以有效减少训练过程中的网络参数,避免网络模型出现过拟合。3)本专利技术方法利用深度学习模型来自动学习光流估计图像和去噪图像的图像特征,进行端到端的光流估计与图像去噪,无需估计运动边界进行辅助,而且所采用的Encoder-Decoder深度网络模型能够充分挖掘输入图像中的多维特征,可提升光流估计与去噪的效果。附图说明图1是本专利技术中联合学习深度网络模型的结构示意图;图2是样本数据集中视频中相邻两帧噪声图像n1和n2;图3是样本数据集中噪声图像n1和n2对应的标准清晰图像p1和p2;图4是样本数据集中图像对p1和p2对应的光流估计结果f;图5是Encoder-Decoder网络结构示意图;图6是Encoder-Decoder网络中子网络的结构示意图;图7是待处理的视频中相邻两帧噪声图像im_n1和im_n2;图8是噪声图像im_n1和im_n2对应的光流估计结果;图9是噪声图像im_n1的去噪结果。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本实施例提供的一种针对视频图像的光流估计与去噪联合学习深度网络模型,包括三个模块:预处理模块、光流估计模块和去噪模块,首先构建包含30000个样本的样本数据集,其中每个样本包括视频中相邻两帧噪声图像n1和n2,如图2所示,噪声图像n1和n2对应的标准清晰图像p1和p2,如图3所示,图像对p1和p2对应的光流估计结果f,如图4所示。预处理模块、光流估计模块和去噪模块采用Encoder-Decoder网络结构,如图5所示,Encoder-Decoder网络结构包括编码Encoder部分和解码Decoder部分,其中编码Encoder部分包括6层卷积层c1-c6,这6个卷积层的特征图数量分别为64、64、128、128、256、512,解码Decoder部分包括5个子网络subnet1-subnet5,子网络的结构如图6所示,每个子网络包括1个卷积层和4个反卷积层,每个子网络中卷积层的特征图数量为64,4个反卷积层的特征图数量分别为512、256、128、64,解码Decoder部分的每个子网络层作反卷积时,调用编码Encoder部分对应的卷积层图像特征,上一层的输出结果作为下一层的输入。利用样本数据集对联合学习深度网络模型进行训练,利用安装在Ubuntu系统上的Caffe环境训练该深度学习模型,采用ADAGRAD优化算法进行训练。首先单独训练预处理模块;然后固定预处理模块的相关参数,同时训练预处理模块和光流估计模块;最后固定预处理模块和光流估计模块的相关参数,整体训练包含三个模块的深度网络模型。单独训练预处理模块和同时训练预处理模块和光流估计模块时,初始学习率为0.01,训练次数为600000次,其中,在训练次数为300000、400000和500000时,学习率分别除以10,降低学习率。整体训练包含三个模块的深度网络模型,初始学习率为0.02,训练次数为500000次,其中,在训练次数为200000、300000和400000时,学习率分别除以8,降低学习率。训练完成联合学习深度网络模型后,直接利用该模型处理含噪视频图像。将视频中相邻两帧噪声图像im_n1和im_n2输入该模型,如图7所示,可直接快速得到噪声图像im_n1和im_n2对应的光流估计结果,如图8所示,以及噪声图像im_n1的去噪结果,如图9所示。以上所揭露的仅为本专利技术一种较佳实施例而已,当然不能以此来限定本专利技术之权利范围,因此依本本文档来自技高网...

【技术保护点】
1.一种针对视频图像的光流估计与去噪联合学习深度网络模型,其特征在于:该联合深度学习网络模型包括三个模块:预处理模块、光流估计模块和去噪模块,首先利用样本数据集对深度网络模型进行训练;然后对输入的噪声图像im_n1和im_n2,利用预处理模块做初步去噪处理,得到预处理后的图像对im_p1和im_p2;利用光流估计模块对图像对im_p1和im_p2进行运动估计,得到光流估计结果flow;把噪声图像im_n2按照光流估计结果flow做变换得到图像im_n2’,再将图像im_n2’和噪声图像im_n1作为去噪模块的输入图像,得到噪声图像im_n1对应的最终去噪图像im_dn。

【技术特征摘要】
1.一种针对视频图像的光流估计与去噪联合学习深度网络模型,其特征在于:该联合深度学习网络模型包括三个模块:预处理模块、光流估计模块和去噪模块,首先利用样本数据集对深度网络模型进行训练;然后对输入的噪声图像im_n1和im_n2,利用预处理模块做初步去噪处理,得到预处理后的图像对im_p1和im_p2;利用光流估计模块对图像对im_p1和im_p2进行运动估计,得到光流估计结果flow;把噪声图像im_n2按照光流估计结果flow做变换得到图像im_n2’,再将图像im_n2’和噪声图像im_n1作为去噪模块的输入图像,得到噪声图像im_n1对应的最终去噪图像im_dn。2.根据权利要求1所述的针对视频图像的光流估计与去噪联合学习深度网络模型,其特征在于:所述输入噪声图像im_n1和im_n2是包含噪声的视频中相邻两帧图像。3.根据权利要求1所述的针对视频图像的光流估计与去噪联合学习深度网络模型,其特征在于:所述样本数据集的数量不少于20000,其中每个样本中包括视频中相邻两帧噪声图像n1和n2,噪声图像n1和n2对应的标准清晰图像p1和p2,图像对p1和p2对应的光流估计结果f。4.根据权利要求1所述的针对视...

【专利技术属性】
技术研发人员:李望秀
申请(专利权)人:南华大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1