当前位置: 首页 > 专利查询>武汉大学专利>正文

一种结合卷积网络和递归网络的视频目标检测方法技术

技术编号:21399888 阅读:62 留言:0更新日期:2019-06-19 07:14
本发明专利技术公开了一种结合卷积网络和递归网络的视频目标检测方法。本方法利用连续多帧视频图像进行视频目标检测,采用深度卷积神经网络和递归神经网络相结合的方式,构建了一种端到端的深度学习模型,对输入的连续视频图像进行目标检测,输出视频目标概率图,能有效克服背景动态景观、摄像机抖动等带来的影响,实现高可靠性和高准确度的视频目标检测。

【技术实现步骤摘要】
一种结合卷积网络和递归网络的视频目标检测方法
本专利技术涉及计算机视觉和视频图像处理领域,具体涉及一种结合卷积网络和递归网络的视频目标检测方法。
技术介绍
随着计算机视觉技术的进步,监控视频智能处理得到了学术界和工业界的广泛研究,视频目标检测作为视频监控的一个重要功能,一直是研究热点。视频目标检测常常采用背景建模的方式来分割前景目标。然而,当背景存在动态景观(如喷泉、颤动的树叶、波浪等),或者摄像机存在微小抖动(如大型车辆通过时造成振动、强风造成相机抖动等)等情况,传统的基于背景建模的视频目标检测方法常常遇到严重的困难。近年来,深度学习技术的兴起给计算机视觉领域带来了广泛而深刻的影响,它使越来越多的视觉研究得到产业化应用,例如人脸识别、服装分类、车辆检测等等。深度学习网络主要有两种,一种是卷积神经网络(ConvolutionalNeuralNetworks,CNN),网络主要结构是卷积层(Convolutionallayer)和池化层(Poolinglayer),具有非常强的信息抽象能力,主要用来进行图像特征的提取,另一种是递归神经网络(RecurrentNeuralNetworks,RNN),是一种具有内部状态的网络,适用于处理和预测时序数据。基于以上分析,本专利技术提出了一种结合卷积网络和递归网络的视频目标检测方法。本专利技术致力于无缝集成卷积神经网络和递归神经网络,构建端到端的视频目标检测深度学习模型,发挥两种神经网络在单帧图像特征提取和多帧图像时序信号处理方面的优势,研究和探索出一种具有高可靠性和准确度的视频目标检测方法。
技术实现思路
本专利技术为了提高视频目标检测系统的可靠性和准确度,提供了一种结合卷积网络和递归网络的视频目标检测方法。所专利技术的方法,其输入为多帧连续的视频图像序列,输出为一张黑白图像,视频目标为白色标记。本专利技术所述设计的结合卷积网络和递归网络的视频目标检测方法,包含以下步骤:步骤S1,构建视频数据样本集,所述数据集中的每一个样本包含多帧连续视频图像;步骤S2,构建深度学习网络模型,该模型包括编码网络、递归神经网络和解码网络;步骤S3,利用S1构建的视频数据样本集对步骤S2构建的深度学习模型进行训练;步骤S4,利用步骤S3训练好的模型进行视频目标检测。进一步地,所述步骤S1具体为:步骤S1-1,采集M个图像序列,每个序列包含L帧连续的视频图像;对每个序列的最后一帧图像(即第L帧图像)标注视频目标的真值,得到标签;步骤S1-2,为了适应不同帧率条件的视频目标检测,对上述每个图像序列进行多步长等间隔采样,步长分别为1,2,和3,从而每个图像序列可以生成3个数据样本,使每个样本包含N帧图像;步骤S1-3,经过上面两步的处理,得到3×M个数据样本,每个样本包含N帧图像,并且第N帧标注有视频目标真值;将3×M个样本作为视频数据样本集。更进一步地,所述N大于等于5。进一步地,所述构建深度学习网络为一个端到端网络。进一步地,所述编码网络为全卷积网络,包含卷积层和池化层。进一步地,所述递归神经网络为卷积长短时记忆神经网络。进一步地,所述解码网络为全卷积网络,包括反卷积层和卷积层。本专利技术还包括一种电子设备,其特殊之处在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的结合卷积网络和递归网络的视频目标检测方法。本专利技术还包括一种计算机可读介质,其上存储有计算机程序,其特殊之处在于:所述程序被处理器执行时实现如上所述的结合卷积网络和递归网络的视频目标检测方法。本专利技术的优点:1.本专利技术创新性地构建了一个端到端的深度学习网络,它由编码网络、递归神经网络和解码网络组成,编码网络和解码网络为全卷积网络,能发挥卷积神经网络对单幅图像信息抽取的能力,而递归神经网络能高效处理时序的多帧图像数据;将两种类型网络无缝地集成,实现了高可靠性和高准确度的视频目标检测,有效克服由背景动态景观和相机抖动带来的影响。2.本专利技术在构建图像数据集时,采用了多步长的等间隔采样策略,使得训练样本包含不同帧率拍摄条件下的数据,大幅提高了所专利技术方法对不同视频帧率的适应性。附图说明图1是本专利技术实施例的深度学习神经网络总体架构图。图2是本专利技术的系统流程图。具体实施方式传统的视频目标检测方法在面对背景动态景观、相机抖动等情况时,检测效果差。本专利技术提出一种结合卷积网络和递归网络的视频目标检测方法,利用深度学习构建视频目标分割模型,实现高可靠性和高准确度的视频目标检测。本专利技术提供的方法设计了一种新型的深度学习网络模型,其总体结构参见图1。其具体实施例包含以下步骤:步骤S1,构建视频数据样本集,所述数据集中的每一个样本包含N帧连续视频图像。具体实施过程说明如下:步骤S1-1,采集M个图像序列,每个序列包含L帧连续的视频图像;对每个序列的最后一帧图像(即第L帧图像)标注有视频目标真值,得到标签。步骤S1-2,为了适应不同帧率条件下的视频目标检测,对上述每个图像序列进行等间隔采样,间隔距离为1,2,和3,从而每个图像序列可以生成3个数据样本,使每个样本包含N帧图像。步骤S1-3,经过上面两步的处理,得到3×M个数据样本,每个样本包含N帧图像,并且第N帧有标注的视频目标真值;将3×M个样本作为视频数据样本集。优选地,取M=10000,L=13,N=5,则每个图像序列分别进行间隔为1,2,3的采样后,得到对应的三个数据样本的图像帧下标为[9,10,11,12,13],[5,7,9,11,13],和[1,4,7,10,13]。步骤S2,构建深度学习网络模型,该模型包括编码网络、递归神经网络和解码网络;编码网络为全卷积网络,包含卷积层和池化层;递归神经网络采用卷积长短时记忆网络(convLSTM);解码网络为全卷积网络,包含反卷积层和卷积层;具体的步骤为:S2-1,将连续的N帧图像依次输入编码网络,输出N个特征向量;S2-2,将上一步得到的N个特征向量作为N个时序信号输入卷积长短时记忆网络,输出为一个特征向量;S2-3,将上一步得到的1个特征向量输入解码网络,输出一张视频目标的概率图,该图与原原始输入图像尺寸相同。进一步的,所述步骤S2中编码网络包含16层,第1层为输入层,由N帧连续视频图像构成,第2、3层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为64,第4层为池化层,池化尺寸是2×2,第5、6层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为128,第7层为池化层,池化尺寸是2×2,第8、9层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为256,第10层为池化层,池化尺寸是2×2,第11、12层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为512,第13层为池化层,池化尺寸是2×2,第14、15层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为512,第16层为输出层。优选地,池化层采用最大值池化法;进一步地,所述步骤S2中长短期记忆网络采用双层结构;进一步地,所述步骤S2中解码网络包含15层,第1、2层是卷积层,卷积核大小是3×3,步长为1,卷积核的个数均为512,第3层为反卷积层,卷积核大小是3×3,步长为1,卷积核的个本文档来自技高网...

【技术保护点】
1.一种结合卷积网络和递归网络的视频目标检测方法,包含以下步骤:步骤S1,构建视频数据样本集,所述数据集中的每一个样本包含多帧连续视频图像;步骤S2,构建深度学习网络模型,该模型包括编码网络、递归神经网络和解码网络;步骤S3,利用S1构建的视频数据样本集对步骤S2构建的深度学习模型进行训练;步骤S4,利用步骤S3训练好的模型进行视频目标检测。

【技术特征摘要】
1.一种结合卷积网络和递归网络的视频目标检测方法,包含以下步骤:步骤S1,构建视频数据样本集,所述数据集中的每一个样本包含多帧连续视频图像;步骤S2,构建深度学习网络模型,该模型包括编码网络、递归神经网络和解码网络;步骤S3,利用S1构建的视频数据样本集对步骤S2构建的深度学习模型进行训练;步骤S4,利用步骤S3训练好的模型进行视频目标检测。2.根据权利要求1所述的一种结合卷积网络和递归网络的视频目标检测方法,其特征在于:所述步骤S1具体为:步骤S1-1,采集M个图像序列,每个序列包含L帧连续的视频图像;对每个序列的最后一帧图像(即第L帧图像)标注视频目标的真值,得到标签;步骤S1-2,为了适应不同帧率条件的视频目标检测,对上述每个图像序列进行多步长等间隔采样,步长分别为1,2,和3,从而每个图像序列可以生成3个数据样本,使每个样本包含N帧图像;步骤S1-3,经过上面两步的处理,得到3×M个数据样本,每个样本包含N帧图像,并且第N帧标注有视频目标真值;将3×M个样本作为视频数据样本集。3.根据...

【专利技术属性】
技术研发人员:邹勤
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1