本发明专利技术提出了一种基于时序特征共享结构的视频目标检测方法包括:通过在原有的神经网络结构中加入时序特征共享结构,完成时序特征共享神经网络构建;在网络训练时通过相邻帧共享的时序神经网络训练方法实现端到端的神经网络训练;利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。本发明专利技术通过时序特征共享结构传递上一帧图像特征,实现准确的视频目标检测,并结合相邻帧共享的网络训练方法实现端到端的神经网络训练。
【技术实现步骤摘要】
一种基于时序特征共享结构的视频目标检测方法
本专利技术涉及图像处理
,具体涉及一种基于时序特征共享结构的视频目标检测方法。
技术介绍
当前的大部分信息主要通过视频流进行传播,视频分析技术也因此受到了广大学者的关注,而视频目标检测时视频分析技术的基础,伴随着近几年人工智能的不断发展,该领域也受到了广泛的关注。当前的大部分视频目标检测方法由于需要同时读取多帧视频图像进行处理,占用了大量的内存与显存且计算效率较低,对硬件要求较高。而基于时序特征共享结构的神经网络仅对单帧图像进行处理,通过时序特征共享结构获取时序特征,占用计算资源较小,计算速度快,且能实现端到端的神经网络训练,能更好的适用于实际中的应用。为了解决准确的视频目标检测问题,国内外学术界、工业界提出了很多方案。其中与本专利技术较为接近的技术方案包括:F.Xiao(F.Xiao,Y.JaeLee,“Videoobjectdetectionwithanalignedspatial-temporalmemory”[C],ProceedingsoftheEuropeanConferenceonComputerVision(ECCV),Munich,Germany,pp.485-501,2018)提出了一种名为STMM的共享时空的网络结构,用于处理多个视频帧间的特征共享问题,并考虑到时空上的特征延时问题,进行了时空上特征对齐操作,以消除过去的特征对当前的网络识别的影响;但该共享时空的网络结构STMM对前后多帧的图像特征进行处理,而在实时的实际应用中,后续视频帧的图像并不能在当前帧获得,且该结构较为复杂,不能实现端到端的神经网络训练,实际应用较为困难。M.Liu等人(M.Liu,M.Zhu.“Mobilevideoobjectdetectionwithtemporally-awarefeaturemaps”[C],ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pp.5686-5695,2018.)结合LSTM和卷积神经网络提出了ConvLSTM结构,并结合SSD目标检测方法实现视频目标检测;该网络利用了多个中间层ConvLSTM结构,共享视频时序特征,但各个ConvLSTM需要单独进行训练,其网络训练较为繁琐,不利于实际场景中的使用。M.Buckler等人(M.Buckler,P.Bedoukian,S.Jayasuriya,etal.“EVA2:ExploitingTemporalRedundancyinLiveComputerVision”[C],2018ACM/IEEE45thAnnualInternationalSymposiumonComputerArchitecture(ISCA).IEEE,pp.533-546,2018.)将图像分为关键帧和普通帧,根据关键帧前向传播得到网络的各层特征;在普通帧中,逐像素的计算每个点的运动向量场,结合关键帧提取的特征,对该层网络信息进行补偿和预测;该方法有效结合视频流信息,较好的解决了视频目标检测的运行效率问题,但该方法在变化剧烈的视频处理中,会退化为图像处理的目标检测方法,检测的准确率较低。综上所述,当前视频目标检测方案中存在如下不足:1)多数方法通过多帧特征共享实现视频目标检测,但对应的网络训练需要分为多个阶段进行,无法实现端到端的神经网络训练;2)部分方法通过同时处理一段视频片段的图像帧,得到较好的检测结果,但在实际场景中需要进行实时的目标检测,同时处理一段视频图像对硬件的要求较高,且不能满足实时的实际应用需求;3)部分方法利用视频流信息,对关键帧和非关键帧进行区分处理,但在视频段较为复杂的情况下,该方法便会化为针对图像的视频目标检测方法,较其他方法检测准确率较低。视频目标检测作为视频图像分析的基础方法,在各行业中都有较好的实际应用场景,但当前的方法对硬件的计算能力要求较高,且网络由多个部分组成,不能实现端到端的神经网络训练,易用性较差。
技术实现思路
为了提高视频目标检测的准确率,并实现端到端的神经网络训练,本专利技术提供了一种基于时序特征共享结构的视频目标检测方法;它通过时序特征共享结构传递上一帧图像特征,实现准确的视频目标检测,并结合相邻帧共享的网络训练方法实现端到端的神经网络训练。本专利技术的技术方案如下:一种基于时序特征共享结构的视频目标检测方法,其特征在于,包括如下步骤:1)在神经网络中加入时序特征共享网络结构,建立时序特征共享神经网络;2)在网络训练时通过相邻帧共享的时序神经网络训练方法,实现端到端的神经网络训练;3)利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤1)具体过程如下:1.1)时序特征共享人工神经网络是以YOLOV3为基础进行改进的视频目标检测网络,其基础网络结构为darkNet-53,则网络输出的时序特征集合FM={fij|i=1,2,3,…nframe,j=1,2,3,…,nlayer},其中fij表示在第i帧图像输入网络后在网络中第j层生成的网络特征,nframe表示视频图像的总帧数,nlayer表示网络的层数;在网络的第76层、83层和96层之后分别加入时序特征共享网络结构,该结构的输入为特征fij和fkj,其中fij和fkj分别表示第i帧图像和第k帧图像输入网络后在第j层的特征输出,且满足式(1):1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起,输入到下一层网络之中,并将特征fij输入到下一帧的目标检测计算中;在网络的最后,YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出;所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤2)具体过程如下:步骤2.1):从数据集中随机两两读取nbatch组连续视频图像和对应标签作为训练样本S={sp|p=1,2,3,…,nbatch,sp=(Iq,I(q+1),Lq,L(q+1)),q=1,2,3,…,nframe-1},Iq和I(q+1)分别表示第q帧和第q+1帧的视频图像,Lq和L(q+1)分别表示第q帧和第q+1帧对应的标签,nbatch表示样本组数,nframe表示视频图像的总帧数;步骤2.2):将训练样本S中每组样本sp进行随机翻转、随机仿射变换、随机亮度和对比度变化的数据增广,每组样本sp中的图像和标签其数据增广方式相同,得增广后的训练样本S′;步骤2.3):将增广后的训练样本S′组成一个批次,输入到时序特征共享神经网络之中进行前向传播,得到图像在76层、83层和96层生成的特征图FM={Fp|p=1,2,3,…,nbatch},Fp=(fq,f(q+1)),其中fq和f(q+1)分别为图像Iq和I(q+1)生成的特征图,fq={fql|l=76,83,96},其中fql表示图像Iq在第l层网络本文档来自技高网...
【技术保护点】
1.一种基于时序特征共享结构的视频目标检测方法,其特征在于,包括如下步骤:/n1)在神经网络中加入时序特征共享网络结构,建立时序特征共享神经网络;/n2)在网络训练时通过相邻帧共享的时序神经网络训练方法,实现端到端的神经网络训练;/n3)利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。/n
【技术特征摘要】
1.一种基于时序特征共享结构的视频目标检测方法,其特征在于,包括如下步骤:
1)在神经网络中加入时序特征共享网络结构,建立时序特征共享神经网络;
2)在网络训练时通过相邻帧共享的时序神经网络训练方法,实现端到端的神经网络训练;
3)利用已训练完成的时序特征共享网络实现准确快速的视频目标检测。
2.根据权利要求1所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤1)具体过程如下:
1.1)时序特征共享人工神经网络是以YOLOV3为基础进行改进的视频目标检测网络,其基础网络结构为darkNet-53,则网络输出的时序特征集合FM={fij|i=1,2,3,…nframe,j=1,2,3,…,nlayer},其中fij表示在第i帧图像输入网络后在网络中第j层生成的网络特征,nframe表示视频图像的总帧数,nlayer表示网络的层数;在网络的第76层、83层和96层之后分别加入时序特征共享网络结构,该结构的输入为特征fij和fkj,其中fij和fkj分别表示第i帧图像和第k帧图像输入网络后在第j层的特征输出,且满足式(1):
1.2)其后将输入特征通过通道维度拼接操作将两部分特征叠加在一起,输入到下一层网络之中,并将特征fij输入到下一帧的目标检测计算中;在网络的最后,YOLO层对第i帧图像中的目标位置、目标类别和置信度进行输出。
3.根据权利要求2所述的一种基于时序特征共享结构的视频目标检测方法,其特征在于,所述步骤2)具体过程如下:
步骤2.1):从数据集中随机两两读取nbatch组连续视频图像和对应标签作为训练样本S={sp|p=1,2,3,…,nbatch,sp=(Iq,I(q+1),Lq,L(q+1)),q=1,2,3,…,nframe-1},Iq和I(q+1)分别表示第q帧和第q+1帧的视频图像,Lq和L(q+1)分别表示第q帧和第q+1帧对应的标签,nbatch表示样本组数,nframe表示视频图像的总帧数;
步骤2.2):将训练样本S中每组样本sp进行随...
【专利技术属性】
技术研发人员:高飞,葛一粟,卢书芳,翁立波,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。