一种基于双向长短期记忆神经网络的目标跟踪方法技术

技术编号:22418431 阅读:52 留言:0更新日期:2019-10-30 02:05
本发明专利技术公开了一种基于双向长短期记忆神经网络的目标跟踪方法,目的是提高目标识别准确率。技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,采用边框回归方法对LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测,识别目标区域,训练后的LSTMf网络分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域,目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域。本发明专利技术适合处理具有连续性的视频数据序列,目标跟踪准确率高。

【技术实现步骤摘要】
一种基于双向长短期记忆神经网络的目标跟踪方法
本专利技术涉及计算机视觉目标跟踪领域,具体涉及一种基于双向长短期记忆神经网络对视频序列中目标进行跟踪的方法。
技术介绍
视觉系统是人类同外界交互的主要感官系统之一,是人们获取信息,接受外界丰富资源的重要来源。视频中丰富的画面不仅能够人们带来各种视觉效果体验,还包含了大量的语义信息和特征内容,帮助人们理解视频所要传达的信息。在全球智能化及信息化的时代,视频数据的分析与处理技术一直是科学家们重点研究内容。人工智能技术的发展与硬件设备计算性能的提升,推动了计算机视觉领域图像处理、目标识别、视频分析等多项技术的深入研究。视频分析融合了计算机视觉领域的中层处理和高层处理阶段,即对图像进行处理,从而研究图像中物体目标的规律,或者为系统的决策提供语义或非语义的支持,包括运动检测、目标检测分类、目标跟踪、行为理解、事件监测等。视频目标跟踪方法的研究与应用作为计算机视觉领域的一个重要分支,正日益广泛地应到人机交互、无人机设备、智能监控系统、无人驾驶等领域,因而目标跟踪方法成为热门研究的课题之一。目标跟踪是计算机视觉领域的一项重要任务。在计算机视觉领域,视觉跟踪一般是指对单目标的跟踪。具体来说,目标跟踪指的是,根据在第一帧图像中给定目标的回归框信息,实现预测后续每帧图像中目标的状态,对应目标的回归框信息。通过直观标注的目标信息,可以计算出目标物体的位置和尺度信息,生成持续不断的轨迹信息,方便后续的目标位置预测、轨迹预测、行为检测和异常分析等任务。目前城市安防系统中使用的智能监控系统中,目标跟踪技术正在被广泛应用,实现特定目标的追踪,特定目标的行为预测等任务。因此对目标跟踪技术展开研究是十分必要的。目标跟踪算法主要分为两大类,经典的生成式算法和流行的判别式算法。经典的生成式算法使用基于概率密度分布、特征点光流或者粒子滤波,在跟踪效果的精度上有折损。判别式跟踪算法又称为检测式跟踪,算法训练一个检测器,对目标位置及尺度进行初步判断,再利用跟踪算法或者目标框回归算法给出最终的目标定位。基于深度学习的判别式跟踪算法利用神经网络提取的深层卷积特征,具有语义更加丰富、表达能力更强的特点。目标在实际场景下现实场景中存在主动性的不确定行为,导致了目标跟踪需要解决目标大小变化、外观变化、目标受遮挡、实时性需求和背景干扰等问题。目标跟踪技术面对的是实际场景中的情况,会因为光照、目标大小、旋转、移动速度等问题增加跟踪难度。目标跟踪任务使用的视觉数据为视频数据,视频数据的时序特征能够提供更好的描述运动目标在时间上的连续性,提供更多的上下文信息。基于深度学习的跟踪算法能够对目标提取鲁棒的深度特征,利用深层特征的不变性提高检测率,但是当目标出现巨大形变或者出现遮挡的情况时,只利用目标的外观特征信息不能得到准确的目标定位,忽略了视频数据提供的目标的连续性动态特征。因此,利用视频连续性提供的更丰富的目标动态信息,有助于更准确地对目标行为进行下一步预测。视频数据的连续性是分析特征的一个重要研究点。现有的目标跟踪算法致力于提取更加鲁棒的目标特征,提高目标在初步识别过程中的检测率,从而提高在后续的跟踪准确率。动态目标在视频中行为具有时间连续性,在连续的动态时空中不会出现较大波动,并且不管是从时间的正向序列还是反向序列来看,目标行为都具有连续性。目标在正向时间起始动作到终止动作,可以看作是倒叙时间中的终止动作和起始动作。利用正反向时序中目标连续信息,能够有效地提高在视频数据中目标的位置判断及行为轨迹预测结果。因此,如何充分利用视频数据的时序信息,结合正反向时间序列中目标的动态连续性,提供一种鲁棒的目标跟踪方法,是本领域技术人员正在探讨的热点问题。
技术实现思路
本专利技术要解决的技术问题是提供一种基于双向长短期记忆神经网络的目标跟踪方法。此方法基于深度学习检测式判别框架,利用视频数据的时序信息,提高目标识别的准确率,实现当目标出现外观形变、大小变化和漂移等情况时,仍然能够有效跟踪目标的要求。为解决上述技术问题,本专利技术技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,采用边框回归方法对LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测,识别目标区域,训练后的LSTMf网络分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域,目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域。本专利技术主要包括以下具体步骤:第一步:构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络(以下简称LSTMf网络)分支和LSTMb反向长短时记忆循环网络(以下简称LSTMb网络)分支、目标区域计算器构成。特征提取模块为卷积神经网络(称为netl),此网络共包含24个卷积层,4个池化层和1个全连接层,共29层。池化层分别为第2、4、9、20层,全联接层为第29层,其它层均为卷积层。特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I)。I={i1,i2,…,it,...,in},共有n张图像,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像。n张抽象特征图构成抽象特征图集合,F(I)={F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图。目标检测模块是YOLO检测网络(见文献“YouOnlyLookOnce:Unified,Real-TimeObjectDetection[J].2015.”RedmonJ,DivvalaS等人的论文:你只需要查看一次:统一的、实时目标检测)。目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C。C=(c1,c2,...,ct,...,cn),ct为图像集合I中第t张图像it上的最佳候选目标区域。特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt。n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn)。因为I的图像具有时间连续性,D中带有上下文特征的目标区域与I中图像一一对应,所以从d1到dn也具有时间时间连续性。LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb。LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层。输入层、隐含层使用长短期记忆网络单元(以下称为LSTM单元)(见文献“Longshort-termmemory.[J].NeuralComputation,1997,9(8):1735-178本文档来自技高网
...

【技术保护点】
1.一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于包括以下步骤:第一步:构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络分支和LSTMb反向长短时记忆循环网络分支、目标区域计算器构成,LSTMf正向长短时记忆循环网络简称LSTMf网络,LSTMb反向长短时记忆循环网络简称LSTMb网络;特征提取模块为卷积神经网络,此网络由卷积层、池化层和全连接层组成;特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,…,it,...,in},共有n张图像,1≤t≤n,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it‑1的下一帧图像;F(I)={F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图;目标检测模块是YOLO检测网络,目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C,C=(c1,c2...,.ct,....,cn),ct为it上的最佳候选目标区域;特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt;n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn);LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域l...

【技术特征摘要】
1.一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于包括以下步骤:第一步:构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络分支和LSTMb反向长短时记忆循环网络分支、目标区域计算器构成,LSTMf正向长短时记忆循环网络简称LSTMf网络,LSTMb反向长短时记忆循环网络简称LSTMb网络;特征提取模块为卷积神经网络,此网络由卷积层、池化层和全连接层组成;特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,…,it,...,in},共有n张图像,1≤t≤n,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像;F(I)={F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图;目标检测模块是YOLO检测网络,目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C,C=(c1,c2...,.ct,....,cn),ct为it上的最佳候选目标区域;特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt;n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn);LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb,网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb;LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层;目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L;第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据,方法为:2.1选择来自OTB100中的20个图像集即OTB20,作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB100指OnlineTrackingBenchmarkDateset中的100个图像集合,OTB20包含I1,I2,…,Im,…,I2020个图像集合以及对应的图像中真实目标区域的回归框集合G1,G2,…,Gm,...,G20,m为整数,1≤m≤20;Im中的图片具有时间上的连续性,表示Im在第j张即j时刻的图片,1≤j≤n,n是Im中图片的张数即Im共有n个时刻;G={g1,g2,...,gj,...,gn},gj表示Im中第j时刻图片的真实目标区域回归框,为包含四个值的一维向量,表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域的宽度和高度,四个值均为标量,四个值表示出了一个矩形的目标区域;2.2特征提取模块对I1,I2,...,Im,...,I20中的图像进行特征提取:卷积层对Im中图像通过卷积方式进行特征提取,池化层对前一层的输出进行最大特征提取,全连接层将前一层的输出特征汇总,得到I1,I2,...,Im,...,I20相应的特征图集合序列F(I1),F(I2),...,F(Im),...,F(I20),将F(I1),F(I2),...,F(Im),...,F(I20)发送到目标检测模块,表示图像集Im中第j张图片对应的抽象特征图;2.3目标检测模块对F(I1),F(I2),...,F(Im),...,F(I20)中的抽象特征图做检测,得到最佳目标候选区域集合序列C(I1),C(I2),...,C(Im),...,C(I20),方法为:2.3.1初始化m=1;2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列2.3.3目标检测模块采用非极大抑制方法即NMS方法计算中的最佳候选区域,得到最佳候选区域集合表示图像集Im中第j张图像上的最佳候选区域;2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明得到了最佳目标候选区域序列C(I1),C(I2),...,C(Im),...,C(I20),转步骤2.4;2.4特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20,将D1,D2,...,Dm,...,D20即20个目标候选区域集合发送给LSTMf网络分支和LSTMb网络分支,转第三步;第三步:使用边框回归方法对输入为D1,D2,...,Dm,...,D20的LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数,方法如下:3.1初始化权重参数,将LSTMf网络分支权重参数集合中所有元素值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合中所有元素值都初始化为[0,1]之间的随机数;表示LSTMf网络分支输入层的权重参数,表示LSTMf网络分支隐含层的权重参数,表示LSTMf网络分支输出层的权重参数;表示LSTMb网络分支输入层的权重参数,表示LSTMb网络分支隐含层的权重参数,表示LSTMb网络分支输出层的权重参数;3.2设置网络训练参数:令网络模型学习率leamingRate=0.00001,批处理尺寸batchsize=1,网络步长numstep为在范围[4,9]内的正整数;3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数要求,得到权重参数,具体方法如下:3.3.1初始化训练迭代参数itretation=1;3.3.2如果itretation≤迭代阈值K,K是[1,100]内的整数,执行3.3.3步;否则将训练后的做为LSTMf网络分支的权重参数集合,将训练后的作为LSTMb网络分支的权重参数集合,转第四步。3.3.3LSTMf网络分支接收D1,D2,...,Dm,...,D20,处理正向排序的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合LSTMb网络分支接收集合D1,D2,...,Dm,...,D20,处理反向排序的带有上文特征的候选区域,得到反向预测的目标区域回归框初值集合计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:3.3.3.1初始化m=1;3.3.3.2LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合具体方法如下:3.3.3.2.1初始化t=0;3.3.3.2.2LSTMf网络分支从Dm中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTMf网络分支中,得到LSTMf在t+numstep时刻对目标区域的预测回归框初值将放到集合中;为包含四个值的一维向量,表示正向预测目标区域回归框中心相对于图像边界的坐标值,表示正向预测目标区域回归框的宽度,表示正向预测目标区域回归框的高度,四个值表示一个矩形的目标区域;3.3.3.2.3LSTMb网络分支将反转,得到将从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值将放到集合中,为一维向量;表示反向预测目标区域回归框中心相对于图像边界的坐标值,表示反向预测目标区域回归框的宽度,表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域;3.3.3.2.4令t=t+1,如果t≤n-numstep,转3.3.3.2.2步;否则说明已经根据Dm中候选区域经过LSTMf网络分支得到目标区域回归框初始集合同时经过LSTMb网络分支目标区域回归框初始集合执行第3.3.3.2.5步;3.3.3.2.5令将加入到中;令将加入到得到正向目标区域回归框预测初值集合和反向目标区域回归框预测初值集合3.3.3.3计算误差值Loss,令其中,体现了正向预测回归框初值与反向预测回归框初值的平均预测值,为j时刻目标区域回归框的真值,MSE(·)为计算两个输入的均方误差的函数,3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数;3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,....

【专利技术属性】
技术研发人员:史殿习潘晨管乃洋夏雨生
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1