一种基于双向长短期记忆神经网络的目标跟踪方法技术

技术编号：22418431 阅读：52 留言：0更新日期：2019-10-30 02:05

本发明专利技术公开了一种基于双向长短期记忆神经网络的目标跟踪方法，目的是提高目标识别准确率。技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集，采用边框回归方法对LSTMf网络分支和LSTMb网络分支进行训练，得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测，识别目标区域，训练后的LSTMf网络分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域，目标区域计算器接收LSTMf网络输出和LSTMb网络输出，计算最终目标区域。本发明专利技术适合处理具有连续性的视频数据序列，目标跟踪准确率高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双向长短期记忆神经网络的目标跟踪方法
本专利技术涉及计算机视觉目标跟踪领域，具体涉及一种基于双向长短期记忆神经网络对视频序列中目标进行跟踪的方法。
技术介绍
视觉系统是人类同外界交互的主要感官系统之一，是人们获取信息，接受外界丰富资源的重要来源。视频中丰富的画面不仅能够人们带来各种视觉效果体验，还包含了大量的语义信息和特征内容，帮助人们理解视频所要传达的信息。在全球智能化及信息化的时代，视频数据的分析与处理技术一直是科学家们重点研究内容。人工智能技术的发展与硬件设备计算性能的提升，推动了计算机视觉领域图像处理、目标识别、视频分析等多项技术的深入研究。视频分析融合了计算机视觉领域的中层处理和高层处理阶段，即对图像进行处理，从而研究图像中物体目标的规律，或者为系统的决策提供语义或非语义的支持，包括运动检测、目标检测分类、目标跟踪、行为理解、事件监测等。视频目标跟踪方法的研究与应用作为计算机视觉领域的一个重要分支，正日益广泛地应到人机交互、无人机设备、智能监控系统、无人驾驶等领域，因而目标跟踪方法成为热门研究的课题之一。目标跟踪是计算机视觉领域的一项重要任务。在计算机视觉领域，视觉跟踪一般是指对单目标的跟踪。具体来说，目标跟踪指的是，根据在第一帧图像中给定目标的回归框信息，实现预测后续每帧图像中目标的状态，对应目标的回归框信息。通过直观标注的目标信息，可以计算出目标物体的位置和尺度信息，生成持续不断的轨迹信息，方便后续的目标位置预测、轨迹预测、行为检测和异常分析等任务。目前城市安防系统中使用的智能监控系统中，目标跟踪技术正在被广泛应用，实现特定目标的追踪...

【技术保护点】
1.一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于包括以下步骤：第一步：构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络分支和LSTMb反向长短时记忆循环网络分支、目标区域计算器构成，LSTMf正向长短时记忆循环网络简称LSTMf网络，LSTMb反向长短时记忆循环网络简称LSTMb网络；特征提取模块为卷积神经网络，此网络由卷积层、池化层和全连接层组成；特征提取模块接收来自图像集合I中的连续图像，对I中图像进行特征提取，得到抽象特征图集合F(I)；I＝{i1，i2，…，it，...，in}，共有n张图像，1≤t≤n，图像之间具有时间连续性，it为图像集合I中第t张图像，也为it‑1的下一帧图像；F(I)＝{F(i1)，F(i2)，…，F(it)，…，F(in)}，F(it)为it的抽象特征图；目标检测模块是YOLO检测网络，目标检测模块从特征提取模块接收抽象特征图集合F(I)，对F(I)中的抽象特征图逐张进行目标检测，得到最佳候选目标区域集合C，C＝(c1，c2...，.ct，....，cn)，ct为it上的最佳候选目标区域；...

【技术特征摘要】
1.一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于包括以下步骤：第一步：构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络分支和LSTMb反向长短时记忆循环网络分支、目标区域计算器构成，LSTMf正向长短时记忆循环网络简称LSTMf网络，LSTMb反向长短时记忆循环网络简称LSTMb网络；特征提取模块为卷积神经网络，此网络由卷积层、池化层和全连接层组成；特征提取模块接收来自图像集合I中的连续图像，对I中图像进行特征提取，得到抽象特征图集合F(I)；I＝{i1，i2，…，it，...，in}，共有n张图像，1≤t≤n，图像之间具有时间连续性，it为图像集合I中第t张图像，也为it-1的下一帧图像；F(I)＝{F(i1)，F(i2)，…，F(it)，…，F(in)}，F(it)为it的抽象特征图；目标检测模块是YOLO检测网络，目标检测模块从特征提取模块接收抽象特征图集合F(I)，对F(I)中的抽象特征图逐张进行目标检测，得到最佳候选目标区域集合C，C＝(c1，c2...，.ct，....，cn)，ct为it上的最佳候选目标区域；特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合，得到带有上下文特征的目标区域dt；n个带有上下文特征的目标区域构成目标区域集合D，D＝(d1，d2，...，dt，...，dn)；LSTMf网络和LSTMb网络为并行的两个分支，LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域，输出预测目标区域lf；LSTMb，网络分支接收来自目标区域集合D中倒序的连续多个目标区域，输出目标预测区域lb；LSTMf网络分支和LSTMb网络分支结构相同，都包含三个全连接层，第一层为输入层，第二层为隐含层，第三层为输出层；目标区域计算器接收LSTMf网络输出和LSTMb网络输出，计算最终目标区域L；第二步：准备LSTMf网络分支和LSTMb网络分支需要的训练数据，方法为：2.1选择来自OTB100中的20个图像集即OTB20，作为对LSTMf网络和LSTMb网络的进行训练的训练数据集，OTB100指OnlineTrackingBenchmarkDateset中的100个图像集合，OTB20包含I1，I2，…，Im，…，I2020个图像集合以及对应的图像中真实目标区域的回归框集合G1，G2，…，Gm，...，G20，m为整数，1≤m≤20；Im中的图片具有时间上的连续性，表示Im在第j张即j时刻的图片，1≤j≤n，n是Im中图片的张数即Im共有n个时刻；G＝{g1，g2，...，gj，...，gn}，gj表示Im中第j时刻图片的真实目标区域回归框，为包含四个值的一维向量，表示目标区域回归框中心相对于图像边界的坐标值，表示目标区域的宽度和高度，四个值均为标量，四个值表示出了一个矩形的目标区域；2.2特征提取模块对I1，I2，...，Im，...，I20中的图像进行特征提取：卷积层对Im中图像通过卷积方式进行特征提取，池化层对前一层的输出进行最大特征提取，全连接层将前一层的输出特征汇总，得到I1，I2，...，Im，...，I20相应的特征图集合序列F(I1)，F(I2)，...，F(Im)，...，F(I20)，将F(I1)，F(I2)，...，F(Im)，...，F(I20)发送到目标检测模块，表示图像集Im中第j张图片对应的抽象特征图；2.3目标检测模块对F(I1)，F(I2)，...，F(Im)，...，F(I20)中的抽象特征图做检测，得到最佳目标候选区域集合序列C(I1)，C(I2)，...，C(Im)，...，C(I20)，方法为：2.3.1初始化m＝1；2.3.2目标检测模块对F(Im)中的特征图进行目标检测，得到候选框集合序列2.3.3目标检测模块采用非极大抑制方法即NMS方法计算中的最佳候选区域，得到最佳候选区域集合表示图像集Im中第j张图像上的最佳候选区域；2.3.4令m＝m+1，如果m≤20，转2.2.2步；如果m＞20，说明得到了最佳目标候选区域序列C(I1)，C(I2)，...，C(Im)，...，C(I20)，转步骤2.4；2.4特征拼接模块将C(I1)，C(I2)，...，C(Im)，...，C(I20)中的最佳目标候选区域与F(I1)，F(I2)，...，F(Im)，...，F(I20)中的最佳候选区域拼接，得到带有上下文特征的目标候选区域序列D1，D2，...，Dm，...，D20，将D1，D2，...，Dm，...，D20即20个目标候选区域集合发送给LSTMf网络分支和LSTMb网络分支，转第三步；第三步：使用边框回归方法对输入为D1，D2，...，Dm，...，D20的LSTMf网络分支和LSTMb网络分支进行训练，得到网络权重参数，方法如下：3.1初始化权重参数，将LSTMf网络分支权重参数集合中所有元素值都初始化为[0，1]之间的随机数；将LSTMb网络分支权重参数集合中所有元素值都初始化为[0，1]之间的随机数；表示LSTMf网络分支输入层的权重参数，表示LSTMf网络分支隐含层的权重参数，表示LSTMf网络分支输出层的权重参数；表示LSTMb网络分支输入层的权重参数，表示LSTMb网络分支隐含层的权重参数，表示LSTMb网络分支输出层的权重参数；3.2设置网络训练参数：令网络模型学习率leamingRate＝0.00001，批处理尺寸batchsize＝1，网络步长numstep为在范围[4，9]内的正整数；3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均值与真实目标区域差距，得到损失值，最小化损失值并更新网络参数，直到满足迭代次数要求，得到权重参数，具体方法如下：3.3.1初始化训练迭代参数itretation＝1；3.3.2如果itretation≤迭代阈值K，K是[1，100]内的整数，执行3.3.3步；否则将训练后的做为LSTMf网络分支的权重参数集合，将训练后的作为LSTMb网络分支的权重参数集合，转第四步。3.3.3LSTMf网络分支接收D1，D2，...，Dm，...，D20，处理正向排序的带有上文特征的候选区域，得到正向预测的目标区域回归框初值集合LSTMb网络分支接收集合D1，D2，...，Dm，...，D20，处理反向排序的带有上文特征的候选区域，得到反向预测的目标区域回归框初值集合计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距，以及两个网络分支均值与真实目标区域回归框的差距，得到损失值，使用优化算法缩小损失值，更新一次网络权重，具体方法如下：3.3.3.1初始化m＝1；3.3.3.2LSTMf网络分支接收Dm中的候选区域，输出预测目标区域回归框初值，组成预测目标区域回归框集合LSTMb网络分支接收Dm中的候选区域，输出预测目标区域回归框初值，组成预测目标区域回归框集合具体方法如下：3.3.3.2.1初始化t＝0；3.3.3.2.2LSTMf网络分支从Dm中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTMf网络分支中，得到LSTMf在t+numstep时刻对目标区域的预测回归框初值将放到集合中；为包含四个值的一维向量，表示正向预测目标区域回归框中心相对于图像边界的坐标值，表示正向预测目标区域回归框的宽度，表示正向预测目标区域回归框的高度，四个值表示一个矩形的目标区域；3.3.3.2.3LSTMb网络分支将反转，得到将从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中，得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值将放到集合中，为一维向量；表示反向预测目标区域回归框中心相对于图像边界的坐标值，表示反向预测目标区域回归框的宽度，表示反向预测目标区域回归框的高度，四个值表示出了一个矩形的目标区域；3.3.3.2.4令t＝t+1，如果t≤n-numstep，转3.3.3.2.2步；否则说明已经根据Dm中候选区域经过LSTMf网络分支得到目标区域回归框初始集合同时经过LSTMb网络分支目标区域回归框初始集合执行第3.3.3.2.5步；3.3.3.2.5令将加入到中；令将加入到得到正向目标区域回归框预测初值集合和反向目标区域回归框预测初值集合3.3.3.3计算误差值Loss，令其中，体现了正向预测回归框初值与反向预测回归框初值的平均预测值，为j时刻目标区域回归框的真值，MSE(·)为计算两个输入的均方误差的函数，3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数；3.3.3.5令m＝m+1，如果m≤20，转步骤3.3.3.2；否则，说明D1，D2，....

【专利技术属性】
技术研发人员：史殿习，潘晨，管乃洋，夏雨生，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人