基于双流卷积神经网络的目标跟踪方法、系统、设备及介质技术方案

技术编号:20488132 阅读:31 留言:0更新日期:2019-03-02 20:28
本发明专利技术公开了一种基于双流卷积神经网络的目标跟踪方法、系统、设备及介质,所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,提取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。本发明专利技术达到了很好的跟踪效果。

Target tracking method, system, equipment and media based on dual-stream convolution neural network

The invention discloses a target tracking method, system, equipment and media based on dual-stream convolution neural network. The method includes: constructing a spatial flow two-dimensional convolution neural network to extract the feature information of image blocks in the current frame; constructing a three-dimensional convolution neural network of time sequence to extract the motion change feature information of objects between frames in a certain time sequence. Additive fusion of feature information of two-dimensional convolution neural network of spatial flow and three-dimensional convolution neural network of sequential flow; Fully connected sub-network is constructed according to the fused feature information to extract the required image blocks; boundary box regression is carried out to get the predicted position and size of the current frame target; two-dimensional convolution of spatial flow is carried out before target tracking. Integral neural network and sequential flow three-dimensional convolution neural network are trained offline, and in the process of target tracking, all connected subnetworks are fine tuned online. The invention achieves good tracking effect.

【技术实现步骤摘要】
基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
本专利技术涉及一种目标跟踪方法,尤其是一种基于双流卷积神经网络的目标跟踪方法、系统、计算机设备及存储介质,属于计算机视觉的目标跟踪领域。
技术介绍
视觉目标(单目标)跟踪任务是计算机视觉领域一直以来研究的热点,有着广泛应用,尤其是近年来科技生产力的高速发展,视频监控、无人机飞行、自动驾驶等等领域亟待优秀的目标跟踪算法。视觉目标跟踪任务描述的是在给定的视频序列场景下,只提供目标在第一帧中的位置,然后通过算法预测该目标接下来的位置和大小。尽管近年来涌现了一大批算法,但是依然没有较好的解决该任务,因其存在很大的挑战性,尤其是目标外观变形、尺度变化、物体遮挡、像素模糊、背景复杂等等。现有的目标跟踪算法根据观测模型可以分为生成式模型和判别式模型,即生成式方法和判别式方法。生成式方法是试图通过找到可以代表跟踪目标的最佳位置,例如基于贝叶斯网络推断模型的增量PCA法、基于外观模型的编码表示、卡尔曼滤波等。近年来主流的算法为判别式方法,主要分为相关滤波方法和深度学习方法两大类。相关滤波法起源于数字信号处理领域,其核心在于用相关性表示两个信号之间的相似程度,这里通常用卷积作为相关运算。相关滤波法基本思想是寻找一个滤波模板,通过这个滤波模板作用于下一帧的图像中产生得到最大响应区域,则该区域可以表征目标所在位置,例如著名的科罗拉多州立大学DavidS.Bolme专利技术的MOSSE算法、科英布拉大学系统与机器人研究所专利技术的CSK等算法。近年来由于循环矩阵的引入,使得算法主要运用矩阵运算,使得相关滤波法效率有了很大的提升,特别是开山之作,科英布拉大学F.Henriques等人专利技术的KCF算法,利用循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量的Hadamad积,即元素的点乘,大大降低了运算量,跟踪速度惊人,平均每秒达到172帧。但是相关滤波方法的致命缺点是对目标位置和大小的精度把握不足,即与真实目标的区域重叠度较差。而基于深度学习的方法,因其可以通过使用神经网络很好的提取目标图像的特征,在近年来大放异彩,其优点是比相关滤波法预测目标的位置和大小精度高得多。其主要思想是通过机器学习的方法训练一个前景和背景的分类器,当前帧以目标区域为正样本,背景区域为负样本,然后用训练好的分类器在下一帧中找最优区域,比较著名的有英国萨里大学的一个捷克籍博士生ZdenekKalal专利技术的TLD跟踪算法、韩国POSTECH团队专利技术的TCNN、CNN-SVM跟踪算法、美国斯坦福大学Held等人专利技术的GOTURN,等等方法。基于深度学习的方法缺点是因为目标跟踪任务的特殊性,只提供第一帧图片的标签数据,缺乏大量数据来训练神经网络,一般做法是在大规模分类图像数据集训练的模型迁移到目标跟踪来,也就是一种基于区域的目标检测方法,没有充分视频的时序性,没有把握跟踪目标帧间的运动信息。
技术实现思路
本专利技术的第一个目的是为了解决上述现有技术的缺陷,提供了一种基于双流卷积神经网络的目标跟踪方法,该方法引入了三维神经网络,首次将二维和三维卷积神经网络结合应用于目标跟踪任务,充分利用了视频的时序性,提取目标在视频帧间的运动变化信息,提高目标定位的精准性,达到了很好的跟踪效果。本专利技术的第二个目的在于提供一种基于双流卷积神经网络的目标跟踪系统。本专利技术的第三个目的在于提供一种计算机设备。本专利技术的第四个目的在于提供一种存储介质。本专利技术的第一个目的可以通过采取如下技术方案达到:基于双流卷积神经网络的目标跟踪方法,所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,获取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。进一步的,所述构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息,具体包括:基于当前帧的前一帧中目标邻域,在当前帧进行高斯采样S个图像块,作为空间流二维卷积神经网络的输入;其中,所述空间流二维卷积神经网络包括三个卷积层和两个池化层;改变三个卷积层对S个图像块四周补零的数量,输出图像特征。进一步的,所述构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息,具体包括:将N个图像一起作为时序流三维卷积神经网络的输入;其中,N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小,剩下的一个图像是基于当前帧的前一帧中目标所在区域,取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域,在当前帧截取出的图像,所述时序流三维卷积神经网络包括八个卷积层和五个池化层;改变八个卷积层对N个图像四周补零的数量,输出图像特征。进一步的,所述空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量形式均为(batch,channel,width,height);其中,batch表示网络每次处理图像的批次,channel表示图像特征的通道数,width表示图像特征的宽,height表示图像特征的高,并且空间流二维卷积神经网络和时序流三维卷积神经网络输出的batch、width、height数值均相同;所述加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息,具体包括:设在空间流二维卷积神经网络输出的图像特征的通道数是channel1,时序流三维卷积神经网络输出的特征通道数是channel2,将空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量在特征通道方向上进行拼接,拼接后融合特征向量为(batch,channel1+channel2,width,height)。进一步的,所述全连接子网络包括第一全连接层、第二全连接层和第三全连接层;所述根据融合的特征信息,构建全连接子网络,获取符合要求的图像块,具体包括:顺序级联第一全连接层和第二全连接层,在第二全连接层后并列展开b个全连接层分支,每个全连接层分支作为一个第三全连接层;将融合的特征信息作为全连接子网络的输入,通过全连接子网络计算,输出一个二维向量(score1,score2);其中,score1表示输入空间流二维卷积神经网络相应图像块与目标的相似性得分,score2表示输入空间流二维卷积神经网络相应图像块与背景的相似性得分;在空间流二维卷积神经网络的图像块中,选取与目标的相似性得分最高的图像块,作为符合要求的图像块。进一步的,所述在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练,具体包括:构建训练数据集;其中,所述训练数据集为多个跟踪视频序列,每个跟踪视频序列的每一帧有跟踪目标真实边界框的标注;将当前帧跟踪目标图像批量的T个正样本或F个负样本作为空间流二维卷积神经网络的输入,对空间流二维卷积神经网络进行线下训练;将N个图像一起作为时序流三维卷积神经网络的输入,对时本文档来自技高网
...

【技术保护点】
1.基于双流卷积神经网络的目标跟踪方法,其特征在于:所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,获取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。

【技术特征摘要】
1.基于双流卷积神经网络的目标跟踪方法,其特征在于:所述方法包括:构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息;构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息;加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息;根据融合的特征信息,构建全连接子网络,获取符合要求的图像块;对符合要求的图像块的边界框进行边界框回归,得到当前帧目标的预测位置和大小;在对目标跟踪前,对空间流二维卷积神经网络和时序流三维卷积神经网络进行线下训练;在对目标跟踪过程中,对全连接子网络进行线上精调。2.根据权利要求1所述的目标跟踪方法,其特征在于:所述构建空间流二维卷积神经网络,提取当前帧中图像块的特征信息,具体包括:基于当前帧的前一帧中目标邻域,在当前帧进行高斯采样S个图像块,作为空间流二维卷积神经网络的输入;其中,所述空间流二维卷积神经网络包括三个卷积层和两个池化层;改变三个卷积层对S个图像块四周补零的数量,输出图像特征。3.根据权利要求1所述的目标跟踪方法,其特征在于:所述构建时序流三维卷积神经网络,提取一定时序范围内的视频序列中帧与帧之间目标的运动变化特征信息,具体包括:将N个图像一起作为时序流三维卷积神经网络的输入;其中,N-1个图像是在当前帧的前N-1帧中目标所在区域的预测位置和大小,剩下的一个图像是基于当前帧的前一帧中目标所在区域,取该前一帧中目标所在区域中心点不变、长宽各扩大至少两倍的区域,在当前帧截取出的图像,所述时序流三维卷积神经网络包括八个卷积层和五个池化层;改变八个卷积层对N个图像四周补零的数量,输出图像特征。4.根据权利要求1所述的目标跟踪方法,其特征在于:所述空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量形式均为(batch,channel,width,height);其中,batch表示网络每次处理图像的批次,channel表示图像特征的通道数,width表示图像特征的宽,height表示图像特征的高,并且空间流二维卷积神经网络和时序流三维卷积神经网络输出的batch、width、height数值均相同;所述加性融合空间流二维卷积神经网络和时序流三维卷积神经网络的特征信息,具体包括:设在空间流二维卷积神经网络输出的图像特征的通道数是channel1,时序流三维卷积神经网络输出的特征通道数是channel2,将空间流二维卷积神经网络和时序流三维卷积神经网络最后一个卷积层输出的特征向量在特征通道方向上进行拼接,拼接后融合特征向量为(batch,channel1+channel2,width,height)。5.根据权利要求1所述的目标跟踪方法,其特征在于:所述全连接子网络包括第一全连接层、第二全连接层和第三全连接层;所述根据融合的特征信息,构建全连接子网络,获取符合要求的图像块,具体包括:顺序级联第一全连接层和第二全连接层,在第二全连接层后并列展开b个全连接层分支,每个全连接层分支作为一个第三全连接层;将融合的特征信息作为全连接子网络的输入,通过全连接子网络计算,输出一个二维向量(score1,score2);其中,score1表示输入空间流二维卷积神经网络相应图像块与目标的相似性得分,score2...

【专利技术属性】
技术研发人员:黄双萍伍思航李豪杰
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1