一种基于时空特征融合学习的目标跟踪方法技术

技术编号:21200765 阅读:43 留言:0更新日期:2019-05-25 01:30
本发明专利技术公开了一种基于时空特征融合学习的目标跟踪方法,涉及计算机视觉及模式识别技术领域。首先构建时空特征融合学习网络,时空特征包括时序特征和空间特征,其中时序特征通过采用Alexnet与时间递归神经网络相结合的方式提取;空间特征又分为目标对象空间变换特征和背景空间特征,分别采用YOLOv3和Alexnet提取。在网络初始训练过程中,使用训练数据集和随机梯度下降法对时空特征融合学习网络进行训练,训练完成后网络即可获得对目标对象进行定位的初始能力。将要跟踪的图像序列输入网络中进行正向处理,网络将输出目标对象包围盒的位置和置信度,其中置信度决定网络是否进行在线学习,而包围盒的位置实现对目标对象的定位,从而实现对目标对象的跟踪。

A Target Tracking Method Based on Spatiotemporal Feature Fusion Learning

The invention discloses a target tracking method based on space-time feature fusion learning, which relates to the technical field of computer vision and pattern recognition. Firstly, a spatio-temporal feature fusion learning network is constructed. Spatio-temporal features include temporal features and spatial features. Among them, temporal features are extracted by combining Alexnet with time recursive neural network. Spatial features are divided into target spatial transformation features and background spatial features, which are extracted by YOLOv3 and Alexnet respectively. In the initial training process of the network, the training data set and the random gradient descent method are used to train the spatiotemporal feature fusion learning network. After the training, the network can acquire the initial ability to locate the target object. The image sequence to be tracked is input into the network for forward processing. The network outputs the location and confidence of the bounding box of the target object. The confidence determines whether the network is online learning or not, and the location of the bounding box realizes the location of the target object, thus realizing the tracking of the target object.

【技术实现步骤摘要】
一种基于时空特征融合学习的目标跟踪方法
本专利技术涉及计算机视觉及模式识别

技术介绍
视觉目标跟踪是计算机视觉领域的重要硏究课题,其研究内容是根据给定的一段视频片段自动识别出随后视频序列中要跟踪的目标对象,获取目标连续的位置、外观和运动等信息。目标跟踪广泛应用于军事与民用的智能监控、人机交互、自动控制系统等领域,具有很强的实用价值。但在现实情况下,目标对象的外观容易受到形变、遮挡、光照变化等因素的影响,使得视觉目标跟踪成为一项非常具有挑战性的问题。目前,目标跟踪方法主要包括经典目标跟踪方法和深度学习目标跟踪方法。经典目标跟踪方法主要分为生成式方法(Generativemethods)和判别式(Discriminativemethods)两类。生成式方法是通过建立一个区分目标和背景的模型,将目标对象从背景中有效的区分,其本质是将跟踪问题视为在感兴趣的区域中寻找最可能的候选项。而判别式方法将跟踪问题视为一个分类或者一种连续的对象检测问题,其任务是将目标从图像背景中分辨出来,这类方法同时利用目标和背景信息,是目前目标跟踪主要研究的一类方法。判别式方法通常包含两个主要的步骤,第一步是通过选择能够辨别目标和背景的视觉特征训练得到一个分类器及其决策规则,第二步是在跟踪过程中将该分类器用于对视场内的每一个位置进行评价并确定最有可能的目标位置。随后将目标框移动到该位置并重复这样的过程,进而实现跟踪,该框架被用于设计岀各种形式的跟踪算法。而这两种方法使用的特征通常都是手工提取,这些手工提取特征对解决目标发生形变、遮挡、运动突变以及光照变化等问题鲁棒性较低。深度学习(Deeplearning)是近年来机器学习研究的热点,由于其强大的特征表达能力和强大的数据集和软硬件支持,深度学习已在许多方面取得了惊人的成功,例如语音识别、图像识别、目标检测、视频分类等。深度学习在目标跟踪中的硏究发展也十分迅速,但由于目标跟踪先验知识的缺乏和实时性的要求,使得需要大量训练数据和参数计算为基础的深度学习技术在这方面难以得到充分的施展,仍具有很大的探索空间。相比于传统的手动提取特征,深度学习的一个重要特点是具有更深层次的语义特征和更强大的表征能力,对于解决目标跟踪问题更准确、可靠。在目标跟踪领域,目前有一些待解决的问题,如图像视频序列中目标对象发生形变、遮挡、运动突变以及光照变化等而引起的跟踪困难甚至丢失,因此充分利用图像的时空特征等信息进行准确、快速的目标跟踪还有待研究。鉴于此,本专利技术提出一种基于时空特征融合学习的目标跟踪方法
技术实现思路
本专利技术的目的是提供一种基于时空特征融合学习的目标跟踪方法,它能有效地解决目标对象发生形变、遮挡时的跟踪困难甚至丢失问题,实现长时间实时准确的目标跟踪。本专利技术的目的是通过以下技术方案来实现的:该方法构建了一个时空特征融合学习网络,该网络由时空特征提取网络和回归网络构成,时空特征包括时序特征和空间特征,其中时序特征通过采用Alexnet与时间递归神经网络(LSTM,LongShort-TermMemory)相结合的方式提取;空间特征又分为目标对象空间变换特征和背景空间特征,分别采用YOLOv3和Alexnet提取,有效结合了帧图像的局部与全局特征。在网络初始训练过程中,使用训练数据集和随机梯度下降法对时空特征融合学习网络进行训练,训练完成后网络即可获得对目标对象进行定位的初始能力,在跟踪过程中,将要跟踪的图像序列输入网络中进行正向处理,网络将输出目标对象包围盒的位置(目标对象的最小外接矩形位置)和置信度(样本估计值属于真实值的概率),其中置信度决定网络是否进行在线学习,而包围盒的位置实现对目标对象的定位,从而实现对目标对象的跟踪。其实现过程为:步骤一、目标选取:从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;步骤二、数据集生成:初始数据集的生成包括两个部分,一个部分为目前公开获得的有标注视频数据集或图像序列集,另一个部分是根据初始图像来人工合成的跟踪序列;人工合成的跟踪序列具体包括两个方面的工作,一方面对初始图像中的目标对象进行图像变换,包括平面内旋转、平面外旋转或者尺度变化,另一方面对目标对象在整个场景中进行按行或列循环移动,由此获得大量模拟的跟踪序列数据集;具体操作如下::首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪,对被裁剪的区域位置进行邻域像素填充,得到场景图像,然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换,其中,平面内旋转范围为0°~360°,单次旋转角度为30°,平面外旋转采用仿射变换,设置仿射变换矩阵中透射变换因子权重值变换范围为0.5~1,单次变换单位为0.1,尺度变换比例范围为0.8-1.2倍,单次变换比例为0.1,得到410种目标对象增强数据集;设置步长为10像素,并分别将这些410种目标对象增强数据集在场景图像中按行循环移动,最终得到41763张图片增强数据集,图片增强数据集中包含的所有图像均标记其对应的目标对象包围盒的位置坐标信息;步骤三、时空特征融合学习网络的构建与初始化:时空特征融合学习网络模型包括三个子网络,分别为目标空间特征提取网络,背景空间特征提取网络和时序特征提取网络;目标空间特征提取网络采用YOLOv3网络,该网络特征提取层为Darknet-53结构,共有53个卷积层,其余为残差层;其中卷积层包括1x1卷积层和3x3卷积层,这里采用Darknet-53的第53层全连接层输出的1000维神经元提取目标的空间特征;背景空间特征提取网络采用Alexnet网络模型,该网络模型结构是由8层网络组成,包括5层卷积层和3层全连接层,这里采用第7层全连接层输出的4096维神经元组成的特征提取背景空间特征;时序特征提取网络采用Alexnet网络和LSTM相结合的方式提取,先经过Alexnet网络第7层全连接层输出的4096维神经元提取图像背景的全局特征,然后经过LSTM提取图像序列中的时序特征;构建网络模型后,采用在ImageNet数据集上预先训练好的网络模型参数对所需训练网络进行参数初始化,该网络模型参数包含神经元之间的连接权重值、偏置值,并采用训练数据集对网络进行训练;网络训练具体步骤是,先训练空间特征提取网络,再训练时序特征提取网络;当训练空间特征网络时,需要固定时序特征网络的权重;空间特征提取网络训练流程是先进行目标特征提取网络的训练,在YOLOv3后添加一层LSTM,训练规则是输入2组图像序列,图像尺寸归一化为224x224像素,第一组序列为{It-1、It-2、It-3、It-4},第二组序列为{It-2、It-3、It-4、It-5},其中It-1、It-2、It-3、It-4、It-5分别代表t-1、t-2、t-3、t-4、t-5时刻的帧图像,5<t<41764,依次按序将第一组图像提取的特征对第二组序列特征进行相减运算,经过800批次训练得到目标对象的空间变换特征;之后训练背景特征提取网络,固定目标特征提取网络模型参数不变,在Alexnet后添加一层LSTM,训练规则是将41763张图片输入Alexnet网络中进行训练,经过500批次训练得到背景本文档来自技高网
...

【技术保护点】
1.一种基于时空特征融合学习的目标跟踪方法,包含如下步骤:步骤一、目标选取:从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;步骤二、数据集生成:初始数据集的生成包括两个部分,一个部分为目前公开获得的有标注视频数据集或图像序列集,另一个部分是根据初始图像来人工合成的跟踪序列;人工合成的跟踪序列具体包括两个方面的工作,一方面对初始图像中的目标对象进行图像变换,包括平面内旋转、平面外旋转或者尺度变化,另一方面对目标对象在整个场景中进行按行或列循环移动,由此获得大量模拟的跟踪序列数据集;具体操作如下:首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪,对被裁剪的区域位置进行邻域像素填充,得到场景图像,然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换,其中,平面内旋转范围为0°~360°,单次旋转角度为30°,平面外旋转采用仿射变换,设置仿射变换矩阵中透射变换因子权重值变换范围为0.5~1,单次变换单位为0.1,尺度变换比例范围为0.8~1.2倍,单次变换比例为0.1,得到410种目标对象增强数据集;设置步长为10像素,并分别将这410种目标对象增强数据集在场景图像中按行循环移动,最终得到41763张图片增强数据集,图片增强数据集中包含的所有图像均标记其对应的目标对象包围盒的位置信息;步骤三、时空特征融合学习网络的构建与初始化:时空特征融合学习网络模型包括三个子网络,分别为目标空间特征提取网络、背景空间特征提取网络和时序特征提取网络;目标空间特征提取网络采用YOLOv3网络,该网络特征提取层为Darknet‑53结构,共有53个卷积层,其余为残差层;其中卷积层包括1x1卷积层和3x3卷积层,这里采用Darknet‑53的第53层全连接层输出的1000维神经元提取目标的空间特征;背景空间特征提取网络采用Alexnet网络模型,该网络模型结构是由8层网络组成,包括5层卷积层和3层全连接层,这里采用第7层全连接层输出的4096维神经元组成的特征提取背景空间特征;时序特征提取网络采用Alexnet网络和LSTM相结合的方式提取,先经过Alexnet网络第7层全连接层输出的4096维神经元提取图像背景的全局特征,然后经过LSTM提取图像序列中的时序特征;构建网络模型后,采用在ImageNet数据集上预先训练好的网络模型参数对所需训练网络进行参数初始化,该网络模型参数包含神经元之间的连接权重值、偏置值,并采用训练数据集对网络进行训练;网络训练具体步骤是,先训练空间特征提取网络,再训练时序特征提取网络;当训练空间特征网络时,需要固定时序特征网络的权重;空间特征提取网络训练流程是先进行目标特征提取网络的训练,再在YOLOv3后添加一层LSTM,训练规则是输入2组图像序列,图像尺寸归一化为224x224像素,第一组序列为{It‑1、It‑2、It‑3、It‑4},第二组序列为{It‑2、It‑3、It‑4、It‑5},其中It‑1、It‑2、It‑3、It‑4、It‑5分别代表t‑1、t‑2、t‑3、t‑4、t‑5时刻的帧图像,5<t<41764,依次按序将第一组图像提取的特征对第二组序列特征进行相减运算,经过800批次训练得到目标对象的空间变换特征;之后训练背景特征提取网络,固定目标特征提取网络模型参数不变,在Alexnet后添加一层LSTM,训练规则是将41763张图片输入Alexnet网络中进行训练,经过500批次训练得到背景特征;训练时序特征网络时,需要固定空间特征网络的权重,输入规则与目标特征提取网络相同,经过800批次训练得到图像序列的时序特征;最后,对整个时空特征融合学习网络进行训练,训练方式采用随机梯度下降法,损失函数设置为均方误差,定义为...

【技术特征摘要】
1.一种基于时空特征融合学习的目标跟踪方法,包含如下步骤:步骤一、目标选取:从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;步骤二、数据集生成:初始数据集的生成包括两个部分,一个部分为目前公开获得的有标注视频数据集或图像序列集,另一个部分是根据初始图像来人工合成的跟踪序列;人工合成的跟踪序列具体包括两个方面的工作,一方面对初始图像中的目标对象进行图像变换,包括平面内旋转、平面外旋转或者尺度变化,另一方面对目标对象在整个场景中进行按行或列循环移动,由此获得大量模拟的跟踪序列数据集;具体操作如下:首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪,对被裁剪的区域位置进行邻域像素填充,得到场景图像,然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换,其中,平面内旋转范围为0°~360°,单次旋转角度为30°,平面外旋转采用仿射变换,设置仿射变换矩阵中透射变换因子权重值变换范围为0.5~1,单次变换单位为0.1,尺度变换比例范围为0.8~1.2倍,单次变换比例为0.1,得到410种目标对象增强数据集;设置步长为10像素,并分别将这410种目标对象增强数据集在场景图像中按行循环移动,最终得到41763张图片增强数据集,图片增强数据集中包含的所有图像均标记其对应的目标对象包围盒的位置信息;步骤三、时空特征融合学习网络的构建与初始化:时空特征融合学习网络模型包括三个子网络,分别为目标空间特征提取网络、背景空间特征提取网络和时序特征提取网络;目标空间特征提取网络采用YOLOv3网络,该网络特征提取层为Darknet-53结构,共有53个卷积层,其余为残差层;其中卷积层包括1x1卷积层和3x3卷积层,这里采用Darknet-53的第53层全连接层输出的1000维神经元提取目标的空间特征;背景空间特征提取网络采用Alexnet网络模型,该网络模型结构是由8层网络组成,包括5层卷积层和3层全连接层,这里采用第7层全连接层输出的4096维神经元组成的特征提取背景空间特征;时序特征提取网络采用Alexnet网络和LSTM相结合的方式提取,先经过Alexnet网络第7层全连接层输出的4096维神经元提取图像背景的全局特征,然后经过LSTM提取图像序列中的时序特征;构建网络模型后,采用在ImageNet数据集上预先训练好的网络模型参数对所需训练网络进行参数初始化,该网络模型参数包含神经元之间的连接权重值、偏置值,并采用训练数据集对网络进行训练;网络训练具体步骤是,先训练空间特征提取网络,再训练时序特征提取网络;当训练空间特征网络时,需要固定时序特征网络的权重;空间特征提取网络训练流程是先进行目标特征提取网络的训练,再在YOLOv3后添加一层LSTM,训练规则是输...

【专利技术属性】
技术研发人员:卢学民权伟刘跃平王晔张桂萍江永全何武陈锦雄
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1