The invention discloses a target tracking method based on space-time feature fusion learning, which relates to the technical field of computer vision and pattern recognition. Firstly, a spatio-temporal feature fusion learning network is constructed. Spatio-temporal features include temporal features and spatial features. Among them, temporal features are extracted by combining Alexnet with time recursive neural network. Spatial features are divided into target spatial transformation features and background spatial features, which are extracted by YOLOv3 and Alexnet respectively. In the initial training process of the network, the training data set and the random gradient descent method are used to train the spatiotemporal feature fusion learning network. After the training, the network can acquire the initial ability to locate the target object. The image sequence to be tracked is input into the network for forward processing. The network outputs the location and confidence of the bounding box of the target object. The confidence determines whether the network is online learning or not, and the location of the bounding box realizes the location of the target object, thus realizing the tracking of the target object.
【技术实现步骤摘要】
一种基于时空特征融合学习的目标跟踪方法
本专利技术涉及计算机视觉及模式识别
技术介绍
视觉目标跟踪是计算机视觉领域的重要硏究课题,其研究内容是根据给定的一段视频片段自动识别出随后视频序列中要跟踪的目标对象,获取目标连续的位置、外观和运动等信息。目标跟踪广泛应用于军事与民用的智能监控、人机交互、自动控制系统等领域,具有很强的实用价值。但在现实情况下,目标对象的外观容易受到形变、遮挡、光照变化等因素的影响,使得视觉目标跟踪成为一项非常具有挑战性的问题。目前,目标跟踪方法主要包括经典目标跟踪方法和深度学习目标跟踪方法。经典目标跟踪方法主要分为生成式方法(Generativemethods)和判别式(Discriminativemethods)两类。生成式方法是通过建立一个区分目标和背景的模型,将目标对象从背景中有效的区分,其本质是将跟踪问题视为在感兴趣的区域中寻找最可能的候选项。而判别式方法将跟踪问题视为一个分类或者一种连续的对象检测问题,其任务是将目标从图像背景中分辨出来,这类方法同时利用目标和背景信息,是目前目标跟踪主要研究的一类方法。判别式方法通常包含两个主要的步骤,第一步是通过选择能够辨别目标和背景的视觉特征训练得到一个分类器及其决策规则,第二步是在跟踪过程中将该分类器用于对视场内的每一个位置进行评价并确定最有可能的目标位置。随后将目标框移动到该位置并重复这样的过程,进而实现跟踪,该框架被用于设计岀各种形式的跟踪算法。而这两种方法使用的特征通常都是手工提取,这些手工提取特征对解决目标发生形变、遮挡、运动突变以及光照变化等问题鲁棒性较低。深度学习 ...
【技术保护点】
1.一种基于时空特征融合学习的目标跟踪方法,包含如下步骤:步骤一、目标选取:从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;步骤二、数据集生成:初始数据集的生成包括两个部分,一个部分为目前公开获得的有标注视频数据集或图像序列集,另一个部分是根据初始图像来人工合成的跟踪序列;人工合成的跟踪序列具体包括两个方面的工作,一方面对初始图像中的目标对象进行图像变换,包括平面内旋转、平面外旋转或者尺度变化,另一方面对目标对象在整个场景中进行按行或列循环移动,由此获得大量模拟的跟踪序列数据集;具体操作如下:首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪,对被裁剪的区域位置进行邻域像素填充,得到场景图像,然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换,其中,平面内旋转范围为0°~360°,单次旋转角度为30°,平面外旋转采用仿射变换,设置仿射变换矩阵中透射变换因子权重值变换范围为0.5~1,单次变换单位为0.1,尺度变换比例范围为0.8~1.2倍,单次变换比例为0.1,得到410种目标对象增强数据集;设置步长 ...
【技术特征摘要】
1.一种基于时空特征融合学习的目标跟踪方法,包含如下步骤:步骤一、目标选取:从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;步骤二、数据集生成:初始数据集的生成包括两个部分,一个部分为目前公开获得的有标注视频数据集或图像序列集,另一个部分是根据初始图像来人工合成的跟踪序列;人工合成的跟踪序列具体包括两个方面的工作,一方面对初始图像中的目标对象进行图像变换,包括平面内旋转、平面外旋转或者尺度变化,另一方面对目标对象在整个场景中进行按行或列循环移动,由此获得大量模拟的跟踪序列数据集;具体操作如下:首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪,对被裁剪的区域位置进行邻域像素填充,得到场景图像,然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换,其中,平面内旋转范围为0°~360°,单次旋转角度为30°,平面外旋转采用仿射变换,设置仿射变换矩阵中透射变换因子权重值变换范围为0.5~1,单次变换单位为0.1,尺度变换比例范围为0.8~1.2倍,单次变换比例为0.1,得到410种目标对象增强数据集;设置步长为10像素,并分别将这410种目标对象增强数据集在场景图像中按行循环移动,最终得到41763张图片增强数据集,图片增强数据集中包含的所有图像均标记其对应的目标对象包围盒的位置信息;步骤三、时空特征融合学习网络的构建与初始化:时空特征融合学习网络模型包括三个子网络,分别为目标空间特征提取网络、背景空间特征提取网络和时序特征提取网络;目标空间特征提取网络采用YOLOv3网络,该网络特征提取层为Darknet-53结构,共有53个卷积层,其余为残差层;其中卷积层包括1x1卷积层和3x3卷积层,这里采用Darknet-53的第53层全连接层输出的1000维神经元提取目标的空间特征;背景空间特征提取网络采用Alexnet网络模型,该网络模型结构是由8层网络组成,包括5层卷积层和3层全连接层,这里采用第7层全连接层输出的4096维神经元组成的特征提取背景空间特征;时序特征提取网络采用Alexnet网络和LSTM相结合的方式提取,先经过Alexnet网络第7层全连接层输出的4096维神经元提取图像背景的全局特征,然后经过LSTM提取图像序列中的时序特征;构建网络模型后,采用在ImageNet数据集上预先训练好的网络模型参数对所需训练网络进行参数初始化,该网络模型参数包含神经元之间的连接权重值、偏置值,并采用训练数据集对网络进行训练;网络训练具体步骤是,先训练空间特征提取网络,再训练时序特征提取网络;当训练空间特征网络时,需要固定时序特征网络的权重;空间特征提取网络训练流程是先进行目标特征提取网络的训练,再在YOLOv3后添加一层LSTM,训练规则是输...
【专利技术属性】
技术研发人员:卢学民,权伟,刘跃平,王晔,张桂萍,江永全,何武,陈锦雄,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。