一种无监督相似性判别学习的目标跟踪方法技术

技术编号:22817566 阅读:18 留言:0更新日期:2019-12-14 13:19
本发明专利技术公开了一种无监督相似性判别学习的目标跟踪方法,涉及计算机视觉目标跟踪技术领域。采用t‑SNE将特征进行降维和聚类,得到图像类别伪标签及类别总数,然后将该伪标签作为图像真实标签,并将图像特征输入全连接层并进行分类,网络进行反向传播训练。训练完成后,网络具备了图像相似性判别能力。跟踪过程中,首先根据第一帧图像的目标位置,在当前输入帧对应的目标周围交并比IOU>0.8得到待搜索区域,并使用粒子滤波获取目标候选块,再通过无监督相似性特征提取层获取目标候选块的特征,最后分类层将输出每一个目标候选块的置信度,然后将具有最大置信度的目标候选块作为目标图像块完成目标定位,从而实现对目标对象的跟踪。

A target tracking method for unsupervised similarity discrimination learning

【技术实现步骤摘要】
一种无监督相似性判别学习的目标跟踪方法
本专利技术涉及计算机视觉,机器学习,目标跟踪

技术介绍
目标跟踪作为计算机视觉领域的一个重要研究方向,目前已受到了广泛的关注。该技术在安全监控、无人驾驶和军事防御等领域具有宽广的应用前景。2013年以来,深度学习方法开始在目标跟踪领域展露头脚,并逐渐在性能上超越传统方法,取得巨大的突破,由于其强大的特征表达能力和强大的数据集和软硬件支持,深度学习已在许多方面取得了惊人的成功,例如语音识别、图像识别、目标检测、视频分类等。2012年AlexKrizhevsky等提出了基于Alexnet网络的大型图像库分类识别的方法,证明了深度卷积神经网络对图像的强大表征能力,2014年KarenSimonyan等提出了基于VGGNet网络的大型图像分类识别方法,更进一步的降低了图像分类识别误差。传统的深度模型有效性来自于海量的有标注训练数据集,而现实情况下这种海量的有标注的视频图像数据集十分匮乏,所以无监督学习逐渐成为机器学习领域的一个热点。无监督学习也是机器学习和人工智能领域的一个重要分支,其在机器学习、数据挖掘、生物医学大数据分析、数据科学等领域有着重要地位。无监督学习的作用是在设计分类器时候,用于处理未被分类标记的样本集,其可以大大减少人工标注带来的人力、物力的耗费。近年来的基于深度学习方法的目标跟踪研究中,无论是基于深度学习分类、回归还是模板匹配方法,都需要使用大量的人工标注图片用于训练模型。然而,实际跟踪场景并没有大量的真实标注图片,所以将无监督学习用于目标跟踪可极大降低人工标注成本,提高目标跟踪在实际场景中的易用性。无监督学习的最大特点是无需使用真实标签进行训练,自动提取数据的共性特征并进行聚类或分类,可运用在目标跟踪、行为识别和3D重建等计算机视觉领域。常用的无监督学习算法主要有等距映射方法、局部线性嵌入方法、t分布邻域嵌入(t-SNE)、C-均值算法等,其中t-SNE是2008年GeoffreyHinton提出的一种可用于非降维的机器学习算法,其可以构建一种高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择,从而实现数据的无监督聚类。鉴于此,网络在线学习过程中,通过跟踪收集到的样本微调网络模型,从而使网络模型能够更加适应实际的图像序列。
技术实现思路
本专利技术的目的是提供一种无监督相似性判别学习的目标跟踪方法,它能有效地解决在无真实数据标签场景下,对目标进行快速、鲁棒跟踪的技术问题。本专利技术的目的是通过以下技术方案来实现的:步骤一、目标选取从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;步骤二、训练数据集生成训练数据集生成分为两个步骤,首先是数据集的选取,然后是数据集的制作;选取目标跟踪数据集OTB2015作为训练数据集,并从中选取其中一类进行数据集的制作,具体为,在每一个图像帧中按行和列进行图像块的循环移动,移动步长为10个像素,图像块尺寸大小为127×127像素,每一帧图像生成500个循环移动的图像块,若训练数据集共有M张图像帧,则最终则生成500×M个图像块;步骤三、无监督相似性判别网络的构建与训练该网络由特征提取层、聚类层和分类层三部分构成,采用在大型分类识别数据集ImageNet上预训练的VGG-16前16层作为特征提取层,并将得到的特征输入无监督聚类层,利用t-SNE降维得到数据的低维分布,将数据间欧式距离转化为相互间的条件概率,从而表示相互之间的相似度;具体为,给定L个高维特征XT=x1,…,xL,这里x1,...,xL为特征提取层提取的L张图像的卷积特征,其中以xi为中心,按高斯分布选择xj作为近邻点的条件概率为其中σi为方差;需要根据困惑度大小来调节σi,其中表示Pi的熵,困惑度大小与σi大小呈正相关关系,这里设定困惑度为50;对于低维度下的yi,设定高斯分布的方差为则低维度数据之间的相似度为需要迭代优化高维和低维数据分布之间的KL散度,使低维数据分布拟合高维数据分布,目标函数为迭代初始令并用高斯分布N(0,10-4I)随机初始化低维数据分布YT=y1,...,yL,这里y1,...,yn为聚类后的数据特征,从t=1迭代至t=T,这里设定T=1000,迭代步骤分为3步,分别是计算低维数据的联合概率计算梯度值并更新低维的数据分布其中qij表示yi和yj之间的相似度,Y(t)表示迭代t次的解,λ表示学习速率,m(t)表示迭代t次的动量,这里设置迭代聚类完成后,最终得到的数据分布YT=y1,...,yL,即表示数据之间的相似度;相似度较高的数据将聚为一类数据,称之为簇,簇的个数则是类别总数K,该簇内图像的伪标签即为簇的类别,将每张图像伪标签的簇作为数据的真实标签,再将提取的图像特征输入全连接层并进行分类,其中全连接层神经元节点数Z=K,该网络损失函数设置为交叉熵损失;无监督相似性判别网络构建完成后,则使用步骤二中生成的数据集进行网络训练,训练时反向传播采用经典的随机梯度下降法,最终该网络将输出每张图像的类别和相似度,获得对图像相似性判别的初始能力;步骤四、图像输入在实时处理情况下,提取通过摄像头采集并保存在存储区的视频图像,作为要进行跟踪的输入图像;在离线处理情况下,将已釆集的视频文件分解为多个帧组成的图像序列,按照时间顺序,逐个提取帧图像作为输入图像,如果输入图像为空,则整个流程中止;步骤五、目标定位以上一帧确定的目标图像块为中心,在当前输入帧目标中心周围确定待搜索区域,待搜索区域与目标块的IOU>0.8,在待搜索区域里按高斯分布初始化1200个与当前帧目标图像相同的粒子,其中每一个粒子代表一个目标候选块,采用粒子滤波的方法获取目标候选块,将粒子滤波输出的预测目标图像块经过无监督相似性判别网络的全连接层进行分类识别,计算得到该目标候选块与目标图像块的相似度,同时将其相似度得分c和阈值c’进行比较,如果该得分c小于预先设置的阈值c’=0.8,则认为目标跟踪失败,表示目标不可信,跳转到步骤四,否则,则认为目标跟踪正确,并将该目标候选块的位置作为目标所在的位置,从而得到跟踪结果,目标定位完成,跳转到步骤六;步骤六、网络在线更新成功确定跟踪的结果之后,在目标图像块周围并且IOU>0.8的区域内提取100个相同大小图像块作为网络更新样本,将这些网络更新样本依次输入网络中进行微调训练,训练时,固定网络模型的卷积层参数不动,只对网络的聚类层与全连接层的参数进行微调,目的是使该网络模型能够适应当前跟踪的视频序列,即能够更加准确进行图像块的分类识别,进行准确的目标定位;然后跳转到步骤四,跟踪结束。本专利技术方法的技术流程图如图2所示。在初始网络训练过程中,使用训练数据集和随机梯度下降法对无监督相似性判别网络进行训练,训练完成后网络即可获得对图像进行相似性判别的初始能力。跟踪过程中,首先根据第一帧图像的目标位置,在当前输入帧对应的目标周围交并比IOU>本文档来自技高网
...

【技术保护点】
1.一种无监督相似性判别学习的目标跟踪方法,包括如下步骤:/n步骤一、目标选取/n从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;/n步骤二、训练数据集生成/n训练数据集生成分为两个步骤,首先是数据集的选取,然后是数据集的制作;选取目标跟踪数据集OTB 2015作为训练数据集,并从中选取其中一类进行数据集的制作,具体为,在每一个图像帧中按行和列进行图像块的循环移动,移动步长为10个像素,图像块尺寸大小为127×127像素,每一帧图像生成500个循环移动的图像块,若训练数据集共有M张图像帧,则最终则生成500×M个图像块;/n步骤三、无监督相似性判别网络的构建与训练/n该网络由特征提取层、聚类层和分类层三部分构成,采用在大型分类识别数据集ImageNet上预训练的VGG-16前16层作为特征提取层,并将得到的特征输入无监督聚类层,利用t-SNE降维得到数据的低维分布,将数据间欧式距离转化为相互间的条件概率,从而表示相互之间的相似度;具体为,给定L个高维特征X

【技术特征摘要】
1.一种无监督相似性判别学习的目标跟踪方法,包括如下步骤:
步骤一、目标选取
从初始图像中选择并确定要跟踪的目标对象,目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定;
步骤二、训练数据集生成
训练数据集生成分为两个步骤,首先是数据集的选取,然后是数据集的制作;选取目标跟踪数据集OTB2015作为训练数据集,并从中选取其中一类进行数据集的制作,具体为,在每一个图像帧中按行和列进行图像块的循环移动,移动步长为10个像素,图像块尺寸大小为127×127像素,每一帧图像生成500个循环移动的图像块,若训练数据集共有M张图像帧,则最终则生成500×M个图像块;
步骤三、无监督相似性判别网络的构建与训练
该网络由特征提取层、聚类层和分类层三部分构成,采用在大型分类识别数据集ImageNet上预训练的VGG-16前16层作为特征提取层,并将得到的特征输入无监督聚类层,利用t-SNE降维得到数据的低维分布,将数据间欧式距离转化为相互间的条件概率,从而表示相互之间的相似度;具体为,给定L个高维特征XT=x1,…,xL,这里x1,...,xL为特征提取层提取的L张图像的卷积特征,其中以xi为中心,按高斯分布选择xj作为近邻点的条件概率为其中σi为方差;需要根据困惑度大小来调节σi,其中表示Pi的熵,困惑度大小与σi大小呈正相关关系,这里设定困惑度为50;对于低维度下的yi,设定高斯分布的方差为则低维度数据之间的相似度为需要迭代优化高维和低维数据分布之间的KL散度,使低维数据分布拟合高维数据分布,目标函数为
迭代初始令并用高斯分布N(0,10-4I)随机初始化低维数据分布YT=y1,...,yL,这里y1,...,yn为聚类后的数据特征,从t=1迭代至t=T,这里设定T=1000,迭代步骤分为3步,分别是计算低维数据的联合概率计算梯度值并更新低维的数据分布其中qij表示yi和yj之间的相似度,Y(t)表示迭代t次的解,λ表示学习速率,m(t)表示迭代t次的动量,这里设置λ=50;迭代聚类完成后,最终得到的数据分布YT=y...

【专利技术属性】
技术研发人员:卢学民权伟邹栋周宁张卫华刘跃平郭少鹏彭宇晨侯思帧郑丹阳郭永成陈锦雄
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1