当前位置: 首页 > 专利查询>厦门大学专利>正文

基于幻觉对抗网络的鲁棒目标跟踪方法技术

技术编号:21893027 阅读:16 留言:0更新日期:2019-08-17 14:56
基于幻觉对抗网络的鲁棒目标跟踪方法,涉及计算机视觉技术。首先提出一种新的幻觉对抗网络,旨在于学习样本对间的非线性形变,并将学习到的形变施加在新目标以此来生成新的目标形变样本。为了能有效训练所提出的幻觉对抗网络,提出形变重构损失。基于离线训练的幻觉对抗网络,提出基于幻觉对抗网络的目标跟踪方法,该方法能有效缓解深度神经网络在目标跟踪过程中由于在线更新发生的过拟合问题。此外,为了能进一步提升形变迁移质量,提出选择性性变迁移方法,进一步提升了跟踪精度。提出的目标跟踪方法在当前主流目标跟踪数据集上取得了具有竞争力的结果。

Robust Target Tracking Method Based on Hallucination Countermeasure Network

【技术实现步骤摘要】
基于幻觉对抗网络的鲁棒目标跟踪方法
本专利技术涉及计算机视觉技术,尤其是涉及一种基于幻觉对抗网络的鲁棒目标跟踪方法。
技术介绍
近几年,深度神经网络在计算机视觉领域的应用取得了巨大成功。目标跟踪作为计算机视觉领域的基础问题之一,其在当前许多计算机视觉任务中均扮演了十分重要的角色,如无人驾驶、增强现实、机器人等领域。近来,基于深度神经网络的目标跟踪算法研究受到了国内外研究者的广泛关注。然而,与其他计算机视觉任务所不同(如目标检测和语义分割),深度神经网络在目标跟踪任务中的应用仍然十分的有效,主要原因为目标跟踪任务本身存在一定的特殊性,其缺少多样化的在线目标训练样本,因此极大地限制了深度神经网络的泛化性,进而影响跟踪结果。同时,目标跟踪任务旨在于跟踪任意目标,其对于要跟踪的目标不提前给出任何先验知识,这一点也对于深度神经网络离线训练数据集的选择带来了巨大挑战。因此,提出一个具有强泛化性的基于深度神经网络的目标跟踪算法具有重要的现实意义。为了缓解上述问题,当前国内外的研究者们主要提出了两种类型的解决方法。第一类方法将目标跟踪任务看作是一个模板匹配的问题,其具体实现往往采用深度孪生网络,将目标模板和搜索区域同时作为深度孪生网络的输入,最后得到搜索区域中与目标模板最为相似的子区域位置。基于相似度计算的深度孪生网络可以通过使用大量标注的目标跟踪数据集进行完全离线的训练,因此其可以避免由于在线训练样本过少所带来的过拟合问题。在基于深度孪生网络的目标跟踪算法中,其开创性的算法为SiamFC。基于SiamFC,研究者们提出了许多改进算法,其包括使用区域建议窗口生成网络的SiamRPN、使用动态记忆网络的MemSiamFC、使用更深层次骨架网络的SiamRPN++等。由于SiamFC类型的跟踪算法能避免耗时的在线训练步骤,因此其往往能达到远超实时的跟踪速度。然而,由于此类算法缺少对于目标表观变化在线学习的过程,其精度仍然较为受限(如在OTB数据集上的精度结果)。研究者们所提出的另一类方法旨在于利用有限的在线样本来学习鲁棒的神经网络分类器。此类方法的一般思路为使用迁移学习领域的方法来缓解过拟合问题,其较为代表性的方法为H.Nam等人于2016年提出的MDNet。MDNet首先使用多域离线学习来学习较好的分类器初始模型参数,然后在跟踪过程中,通过收集目标的正负样本来进一步训练分类器。近来,基于MDNet,研究者们提出了使用对抗学习的VITAL、学习不同层次目标表征的BranchOut、使用RNN的SANet等。相比于前一类方法,此类方法比上一类方法能达到更高的跟踪精度。然而,由于极为有限的在线样本(尤其是目标样本),使得此类方法的在线学习十分受限,仍易造成过拟合的问题,进而影响跟踪性能。因此,设计一种简单有效的方法来缓解深度目标跟踪算法在跟踪过程中发生的过拟合问题,具有非常重大的意义。与当前的目标跟踪算法相比,人类可以轻而易举的对移动的目标进行跟踪。虽然人脑的机制到目前为止还没被完全的探索清楚,但我们可以确定的是通过人类以前的学习经历,人脑衍生出了无与伦比的想象机制。人类可以从平时看到的各类事物中学习到相似的动作或变换,从而将这种相似的变换施加到不同的目标,以此想象出新的目标在不同姿态或动作下的样子。这样的想象机制与机器学习中的数据增强方法极为的类似,人脑可以类比为一个视觉分类器,然后使用想象机制来得到不同状态下的目标样本,从而训练出一个鲁棒的视觉分类器。
技术实现思路
本专利技术的目的在于提供基于幻觉对抗网络的鲁棒目标跟踪方法。本专利技术包括以下步骤:1)在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合;在步骤1)中,所述在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合具体过程可为:标记视频序列收集大量目标样本对,一对样本包含同一个目标;在视频序列a中,首先在第t帧选取目标样本然后在后20帧内随机选取一帧中的目标样本作为用于构成一组形变样本对选取大量的形变样本对构成训练样本集合;所述数据集为Fei-FeiLi等人在2015年提出的ILSVRC-2015视频目标检测数据集。2)对步骤1)中所得到的训练样本集合中的所有样本进行特征提取,得到训练样本特征集合;在步骤2)中,所述特征提取的步骤可为:首先将目标样本使用双线形插值方法改变大小至107×107×3,然后使用神经网络特征提取器φ(·)对所有插值后的目标样本进行特征提取;所述特征提取器φ(·)的结构可为在Imagenet数据集上预训练的VGG-M模型的前三层卷积层。3)使用步骤2)中得到的训练样本特征集合、对抗损失和所提出的形变重构损失来离线训练所提出的幻觉对抗网络;在步骤3)中,所述训练的过程可为:首先从训练样本特征集合中选取两组训练样本特征对,表示为和使用幻觉对抗网络学习和间的形变,并将此形变施加到用以生成关于目标b新的形变样本,使用对抗损失保证生成的样本分布与目标b分布相近:其中,En和De分表表示所提出的对抗幻想器中的编码器和解码器部分;为了使得生成样本有效编码形变za,提出形变重构损失对生成样本进行约束:其中,最终,用于离线训练所提出的幻觉对抗网络的总损失函数为:lall=ladv+λldef,(公式三)其中,λ为用于平衡两项损失的超参数;所述幻觉对抗网络的离线训练可包括以下子步骤:3.1公式(三)中的参数λ设置为0.5;3.2在训练中,使用的优化器为Adam(D.P.Kingma,andJ.L.Ba,“Adam:Amethodforstochasticoptimization,”inProceedingsoftheInternationalConferenceonLearningRepresentations,2014),迭代次数为5×105,学习率为2×10-4;3.3所提出的幻觉对抗网络的编码器和解码器结构均为隐层节点数为2048的三层感知机,编码器输入层节点为9216,编码器输出层节点为64;解码器输入层节点为4672;判别网络同样为隐层节点数为2048的三层感知机,其输入节点数为9216,输出节点数为1。4)给定测试视频中的第一帧标注图像,采集目标样本,并在目标样本周围采用高斯和随机采样方式进行正负样本的采样;在步骤4)中,所述采样的细节可为:在每一次迭代训练中,正负样本比例按照1︰3的比例进行采样,即32个正样本和96个负样本,正样本判定标准为所采样样本和目标样本的区域重叠率大于0.7,负样本的判定标准为所采样样本和目标样本的区域重叠率低于0.5。5)使用所提出的选择性形变迁移方法对跟踪目标进行待迁移样本对的选择;在步骤5)中,所述待迁移样本对的选择的过程可为:定义Ns表示用于收集形变样本对的数据集中视频片断的数目,si为视频片断的身份标识,其中,表示视频片断si中对应样本的个数;对于视频片断si的特征表达ψ(si),可以通过如下方式计算得到:其中,为深度特征提取器,对于目标特征计算其余每个视频片断表征ψ(si)间的欧式距离,选取距离最近的T个视频片断;在选择的T个视频片断中,采用与步骤1)中相同的方式收集大量的形变样本对,构成集合DS,用于后续目标形变迁移;所述选择性形变迁移方法可包括以下子步骤:5.1在计算视频片断的特征表达时本文档来自技高网
...

【技术保护点】
1.基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于包括以下步骤:1)在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合;2)对步骤1)中所得到的训练样本集合中的所有样本进行特征提取,得到训练样本特征集合;3)使用步骤2)中得到的训练样本特征集合、对抗损失和所提出的形变重构损失来离线训练所提出的幻觉对抗网络;4)给定测试视频中的第一帧标注图像,采集目标样本,并在目标样本周围采用高斯和随机采样方式进行正负样本的采样;5)使用所提出的选择性形变迁移方法对跟踪目标进行待迁移样本对的选择;6)基于选择得到的待迁移样本对,使用离线训练好的幻觉对抗网络生成形变的正样本;7)使用空间采样的正负样本和生成的正样本共同对分类器进行训练,其产生的分类误差损失用于同时更新分类器和幻觉对抗网络;8)给定新的测试帧,使用训练好的分类器置信度最高的区域作为目标位置,完成当前帧的跟踪。

【技术特征摘要】
1.基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于包括以下步骤:1)在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合;2)对步骤1)中所得到的训练样本集合中的所有样本进行特征提取,得到训练样本特征集合;3)使用步骤2)中得到的训练样本特征集合、对抗损失和所提出的形变重构损失来离线训练所提出的幻觉对抗网络;4)给定测试视频中的第一帧标注图像,采集目标样本,并在目标样本周围采用高斯和随机采样方式进行正负样本的采样;5)使用所提出的选择性形变迁移方法对跟踪目标进行待迁移样本对的选择;6)基于选择得到的待迁移样本对,使用离线训练好的幻觉对抗网络生成形变的正样本;7)使用空间采样的正负样本和生成的正样本共同对分类器进行训练,其产生的分类误差损失用于同时更新分类器和幻觉对抗网络;8)给定新的测试帧,使用训练好的分类器置信度最高的区域作为目标位置,完成当前帧的跟踪。2.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤1)中,所述在有标注的目标跟踪数据集中收集大量形变样本对作为训练样本集合具体过程为:标记视频序列收集大量目标样本对,一对样本包含同一个目标;在视频序列a中,首先在第t帧选取目标样本然后在后20帧内随机选取一帧中的目标样本作为用于构成一组形变样本对选取大量的形变样本对构成训练样本集合;所述数据集为Fei-FeiLi等人在2015年提出的ILSVRC-2015视频目标检测数据集。3.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤2)中,所述特征提取的步骤为:首先将目标样本使用双线形插值方法改变大小至107×107×3,然后使用神经网络特征提取器φ(·)对所有插值后的目标样本进行特征提取;所述特征提取器φ(·)的结构为在Imagenet数据集上预训练的VGG-M模型的前三层卷积层。4.如权利要求1所述基于幻觉对抗网络的鲁棒目标跟踪方法,其特征在于在步骤3)中,所述训练的过程为:首先从训练样本特征集合中选取两组训练样本特征对,表示为和使用幻觉对抗网络学习和间的形变,并将此形变施加到用以生成关于目标b新的形变样本,使用对抗损失保证生成的样本分布与目标b分布相近:其中,En和De分表表示所提出的对抗幻想器中的编码器和解码器部分;为了使得生成样本有效编码形变za,提出形变重构损失对生成样本进行约束:其中,最终,用于离线训练所提出的幻觉对抗网络的总损失函数为:其中,λ为用于平衡两项损失的超参数;所述幻觉对抗网络的离线训练包括以下子步骤:3.1公式(三)中的参数λ设置为0.5;3.2在训练中,使用的优化器为Adam,迭代次数为5×105,学习率为2×10-4;3.3所提出的幻觉对抗网络的编码器和解码器结构均为隐层节...

【专利技术属性】
技术研发人员:王菡子吴强强严严
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1