一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法技术

技术编号:26172500 阅读:19 留言:0更新日期:2020-10-31 13:50
本发明专利技术公开了一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,包括以下步骤,利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示;定义多层聚合模块,选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息,用以辅助浅层特征跟踪目标;在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声;在所述孪生主干网络的顶层卷积特征处添加头注意模块,增强顶层特征的语义表示提高对目标的识别能力;构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。本发明专利技术的有益效果:对视觉目标跟踪结果有更显著的提升。

【技术实现步骤摘要】
一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法
本专利技术涉及视觉目标跟踪的
,尤其涉及一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法。
技术介绍
视觉目标跟踪是指在不断变化的视频序列中自动定位指定的目标,它是计算机视觉领域中最基本的研究问题之一,并且在视觉监控、人机交互和视频编辑等方面有着广泛的需求,目标跟踪的核心问题是如何在具有遮挡、视野外、变形和背景杂波变化等具有挑战性的场景中准确、有效地检测和定位目标。近些年基于孪生(Siamese)网络的跟踪器通过将跟踪问题转化为相似度学习问题的策略,在速度和鲁棒性方面显示出了巨大的视觉跟踪潜力,在网络离线训练阶段,它们使用卷积神经网络充当主干网络在外部海量视频数据集ILSVRC2015上学习用于分类或回归的特征,与手工特征不同的是,这些主干网络不仅能够生成组织良好的特征表示,而且它们还具有跨数据集的泛化能力。所以跟踪器只需离线训练,并且在跟踪过程中不需对网络进行任何在线微调就可以确保健壮的跟踪,这是十分让人感到高兴的。但是尽管基于孪生网络跟踪器的设计是令人信服,但它们仍然不可避免地具有一些局限性,大多数跟踪方法只是使用了深层特征,而通常该特征表示具有较低的分辨率,这会导致丢失一些目标特定的细节和局部结构信息,所以这些跟踪器往往会因为对细节的不太敏感,很难区分具有相同属性或语义的两个目标。
技术实现思路
本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。鉴于上述现有存在的问题,提出了本专利技术。因此,本专利技术解决的技术问题是:提出一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,解决在孪生跟踪框架中引入位置偏差,使得目标和搜索样本的匹配相似度下降,进而导致跟踪性能降低的问题。为解决上述技术问题,本专利技术提供如下技术方案:一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,包括以下步骤,利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示;定义多层聚合模块,选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息,用以辅助浅层特征跟踪目标;在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声;在所述孪生主干网络的顶层卷积特征处添加头注意模块,增强顶层特征的语义表示提高对目标的识别能力;构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述孪生主干网络包括以下构建步骤,采用改进的ResNet22;将所述孪生主干网络分为3个阶段,其包括步长为8的22个卷积层;当所述卷积层使用填充后利用裁剪操作消除受到补零影响的特征计算,并保持内部块结构不变;在网络的前2个阶段中遵循原始的ResNet执行特征下采样;在第3阶段,由步长为2的最大池化来代替卷积层执行下采样,该层位于本阶段的第一个块中,即layer2-1。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述孪生主干网络包括两个相同的分支,分别为示例分支和搜索分支;其中所述示例分支接收示例样本的输入;所述搜索分支接收搜索样本的输入;两个分支在卷积神经网络中共享参数,以确保相同的转换用于这两个样本;使用ResNet22网络第3个阶段的最后3个块,即layer2-2、layer2-3和layer2-4的输出特征。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述多层聚合模块包括以下步骤,提取示例样本在所述孪生主干网络上生成分别为Fz1、Fz2和Fz3三层特征的表示;采用反卷积的方式将最后2层特征采样到相同的分辨率为F′z2及F′z3;将三层特征级联在一起,并将级联后的特征进行卷积运算生成聚合的多层聚合特征FM=conv(concat(Fz1,F′z2,F′z3)),所述FM充分编码来自浅层的低级细节信息和深层的高级语义信息。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述多层聚合模块后加入自细化模块包括,将所述多层聚合特征的表示与浅层特征Fz1结合起来,输入到自细化模块中,生成如下细化特征:其中SrM(·)表示自细化模块;将所述细化特征与搜索样本对应的浅层特征Fx1来计算匹配相似度;相似度计算可表示为:其中Corr(·)表示互相关操作。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述自细化模块包括,以特征Fz1和FM的聚合特征Fz1作为输入,将所述自细化模块分为两个部分;在第一部分中,按输入特征的通道方向采用全局平均池化来压缩特征空间依赖,接着使用1×1的卷积conv1×1和Sigmoid函数σ来生成通道掩码u∈RC×1×1,最后将其与输入特征相乘,具体过程描述为:其中GAP是全局平均池化、表示按元素方向乘法、F′表示所述第一部分的输出特征。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述自细化模块包括,在第二部分中,以所述第一部分的输出为输入;采用3×3卷积conv3×3将输入特征进行压缩,再使用Sigmoid函数σ进行归一化操作生成空间掩码m∈RW×H×1,最后与输入特征相乘,计算过程表示为:m=σ(conv3×3(F′)),其中F″是最后的细化特征。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述头部注意模块包括空间注意机制和通道注意机制,其中所述空间注意机制包括,将所述注意模块的输入特征表示为F∈RC×W×H,其中C、W及H分别表示通道、宽度和高度维度;将此输入特征输入到3个具有相同结构的卷积层中得到3个新的特征,分别为Fq、Fk和Fv,都属于RC×W×H;将Fq和Fk重构为RC×N,其中N=H×W;之后在Fq和Fk的转置之间进行矩阵乘法,并应用Softmax运算生成空间注意映射:定义Fsji表示用来测量位置i处特征相对位置j处特征的影响,且两者之间的联系越紧密,则Fsji的值就越大;将Fv重构成RC×N,并和Fs进行矩阵乘法得到结果为Fr,将所述Fr乘以一个参数λs,并与F执行元素求和运算以获得最终的输出为:其中λs的值初始化为0,并逐渐学会对空间注意映射分配更多的权重。作为本专利技术所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述通道注意机制包括,将输入特征F∈RC×W×H变换成RC×N,其中N=H×W;之后将F的转置和F做矩阵乘法,并应用Softmax运算得到通道注意映射Fc∈RN×N:其中Fcji为用来测量第i个通道对第j个通道的影响,与所述空间注意机制相似,Fcji值越大表示两者间的相互联系就越大;然后将重构成本文档来自技高网...

【技术保护点】
1.一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:包括以下步骤,/n利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示;/n定义多层聚合模块,选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息,用以辅助浅层特征跟踪目标;/n在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声;/n在所述孪生主干网络的顶层卷积特征处添加头注意模块,增强顶层特征的语义表示提高对目标的识别能力;/n构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。/n

【技术特征摘要】
1.一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:包括以下步骤,
利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示;
定义多层聚合模块,选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息,用以辅助浅层特征跟踪目标;
在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声;
在所述孪生主干网络的顶层卷积特征处添加头注意模块,增强顶层特征的语义表示提高对目标的识别能力;
构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。


2.如权利要求1所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述孪生主干网络包括以下构建步骤,
采用改进的ResNet22;
将所述孪生主干网络分为3个阶段,其包括步长为8的22个卷积层;
当所述卷积层使用填充后利用裁剪操作消除受到补零影响的特征计算,并保持内部块结构不变;
在网络的前2个阶段中遵循原始的ResNet执行特征下采样;
在第3阶段,由步长为2的最大池化来代替卷积层执行下采样,该层位于本阶段的第一个块中,即layer2-1。


3.如权利要求1或2所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述孪生主干网络包括两个相同的分支,分别为示例分支和搜索分支;其中,
所述示例分支接收示例样本的输入;
所述搜索分支接收搜索样本的输入;
两个分支在卷积神经网络中共享参数,以确保相同的转换用于这两个样本;
使用ResNet22网络第3个阶段的最后3个块,即layer2-2、layer2-3和layer2-4的输出特征。


4.如权利要求3所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述多层聚合模块包括以下步骤,
提取示例样本在所述孪生主干网络上生成分别为Fz1、Fz2和Fz3三层特征的表示;
采用反卷积的方式将最后2层特征采样到相同的分辨率为Fz′2及Fz′3;
将三层特征级联在一起,并将级联后的特征进行卷积运算生成聚合的多层聚合特征FM=conv(concat(Fz1,Fz′2,Fz′3)),所述FM充分编码来自浅层的低级细节信息和深层的高级语义信息。


5.如权利要求4所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述多层聚合模块后加入自细化模块包括,
将所述多层聚合特征的表示与浅层特征Fz1结合起来,输入到自细化模块中,生成如下细化特征:其中SrM(·)表示自细化模块;
将所述细化特征与搜索样本对应的浅层特征Fx1来计算匹配相似度;
相似度计算可表示为:其中Corr(·)表示互相关操作。


6.如权利要求1~2、4或5任一所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述自细化模块包括,
以特征Fz1和FM的聚合特征作为输入,将所述自细化模块分为两个部分;
在第一部分中,按输入特征的通道方向采用全局平均池化来压缩特征空间依赖,接着使用1×1的卷积conv1×1和Si...

【专利技术属性】
技术研发人员:宋晓宁范颖冯振华
申请(专利权)人:上海蠡图信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1