一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法技术

技术编号：26172500 阅读：27 留言：0更新日期：2020-10-31 13:50

本发明专利技术公开了一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法，包括以下步骤，利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示；定义多层聚合模块，选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息，用以辅助浅层特征跟踪目标；在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声；在所述孪生主干网络的顶层卷积特征处添加头注意模块，增强顶层特征的语义表示提高对目标的识别能力；构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。本发明专利技术的有益效果：对视觉目标跟踪结果有更显著的提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法
本专利技术涉及视觉目标跟踪的
，尤其涉及一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法。
技术介绍
视觉目标跟踪是指在不断变化的视频序列中自动定位指定的目标，它是计算机视觉领域中最基本的研究问题之一，并且在视觉监控、人机交互和视频编辑等方面有着广泛的需求，目标跟踪的核心问题是如何在具有遮挡、视野外、变形和背景杂波变化等具有挑战性的场景中准确、有效地检测和定位目标。近些年基于孪生(Siamese)网络的跟踪器通过将跟踪问题转化为相似度学习问题的策略，在速度和鲁棒性方面显示出了巨大的视觉跟踪潜力，在网络离线训练阶段，它们使用卷积神经网络充当主干网络在外部海量视频数据集ILSVRC2015上学习用于分类或回归的特征，与手工特征不同的是，这些主干网络不仅能够生成组织良好的特征表示，而且它们还具有跨数据集的泛化能力。所以跟踪器只需离线训练，并且在跟踪过程中不需对网络进行任何在线微调就可以确保健壮的跟踪，这是十分让人感到高兴的。但是尽管基于孪生网络跟踪器的设计是令人信服，但它们仍然不可避免地具有一些局限性，大多数跟踪方法只是使用了深层特征，而通常该特征表示具有较低的分辨率，这会导致丢失一些目标特定的细节和局部结构信息，所以这些跟踪器往往会因为对细节的不太敏感，很难区分具有相同属性或语义的两个目标。
技术实现思路
本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做...

【技术保护点】
1.一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法，其特征在于：包括以下步骤，/n利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示；/n定义多层聚合模块，选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息，用以辅助浅层特征跟踪目标；/n在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声；/n在所述孪生主干网络的顶层卷积特征处添加头注意模块，增强顶层特征的语义表示提高对目标的识别能力；/n构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。/n

【技术特征摘要】
1.一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法，其特征在于：包括以下步骤，
利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示；
定义多层聚合模块，选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息，用以辅助浅层特征跟踪目标；
在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声；
在所述孪生主干网络的顶层卷积特征处添加头注意模块，增强顶层特征的语义表示提高对目标的识别能力；
构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。

2.如权利要求1所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法，其特征在于：所述孪生主干网络包括以下构建步骤，
采用改进的ResNet22；
将所述孪生主干网络分为3个阶段，其包括步长为8的22个卷积层；
当所述卷积层使用填充后利用裁剪操作消除受到补零影响的特征计算，并保持内部块结构不变；
在网络的前2个阶段中遵循原始的ResNet执行特征下采样；
在第3阶段，由步长为2的最大池化来代替卷积层执行下采样，该层位于本阶段的第一个块中，即layer2-1。

3.如权利要求1或2所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法，其特征在于：所述孪生主干网络包括两个相同的分支，分别为示例分支和搜索分支；其中，
所述示例分支接收示例样本的输入；
所述搜索分支接收搜索样本的输入；
两个分支在卷积神经网络中共享参数，以确保相同的转换用于这两个样本；
使用ResNet22网络第3个阶段的最后3个块，即layer2-2、layer2-3和layer2-4的输出特征。

4.如权利要求3所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法，其特征在于：所述多层聚合模块包括以下步骤，
提取示例样本在所述孪生主干网络上生成分别为Fz1、Fz2和Fz3三层特征的表示；
采用反卷积的方式将最后2层特征采样到相同的分辨率为Fz′2及Fz′3；
将三层特征级联在一起，并将级联后的特征进行卷积运算生成聚合的多层聚合特征FM＝conv(concat(Fz1,Fz′2,Fz′3))，所述FM充分编码来自浅层的低级细节信息和深层的高级语义信息。

5.如权利要求4所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法，其特征在于：所述多层聚合模块后加入自细化模块包括，
将所述多层聚合特征的表示与浅层特征Fz1结合起来，输入到自细化模块中，生成如下细化特征：其中SrM(·)表示自细化模块；
将所述细化特征与搜索样本对应的浅层特征Fx1来计算匹配相似度；
相似度计算可表示为：其中Corr(·)表示互相关操作。

6.如权利要求1～2、4或5任一所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法，其特征在于：所述自细化模块包括，
以特征Fz1和FM的聚合特征作为输入，将所述自细化模块分为两个部分；
在第一部分中，按输入特征的通道方向采用全局平均池化来压缩特征空间依赖，接着使用1×1的卷积conv1×1和Si...

【专利技术属性】
技术研发人员：宋晓宁，范颖，冯振华，
申请(专利权)人：上海蠡图信息科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人