一种基于双重暹罗网络的实时追踪方法技术

技术编号:19826010 阅读:95 留言:0更新日期:2018-12-19 16:15
本发明专利技术中提出的一种基于双重暹罗网络的实时追踪方法,其主要内容包括:双重暹罗网络架构、语义分支的通道注意力模块和网络设计方案选择,其过程为,先将目标图像块和搜索区域图像块输入到网络中;然后,将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和融合,以得到语义分支和表观分支的响应图;最后,将上述两个响应图通过加权平均法合并起来即为本方法的追踪响应图。本方法采用了双重网络设计并且引入了注意力机制,实现了异相追踪和目标自适应,相比现有的追踪方法在追踪的目标类别数量和追踪准确性方面都有显著的提升。

【技术实现步骤摘要】
一种基于双重暹罗网络的实时追踪方法
本专利技术涉及图像处理领域,尤其是涉及了一种基于双重暹罗网络的实时追踪方法。
技术介绍
随着计算机技术和视觉图像处理技术的发展,目标追踪技术日渐成为国内外学者热衷研究的一门课题。目标追踪技术主要研究视频图像序列中运动目标的检测、提取、识别和追踪,涉及到机器视觉、图像处理和模式识别等专业领域,有着广阔的应用前景。在人机交互中,目标追踪技术可用于追踪人的姿态、动作、手势等以理解人的意图;在虚拟现实技术中,通过目标追踪技术可对人体动作进行追踪分析,以实现在虚拟环境中的3D交互和虚拟角色动作模拟;在医学诊断中,目标追踪技术可用于超声波和核磁序列图像变化的追踪,从而进行内部器官的病情分析;另外,目标追踪技术还广泛应用于无人飞行器、精确制导、空中预警、战场监视、移动机器人和智能视频监控等方面。然而,现有的追踪方法存在追踪的目标类别数量不多和追踪准确性不高等问题。本专利技术中提出的一种基于双重暹罗网络的实时追踪方法,先将目标图像块和搜索区域图像块输入到网络中;然后,将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和本文档来自技高网...

【技术保护点】
1.一种基于双重暹罗网络的实时追踪方法,其特征在于,主要包括双重暹罗网络架构(一);语义分支的通道注意力模块(二);网络设计方案选择(三)。

【技术特征摘要】
1.一种基于双重暹罗网络的实时追踪方法,其特征在于,主要包括双重暹罗网络架构(一);语义分支的通道注意力模块(二);网络设计方案选择(三)。2.基于权利要求书1所述的双重暹罗网络架构(一),其特征在于,该网络的输入是从视频序列的第一帧(目标帧)以及用于跟踪的当前帧获取的一对图像块;用符号z,zs和X分别表示目标、目标周围的环境和搜索区域;双重暹罗网络包括了表观分支和语义分支;每个分支的输出都是一个响应图,能够显示目标z和搜索区域X中的候选块x之间的相似性。3.基于权利要求书2所述的符号z,zs和X,其特征在于,zs和X的尺寸均为Ws×Hs×3;而目标z的尺寸为Wt×Ht×3(Wt<Ws,Ht<Hs),位于zs的中心;X可被视为搜索区域中的候选图像块x的集合,与z具有相同的尺寸。4.基于权利要求书2所述的表观分支,其特征在于,表观分支以(z,X)作为输入,卷积网络A-Net用于提取表观特征fa(·);表观分支的响应图可用下式表示:ha(z,X)=corr(fa(z),fa(X))(1)其中,corr(·)表示互相关运算,fa(z)为目标的表观特征,fa(X)为搜索区域的表观特征;在相似性学习问题中,A-Net中的所有参数都是从头开始训练的。5.基于权利要求书2所述的语义分支,其特征在于,语义分支以(zs,X)作为输入,直接在图像分类任务中使用预训练的卷积网络作为S-Net,并在训练和测试期间修复其所有参数;令S-Net输出最后两个卷积层(卷积层4和卷积层5)的特征,因为这两个卷积层能够提供不同程度的抽象化结果;来自不同卷积层的特征具有不同的空间分辨率,用fs(·)表示串联的多级特征;为了使语义特征能用于互相关运算,在特征提取之后嵌入一个1×1的ConvNet融合模块;融合在同一卷积层中进行,融合后搜索区域的特征向量X可表示为g(fs(X));语义分支的目标处理过程与表观分支略有不同:S-Net将zs作为目标输入,zs中心有目标z,包含目标的周围的环境信息;由于S-Net是全卷积,通过简单的裁剪过程可从fs(zs)获得fs(z);注意力模块令fs(z...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1