当前位置: 首页 > 专利查询>嘉应学院专利>正文

一种用于机器人视觉的目标跟踪方法技术

技术编号:36453980 阅读:16 留言:0更新日期:2023-01-25 22:51
本发明专利技术公开了一种用于机器人视觉的目标跟踪方法;属于目标跟踪方法技术领域;其包括下述步骤:(1)在图像首帧手动获得要跟踪目标在二维图像上的左上和右下坐标,截取目标图像及其周边的样本图像块作为模板,通过特征提取深度网络获得模板样本特征张量;(2)将搜索区域样本输入特征提取深度网络,获得搜索区域样本特征张量;(3)将模板的特征张量和搜索区域的特征张量同时输入基于内卷

【技术实现步骤摘要】
一种用于机器人视觉的目标跟踪方法


[0001]本专利技术涉及一种目标跟踪方法,更具体地说,尤其涉及一种用于机器人视觉的目标跟踪方法。

技术介绍

[0002]视频目标跟踪技术,作为机器视觉研究中的重要内容,受到了研究人员的广泛关注。它旨在通过第一帧获得的目标状态信息,在视频中对目标进行跟踪,以获得每帧目标状态。在跟踪的过程中,存在目标形态变化、光照变化复杂背景和目标被遮挡等情况。在这些情况下,目标特征结构会发生相应变化,造成跟踪算法难于锁定目标。
[0003]自深度学习技术引入视觉跟踪以来,卷积被广泛用于特征提取和模板和搜索区域融合的框架中。目前流行的深度学习跟踪器主要由卷积核构造,然而,由于计算量大,卷积核无法设计得太大。因此,卷积核不能在单次对长距离信息进行交互,当出现相似目标或目标形态变化较大时,模型的这种缺陷限制了复杂场景的处理能力。
[0004]长距离依赖问题可以通过引入自注意力机制得到有效解决,自注意力机制已经成功地应用于机器翻译,自然语言处理和语音处理过程中。此外,它还在图像处理过程中得到了出色的实验结果,比如目标跟踪和目标检测。虽然自注意力机制可以很好地捕获全局信息,但是它没有特别地关注局部信息,对于目标跟踪来说,目标周围的局部信息应该占有较大的权重。因此,有必要开发一个既能像自注意力机制一样能处理全局又能像卷积处理局部信息的模型来解决这个问题。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术的不足,提供一种跟踪成功率高、跟踪误差小且能实现实时跟踪的用于机器人视觉的目标跟踪方法。
[0006]本专利技术的技术方案是这样实现的:一种用于机器人视觉的目标跟踪方法,包括下述步骤:
[0007](1)在图像首帧手动获得要跟踪的目标在二维图像上的左上和右下坐标,截取目标图像及其周边的样本图像块作为模板,通过特征提取深度网络获得模板样本特征张量;
[0008](2)将搜索区域样本输入相同的特征提取深度网络,获得搜索区域样本特征张量;
[0009](3)将模板的特征张量和搜索区域的特征张量同时输入基于内卷

注意力模型的特征增强和特征融合网络,得到包含了模板特征和搜索区域特征的融合特征张量,再将该融合特征张量通过分类网络和回归网络得到跟踪结果。
[0010]上述的一种用于机器人视觉的目标跟踪方法,步骤(1)中,所述特征提取深度网络具体为:其采用ResNet50网络作为基准;ResNet50包括一个干层和四个支干层,分别有3、4、6和3个bottleneck;
[0011]在特征提取深度网络中,丢弃了ResNet50的第四层,将第三层的Conv2d算子的下采样stride参数由2变成1;在ResNet50的干层,使用7
×
7对内部卷积和代替以前的7
×
7卷
积核;在其他层,全部的3
×
3卷积核被7
×
7内部卷积核所取代;最后,在第三层之后增加了1
×
1卷积。
[0012]上述的一种用于机器人视觉的目标跟踪方法,步骤(3)所述内卷

注意力模型由一个内注模块、两个Add&Norm模块和一个FFN&Relu模块构成;
[0013]所述内注模块以张量A和张量B为输入;使用和分别构建卷积张量和内部卷积核,其中d为通道数,w
×
w为图像块的尺度;
[0014]为了构建内部卷积核,张量B被展开为那么,给定可学习参数矩阵和可以得到查询Q和键K为
[0015]Q=B

W
Q
[0016]K=B

W
K

ꢀꢀꢀ
(1)
[0017]其中,而后,注意力矩阵可以由式(2)获得;
[0018][0019]然后,将注意力矩阵M变维为内部卷积核张量其中g为内部卷积核的组数,w
×
w为卷积图像的尺度,k
×
k为内部卷积核大小。
[0020]上述的一种用于机器人视觉的目标跟踪方法中,将注意力矩阵M变维为内部卷积核张量I依赖于不同类型的B,需要处理两种类型的输入B:搜索区域样本和模板集样本,模板集样本由四个模板组成,可以在线更新;
[0021]当输入B是一个搜索区域张量时,M
i,j
表示Q的第i行和K的第j行相似度;由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获搜索区域的长程依赖关系;该策略称为内卷注意力策略1;
[0022]当输入B是一个模板集张量时,使用四个模板来连接模板集张量;M的第i行描述了Q中的第i个元素与K中四个模板中的所有元素之间的相似性;由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获模板集张量的长依赖关系;该策略称为内卷注意力策略2。
[0023]上述的一种用于机器人视觉的目标跟踪方法,步骤(3)中,基于内卷

注意力模型的特征增强和特征融合网络由五个模块构成:内卷

注意力模板模块,内卷

注意力搜索区域模块,内卷

注意力模板搜索模块,内卷

注意力搜索模板模块和内卷

注意力混合模块模块;其中,五个模块中的内卷

注意力均表示基于内卷

注意力模型;
[0024]得到包含了模板特征和搜索区域特征的融合特征张量的具体步骤为:首先,模板集特征F
T0
和搜索区域特征F
S0
分别通过内卷

注意力模板模块和内卷

注意力搜索区域模块,得到增强特征F
T1
和F
S1
;然后,将增强后的模板特征F
T1
和搜索区域特征F
S1
同时交叉输入内卷

注意力模板搜索模块和内卷

注意力搜索模板模块,获得融合特征F
T2
和F
S2
;其中,内卷

注意力模板模块,内卷

注意力搜索区域模块,内卷

注意力模板搜索模块,内卷

注意力搜索模板模块共同构建特征增强融合层,重复4次;
[0025]在特征增强融合层之后,内卷

注意力混合模块以融合特征F
T2
和F
S2
为输入,输出特征F,并将其送入回归网络和分类网络中。
[0026]上述的一种用于机器人视觉的目标跟踪方法中,所述内卷

注意力搜索区域模块和内卷

注意力模板搜索模块使用内卷注意力策略1来获取内部卷积核,内卷

注意力模板
模块,内卷

注意力搜索本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于机器人视觉的目标跟踪方法,其特征在于,包括下述步骤:(1)在图像首帧手动获得要跟踪的目标在二维图像上的左上和右下坐标,截取目标图像及其周边的样本图像块作为模板,通过特征提取深度网络获得模板样本特征张量;(2)将搜索区域样本输入相同的特征提取深度网络,获得搜索区域样本特征张量;(3)将模板的特征张量和搜索区域的特征张量同时输入基于内卷

注意力模型的特征增强和特征融合网络,得到包含了模板特征和搜索区域特征的融合特征张量,再将该融合特征张量通过分类网络和回归网络得到跟踪结果。2.根据权利要求1所述的一种用于机器人视觉的目标跟踪方法,其特征在于,步骤(1)中,所述特征提取深度网络具体为:其采用ResNet50网络作为基准;ResNet50包括一个干层和四个支干层,分别有3、4、6和3个bottleneck;在特征提取深度网络中,丢弃了ResNet50的第四层,将第三层的Conv2d算子的下采样stride参数由2变成1;在ResNet50的干层,使用7
×
7对内部卷积和代替以前的7
×
7卷积核;在其他层,全部的3
×
3卷积核被7
×
7内部卷积核所取代;最后,在第三层之后增加了1
×
1卷积。3.根据权利要求1所述的一种用于机器人视觉的目标跟踪方法,其特征在于,步骤(3)所述内卷

注意力模型由一个内注模块、两个Add&Norm模块和一个FFN&Relu模块构成;所述内注模块以张量A和张量B为输入;使用和分别构建卷积张量和内部卷积核,其中d为通道数,w
×
w为图像块的尺度;为了构建内部卷积核,张量B被展开为那么,给定可学习参数矩阵和可以得到查询Q和键K为Q=B

W
Q
K=B

W
K

ꢀꢀꢀꢀ
(1)其中,而后,注意力矩阵可以由式(2)获得;然后,将注意力矩阵M变维为内部卷积核张量其中g为内部卷积核的组数,w
×
w为卷积图像的尺度,k
×
k为内部卷积核大小。4.根据权利要求3所述的一种用于机器人视觉的目标跟踪方法,其特征在于,将注意力矩阵M变维为内部卷积核张量I依赖于不同类型的B,需要处理两种类型的输入B:搜索区域样本和模板集样本,模板集样本由四个模板组成,可以在线更新;当输入B是一个搜索区域张量时,M
i,j
表示Q的第i行和K的第j行相似度;由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获搜索区域的长程依赖关系;该策略称为内卷注意力策略1;当输入B是一个模板集张量时,使用四个模板来连接模板集张量;M的第i行描述了Q中的第i个元素与K中四个模板中的所有元素之间的相似性;由于每个核都是全局采样的,因此所有的内部卷积核都能够捕获模板集张量的长依赖关系;该策略称为内卷注意力策略2。5.根据权利要求4所述的一种用于机器人视觉的目标跟踪方法,其特征在于,步骤(3)中,基于内卷

注意力模型的特征增强和特征融合网络由五个模块构成:内卷

注意力模板
模块,内卷

注意力搜索区域模块,内卷

注意力模板搜索模块,内卷

注意力搜索模板模块和内卷

注意力混合模块模块;其中,五个模块中的内卷

注意力均表示基于内卷

注意力模型;得到包含了模板特征和搜索区域特征的融合特征张量的具体步骤为:首先,模板集特征F
T0
和搜索区域特征F
s0
分别通过内卷

注意力模板模块和内卷

注意力搜索区域模块,得到增强特征F
T1
和F
S1
;然后,将增强后的模...

【专利技术属性】
技术研发人员:侯跃恩邓嘉明罗志坚高延增刘茗铄唐家晖
申请(专利权)人:嘉应学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1