System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于注意力机制和改进的Transformer的单目标跟踪系统及方法技术方案_技高网

基于注意力机制和改进的Transformer的单目标跟踪系统及方法技术方案

技术编号:41211189 阅读:6 留言:0更新日期:2024-05-09 23:33
本申请提出一种基于注意力机制和改进的Transformer的单目标跟踪系统及方法,该方法包括:获取视频序列中的两帧图像分别作为训练图像和测试图像并输入单目标跟踪网络进行特征提取,将提取的特征输入构建的特征整合模块,得到全局和局部的整合特征信息;对整合特征信息输入改进的Transformer的多头注意力机制中的时空特征增强模块,以捕获图像内部的时空上下文特征;将时空上下文特征输入构建的双头预测模块中,以得到目标位置信息。本申请提出的方法能够解决现有的单目标跟踪方法由特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文引起的精度和效率不高的问题。

【技术实现步骤摘要】

本申请涉及计算机视觉、深度学习领域领域,特别涉及一种基于注意力机制和改进的transformer的单目标跟踪系统及方法。


技术介绍

1、单目标跟踪是计算机视觉领域中的一个重要研究方向,在智能安防领域、智慧交通领域、自动驾驶领域、人机交互领域以及智能化军事领域有着广泛的应用。单目标跟踪的核心机制主要是将目标在视频初始帧的状态作为先验知识,然后根据先验知识在后续视频序列中持续准确地捕获该目标的位置信息和尺度信息。其中目标在起始帧的状态包括位置和尺度信息。

2、目前,单目标跟踪领域的主流算法框架可以分为基于相关滤波的单目标跟踪方法以及基于深度学习的单目标跟踪方法。基于相关滤波的跟踪器使用颜色特征、多通道特征和直方图特征等手工特征来提高特征的质量,但这些特征还是相对简单,单纯使用这些特征很难提高跟踪器的鲁棒性。而基于深度学习的单目标跟踪算法又可以进一步划分为基于孪生网络和基于其他深度学习方法的单目标跟踪,已表现出较为优异的性能。

3、然而,在跟踪器特征提取方面,由于目标会受到背景干扰物体的影响,导致跟踪器错误地关注了非目标区域或错过了目标,并且当目标被遮挡时,传统的单目标跟踪算法容易出现漏检或错误跟踪的情况;在此基础上,在视觉目标跟踪预测阶段,使用由三层感知器组成的前馈神经网络来预测目标的位置虽然简单有效,但没有考虑数据集的模糊性和不确定性,难以处理遮挡和复杂背景等问题。在时空特征融合方面,现有单目标跟踪方法没有充分利用到transformer编码器和解码器中相邻键之间的丰富上下文,并且没有考虑到输入目标特征本身存在的时空信息以及状态信息对单目标跟踪器有较大的增强作用。因此,现有的单目标跟踪系统还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文,从而影响了单目标跟踪的精度和效率。


技术实现思路

1、基于此,本申请提出一种基于注意力机制和改进的transformer的单目标跟踪系统及方法,旨在能够解决现有的单目标跟踪系统还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文,从而影响了单目标跟踪的精度和效率的问题。

2、实施例的第一方面提供了一种单目标跟踪系统,包括:

3、图像获取模块,用于获取视频序列中的两帧图像分别作为训练图像和测试图像;

4、特征提取模块,用于将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取,得到所述视频序列的高级特征表示;

5、特征整合模块,用于对所述高级特征表示进行特征整合,得到包含特征尺度信息和空间特征信息的整合特征信息;

6、特征增强模块,用于对所述整合特征信息输入改进的transformer的多头注意力机制中进行时空特征增强,以捕获图像内部的时空上下文特征;

7、双头预测模块,用于对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理,再使用分类分支和回归分支结合的方式预测目标的具体位置。

8、与现有技术相比,本申请提出的一种基于注意力机制和改进的transformer的单目标跟踪系统。该系统通过使用两帧图像分别作为训练图像和测试图像,再对这两图像进行提取后进行特征整合,结合了全局与局部特征,提高了全局交互信息和遮挡目标的深度特征提取能力;在此基础上设计了包括多层感知机预测单元和改进时空预测单元的双头预测模块,相比于单预测头,能够充分考虑了局部时空环境对目标位置的影响,增强了预测阶段对时空上下文信息的利用能力;还通过一种改进的transformer,来处理transformer编/解码层相邻键之间丰富的上下文时空信息,并采用全局关系建模来提高判别时空特征的融合能力,有效缓解了由于目标尺度和形状变化对跟踪器的影响。因此,本系统能够解决现有的单目标跟踪方法还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文,从而影响了单目标跟踪的精度和效率的问题。

9、作为第一方面的一种可选实施方式,所述特征整合模块包括:

10、空间金字塔单元:用于,将所述特征输入所述空间金字塔单元,进行卷积变换将通道数量调整为变换前的1/4,再进行3×3、7×7以及11×11的最大池化操作,再进行通道维度合并,用公式表示为:

11、,

12、其中,表示空间金字塔单元的输出特征,表示卷积变换输出的特征,表示池化操作,表示池化核大小;

13、多尺度注意力单元:用于,将所述空间金字塔单元的输出输入所述多尺度注意力单元,得到全局通道注意力和局部通道注意力,用公式表示为:

14、,

15、,

16、其中,表示全局通道注意力,表示局部通道注意力,表示最大池化,和分别表示1d卷积和2d卷积,和为激活函数;

17、第一赋权单元:用于,对所述全局通道注意力和所述局部通道注意力赋予权重,得到所述整合特征信息,用公式表示为:

18、,

19、其中,x表示输入特征的权重,y表示输出的整合特征信息。

20、作为第一方面的一种可选实施方式,所述特征增强模块包括:

21、全局尺度时空处理单元:用于,将所述整合特征信息输入全局尺度时空处理单元,通过自适应平均池化、全连接层以及使用dropout方法,得到键的全局尺度权重,用公式表示为:

22、,

23、其中,表示键的全局尺度权重,k表示由整合特征信息y经线性变换得到的键特征,fc表示全连接层,d表示dropout方法;

24、局部尺度时空处理单元:用于,将所述整合特征信息输入局部尺度时空处理单元,通过两个一维卷积和使用激活函数,得到键的局部尺度权重,用公式表示为:

25、,

26、其中,表示键的局部尺度权重;

27、第二赋权单元:用于,采用键的全局尺度权重和局部尺度权重的逐元素相加,再与键特征k逐元素相乘,得到最终增强后的键,用公式表示为:

28、。

29、所述特征增强模块还包括改进的transformer模型的多头注意力机制单元,用于从最终增强后的相邻键之间的上下文信息和时空特征信息进一步捕捉到图像序列内部的时空上下文特征,所述改进的transformer模型的多头注意力机制公式表示为:

30、,

31、其中,表示多头注意力机制,表示k的维度,q、k和v表示输入特征,t表示时间维度,表示位置信息编码,表示时空特征增强方法,表示分类函数。

32、作为第一方面的一种可选实施方式,所述双头预测模块包括多层感知机预测单元和改进时空预测单元,所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到;所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元;

33、全局空间分支单元:用于,使用两个全连接层及dropout方法对输入特征进行全局处理,以学习图本文档来自技高网...

【技术保护点】

1.一种基于注意力机制和改进的Transformer的单目标跟踪系统,其特征在于,所述系统包括:

2.根据权利要求1所述的单目标跟踪系统,其特征在于,所述特征整合模块包括:

3.根据权利要求2所述的单目标跟踪系统,其特征在于,所述特征增强模块包括:

4.根据权利要求3所述的单目标跟踪系统,其特征在于,所述特征增强模块还包括改进的Transformer模型的多头注意力机制单元,用于从最终增强后的相邻键之间的上下文信息和时空特征信息进一步捕捉到图像序列内部的时空上下文特征,所述改进的Transformer模型的多头注意力机制公式表示为:

5.根据权利要求4所述的单目标跟踪系统,其特征在于,所述双头预测模块包括多层感知机预测单元和改进时空预测单元,所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到;所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元;

6.根据权利要求5所述的单目标跟踪系统,其特征在于,所述多层感知机预测单元包括三个连接层和一个ReLU激活函数,所述多层感知机预测单元的公式表示为:

7.根据权利要求6所述的单目标跟踪系统,其特征在于,将所述多层感知机预测单元输出的预测特征分类信息和所述改进时空预测单元输出的预测特征分类信息均经过分类分支和回归分支,得到最终预测目标的具体位置。

8.一种单目标跟踪方法,其特征在于,基于注意力机制和改进的Transformer的单目标系统实现,所述系统包括图像获取模块、特征提取模块、特征整合模块、特征增强模块和双头预测模块,所述方法包括:

9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序,所述图像处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的单目标跟踪系统。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像处理程序,所述图像处理程序被处理器运行时执行所述权利要求1至7任一项所述的单目标跟踪系统。

...

【技术特征摘要】

1.一种基于注意力机制和改进的transformer的单目标跟踪系统,其特征在于,所述系统包括:

2.根据权利要求1所述的单目标跟踪系统,其特征在于,所述特征整合模块包括:

3.根据权利要求2所述的单目标跟踪系统,其特征在于,所述特征增强模块包括:

4.根据权利要求3所述的单目标跟踪系统,其特征在于,所述特征增强模块还包括改进的transformer模型的多头注意力机制单元,用于从最终增强后的相邻键之间的上下文信息和时空特征信息进一步捕捉到图像序列内部的时空上下文特征,所述改进的transformer模型的多头注意力机制公式表示为:

5.根据权利要求4所述的单目标跟踪系统,其特征在于,所述双头预测模块包括多层感知机预测单元和改进时空预测单元,所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到;所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元;

6.根据权利要求5所述的单目标跟踪系统,其特征在于,所述多...

【专利技术属性】
技术研发人员:刘刚王冰冰段泳帆龚洪涛王子华
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1