基于残差网络和群体混合注意力的目标跟踪方法与系统技术方案

技术编号：41299739 阅读：5 留言：0更新日期：2024-05-13 14:47

本发明专利技术提出一种基于残差网络和群体混合注意力的目标跟踪方法与系统，该方法包括，采用深度残差网络和群体混合注意力对模板分支以及搜索分支的目标图像特征进行提取，得到模板图像特征和搜索图像特征；再将模板图像特征输入模型预测模块进行训练，得到最优预测模型，再将最优预测模型的权重应用于搜索图像特征，再经过卷积计算出目标置信度分数，确定目标中心位置；利用模板图像特征和初始边界框获取调制向量，再将搜索图像特征、提议边界框以及调制向量输入IoU预测器中，估算每个提议边界框的IoU，以确定与初始边界框重叠最多的提议边界框，即目标的最终边界框。本发明专利技术可有效利用目标和背景外观信息，实现高精度和强泛化能力的跟踪。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与图像处理，特别涉及一种基于残差网络和群体混合注意力的目标跟踪方法与系统。

技术介绍

1、目标跟踪是计算机视觉领域的主要研究方向之一。该领域致力于在给定视频序列中，通过边界框标定目标的位置，实现对目标的持续定位和状态估计。目前，目标跟踪在多个领域得到广泛应用，包括公共安防、自动驾驶、智能机器人、人机智能交互以及医学诊断。

2、在实际场景中，目标跟踪面临着多种挑战。首先，跟踪目标通常是非特定物体，因此跟踪器无法事先对目标进行预训练或建模。其次，在跟踪过程中，目标可能经历外观变化、背景干扰、快速移动等情况，甚至会出现目标消失的情况。这些挑战因素对跟踪算法提出了较大的挑战，需要不断改进和优化算法以适应复杂的实际环境。

3、近年来，基于cnn的孪生网络跟踪器被广泛应用于目标跟踪。具体的，将基于cnn模型的特征信息引入到模板和搜索分支中，通过互关操作得到响应图，响应分数最高的点即为目标中心位置。其中，典型的cnn模型有alexnet、vgg和resnet等。然而cnn模型只能捕捉到空间局部信息，无法获取建模图像内容的全局关系。

技术实现思路

1、鉴于上述状况，本专利技术的主要目的是为了提出一种基于残差网络和群体混合注意力的目标跟踪方法与系统，以解决上述技术问题。

2、本专利技术提出了一种基于残差网络和群体混合注意力的目标跟踪方法，所述方法包括如下步骤：

3、步骤1：在孪生网络框架下，基于深度残差网络和群体混合注意力，构建

4、步骤2：利用大规模数据集，对判别模型预测网络进行预训练，并调整所述网络模型中的参数，得到预训练后的判别模型预测网络；

5、步骤3：将模板图像和搜索图像分别输入至预训练后的判别模型预测网络中的模板分支以及搜索分支，利用深度残差网络对模板分支以及搜索分支的目标图像特征进行提取，以分别得到对应的图像特征，然后通过群体混合注意力对各图像特征进行聚合，以得到具有全局上下文信息的模板图像特征和搜索图像特征；

6、步骤4：将模板图像特征输入到模型预测模块，经过进行迭代优化更新，以获取最优预测模型；

7、步骤5：将最优预测模型的权重应用于搜索图像特征，再经过目标分类模块计算出目标置信度分数，区分前背景，以确定目标中心位置，并根据目标中心位置和模板图像的初始边界框生成提议边界框；

8、步骤6：利用模板图像特征和初始边界框计算携带目标特定外观信息的调制向量，将搜索图像特征、提议边界框以及调制向量输入iou预测器中，估算每个提议边界框的iou，以确定与初始边界框重叠最多的提议边界框，即目标的最终边界框。

9、本专利技术还提出一种基于残差网络和群体混合注意力的目标跟踪系统，其中，所述系统应用如上所述的基于残差网络和群体混合注意力的目标跟踪方法，所述系统包括：

10、构建模块，用于：

11、在孪生网络框架下，基于深度残差网络和群体混合注意力，构建得到特征提取网络，基于目标估计模块和目标分类模块构建模型预测模块，特征提取网络、特征生成模块和模型预测模块构成判别模型预测网络；

12、预训练模块，用于：

13、利用大规模数据集，对判别模型预测网络进行预训练，并调整所述网络模型中的参数，得到预训练后的判别模型预测网络；

14、提取模块，用于：

15、将模板图像和搜索图像分别输入至预训练后的判别模型预测网络中的模板分支以及搜索分支，利用深度残差网络对模板分支以及搜索分支的目标图像特征进行提取，以分别得到对应的图像特征，然后通过群体混合注意力对各图像特征进行聚合，以得到具有全局上下文信息的模板特征和搜索特征；

16、学习模块，用于：

17、将模板特征输入到模型预测模块，经过进行迭代优化更新，以获取最优预测模型；

18、计算模块，用于：

19、将最优预测模型的权重应用于搜索特征，再经过目标分类模块计算出目标置信度分数，区分前背景，以确定目标中心位置，并根据目标中心位置和模板图像的初始边界框生成提议边界框；

20、跟踪模块，用于：

21、利用模板特征和初始边界框计算携带目标特定外观信息的调制向量，将搜索特征、提议边界框以及调制向量输入iou预测器中，估算每个提议边界框的iou，以确定与初始边界框重叠最多的提议边界框，即目标的最终边界框。

22、相较于现有技术，本专利技术的有益效果如下：

23、1、本专利技术将模板图像特征输入到模型预测模块，经过进行迭代优化更新，以获取最优预测模型；再将最优预测模型的权重应用于搜索图像特征，再经过目标分类模块计算出目标置信度分数，区分前背景，以确定目标中心位置，并根据目标中心位置和模板图像的初始边界框生成提议边界框；进而可有效利用目标和背景外观信息，实现高精度和强泛化能力的跟踪。

24、2、在本专利技术通过深度残差网络和群体混合注意力配合进行特征提取，可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息，从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性，最终实现更为准确地跟踪。

25、3、本专利技术通过使用群体混合注意力，不仅能够对单个token之间的相关性进行建模，而且还能够对token组之间的相关性进行建模。token到token、token到组以及组到组的相关性在每个单层内同时建模，以此获得更高的表示能力,进而获得更高的跟踪成功率

26、本专利技术的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实施例了解到。

本文档来自技高网...

【技术保护点】

1.一种基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，在所述步骤3中，群体混合注意力的具体计算步骤如下：

3.根据权利要求2所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，在所述步骤3中，群体混合注意力计算过程存在如下关系式：

4.根据权利要求3所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于在所述步骤5中，目标分类模块计算目标置信度分数的过程存在如下关系式：

5.根据权利要求4所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，在将模板图像特征输入到模型预测模块，经过进行迭代优化更新过程中，目标分类模块根据计算所得目标置信度分数，并基于分类误差定制目标跟踪的学习目标，基于分类误差的学习目标存在如下关系式：

6.根据权利要求5所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，在所述步骤6中，估算每个提议边界框的IoU的过程存在如下关系式：

7.根据权

8.一种基于残差网络和群体混合注意力的目标跟踪系统，其特征在于，所述系统应用如权利要求1至7任意一项所述的基于残差网络和群体混合注意力的目标跟踪方法，所述系统包括：

...

【技术特征摘要】

1.一种基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，在所述步骤3中，群体混合注意力的具体计算步骤如下：

3.根据权利要求2所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，在所述步骤3中，群体混合注意力计算过程存在如下关系式：

5.根据权利要求4所述的基于残差网络和群体混合注意力的目标跟踪方法，其特征在于，在将模板图像特征输入到模型预测模块，经过...

【专利技术属性】
技术研发人员：王员云，谷庚，司英振，夏燕，王军，
申请(专利权)人：南昌工程学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人