一种基于注意力机制的特征融合目标跟踪方法技术

技术编号：37979696 阅读：12 留言：0更新日期：2023-06-30 09:54

本发明专利技术涉及计算机视觉技术领域，尤其为一种基于注意力机制的特征融合目标跟踪方法，其方法包括如下步骤：使用ResNet网络对跟踪目标和搜索区域分别进行特征提取，得到两个支路的特征映射图，将二维特征图转换成一维特征序列，利用多头自注意力模块对两个支路的特征进行增强，利用交叉注意力模块对跟踪目标和搜索区域的特征进行交叉融合，以便在搜索区域中准确识别出目标。同时，在搜索区域分支包含了一个局部特征学习模块，与交叉注意力模块构成一个局部全局特征交互网络，把学习到的局部关系和全局关系进行交互融合，实现丰富的特征表示。最后，利用预测网络准确定位跟踪目标。本发明专利技术提出的跟踪方法，充分利用了Transformer和卷积网络的优势，将局部特征与全局特征、跟踪目标特征与搜索区域特征进行融合，使跟踪器能够自适应地关注有用信息，得到更为丰富的语义信息。并且在训练数据量和准确性之间找到了很好的平衡，仅使用GOT

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的特征融合目标跟踪方法

[0001]本专利技术涉及计算机视觉
，具体为一种基于注意力机制的特征融合目标跟踪方法。

技术介绍

[0002]随着科学技术的迅猛发展，计算机视觉越来越受到人们的重视。视觉跟踪是计算机视觉的重要组成部分。其核心作用为通过在一段视频图像序列的初始时刻对特定目标进行分析建模，精准地预测目标在后续任意时刻的空间位置状态，为进一步分析掌握目标的运动趋势和运动行为奠定基础。因此其在视频监控、智能交通、自动驾驶、视觉导航、人机交互、医学诊断以及军事侦察打击等领域得到了广泛而深入的应用。
[0003]由于深度学习技术具有优秀的表征学习能力和灵活的泛化能力，因此视觉目标跟踪迎来了新的发展时期。基于深度学习的目标跟踪方法，在成功率、精度和鲁棒性方面显著超越了其他方法，成为了目前的研究热点。
[0004]目前，基于深度学习的目标跟踪方法主要两种：一种是基于卷积神经网络的方法，最典型的是孪生网络框架。这类方法可以提取目标和搜索区域的局部特征，并进行互相关操作，找到目标位置。该种方法的优点是继承了卷积网络归纳偏置的特点，泛化能力强，计算量小。但有限的感受野使得卷积难以学习全局依赖关系，限制了跟踪性能的进一步提升；另一种是基于Transformer的方法，这类方法可以自适应地捕捉目标对象与搜索区域的全局相似性特征，大幅提升了跟踪性能，但对目标的局部特征提取能力较差，需要大量的训练数据，且计算量大，占用大量GPU资源。

技术实现思路

[0005]本专利技术提供了一种...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的特征融合目标跟踪方法，其特征在于：其方法包括如下步骤：S1、特征提取：使用ResNet网络对跟踪目标和搜索区域分别进行特征提取，得到两个支路的特征映射图，并将二维特征图转换成一维特征序列；S2、特征增强：使用多头自注意力模块对两个支路的特征进行增强；S3、支路特征融合：使用交叉注意力模块对跟踪目标和搜索区域的特征进行交叉融合，以便在搜索区域中准确识别出目标。S4、局部全局特征融合：在搜索区域分支使用局部特征学习模块，与交叉注意力模块构成局部全局特征交互融合网络，把学习到的局部和全局依赖关系进行交互融合。S5、结果预测：使用预测网络准确定位跟踪目标。2.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员：倪笑宇，马宏，耿明超，王占英，刘春东，梁建明，王洁，赵成刚，冯旭，
申请(专利权)人：河北建筑工程学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人