目标跟踪方法、装置、设备及存储介质制造方法及图纸

技术编号：41794015 阅读：20 留言：0更新日期：2024-06-24 20:19

本发明专利技术公开了一种目标跟踪方法、装置、设备及存储介质，该方法包括：获取采样视频中的初始语言信息和区域信息，区域信息包括初始目标模板和当前搜索区域信息；将初始语言信息和区域信息输入至渐进式联合视觉语言注意力网络模型，获得搜索区域的目标中心和边界框信息，渐进式联合视觉语言注意力网络模型包括线性映射层、联合视觉语言编码层和目标预测头，每个联合视觉语言编码层包括注意力编码层、视觉语言对齐层和视觉语言修正层。由于本发明专利技术渐进式联合视觉语言注意力网络模型中每个联合视觉语言编码层包括注意力编码层、视觉语言对齐层和视觉语言修正层，实现了对语言特征和视觉特征的渐进式联合编码，提高了视觉语言跟踪的精确度和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种目标跟踪方法、装置、设备及存储介质。

技术介绍

1、近年来，视觉语言跟踪受到了国内外研究者的广泛关注，成为目标跟踪领域的一个研究热点。例如，通过语言跟踪范式，进行视觉语言跟踪；通过将自然语言信息引入通过检测进行跟踪的框架中，以进行视觉语言跟踪；通过孪生自然语言区域建议网络，将自然语言信息引入孪生网络中以进行语言视觉跟踪。然而，这些早期的视觉语言跟踪方法在最后的融合阶段之前，将视觉和语言分别视为独立的线索，难以取得良好的跟踪性能。

2、虽然，后续通过将模态混合模块嵌入卷积神经网络中来学习统一的视觉语言表示，将视觉模态和语言模态进行对齐，取得了较好的跟踪性能。但是难以充分利用自注意力网络的多层设计在各个级别（例如，像素、语义和类别）进行渐进式特征对齐，跟踪性能有待进一步提升。在注意力网络的架构中进行多源多模态信息交互，在统一的框架内同时进行视觉目标定位以及跟踪，尽管取得了较好的跟踪性能，但该方法难以有效利用自注意力网络的编码层来挖掘丰富的视觉语言上下文信息，跟踪性能亟待进一步提升。

...

【技术保护点】

1.一种目标跟踪方法，其特征在于，所述目标跟踪方法包括以下步骤：

2.如权利要求1所述的目标跟踪方法，其特征在于，所述将所述初始语言信息和所述区域信息输入至渐进式联合视觉语言注意力网络模型，获得搜索区域的目标中心和边界框信息的步骤，包括：

3.如权利要求2所述的目标跟踪方法，其特征在于，所述初始语言信息为自然语言信息，所述线性映射层包括语言线性映射层和视觉线性映射层，所述通过所述线性映射层，将所述初始语言信息和所述区域信息分别转换为初始语义特征和初始视觉特征的步骤，包括：

4.如权利要求2所述的目标跟踪方法，其特征在于，所述注意力编码层包括语言注意力编...

【技术特征摘要】

1.一种目标跟踪方法，其特征在于，所述目标跟踪方法包括以下步骤：

4.如权利要求2所述的目标跟踪方法，其特征在于，所述注意力编码层包括语言注意力编码层和视觉注意力编码层，所述采用所述注意力编码层提取所述初始语义特征和所述初始视觉特征，获得语义特征和视觉特征的步骤，包括：

5.如权利要求2所述的目标跟踪方法，其特征在于，所述通过所述视觉语言对齐层对所述语义特征和所述...

【专利技术属性】
技术研发人员：梁艳杰，李甲，夏长群，代菊，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人