一种基于语言引导的单目标跟踪方法及系统技术方案

技术编号：42612033 阅读：33 留言：0更新日期：2024-09-03 18:19

本发明专利技术公开了一种基于语言引导的单目标跟踪方法及系统，本发明专利技术的目标跟踪方法与以往的目标跟踪方法的创新之处主要在于视觉特征和语言特征的融合，其包括，模板特征、搜索特征与语言特征进行交叉编码生成融合特征；引入历史目标运动轨迹并结合语言特征编码生成时序信息来增强融合特征表示；融合特征结合时序信息进行解码实现跟踪目标表征学习。本发明专利技术的基于语言引导的单目标跟踪系统结构简单，输入文本语言决策跟踪对象，目标跟踪精度高，系统实时性好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理和自然语言处理交叉领域，尤其涉及一种基于语言引导的单目标跟踪方法及系统。

技术介绍

1、视觉目标跟踪是计算机视觉研究中的前沿和热点问题，其任务是在给定初始帧序列的条件下对视频序列中下一帧的运动目标进行检测、识别、提取和跟踪等，在安防监控、智能驾驶、机器人感知等领域中有着重要的应用价值。

2、自深度学习提出以来，视觉目标跟踪进入快速发展时期。特别的，2017年谷歌发表论文《attention is all you need》提出transformer结构，显著地推动了跟踪技术的发展。transformer首次应用在机器文本翻译任务，随后在自然语言处理领域大放异彩，成为了自然语言领域的主流架构。得益于transformer在模型训练中的长程依赖性建模、并行计算等特点，transformer在图像分类、语义分割、目标检测跟踪等领域也表现出巨大潜力。

3、最初的，transformer仅被用来优化视觉目标跟踪框架的某一环节，如transt算法使用transformer编码器结构实现模板特征和搜索特征...

【技术保护点】

1.一种基于语言引导的单目标跟踪系统，其特征在于，包括两个模块，其中，第一模块为无人机模块，设有视频图像采集子系统，设备为无人机及其所携带高清摄像头；第二模块为电脑模块，设有语言输入子系统、视觉-语言跟踪器和跟踪目标显示子系统，设备为电脑。

2.根据权利要求1所述的基于语言引导的单目标跟踪系统，其特征在于，无人机模块的视频图像采集子系统采集高清视频图像，视频图像序列通过实时图传技术传输至电脑模块；电脑模块读取视频图像和语言文本并传递至视觉-语言跟踪器，在跟踪器中完成基于语言引导的单目标跟踪任务，最后在电脑模块的跟踪目标显示子系统显示跟踪结果。该系统以30-40ms的时间间隔实...

【技术特征摘要】

3.一种基于语言引导的单目标跟踪方法，其特征在于：目标模板和搜索区域分别输入swin transformer骨干提取网络、语言序列输入bert（bidirectional encoderrepresentations from transformer）语言表征网络编码完成特征提取；模板特征、语言特征与搜索特征输入多源特征交互模块进行交叉编码器编码生成融合特征；历史目标运动轨迹和语言特征输入时序关联模块交叉编码生成时序信息；融合特征、目标查询和时序信息输入目标解码模块进行解码实现跟踪目标表征学习；解码结果通过预测头网络生成跟踪目标的位置和尺寸信息，输出带有目标边界框的跟踪图像。

4.根据权利要求4所述的基于语言引导的单目标跟踪方法，其特征在于，多源特征交互模块由5个交叉编码器构成。交叉编码器（cross-attention encoder，cae）主要由多头交叉注意力层（multi-head cross-attention，m.h.attn.）和前馈神经网络（feed forwardneural net...

【专利技术属性】
技术研发人员：王勇，李伟，朱翔宇，周佳奇，邱周静子，周东杰，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人