System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多模态融合的目标跟踪方法技术_技高网

一种多模态融合的目标跟踪方法技术

技术编号:41294972 阅读:4 留言:0更新日期:2024-05-13 14:44
本发明专利技术为一种多模态融合的目标跟踪分析方法,涉及计算机视觉技术领域,根据自动编码机制的自注意力机制内在机理;将多模态的图像分块并行输入到自注意力机制,实现充分交互,获取有效融合的多模态编码特征,运用注意力机制,处理跨模态的表征融合;将不同模态的图像数据分块化,并输入到注意力机制,实现对不同模态间图像块的权重信息获取,从而有效地融合多模态信息,提高了图像目标的跟踪精度和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,尤其涉及一种多模态融合的目标跟踪方法


技术介绍

1、无人智能系统是人工智能领域的重要应用研究方向之一,其发展态势可大大推动人工智能技术的创新和推广。在无人复杂环境中,红外等特殊场景下的信息源更加有利用价值。与可见光跟踪相反,大多数性能最高的红外跟踪器仍然在模型中使用传统的人工标定特征。例如,srdcfir通过将运动特征与人工标定特征的视觉特征,比如hog特征,颜色名称,强度等。2016年,有研究者使用边缘特征设计客观性度量,以生成高质量的对象建议。2018年,有研究者提出了利用边缘和hog特征在对象周围的密集样本上进行结构学习的方法,该方法被转移到傅立叶域以提高效率。为了解决当前红外跟踪数据库不足的问题,有研究者采用目前流行的图像生成模型大规模地将最新的rgb跟踪数据。现有的技术有两个方面的问题:一是采用传统的手工特征进行跟踪,不能实现自动化的端到端跟踪;二是采用一般的卷积神经网络作为特征提取器进行目标提取,但是缺乏对目标和背景全局的信息结构化获取,尤其在多模态信息和时序信息没有综合考虑,无法将跨模态、历史帧的信息综合利用,来实现目标跟踪。综上所述,不能实现端对端且将多模态信息综合利用的目标跟踪过程。


技术实现思路

1、为了克服上述现有技术不能实现端对端且将多模态信息综合利用的目标跟踪的缺点,本专利技术的主要目的在于提供一种多模态融合的目标跟踪方法。

2、为达到上述目的,本专利技术采用以下技术方案,

3、跟踪流程描述为,首先,给定跟踪器第一帧的的目标位置信息,然后,不断输入后续帧,在知道前一帧目标位置信息的基础上,跟踪器预测出目标在当前帧中的位置。在此过程中,会产生所有带有预测框的图像,这些数据发生在当前帧之前,称之为“历史帧”。这些历史帧带有大量的时序信息,即时序上下文信息。而利用这些历史帧,充分利用自编码器中注意力机制,比如自注意力机制。注意力机制将输入数据分块化之后,通过计算不同块之间的“关键”、“查询”和“值”三个张量值,获取不同块之间的相关性,然后,根据这些块之间的权重关系,获得这些块的注意力信息。即在输入的时候,将注意力机制的块认定为时序上的历史帧,那么,就获得这些历史帧各自的权重信息。因此对历史帧重要性进行排序,以此充分有效地利用历史帧的时序信息。

4、利用自动编码自有的分块机制进行多模态融合。将多模态的图像各自进行分块,然后并行输入到自注意力模块中进行充分交互,获得有效融合的多模态编码特征。

5、将自动编码器中注意力机制,比如交叉注意力机制,十分巧妙地运用在跨模态的表征融合上。同样的原理,注意力机制将输入数据分块化之后,通过计算不同块之间的“关键”、“查询”和“值”三个张量值,获取不同块之间的相关性,然后,根据这些块之间的权重关系,获得这些块的注意力信息。

6、将可见光模态的图像数据分块化,并且同时将另一模态(比如红外模态)的图像数据进行分块化,然后,将不同模态的图像块输入到交叉注意力机制,那么,就获得这些不同模态中每一个图像块的权重信息,即对不同模态的分块进行重要性排序,以此充分有效地融合不同模态间的信息。

7、与现有技术相比较,本专利技术的有益效果为:与单模态跟踪器相比,具有抗干扰能力强、测量结果可靠性高的突出优点。能够充分融合多模态信息,环境适应性好。本专利技术针对当前多模态跟踪缺乏有效的交互式融合机制,采用自动编码机制,通过交互式学习目标表征,提升多模态跟踪性能。充分利用自动编码器中注意力机制对跟踪中的视频历史帧进行充分挖掘,获得时序上的上下文信息。对于多模态之间的特征融合设计交叉注意力机制,运用在跨模态的表征融合上。

本文档来自技高网...

【技术保护点】

1.一种多模态融合的目标跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述不同块之间的相关性是通过计算不同块之间的“关键”、“查询”和“值”三个张量值获得。

3.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述注意力机制包括自注意力机制与交叉注意力机制,所述自注意力机制分别将可见光的图像块与红外图像块进行权重处理,分别得到可见光的不同块之间的权重关系与红外的不同块之间的权重关系,所述交叉注意力机制分别将可见光的不同块与红外的不同块之间,任意一个模态的块的权重关系可以根据另一个模态的信息进行动态调整。

4.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述查询向量输入给解码器,分别解码可见光的图像块与红外图像块分类器权重和可见光的图像块与红外图像块回归器权重:其中,所述分类器权重与下一帧特征相关操作可以获得热力图;所述回归器权重与下一帧特征共同输入给浅层CNN获得目标尺度状态。

5.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述目标状态是指被跟踪目标的位置和尺度,即目标框[x,y,w,h],其中,x,y是目标框的左上角的坐标,w,h为目标框的宽度和高度。在下一帧计算目标的最优位置时,在上一帧目标状态的基础上,扩大5倍左右区域,解码器预测出一个分类权重,然后分类权重与下一帧的特征进行相关操作,可以获得关于目标位置的热力图,即搜索区域对应的每一个预测值,所以,热力图最大值即为最优目标状态的位置。另外,解码器会预测另一个权重,该权重与下一帧的特征同时输入给一个尺度回归器,为浅层CNN,卷积神经网络,该回归器输出最终的尺度状态。

6.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,还包括:根据,更新所述自动编码模型中的参数,更新所述自动编码模型中的参数通过在线学习或反馈机制实现。

7.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述参数包括特征提取器参数、多模态融合层参数、循环神经网络或长短时记忆网络的模型参数、目标状态估计器参数、在线学习或增量学习参数。

...

【技术特征摘要】

1.一种多模态融合的目标跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述不同块之间的相关性是通过计算不同块之间的“关键”、“查询”和“值”三个张量值获得。

3.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述注意力机制包括自注意力机制与交叉注意力机制,所述自注意力机制分别将可见光的图像块与红外图像块进行权重处理,分别得到可见光的不同块之间的权重关系与红外的不同块之间的权重关系,所述交叉注意力机制分别将可见光的不同块与红外的不同块之间,任意一个模态的块的权重关系可以根据另一个模态的信息进行动态调整。

4.根据权利要求1所述一种多模态融合的目标跟踪方法,其特征在于,所述查询向量输入给解码器,分别解码可见光的图像块与红外图像块分类器权重和可见光的图像块与红外图像块回归器权重:其中,所述分类器权重与下一帧特征相关操作可以获得热力图;所述回归器权重与下一帧特征共同输入给浅层cnn获得目标尺度状态。

5.根据权利要求1...

【专利技术属性】
技术研发人员:张立朝马国勇何林远
申请(专利权)人:中国人民解放军空军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1