System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机视觉、深度学习,尤其涉及一种图文关联的目标跟踪网络训练方法。
技术介绍
1、目标跟踪是计算机视觉领域中最重要的研究方向之一,在智能交通领域、自动驾驶领域、监控安防、智能化军事安全等众多领域有着广泛的应用。现有的目标跟踪方法通常以图像块作为参考单位来进行定位跟踪,例如,cvpr 2022公开的论文“mixformer”以及公开号为cn117974722b的中国专利公布的一种“基于注意力机制和改进的transformer的单目标跟踪系统及方法”,都以图像块为参考单位,将transformer作为骨干网络提取所追踪目标的特征,从而执行视觉追踪任务。然而,由于图像的抽象能力有限,单个图像块无法像人类理解自然语言一样,简单直观的表达目标精确的概念,导致现有的目标跟踪方法难以从图像中提取相关程度更大的特征;不仅如此,现有的目标跟踪方法过于强调视频帧的时序信息,忽略了目标外观发生较大变化的可能性,难以跟踪由于运动外观发生剧烈运动的目标。
2、为了克服这些局限性,我们受到文本生成图像领域的启发,引入jong wook kim等人在其论文《learning transferable visual models from natural languagesupervision》中提出的clip模型的image encoder和text encoder技术,该技术能够使训练出的目标跟踪网络同时理解图像和文本表示,并将它们映射到一个共享的嵌入空间中,我们期望能以图像生成文本提示的方式,为追踪目标提供全面的参考点,从而将该
3、通过上述分析,现有技术存在的问题及缺陷为:
4、由于图像的抽象能力有限,并且存在歧义,单个图像块无法表达目标完整而精确的概念,这意味着现有的目标跟踪方法难以从图像中提取相关程度更大的特征;不仅如此,传统的目标跟踪方法过于强调视频帧的时序信息,忽略了目标外观发生较大变化的可能性,难以跟踪由于运动外观发生剧烈运动的目标。
技术实现思路
1、针对现有技术存在的问题,本专利技术提供了一种图文关联的目标跟踪网络训练方法。
2、本专利技术是这样实现的,一种图文关联的目标跟踪网络训练方法包括:
3、步骤s101:每次获取视频序列中的相邻两帧图像,第num帧图像、第num+1帧图像分别作为训练图像和测试图像,并分别裁剪出目标所在图像块;
4、步骤s102:将第num帧目标图像块和第num+1帧目标图像块输入到图文转换模块获得初始文本特征和现有文本特征;
5、步骤s103:通过特征自适应模块处理初始文本特征和现有文本特征,生成标签权重可以实时更新的动态文本特征;
6、步骤s104:使用改进的transformer特征提取网络提取出第num+1帧图像的特征,所述改进的transformer特征提取网络包括编码器和解码器;
7、步骤s105:通过图文关联模块,关联步骤s103得到的动态文本特征和步骤s104得到的第num+1帧图像的特征之间的相关特征,融合为目标状态预测的最终相关特征;
8、步骤s106:将第num+1帧作为测试图像,通过由4个堆叠的convn bn relu层组成的预测模块对测试图像上的追踪目标进行状态估计,通过深度学习获得目标边界框的坐标。
9、进一步,所述图文转换模块包括:
10、标签词汇表,用于提供文本标签给图文转换模块,内部包含类别标签,例如‘car’,‘bike’,属性标签,例如颜色属性‘red’,材料属性‘iron’;
11、特征重塑操作,用于处理被开源模型clip的图像编码器image encoder提取到的目标图像块特征x,将x的特征图沿着通道维度分解成一组形状为二维数组的特征向量,即将高度,宽度,通道数重塑为高度*宽度,通道数,得到第num帧目标图像块特征x的一组相关特征v1,v2,...,vk;
12、文本嵌入操作,采用onehot独热编码将标签词汇表内的标签转换为词向量ci;
13、所述图文转换模块针对目标图像块m,计算追踪目标的第i个标签的预测概率p(ci|x),其数学描述为:
14、
15、其中,针对目标图像块m,qi(x)表示所追踪目标的第i个标签的文本提示,此文本提示由目标图像块特征x的一组相关特征v1,v2,...,vk以及词向量ci组成,即qi(x)={v1(x),v2(x),...,vk(x),ci},t(·)表示采用开源模型clip的文本编码器text encoder处理得到的特征,sim(·,·)表示余弦相似性得分,度量目标图像块特征x与文本编码器textencoder输出的文本特征t(qi(x))之间的相似性,τ表示调整模型预测的概率分布的参数,n表示标签的数量;
16、进一步,所述特征自适应模块能根据初始文本特征和现有文本特征,生成标签权重可以实时更新的动态文本特征:
17、将文本特征生成分为类别特征生成和属性特征生成,对于类别特征tc,其数学描述为:
18、
19、其中,ti权利要求1所述的图文转换模块中clip文本编码器text encoder生成的第i类标签的文本特征,pi为公式1计算出的第i个标签的预测概率;
20、对于预测概率最高的每个属性特征ta,其数学描述为:
21、
22、其中,pi为公式1计算出的第i个标签的预测概率,argmax(pi)表示取最高预测概率的标签,index表示预测概率最高的标签的编号;
23、由于不同帧的图像中跟踪目标的属性值会发生变化,需要根据不同属性特征的变化来调整其权重;例如颜色、材质、纹理方面的变化,分别记为dcolor、dmaterial、dtexture,其数学描述为:
24、dcolor=|rcolor-scolor|,
25、dmaterial=|rmaterial-smaterial|,(公式4)
26、dtexture=|rtexture-stexture|,
27、其中,rattribute和sattribute表示第num帧目标图像块和第num+1帧目标图像块中的目标经过图文转换模块处理后,公式1计算出的特定属性值的概率,attribute的取值为color、material、texture等属性标签;dattribute值越低,第num帧目标图像块和第num+1帧目标图像块上的目标在该属性上越相似;因此,不同属性的注意力权重公式为:
28、watt=softmax(-dcolor,-dmaterial,-dtexture) (公式5)
29、其中,softmax(·)表示深度学习领域中的分类函数,将公式4中的dcolor、dmater本文档来自技高网...
【技术保护点】
1.一种图文关联的目标跟踪网络训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述图文转换模块包括:
3.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述特征自适应模块能根据初始文本特征和现有文本特征,生成标签权重可以实时更新的动态文本特征:
4.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述改进的transformer特征提取网络包括:
5.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述图文关联模块融合了图像特征和文本特征,得到目标状态预测的最终相关特征:
6.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述预测模块通过最终相关特征对目标状态进行估计,通过深度学习获得目标边界框的坐标:
7.一种实施如权利要求16任意一项所述图文关联的目标跟踪网络训练方法的图文关联的目标跟踪网络及训练系统,其特征在于,所述图文关联的目标跟踪网络及训练系统包括:
8.一种计算机设备,其特征在于,
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求16任意一项所述图文关联的目标跟踪网络训练方法的步骤。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述图文关联的目标跟踪网络及训练系统。
...【技术特征摘要】
1.一种图文关联的目标跟踪网络训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述图文转换模块包括:
3.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述特征自适应模块能根据初始文本特征和现有文本特征,生成标签权重可以实时更新的动态文本特征:
4.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述改进的transformer特征提取网络包括:
5.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述图文关联模块融合了图像特征和文本特征,得到目标状态预测的最终相关特征:
6.如权利要求1所述图文关联的目标跟踪网络训练方法,其特征在于,所述预测模块通过最终相关特征对目标状态进行估...
【专利技术属性】
技术研发人员:罗瑞奇,刘锐,胡新荣,王帮超,
申请(专利权)人:武汉纺织大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。