【技术实现步骤摘要】
一种基于多模态单流记忆网络的单目标跟踪方法
[0001]本专利技术涉及人工智能中单目标跟踪的
,尤其涉及一种基于多模态单流记忆网络的单目标跟踪方法。
技术介绍
[0002]目标跟踪是计算机视觉中的一项基本任务,在智能监控、无人机等领域有着广泛的应用。给定一个感兴趣的对象,目标跟踪的目的是在后续帧中准确定位它。随着深度学习的普及,目标跟踪已经取得了重大进展。然而,在面对复杂的目标和背景变化时,跟踪器的性能往往令人失望。
[0003]在目标跟踪中,目标建模是最基本也是最重要的部分之一。目标模型越完善,跟踪目标越准确。目前流行的大多数基于孪生的跟踪框架都依赖于第一帧中给出的信息来构建目标模型,但它是不稳定的,随着目标的外观不断变化,原来的目标模型将不再适用于新的目标状态。
[0004]为了解决这一问题,许多研究者使用记忆网络,使用跟踪过程中收集的样本来细化目标模型。然而,这些跟踪器仅根据视觉信息对目标的外观进行建模,当外观发生剧烈变化时,很容易漂移。那么,是否存在一种新的方法来构建具有丰富语义信息的目标模型, ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态单流记忆网络的单目标跟踪方法,其特征在于,其步骤如下:步骤一:使用矩形框从需要跟踪的视频的第一帧图片中选取需要跟踪的目标,然后根据矩形框裁剪出目标区域作为目标样本存入记忆器中;步骤二:获取描述目标的文本,将文本输入语言模型获得语言特征T
L
;步骤三:根据上一帧中目标的位置信息截取当前帧中的搜索区域图像,对搜索区域图像进行特征提取得到搜索区域特征T
S
;步骤四:在记忆器中使用均匀采样选择至少2个目标样本,对目标样本进行特征提取得到记忆特征T
M
;步骤五:将记忆特征T
M
、搜索区域特征T
S
和语言特征T
L
在第一个维度上进行串联得到特征序列T
SLM
,将特征序列输入多模态单流注意力网络进行特征提取,获得多模态综合特征;步骤六:将多模态综合特征中搜索区域特征拆分出来输入预测头,获得目标包围框;步骤七:将多模态综合特征中拆分出处理后的搜索区域特征和语言特征输入基于语言的评估模块对当前搜索区域中目标的状态进行预测,如果预测得分高于预设阈值,则得到的目标包围框从当前搜索区域图片中裁剪出目标区域作为目标样本存入记忆器;步骤八:获取下一帧视频并返回步骤三,直至整个跟踪任务结束。2.根据权利要求1所述的基于多模态记忆网络的单目标跟踪方法,其特征在于,所述语言模型是训练好的RoBERTa语言模型,将描述目标的文本进行切割、编码并提取特征;所述语言特征包含目标的外观信息以及目标与场景之间的空间关系;所述搜索区域特征中包含着目标信息和除目标外的背景信息;所述记忆特征中包含了目标各种视觉形态的信息,同时包含少量的背景信息。3.根据权利要求2所述的基于多模态记忆网络的单目标跟踪方法,其特征在于,所述对搜索区域图像或目标样本进行特征提取的实现方法为:将搜索区域图像或目标样本分割为高和宽为W
×
H、通道数为3的图像块;使用Reshape操作将每个图像块展平成特征嵌入的深度D=1
×
3WH的图像序列,使用线性层对图像序列进行特征提取得到搜索区域特征T
S
或记忆特征T
M
;所述线性层是一层全连接的神经网络,对图像序列中不同通道的信息进行融合。4.根据权利要求1
‑
3中任意一项所述的基于多模态记忆网络的单目标跟踪方法,其特征在于,所述多模态注意力网络中,包含了12个串联的多模态注意力层,每个多模态注意力层中包含自注意力模块、记忆特征筛选模块和多层感知机,自注意力模块用于建立搜索区域特征、记忆特征和语言特征之间的相似关系,使目标样本、搜索区域和语言特征中的目标信息相互流通;记忆特征筛选模块用于消除记忆特征中包含的背景信息或噪声信息;多层感知机用于聚合不同通道之间的特征,挖掘其中的语义信息。5.根据权利要求4所述的基于多模态记忆网络的单目标跟踪方法,其特征在于,所述多模态注意力层的计算方法为:(1)将特征序列经过层归一化和线性映射操作分别得到特征经过层归一化和线性映射操作分别得到特征其中,N
S
代表搜索区域特征的长度,N
L
代表语言特征的长度,N
M
代表记忆特征的长度,D代表特征嵌入的深度,Linear()代表一个全连接层网
络,用于提取更深层的特征;LN()代表层归一化函数,将输入转化为均值为0、方差为1的数据;(2)将得到的特征Q、K和V输入自注意力模块的注意力公式,将注意力公式的输出与输入相加再进行层归一化操作得到特征入相加再进行层归一化操作得到特征其中,Softmax()是激活函数,T表示矩阵的转置;(3)使用记忆特征筛选模块的记忆特征选择策略利用语言特征对综合特征T
att
中的记忆特征进行筛选,得到筛选记忆特征后的特征T
mst
;(4)将特征T
mst
输入多层感知机,得到多层感知机输出的特征,然后将多层感知机输出的特征与输入的特征T
mst
相加并且进行层归一化得到多层感知机的输出特征相加并且进行层归一化得到多层感知机的输出特征其中,MLP()代表多层感知机的操作;(5)将特征T
mst
和多层感知机的输出特征T
mlp
相加后,得到多模态综合特征相加后,得到多模态综合特征其中,N
′
M
表示进行记忆特征筛选之后记忆特征的长度。6.根据权利要求5所述的基于多模态记忆网络的单目标跟踪方法,其特征在于,所述记忆特征选择策略为:语言特征T
L
与记忆特征进行矩阵乘法运算,然后除以最后使用Softmax函数进行归一化得到相似矩阵A
LM
为:相似矩阵A
LM
中的每一个元素取决于语言特征T
L
中的第j个元素和记忆特征T
M
中的第k个元素之间的相似度,1≦j≦N
L
,1≦k≦N
M
;根据相似矩阵A
LM
对特征T
att
中的记忆特征T
M
进行筛选,每次筛选只保留90%相似度最高的记忆特征,得到筛选记忆特征后的特征T
mst
输入下一层的多模态注意力层。7.根据权利要求5或6所述的基于多模态记忆网络的单目标跟踪方法,其特征在于,所述获得目标包围框的方法为:1)将多模态综合特征T
final
中前N
S
个属于搜索区域特征的序列提取出来记为搜索区域特征T
′
S
...
【专利技术属性】
技术研发人员:张建伟,王景超,张焕龙,梁树军,蔡增玉,孙海燕,张之琛,张梦雅,
申请(专利权)人:许昌职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。