一种基于可提示的分割模型的视频目标跟踪方法技术

技术编号：39661623 阅读：8 留言：0更新日期：2023-12-11 18:24

本发明专利技术属于视频目标跟踪技术领域，提出了一种基于可提示的分割模型的视频目标跟踪方法，包括以下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
一种基于可提示的分割模型的视频目标跟踪方法

[0001]本专利技术涉及视频目标跟踪
，具体是涉及一种基于可提示的分割模型的视频目标跟踪方法
。

技术介绍

[0002]视频目标跟踪是计算机视觉领域的热点问题之一，因为它在许多行业和领域得到了广泛的研究和应用，如智能视频监控
、
自动驾驶等
。
视频目标跟踪任务旨在通过视频第一帧图像及其指定目标初始边界框在视频中跟踪该目标
。
视频目标跟踪任务主要的技术难点在于目标的连续变化和任意性
、
其他物体对所跟踪目标的遮挡
、
跟踪目标的快速移动等方面，这造成跟踪目标在每一帧的外观变化较大且容易受到周围环境外观的影响
。
[0003]现有的一种视频目标跟踪范式如图
1a
所示，首先采用孪生网络作为图像编码器，对搜索帧和模板帧进行特征提取，然后将提取到的特征进行搜索帧和模板帧的特征交互，最后将交互得到的特征送入边界框预测头得到预测结果
。
这种范式有两大问题：
[0004](1)
模板帧和搜索帧之间的交互是图像级的而并不是对象级的，这不可避免地引入模板帧中的部分背景噪声，使得模型误以为这部分背景噪声也是要跟踪的目标
。
对于视频跟踪任务而言，因为后续每一帧的跟踪都会和该模板图像进行比较，所以模板图像所包含的信息是至关重要的
。
因此该范式下，模板图像中的细节背景信息会被误以为是所跟踪目标必不可少

【技术保护点】

【技术特征摘要】
1.
一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，包括以下步骤：
S1、
构建视频单目标跟踪编码器
‑
特征增强
‑
解码器范式；
S2、
构建一种基于可提示的分割模型的编码器；
S3、
构建模板和搜索区域特征的自注意力增强单元；
S4、
构建目标导向的前景提示单元；
S5、
构建一种可自优化的目标框解码器；
S6、
在所述视频单目标跟踪编码器
‑
特征增强
‑
解码器范式下，构建包含基于可提示的分割模型的编码器
、
模板和搜索区域特征的自注意力增强单元
、
目标导向的前景提示单元
、
可自优化的目标框解码器的单目标跟踪模型，并在服务器上对所述单目标跟踪模型进行训练，通过降低网络损失函数的总体损失值，优化网络参数，直至网络收敛；
S7、
利用训练好的网络模型对待跟踪的视频序列中指定的单个目标进行跟踪
。2.
根据权利要求1所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤
S1
具体包括以下步骤：
S11、
基于可提示的分割模型的图像编码器，结合自然语言处理领域中常用的工具
—
适配器建立一个图像特征提取器，将输入的搜索帧和模板帧分别用该图像特征提取器提取特征得到搜索帧特征
x
s
和模板帧特征
x
t
；
S12、
将所述搜索帧特征
x
s
和模板帧特征
x
t
使用模板和搜索区域特征的自注意力增强单元进行高效融合，得到增强的搜索帧特征
F
s
和增强的模板帧特征
F
t
；
S13、
在目标导向的前景提示单元中，利用增强的模板帧特征
F
t
，通过可提示的分割模型进行分割，得到视频目标跟踪任务的待跟踪目标物的分割掩膜，利用所述分割掩膜，得到目标物体的特征
f
obj
；
S14、
将所述目标物体的特征
f
obj
和增强的搜索帧特征
F
s
输入到可自优化的目标框解码器中，得到跟踪结果，跟踪结果包括所跟踪目标的目标分类得分图
P、
局部偏移图
O、
归一化尺寸图
S。3.
根据权利要求1所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤
S2
具体包括以下步骤：
S21、
对基于可提示的分割模型的图像编码器中视觉
Transformer
的绝对位置编码和相对位置编码重新训练以匹配
256
×
256
和
384
×
384
的图像分辨率；
S22、
使用适配器搭配可提示的分割模型中的图像编码器作为图像特征提取器，将输入的搜索帧和模板帧分别用该图像特征提取器提取特征得到搜索帧特征和模板帧特征即：即：其中，
PatchEmbed(
·
)
的作用是将图像块映射到隐藏空间，为绝对位置编码，
LN(
·
)
为层归一化，
MSA(
·
)
为多头注意力机制，
Adapter(
·
)
为适配器，
num_block
表示图像特征提取器中单元块的个数
。
4.
根据权利要求3所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述适配器由一个全连接下采样层
、
一个激活层
、
一个全连接上采样层以及残差连接组成
。5.
根据权利要求2所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述模板和搜索区域特征的自注意力增强单元由2个自注意力单元组成，每个自注意力单元由多头注意力层
(MSA)、
层归一化
(LN)、
多层感知机
(MLP)、
残差连接组成
。6.
根据权利要求5所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤
S3
具体包括以下步骤：
S31、
将步骤
S22
中得到的所述搜索帧特征和模板帧特征拼接为并加入绝对位置编码然后送入2个自注意力单元进行处理；
S32、
将拼接特征送入模板和搜索区域特征的自注意力增强单元，将得到的结果进行切分，得到增强的搜索帧特征和增强的模板帧特征
7.
根据权利要求6所述的一种基于可提示的分割模型的视频目标跟踪方法，其特征在于，所述步骤
S4
具体实施过程如下：将模板帧的目标框作为提示，利用可提示的分割模型中的提示编码器提取特征根据目标框提示的特征和增强的模板帧特征利用可提示的分割模型中的掩膜解码器获取目标物体的分割掩膜
m
t
，然后利用掩膜的筛选能力，对增强的模板帧特征进行作用，并通过平均池化得到目标物体特征向量
8.
...

【专利技术属性】
技术研发人员：刘勇，侯晓军，王蒙蒙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人