基于多模态查询向量和置信度的指代视频分割方法技术

技术编号:37442322 阅读:14 留言:0更新日期:2023-05-06 09:14
本发明专利技术提供了基于多模态查询向量和置信度的指代视频分割方法,包括:提取原始视频的视频特征和自然语言描述文本的描述文本特征;基于视频特征和描述文本特征,生成多模态查询向量;对视频特征进行编码,并生成编码器特征;对编码器特征和多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;基于掩码特征和多模态查询向量,生成置信度,并计算新的掩码特征;将新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码;根据损失函数训练模型,最终得到已训练的指代视频分割模型,完成指代视频分割任务。本发明专利技术能够让模型理解多模态数据,提高指代视频分割任务的精度,增强其在高度随机的复杂环境下的鲁棒性。性。性。

【技术实现步骤摘要】
基于多模态查询向量和置信度的指代视频分割方法


[0001]本专利技术属于指代视频分割
,尤其涉及基于多模态查询向量和置信度的指代视频分割方法。

技术介绍

[0002]指代视频分割(Referring Video Segmentation)任务指的是给定的一个视频中某个对象的自然语言描述文本,按照该描述文本对视频中的目标对象进行分割,即输出视频每一帧的描述对象的分割掩码。本任务是一个新兴的多模态任务,它涉及了计算机视觉和自然语言处理两种技术,要求模型能够深刻理解描述文本与视频中对象的关系,并准确输出分割掩码。通过该技术,可以方便地通过文本找到符合的视频帧,可以应用于视频编辑和视频监控领域。相比于指代图像分割任务,视频任务要求更高,需要处理好前后帧的关系,连贯前后帧的信息。
[0003]在现有技术中,一种方法是通过早期融合多模态特征,输入到解码器进行对象分割。但过早地融合视频和描述文本的特征,会使模型无法很好地捕获关键的实例级信息,也难以考虑多个帧之间的对象关联,导致场景的变化会影响掩码的生成。另一种方法是利用实例分割模型,分割出每一帧或者关键帧的实例对象并形成候选轨迹,通过与描述文本一一比对,挑选出与之最匹配的那一帧的分割掩码。这样做的好处是大幅提高了精度,但由于过程繁琐,训练复杂度高,模型的计算开销也大幅提高。还有一种方法是在Transformer编码器

解码器结构中,解码器的查询向量采用固定数量的可学习的位置向量,每个向量用于预测一个物体。但这种做法没有对视频特征和描述文本特征进行匹配,且不能适应指代视频分割任务的高随机性。

技术实现思路

[0004]为解决上述技术问题,本专利技术提出了基于多模态查询向量和置信度的指代视频分割方法,提高任务的分割精度和分割效率。
[0005]为实现上述目的,本专利技术提供了基于多模态查询向量和置信度的指代视频分割方法,包括:
[0006]提取原始视频的视频特征和自然语言描述文本的描述文本特征;
[0007]基于所述视频特征和所述描述文本特征,生成多模态查询向量;
[0008]对所述视频特征进行编码,并生成编码器特征;
[0009]对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;
[0010]基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;
[0011]将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码;
[0012]根据损失函数训练模型。
[0013]可选地,生成所述多模态查询向量包括:
[0014]对所述视频特征进行预处理,获取视觉特征;
[0015]利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;
[0016]基于所述注意力权重,获得所述多模态查询向量。
[0017]可选地,对所述视频特征进行预处理,获取所述视觉特征包括:
[0018]通过卷积层将所述视频特征的特征维度从H
×
W
×
C转成H
×
W
×
N
q
,获得N
q
个H
×
W大小的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,N
q
为多模态查询向量的个数;展开所述特征图,获得维度为N
q
×
(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。
[0019]可选地,所述第t帧多模态查询向量的注意力权重为:
[0020][0021][0022]其中,a
t
为第t帧多模态查询向量的注意力权重,为第t帧的第n个多模态查询向量的注意力权重,为第t帧第i个词的第n个多模态查询向量的注意力权重,N
q
为多模态查询向量的个数,N
l
为描述文本的长度。
[0023]可选地,所述多模态查询向量为:
[0024][0025]其中,为第t帧的多模态查询向量,N
q
为多模态查询向量的个数,为第t帧的第n个多模态查询向量。
[0026]可选地,获取所述预测类别、预测框和掩码特征包括:
[0027]将所述视频特征输入Deformable

DETR编码器,获取编码器特征;
[0028]将所述编码器特征和所述多模态查询向量输入Deformable

DETR解码器,获取所述预测类别、预测框和掩码特征。
[0029]可选地,生成所述置信度包括:
[0030]将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后,进行拼接;
[0031]将拼接结果通过另外两个全连接层生成预设大小的置信度;其中,另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。
[0032]可选地,获取所述预测类别、预测框和掩码特征后还包括:
[0033]设置损失函数,对所述Deformable

DETR解码器进行训练;
[0034]所述损失函数为:
[0035][0036]其中,y为第t帧的真值,为第t帧的预测值。
[0037]与现有技术相比,本专利技术具有如下优点和技术效果:
[0038]本专利技术提出基于多模态查询向量和置信度的指代视频分割方法,指代视频分割模型基于Transformer编码器

解码器结构,并加入多模态查询向量和置信度来提高任务精度。
[0039]加入多模态查询向量后,能够让描述文本特征与视觉特征进行细粒度交互,并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系,从而理解描述文本在视频中所指代的对象。
[0040]而加入置信度计算模块后,该模块可以自适应地给每个多模态查询向量分配一个置信度,该置信度反映多模态查询向量与图像全局信息的吻合程度。模型通过置信度自适应地选择掩码特征,以生成最符合描述文本所指代对象的掩码。
[0041]最终本专利技术通过加入多模态查询向量和置信度来提高模型指代视频分割任务的精度,增强模型在高度随机的复杂环境下的鲁棒性。
附图说明
[0042]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0043]图1为本专利技术实施例的指代视频分割方法流程示意图;
[0044]图2为本专利技术实施例的指代视频分割模型框架示意图;
[0045]图3为本专利技术实施例的多模态查询向量生成的流程示意图;
[0046]图4为本专利技术实施例的多模态查询向量生成器结构示意图;
[0047]图5为本专利技术实施例的相同描述文本,不同视频帧的对比示意图;其中,(a)为描述文本的侧重点是“上方”的示意图,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态查询向量和置信度的指代视频分割方法,其特征在于,包括:提取原始视频的视频特征和自然语言描述文本的描述文本特征;基于所述视频特征和所述描述文本特征,生成多模态查询向量;对所述视频特征进行编码,并生成编码器特征;对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。2.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,生成所述多模态查询向量包括:对所述视频特征进行预处理,获取视觉特征;利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;基于所述注意力权重,获得所述多模态查询向量。3.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,对所述视频特征进行预处理,获取所述视觉特征包括:通过卷积层将所述视频特征的特征维度从H
×
W
×
C转成H
×
W
×
N
q
,获得N
q
个H
×
W大小的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,N
q
为多模态查询向量的个数;展开所述特征图,获得维度为N
q
×
(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。4.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,所述注意力权重为:在于,所述注...

【专利技术属性】
技术研发人员:刘文印黄可思梁达勇陈俊洪西木钟经谋林大润
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1