【技术实现步骤摘要】
基于多模态查询向量和置信度的指代视频分割方法
[0001]本专利技术属于指代视频分割
,尤其涉及基于多模态查询向量和置信度的指代视频分割方法。
技术介绍
[0002]指代视频分割(Referring Video Segmentation)任务指的是给定的一个视频中某个对象的自然语言描述文本,按照该描述文本对视频中的目标对象进行分割,即输出视频每一帧的描述对象的分割掩码。本任务是一个新兴的多模态任务,它涉及了计算机视觉和自然语言处理两种技术,要求模型能够深刻理解描述文本与视频中对象的关系,并准确输出分割掩码。通过该技术,可以方便地通过文本找到符合的视频帧,可以应用于视频编辑和视频监控领域。相比于指代图像分割任务,视频任务要求更高,需要处理好前后帧的关系,连贯前后帧的信息。
[0003]在现有技术中,一种方法是通过早期融合多模态特征,输入到解码器进行对象分割。但过早地融合视频和描述文本的特征,会使模型无法很好地捕获关键的实例级信息,也难以考虑多个帧之间的对象关联,导致场景的变化会影响掩码的生成。另一种方法是利用实例 ...
【技术保护点】
【技术特征摘要】
1.基于多模态查询向量和置信度的指代视频分割方法,其特征在于,包括:提取原始视频的视频特征和自然语言描述文本的描述文本特征;基于所述视频特征和所述描述文本特征,生成多模态查询向量;对所述视频特征进行编码,并生成编码器特征;对所述编码器特征和所述多模态查询向量进行解码,并生成预测类别、预测框和掩码特征;基于所述掩码特征和所述多模态查询向量,生成置信度,并计算新的掩码特征;将所述新的掩码特征通过掩码生成器,获取根据自然语言描述文本预测的分割掩码。2.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,生成所述多模态查询向量包括:对所述视频特征进行预处理,获取视觉特征;利用所述视觉特征和所述描述文本特征,获取所述多模态查询向量的注意力权重;基于所述注意力权重,获得所述多模态查询向量。3.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,对所述视频特征进行预处理,获取所述视觉特征包括:通过卷积层将所述视频特征的特征维度从H
×
W
×
C转成H
×
W
×
N
q
,获得N
q
个H
×
W大小的特征图;其中,H表示特征图的高,W表示特征图的宽,C表示特征图的通道数,N
q
为多模态查询向量的个数;展开所述特征图,获得维度为N
q
×
(HW)的所述视觉特征,HW为特征图的高乘上特征图的宽的积。4.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法,其特征在于,所述注意力权重为:在于,所述注...
【专利技术属性】
技术研发人员:刘文印,黄可思,梁达勇,陈俊洪,西木,钟经谋,林大润,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。