基于多模态查询向量和置信度的指代视频分割方法技术

技术编号：37442322 阅读：27 留言：0更新日期：2023-05-06 09:14

本发明专利技术提供了基于多模态查询向量和置信度的指代视频分割方法，包括：提取原始视频的视频特征和自然语言描述文本的描述文本特征；基于视频特征和描述文本特征，生成多模态查询向量；对视频特征进行编码，并生成编码器特征；对编码器特征和多模态查询向量进行解码，并生成预测类别、预测框和掩码特征；基于掩码特征和多模态查询向量，生成置信度，并计算新的掩码特征；将新的掩码特征通过掩码生成器，获取根据自然语言描述文本预测的分割掩码；根据损失函数训练模型，最终得到已训练的指代视频分割模型，完成指代视频分割任务。本发明专利技术能够让模型理解多模态数据，提高指代视频分割任务的精度，增强其在高度随机的复杂环境下的鲁棒性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态查询向量和置信度的指代视频分割方法

[0001]本专利技术属于指代视频分割
，尤其涉及基于多模态查询向量和置信度的指代视频分割方法。

技术介绍

[0002]指代视频分割(Referring Video Segmentation)任务指的是给定的一个视频中某个对象的自然语言描述文本，按照该描述文本对视频中的目标对象进行分割，即输出视频每一帧的描述对象的分割掩码。本任务是一个新兴的多模态任务，它涉及了计算机视觉和自然语言处理两种技术，要求模型能够深刻理解描述文本与视频中对象的关系，并准确输出分割掩码。通过该技术，可以方便地通过文本找到符合的视频帧，可以应用于视频编辑和视频监控领域。相比于指代图像分割任务，视频任务要求更高，需要处理好前后帧的关系，连贯前后帧的信息。
[0003]在现有技术中，一种方法是通过早期融合多模态特征，输入到解码器进行对象分割。但过早地融合视频和描述文本的特征，会使模型无法很好地捕获关键的实例级信息，也难以考虑多个帧之间的对象关联，导致场景的变化会影响掩码的生成。另一种方法是利用实例...

【技术保护点】

【技术特征摘要】
1.基于多模态查询向量和置信度的指代视频分割方法，其特征在于，包括：提取原始视频的视频特征和自然语言描述文本的描述文本特征；基于所述视频特征和所述描述文本特征，生成多模态查询向量；对所述视频特征进行编码，并生成编码器特征；对所述编码器特征和所述多模态查询向量进行解码，并生成预测类别、预测框和掩码特征；基于所述掩码特征和所述多模态查询向量，生成置信度，并计算新的掩码特征；将所述新的掩码特征通过掩码生成器，获取根据自然语言描述文本预测的分割掩码。2.根据权利要求1所述的基于多模态查询向量和置信度的指代视频分割方法，其特征在于，生成所述多模态查询向量包括：对所述视频特征进行预处理，获取视觉特征；利用所述视觉特征和所述描述文本特征，获取所述多模态查询向量的注意力权重；基于所述注意力权重，获得所述多模态查询向量。3.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法，其特征在于，对所述视频特征进行预处理，获取所述视觉特征包括：通过卷积层将所述视频特征的特征维度从H
×
W
×
C转成H
×
W
×
N
q
，获得N
q
个H
×
W大小的特征图；其中，H表示特征图的高，W表示特征图的宽，C表示特征图的通道数，N
q
为多模态查询向量的个数；展开所述特征图，获得维度为N
q
×
(HW)的所述视觉特征，HW为特征图的高乘上特征图的宽的积。4.根据权利要求2所述的基于多模态查询向量和置信度的指代视频分割方法，其特征在于，所述注意力权重为：在于，所述注...

【专利技术属性】
技术研发人员：刘文印，黄可思，梁达勇，陈俊洪，西木，钟经谋，林大润，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人