【技术实现步骤摘要】
一种基于跨模态亲和力的小样本参考视频目标分割方法
[0001]本专利技术属于计算机视觉
,进一步涉及视频目标分割技术,具体地说,涉及一种可用于视频编辑、人机交互等领域的基于跨模态亲和力的小样本参考视频目标分割方法。
技术介绍
[0002]计算机视觉是一个研究领域,旨在助力计算机使用复杂算法(可以是传统算法,也可以是基于深度学习的算法)来理解数字图像和视频并提取有用的信息。计算机视觉的主要目标是,先理解视频和静止图像的内容,然后从中收集有用的信息,以便解决越来越多的问题。作为人工智能(AI)和深度学习的子领域,计算机视觉可训卷积神经网络(CNN),以便针对各种应用场合开发仿人类视觉功能。计算机视觉包括对CNN进行特定训练,以便利用图像和视频进行数据分割、分类和检测。
[0003]视频目标分割任务是视频处理任务中的一个重要课题,其目的在于将一系列视频序列中感兴趣的目标从背景中分割出来。近年来,由于深度学习技术在计算机视觉任务(如:图像识别、目标跟踪、动作识别等)中的优秀表现,基于深度学习的视频目标分割算法已成为解决 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨模态亲和力的小样本参考视频目标分割方法,其特征在于,包括如下步骤:S1、利用现有的参考视频目标分割数据集,构建适合小样本参考视频目标分割任务的数据集;S2、构建一个跨模态亲和力网络用于模型训练;S3、依据步骤S1制作的数据集来对步骤S2构建的网络进行训练,保存训练参数;S4、将视频帧序列和自然语言描述作为网络的输入,利用步骤S3学习得到的参数得到分割结果作为输出。2.根据权利要求1所述的一种基于跨模态亲和力的小样本参考视频目标分割方法,其特征在于,步骤S1中制作适合小样本参考视频目标分割任务的数据集的过程为:对现有的参考视频目标分割数据集中的每个视频及其对应的自然语言描述,首先挑选出包含两个不同类别的分割目标的视频,将其丢弃;然后将剩余的视频按照分割目标类别进行数量排序,将数量小于10个以及大于50个的类别视频丢弃;对数据集中所有视频进行上述处理,能够得到一个适合小样本参考视频目标分割任务的数据集,数据集包含1668个视频,分为48个类别。3.根据权利要求1或2所述的一种基于跨模态亲和力的小样本参考视频目标分割方法,其特征在于:步骤S2中构建的跨模态亲和力网络,以support set和query set两个集合的数据作为输入,首先经过权重共享的特征提取网络分别提取视觉特征和文本特征,特征提取网络采用包括顺次连接的多个卷积层、多个池化层、多个残差单元模块、单个全连接层的残差网络以及基于Transformer的大规模预训练文本模型;然后使用多头跨模态注意力机制分别融合support set和query set中的视觉特征和文本特征,融合之后的多模态特征用于计算query set内部的自我亲和力,得到的自我亲和力特征与support set的多模态特征计算亲和力关系得到更鲁棒的特征;最后,为了定位最相关的目标以及逐步解码特征,将得到的跨模态亲和力特征送入掩码生成模块,得到最终的分割掩码。4.根据权利要求3所述的一种基于跨模态亲和力的小样本参考视频目标分割方法,其特征在于:步骤S2中构建的跨模态亲和力网络分为四个模块,分别是:多模态融合模块,将视觉特征和文本特征进行融合;自我亲和力模块,用于计算query set中的自我亲和力特征;跨亲和力模块,用于计算query set和support set之间的跨亲和力特征;掩码生成模块,用于生成最终的分割结果。5.根据权利要求4所述的一种基于跨模态亲和力的小样本参考视频目标分割方法,其特征在于:多模态融合模块中,在进行特征融合之前,需要对视觉特征进行维度映射,统一将多尺度特征的通道数变为256,具体步骤如下:首先经过三层3
×
3卷积层,正则化层,将多尺度特征的前3层特征通道数映射为256;然后再将多尺度特征的最后一层特征经过一层1
×
1卷积层,正则化层,得到最终的统一通道数的特征;多模态融合模块中包含视觉特征和文本特征,对于视觉特征和文本特征之间的交互,具体来说,使用multi
‑
head cross
‑
attention将多模态信息进行融合,得到新的多尺度特征图,具体的流程用公式(1)表A示:f
′
vs
=MCA(f
s
,f
i
)
f
′
vq
=MCA(f
q ,f
j
)
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。