基于语义对齐和时间一致性的视频分割方法技术

技术编号:39665864 阅读:10 留言:0更新日期:2023-12-11 18:29
本发明专利技术公开了基于语义对齐和时间一致性的视频分割方法

【技术实现步骤摘要】
基于语义对齐和时间一致性的视频分割方法、系统和装置


[0001]本专利技术涉及计算机视觉领域,具体涉及一种基于语义对齐和时间一致性的视频分割方法

系统和装置


技术介绍

[0002]视频分割是一项基本的视觉任务,基于深度学习的方法在该领域取得了巨大的成功

然而,目前的视频分割方法严重依赖于大量耗时耗力的密集标注,为了减少对人工标注的需求,小样本视频分割引起了越来越多的关注,其定义是在只有少量有标注图像
(
称作支撑集
)
的情况下,在未标注的视频序列
(
称作质询集
)
中预测具有未见类别的目标掩膜

[0003]尽管小样本图像分割取得了巨大的进展,但是由于视频有着更复杂的时间维度结构,小样本视频分割是一个更加具有挑战性的任务

此外,小样本学习的核心是建立从支撑集到质询集的信息传递,然而在小样本视频分割任务中,支撑图像和质询视频之间通常在尺度

姿态和背景变化等方面存在显著差异,增大了有效信息聚合的难度,降低对应目标分割的准确性

现有的小样本视频分割方法主要分为两类,一类是通过学习支撑集和质询集之间的密集相关性来传递支撑信息,另一类方法在少样本推理过程中对质询视频帧施加隐式的时间约束

前一类方法只关注质询和支撑集之间的匹配,忽略了视频中蕴含的时序信息的利用,而后一类方法恰恰相反,这两类方法都不能达到很好的性能<br/>。

技术实现思路

[0004]针对现有技术的不足,本专利技术提出了一种基于语义对齐和时间一致性的视频分割方法及装置,同时考虑支撑集引导的目标语义信息聚合和视频时序信息的建模,这两方面对于小样本视频分割任务都是至关重要的,从而能够在小样本的前提下为视频中的移动目标预测更加准确的分割预测

[0005]本专利技术的目的可以通过以下技术方案实现:
[0006]第一方面,本申请提出基于语义对齐和时间一致性的视频分割方法,包括:
[0007]接收支撑图像

目标掩膜标注和待分割的质询视频帧;
[0008]从支撑图像和待分割的质询视频帧中提取支撑特征和质询特征;
[0009]将支撑特征中的目标信息压缩得到粗糙表征,计算粗糙表征的前景概率得到粗粒度对齐的结果;计算支撑特征和质询特征的注意力大小,得到支撑特征和质询特征的逐点相似性;
[0010]基于目标掩膜标注确定支撑特征的分布,基于粗粒度对齐的结果确定质询特征的分布;以逐点相似性作为代价矩阵,以支撑特征的分布和质询特征的分布作为边缘分布,得到最优传输矩阵;将最优传输矩阵施加到注意力上完成信息传递,得到最终质询集的聚合特征;
[0011]提取质询视频的上一帧的时序信息,基于时序信息调制质询视频的特征矩阵得到前景激活图和背景激活图;将前景激活图和背景激活图融合得到时序引导图,通过时序引
导图调制聚合特征;通过解码器处理调制后的聚合特征,得视频分割结果

[0012]在一些实施例中,所述粗粒度对齐的结果的获取,具体包括以下步骤:
[0013]将支撑特征中的目标信息压缩为一个全局的表征
[0014][0015]其中是全局池化函数,

是哈达玛积
(
逐元素相乘
)
,表示将目标掩膜标注
M
s
的尺寸调整为与支撑特征
F
s
一致;
[0016]通过目标的粗糙表征
p
s
,可以得到质询特征中每个特征点的前景概率:
[0017][0018]其中
i∈1,2,

,hw
是质询特征点的索引,得到的
e
i
是粗粒度对齐的结果

[0019]在一些实施例中,所述逐点相似性的获取,具体包括以下步骤:
[0020]通过线性映射得到查询
q
i
,键
k
j
和值
v
j
,分别表示为:
[0021][0022]其中表示不同的映射矩阵,将质询特征和支撑特征映射到另一个用于匹配的特征空间中,
i,j∈1,2,

,hw
分别是质询特征点和支撑特征点的索引;
[0023]计算每个“查询

键”对的注意力大小:
[0024][0025]其中
d(
·
)
表示距离度量,一般采用点积相似性,作为比例系数;
[0026]支撑特征和质询特征的逐点相似性
S
满足:
[0027]在一些实施例中,所述最优传输矩阵的构建,具体包括以下步骤:
[0028]定义质询特征和支撑特征的分布:
[0029][0030]其中质询特征的分布
μ
q
是根据质询特征的前景概率
e
i
得到的,前景概率的大小可以作为粗粒度对齐分数,表征了质询集中每个点的重要程度,而支撑特征的分布
μ
s
是根据其是否为前景定义的;
[0031]将支撑特征和质询特征的逐点相似性作为最优传输问题中的代价矩阵,并将各自的特征分布
μ
q
,
μ
s
作为最优传输问题中的两个边缘分布,可以将支撑特征和质询特征的对齐问题建模为最优传输问题,使用
Sinkhorn
算法可以高效地得到最优传输矩阵
T
*

[0032][0033]s.t.T1

μ
q
,T
T1=
μ
s
[0034]其中
T
为传输矩阵,
T
T
为其转置矩阵,1表示有着合适维度的全一向量

[0035]在一些实施例中,所述最终质询集的聚合特征的获取,具体包括以下步骤:
[0036]将最优传输矩阵施加到原本的注意力图
s
i,j
上即可实现更准确的从支撑到质询的信息传递:
[0037][0038]其中
i,j∈1,2,

,hw
分别是质询特征点和支撑特征点的索引,是最优传输矩阵
T
*
中坐标为
(i,j)
的数值,它影响了第
j
个支撑特征和第
i
个质询特征的最终相似性分数
a
i,j

[0039]所有的
hw
个支撑特征的值
v
j
通过
a
i,j
的加权就可以重构第
i...

【技术保护点】

【技术特征摘要】
1.
基于语义对齐和时间一致性的视频分割方法,其特征在于,包括:接收支撑图像

目标掩膜标注和待分割的质询视频帧;从支撑图像和待分割的质询视频帧中提取支撑特征和质询特征;将支撑特征中的目标信息压缩得到粗糙表征,计算粗糙表征的前景概率得到粗粒度对齐的结果;计算支撑特征和质询特征的注意力大小,得到支撑特征和质询特征的逐点相似性;基于目标掩膜标注确定支撑特征的分布,基于粗粒度对齐的结果确定质询特征的分布;以逐点相似性作为代价矩阵,以支撑特征的分布和质询特征的分布作为边缘分布,得到最优传输矩阵;将最优传输矩阵施加到注意力上完成信息传递,得到最终质询集的聚合特征;提取质询视频的上一帧的时序信息,基于时序信息调制质询视频的特征矩阵得到前景激活图和背景激活图;将前景激活图和背景激活图融合得到时序引导图,通过时序引导图调制聚合特征;通过解码器处理调制后的聚合特征,得视频分割结果
。2.
根据权利要求1所述的基于语义对齐和时间一致性的视频分割方法,其特征在于,所述粗粒度对齐的结果的获取,具体包括以下步骤:将支撑特征中的目标信息压缩为一个全局的表征将支撑特征中的目标信息压缩为一个全局的表征其中是全局池化函数,

是哈达玛积
(
逐元素相乘
)
,表示将目标掩膜标注
M
s
的尺寸调整为与支撑特征
F
s
一致;通过目标的粗糙表征
p
s
,可以得到质询特征中每个特征点的前景概率:其中
i∈1,2,

,hw
是质询特征点的索引,得到的
e
i
是粗粒度对齐的结果
。3.
根据权利要求1所述的基于语义对齐和时间一致性的视频分割方法,其特征在于,所述逐点相似性的获取,具体包括以下步骤:通过线性映射得到查询
q
i
,键
k
j
和值
v
j
,分别表示为:其中表示不同的映射矩阵,将质询特征和支撑特征映射到另一个用于匹配的特征空间中,
i,j∈1,2,

,hw
分别是质询特征点和支撑特征点的索引;计算每个“查询

键”对的注意力大小:其中
d(
·
)
表示距离度量,一般采用点积相似性,作为比例系数;
支撑特征和质询特征的逐点相似性
S
满足:
4.
根据权利要求1所述的基于语义对齐和时间一致性的视频分割方法,其特征在于,所述最优传输矩阵的构建,具体包括以下步骤:定义质询特征和支撑特征的分布:
μ
q

[e1,e2,

,e
hw
],
其中质询特征的分布
μ
q
是根据质询特征的前景概率
e
i
得到的,前景概率的大小可以作为粗粒度对齐分数,表征了质询集中每个点的重要程度,而支撑特征的分布
μ
s
是根据其是否为前景定义的;将支撑特征和质询特征的逐点相似性作为最优传输问题中的代价矩阵,并将各自的特征分布
μ
q
,
μ
s
作为最优传输问题中的两个边缘分布,可以将支撑特征和质询特征的对齐问题建模为最优传输问题,使用
Sinkhorn
算法可以高效地得到最优传输矩阵
T
*

s.t.T1

μ
q
,其中
T
为传输矩阵,为其转置矩阵,1表示有着合适维度的全一向量
。5.
根据权利要求1所述的基于语义对齐和时间一致性的视频分割方法,其特征在于,所述最终质询集的聚合特征的获取,具体包括以下步骤:将最优传输矩阵施加到原本的注意力图
s
ij
上即可实现更准确的从支撑到质询的信息传递:其中
i

j∈1,2

....

【专利技术属性】
技术研发人员:张天柱杨文飞张哲吴枫
申请(专利权)人:深空探测实验室天都实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1