一种基于掩膜传播网络的交互式视频抠图系统技术方案

技术编号:33617809 阅读:29 留言:0更新日期:2022-06-02 00:36
本发明专利技术公开了一种基于掩膜传播网络以及特征融合的交互式视频抠图系统,包括缓存模块、交互式图像粗分割模块、掩膜时域传播模块、基于时空特征融合的细分割模块。相较于现有视频抠图方法,本发明专利技术系统只需对视频任意一帧的前景目标进行点击或者涂鸦便可实现对整个视频前景目标的抠图,无需对每一帧提供三分图,大大减少用户的工作量,并且达到先进抠图算法效果,此外通过时空特征融合模块,有效解决视频帧之间的时空一致性问题,对移动的物体细节可能产生伪迹和闪烁现象起到有效抑制。可能产生伪迹和闪烁现象起到有效抑制。可能产生伪迹和闪烁现象起到有效抑制。

【技术实现步骤摘要】
一种基于掩膜传播网络的交互式视频抠图系统


[0001]本专利技术涉及图像处理
,具体涉及一种基于掩膜传播网络及特征融合的视频抠图系统。

技术介绍

[0002]图像抠图(Image Matting)是一种专注于物体前景提取的技术,其核心思路在于对图像进行数学建模,将图像看作是前景和背景部分按照一定权重(透明度遮罩)的凸组合,通过确定的透明度遮罩(Alpha Matte)将前景(Foreground)和背景(Background)部分区分开来。其数学模型的求解公式如下:
[0003]I
z
=α
z
F
z
+(1

α
z
)B
z
ꢀꢀꢀ
(1)
[0004]其中z表示图像中坐标为(x,y)的某像素点,I
z
则表示像素点z的RGB颜色值,F
z
表示前景像素点的颜色值,B
z
表示背景像素点的颜色值,α
z
表示z的透明度掩膜值,值域为[0,1]。为了求本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于掩膜传播网络的交互式视频抠图系统,其特征在于,包括缓存模块、交互式图像粗分割模块、掩膜时域传播模块、基于时空特征融合的细分割模块;所述的缓存模块用于将视频按视频帧的方式进行缓存,从而获取每一帧的原始输入图像;同时用于缓存掩膜时域传播模块标记的记忆帧;所述的交互式目标粗分割模块用于对输入图像进行交互,所述的交互包括点击、涂鸦两种交互方式,用户根据实际情况选择任意交互方式,通过单次点击或涂鸦获得原始输入图像的前景目标信息即指示图,将其结合原始输入图像输入至图像分割网络,获得初步的掩膜;用户可以通过重复点击或涂鸦来优化掩膜,直到获得足够准确的掩膜后,再送入掩膜时域传播模块;所述的掩膜时域传播模块包括一个基于注意力机制的时空记忆帧读取器;所述的基于注意力机制的时空记忆帧读取器包括了记忆编码器、查询编码器、掩膜解码器;掩膜时域传播模块在获得单帧原始图像所对应的掩膜后,将从正反两个时域方向上进行掩膜传播;其原理是根据当前缓存模块中已有的记忆帧来预测查询帧的掩膜,然后将预测到掩膜的查询帧标记为记忆帧并存入缓存模块中,并取视频的下一帧作为新的查询帧,重复上述操作,直到下一帧为记忆帧或者是视频帧的最后一帧时停止传播,意味着所有帧的掩膜均已获得;所述的基于时空特征融合的细分割模块,包括细分割编码器、细分割解码器、ASPP空洞卷积池化金字塔、时空特征融合模块、逐步细化模块;基于时空特征融合的细分割模块根据掩膜时域传播模块输出的所有视频帧掩膜以及视频帧原始图像来预测精确的透明度遮罩,并且利用帧与帧之间的时空信息来消除视频抠图中可能出现的伪影和闪烁现象。2.根据权利要求1所述的一种基于掩膜传播网络的交互式视频抠图系统,其特征在于,具体的传播方式是将当前交互帧作为记忆帧,相邻帧作为查询帧,通过记忆帧和查询帧的键特征图进行匹配,再将记忆帧的值特征图乘上键特征匹配所生成的权重,最后连接上查询帧的值特征图一并送入掩膜解码器进行解码,最终预测出该查询帧的掩膜。3.根据权利要求2所述的一种基于掩膜传播网络的交互式视频抠图系统,其特征在于,所述的基于时空特征融合的细分割模块对视频中的每一帧原始图像F
i
执行以下操作:将F
i
和相邻两帧原始图像F
i
‑1、F
i+1
以及对应的掩膜M
i M
i
‑1、M
i+1
分别组成三组四通道的输入数据,传入到细分割编码器中进行多层次的特征提取,细分割编码器最底层的编码特征输入到ASPP空洞卷积池化金字塔中进行多尺度的特征提取与融合,然后将特征输出到细分割解码器的底层进行逐层向上解码;同时细分割编码器中的每一层均会输出提取到的特征图,每一层次的特征图通过跳跃连接输出到对应层级的时空特征融合模块进行特征对齐与融合,时空特征融合模块将对齐融合后特征图通过跳跃连接输出到细分割解码器的对应层级,并与细分割解码器上一层级解码的特征图相加进行当前层级的解码;所述的细分割解码器上一层级解码的特征是指ASPP空洞卷积池化金字塔输出到细分割解码器底层然后逐层向上解码获得的特征;此外,在细分割解码器的第二、三、五层的输出部分分别连接了逐步细化模块,这样在细分割解码器向上解码的过程中会逐步细化的抠图结果,最终得到准确的透明度遮罩。
4.根据权利要求1或2或3所述的一种基于掩膜传播网络的交互式视频抠图系统,其特征在于,所述的交互式目标粗分割模块的图像分割网络采用DeeplabV3+网络作为backbone,该网络接受六通道输入,其中三通道是RGB图像、单通道是掩膜、两个通道是正负涂鸦图,其中掩膜有两种情况,初始交互时掩膜为空,对已经生成的前景目标掩膜进行调整时,掩膜为包含错误区域的单通道图。5.根据权利要求4所述的一种基于掩膜传播网络的交互式视频抠图系统,其特征在于,所述的记忆编码器以及查询编码器,这两个编码器网络的均采用ResNet50作为骨干网络,并且将ResNet50的stage

4的特征图作为一个计算键值特征图的基本特征图;针对输入部分,记忆编码器在第一个卷积层中增加了额外的输入通道,其输入是图像和掩膜,而查询编码器输入只有图像;记忆编码器以及查询编码器的末端均添加了两个卷积层,分别生成键图和值图,用于计算查询帧和记忆帧之间的关键特征的相似性,键图和值图分别由和表示,其中HW分别代表原图尺寸,C
k
和C
v
分别设置为128和512;对于每个记忆帧T,时空记忆帧读取器通过卷积操作计算其键值特征图,并且将输出串接为记忆键图K
M
和记忆值图V
M
,而查询键图K
Q
和记忆键图K
M
通过点积进行匹配,公式如下:F=(K
M
)
T
K
Q
ꢀꢀꢀꢀ
(2)其中的实体F∈R
THW*HW
代表了查询点和记忆点的亲和力;进行时空记忆读取操作,首先测量查询键图和记忆键图之间所有像素的相似度来计算V
M
的权重,将V
M
和权重相乘后再与V
Q
相加一并输入到掩膜解码器;掩膜解码器获取时空记忆读取操作的输出后,对查询帧的目标掩膜进行重建;使用Facebook提出的掩膜细化网络作为构建模块,利用一个卷积层和一个残差块将时空记忆读取操作的输出压缩到256通道,然后通过三个掩膜细化模块逐渐放大压缩的读操作输出,一次放大两倍,并且每个阶段的掩膜细化模块都与查询编码器通过跳跃连接相连,获取前一阶段的输出和特征图;将最后一个掩膜细化模块的输出传入卷积层用来重构对象掩膜,解码器的每个卷积层都使用了3
×
3卷积滤波器,产生256个通道输出,最后一个卷积层输出原图像1/4比例的预测掩膜。6.根据权利要求5所述的一种基于掩膜传播网络的交互式视频抠图系统,其特征在于,所述的细分割编码器和解码器网络使用了一个自定义的U

Net结构,在细分割编码器的输入部分,是RGB图像加上引导图组成一个四通道的特征输入S0∈R
4*512*512
,通道数为4,尺寸则根据的输入大小设置为512*512;输入特征经过两层卷积得到两倍的下采样特征图S1∈R
32*256*256
,每层卷积后都经过了谱归一化操作和批归一化处理,这样做的目的是为了给网络添加Lipschitz常数约束,使得训练更稳定;之后依次经过第二层的卷积和第一残差块Res1得到特征S2∈R
64*128*128
,然后经过第三层的第二残差块Res2得到特征S3∈R
128*64*64
,再经过第四层的第三残差块Res3和第五层的第四残差块Res4,分别得到16倍下采样特征图S4∈R
256*32*32
和32倍下采样图S5∈R
512*16*16
;在细分割解码器部分,每一层解码的特征图都会和对应层的时空特征融合模块输出的特征相结合,再向上采样并...

【专利技术属性】
技术研发人员:沈蓉豪戴国骏周文晖项雷雷
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1