当前位置: 首页 > 专利查询>上海大学专利>正文

基于编解码器网络和引导图的抠图方法技术

技术编号:31581003 阅读:14 留言:0更新日期:2021-12-25 11:24
一种基于编解码器网络和引导图的抠图方法,根据原图绘制一张引导图并通过编解码器网络进行第一次预测得到前景蒙版,根据预测的前景蒙版对原引导图进行修改并由编解码器网络再次进行预测,循环往复直到获得精确抠图结果。本发明专利技术通过三元图、草图、点击图或全灰输入作为引导图均可以通过简单操作实现精确抠图。作为引导图均可以通过简单操作实现精确抠图。作为引导图均可以通过简单操作实现精确抠图。

【技术实现步骤摘要】
基于编解码器网络和引导图的抠图方法


[0001]本专利技术涉及的是一种图像处理领域的技术,具体是一种基于编解码器网络和引导图的抠图方法。

技术介绍

[0002]抠图(Image Matting)是通过输入的图像产生一个前景蒙版用于将前景物体(要抠出的物体)与背景分离,一般抠图问题被建模为求解公式I
i
=α
i
F
i
+(1

α
i
)B
i
,其中α∈[0,1],I表示的是输入图像(三通道),α(单通道)表示的是前景蒙版,F和B(三通道)分别表示前景和背景区域,i表示的是每个像素点的位置;为求解这个方程,就需要引入额外的约束,一般的约束有三元图(trimap)或草图(scribbles)等。当前的抠图方法主要是基于深度学习的方法,这些方法的精度要明显优于传统的基于采样的和基于传播的方法。大多数抠图方法使用一个手绘的三元图作为引导图来提供引导信息,绘制三元图较为耗时,对用户输入不友好,三元图使用白色(值为1),灰色(值为0.5)和黑色(值为0)的区域分别表示前景、过渡区域和背景区域。草图(scribblemap)和点击图(clickmap)同理,只是草图使用的是黑色和白色的曲线,相比三元图给定的信息要少,点击图使用的是圆,提供的信息更少,对神经网络的要求更高,但是对人工输入来说更加方便。在过去几年中,绝大多数的抠图方法使用的都是三元图并且取得较高的精度。

技术实现思路

[0003]本专利技术针对现有基于三元图的抠图技术,无法采用草图或点击图实现抠图的不足,提出一种基于编解码器网络和引导图的抠图方法,通过三元图、草图、点击图或全灰输入作为引导图均可以通过简单操作实现精确抠图。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于编解码器网络和引导图的抠图方法,根据原图绘制一张引导图并通过编解码器网络进行第一次预测得到前景蒙版,根据预测的前景蒙版对原引导图进行修改并由编解码器网络再次进行预测,循环往复直到获得精确前景蒙版,随后通过精确前景蒙版和输入图像获得要抠出的前景。
[0006]所述的编解码器网络包括:编码器、语义信息融合模块、跳跃连接模块和解码器,其中:编码器从输入图像和引导图在通道上连接而成的输入特征图中分别提取出多尺度深层特征图并输出至语义信息融合模块、提取出多尺度浅层特征图并通过跳跃连接模块输出至解码器;语义信息融合模块根据多尺度深层特征图进行特征融合与上采样,得到包含前景的轮廓信息的深层语义特征;解码器对深层语义特征进行上采样,同时与多尺度浅层特征图进行融合,最终得到前景蒙版。
[0007]所述的语义信息融合模块,包括:特征金字塔增强单元(FPEM)和联合上采样单元(JPU)级联,其中:特征金字塔增强单元从主干网络中提取多尺度特征并进行融合,增强语义信息,联合上采样单元将增强后的特征上采样得到深层语义特征。
[0008]所述的编解码器网络,通过基于深度学习的方法、使用公开抠图数据集进行基于渐进式三元图形变的训练,具体为:在训练过程中,随着训练步数的增加,输入网络的引导图中表示前景的区域面积与输入图像中前景区域的面积之比逐渐减少,输入网络的引导图中表示背景的区域面积与输入图像中背景区域的面积之比逐渐减少。输入神经网络的确定信息的量逐渐减少,使编解码器网络学会利用引导图中给定的有限的前景和背景信息预测前景蒙版。
[0009]所述的训练,其训练集和测试集使用的都是公开抠图数据集,其中训练集包含一定数量的前景图及其相应的前景蒙版,同时包含一定数量的背景图,测试集包含测试图片及相应的前景蒙版;损失函数使用L1、L2损失。技术效果
[0010]本专利技术整体解决现有技术难以在保持抠图精度的同时减轻用户输入难度的缺陷,以及现有技术难以对抠图结果进行进一步优化的问题;本专利技术在训练过程中逐渐减少引导图中前景和背景的面积,使引导图逐渐从三元图变为草图,逐渐减少输入神经网络的确定信息的量,能够提升神经网络的鲁棒性,使其学会利用引导图中给定的前景和背景信息预测前景蒙版,而不是局限于三元图或草图的单个域中。用户可以根据前一次预测的前景蒙版在原引导图上进行修改,在没有预测正确的区域增加一些提示前景和背景的笔画,在局部增加引导图的信息,随后再次进行预测,循环往复,直到获得满意的抠图效果。
附图说明
[0011]图1为本专利技术网络结构示意图;
[0012]图2a和图2b分别为基于渐进式三元图形变的训练的流程图和效果图;
[0013]图3为语义信息融合模块的流程示意图;
[0014]图4a和图4b分别为迭代式优化抠图方法的流程图和效果图;
[0015]图5为主干网络及跳跃连接模块结构示意图;
[0016]图6为解码器部分结构示意图;
[0017]图7为渐进式三元图形变流程以及曲线粗细与训练步数的关系示意图;
具体实施方式
[0018]如图4a所示,为本实施例涉及的一种基于编解码器网络和引导图的抠图方法,根据原图绘制一张引导图并通过编解码器网络进行第一次预测得到前景蒙版,根据预测的前景蒙版对原引导图进行修改并由编解码器网络再次进行预测,循环往复直到获得精确抠图结果。
[0019]如图1所示,所述的前景蒙版,根据RGB图像与引导图在通道维度上连接成的特征图,使用本实施例编解码器网络得到。
[0020]如图3、图5、图6所示,所述的编解码器网络包括:编码器部分、语义信息融合模块、三个跳跃连接模块以及包含空间注意力模块的解码器部分,其中:三个跳跃连接模块分别设置于编码器部分和解码器部分之间并输出多尺度浅层特征图,语义信息融合模块接收编码器部分输出的多尺度深层特征图并输出至解码器部分,解码器部分输出精确抠图结果。
[0021]如图1所示,所述的编码器部分在训练阶段的输入特征图S1为RGB图和引导图在通
道上连接而成,具体为输入特征图S1∈R4×
512
×
512
,长和宽都是512,该输入特征图经过卷积模块中两层3*3卷积以及相应的批次归一化、谱归一化以及ReLU激活函数之后,得到2倍下采样特征图S2∈R
32*256*256
,随后依次经过卷积、第一残差模块得到4倍下采样特征图S4∈R
64*128*128
,经过第二、三、四残差模块分别得到8倍下采样特征图S8∈R
128*64*64
、16倍下采样特征图S16∈R
256*32*32
和32倍下采样特征图S32∈R
512*16*16

[0022]所述的第一至第四残差模块,均包括主分支和下采样分支,其中:主分支包含两层3*3卷积及相应的谱归一化、批次归一化以及ReLU激活函数,下采样分支包含一层平均池化层、一层1*1卷积及相应的谱归一化、批次归一化。经过主分支和下采样分支处理的特征图将会进行元素对应相加,相加的结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于编解码器网络和引导图的抠图方法,其特征在于,根据原图绘制一张引导图并通过编解码器网络进行第一次预测得到前景蒙版,根据预测的前景蒙版对原引导图进行修改并由编解码器网络再次进行预测,循环往复直到获得精确前景蒙版,随后通过精确前景蒙版和输入图像获得要抠出的前景;所述的编解码器网络包括:编码器、语义信息融合模块、跳跃连接模块和解码器,其中:编码器从输入图像和引导图在通道上连接而成的输入特征图中分别提取出多尺度深层特征图并输出至语义信息融合模块、提取出多尺度浅层特征图并通过跳跃连接模块输出至解码器;语义信息融合模块根据多尺度深层特征图进行特征融合与上采样,得到包含前景的轮廓信...

【专利技术属性】
技术研发人员:程航徐树公
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1