本发明专利技术属于计算机视觉技术领域,提供了一种全自动自然图像抠图方法,对于单幅图像的图像抠图来说,主要由高级语义特征和低级结构特征的提取、金字塔特征的过滤、空间结构信息的抽取、利用判别器网络的后期优化四部分构成。本发明专利技术可以在不需要任何辅助信息的情况下生成精准的蒙版遮罩,省去科研人员标注辅助信息的时间和用户使用时的交互时间。
A fully automatic natural image matting method
【技术实现步骤摘要】
一种全自动自然图像抠图方法
本专利技术属于计算机视觉
,涉及深度学习的全自动自然图像抠图的方法。
技术介绍
一个前景物体如何无缝的和另一张图像合成一张新的图像,其最为关键的技术便是图像抠取,随着社会的发展和科技的不断进步,我们身边的图像数量正在呈指数速度增长,同时也伴随着众多对图像的处理技术接踵而来。从最初的图像分类到目标检测,再到图像分割等,其背后无不隐藏着人们对于解放双手、减少劳动力的需求,而这些需求的解决正是通过不同的图像处理技术来解决进而便利我们的生活。图像抠图(ImageMatting)是计算机视觉中较为重要的一个任务,它建立在图像分割的基础上,但又对图像分割做了深层的延伸。图像分割旨在从将图像中的不同区域或感兴趣的区域给分割出来,其本质上是一个非0即1的二分类问题,对于被分割的边缘细节不做过多要求;而图像抠图是不仅仅将前景区域分割出来,其还要求被分割出物较高的精细程度,例如人的头发,动物的毛发、密集度较高的网状体和半透明的物体等都是要被精细的分割并且肉眼可见的。这种高精度的分割结果对于图像合成具有意义非凡的用途,小到可以应用在日常的人像换背景等应用,大至电影行业的虚拟背景制作以及工业界的零部件精细制作等领域。图像抠图和图像合成本质上是一个互为可逆的过程,其数学模型可以通过如下公式表示:Iz=αFz+(1-α)Bz,α∈[0,1](1)如上公式中z=(x,y)表示输入图像I中的像素位置,F和B分别指分割之后的前景和背景值,α表示该像素点的不透明程度,其数值是介于0和1之间的,本质上属于一个回归问题。该公式给出了对于图像合成的直观解释,即一幅图像众多像素点组成,而每一个像素点均是由前景和背景的不同加权和组成,α便是这个加权因子。当α=1的时候表示完全不透明,即此像素只由前景构成;当α=0的时候表示完全透明,即此像素只由背景构成;当α∈[0,1]的时候,则是表明该像素是前景和背景的加权和共同组成,此像素所在的区域又称未知区域或过渡区域。反观公式1可以看出图像抠图是一个欠约束的问题,对于一张RGB的彩色图,存在7个未知量却只有3个已知量。所以现存的一些方法均是通过增加一些额外的辅助信息(例如Trimap三分图、Scribble笔画)来解决这个病态问题,在这些辅助信息中通常会人工指定部分区域的α值。当然,随着科学技术的发展,图像抠图技术及相关领域的研究也在不断取得新的突破,在图像抠取领域的算法种类很多,大致可以分为以下三种类型。(1)基于采样方式基于采样的方法主要是通过对已知的前景和背景区域进行采样,以找到给定像素的前景和背景的候选颜色,然后使用不同的评测指标来确定最优的前景和背景像素的加权组合。不同的采样方法对于像素的加权组合也有不同的效果,包括沿着未知区域的边界去采样像素对、基于射线投射的采样、基于颜色聚类的采样等方法。这里的评测指标用于在采样的候补对象中进行决策,其主要包含对公式1的重建误差、距未知区域像素的距离及对前景/背景采样的相似性测量等方法。(2)基于传播方式在传播的方法中,公式一中的α被允许通过不同的传播算法将已知α的像素点的值传播到未知α的像素点。传播算法最为主流的便是对前景/背景进行局部平滑假设,随后通过求解线性稀疏方程组来找到全局最优的alpha蒙版遮罩。其它的方法还包括随机游走和非局部化的传播等。(2)基于深度学习方式随着深度学习的快速发展,在图像分类、语义分割等视觉领域中越来越多基于深度学习的方法超过了传统的图像处理技术,而深度学习技术在图像抠图领域的应用使得图像合成最终生成图像的质量得到了很大的提升。香港中文大学贾佳亚教授的实验室提出了深度自动人像抠图,其不仅考虑图像的语义预测,同时也考虑了像素级别的蒙版遮罩的优化。在实现的时候首先通过语义分割将输入图像分割为前景、背景和未知区域、然后提出一个新颖的遮罩层使得整个网络可以进行前馈和反馈操作。这种端到端的深度学习方法使得该方法不需要任何的用户交互,在保证精度的同时大幅度减少了人工的劳动力。最近来自浙江大学的许巍巍教授的实验室提出一种Late-fusion的方法,该方法从分类的角度出发,将图像抠图问题拆分为前景和背景的粗分类和边缘优化问题。在实现的时候先对一张图像进行两个分类任务,然后利用多个卷积层来进行一个融合操作。其与深度人像分割的区别在于深度人像分割利用传统的传播方法来进行桥接训练过程,而Late-fusion采用的是全卷积的方式分阶段训练。
技术实现思路
本专利技术针对现有方法的不足,提出了一种基于注意力引导的层次结构融合的全自动图像抠图框架。本框架能够在只输入单张RGB图像而没有任何额外辅助信息的情况下获得较精细的蒙版遮罩。用户输入单张RGB的图像到框架,首先会经过一个带有扩张金字塔池化模块的特征提取网络去对图像进行特征的提取,随后会经过一个通道注意力的模块去对高级特征进行一个过滤,之后会将过滤的结果和低级特征一并送入空间注意力模块以进行图像细节的抽取。最后将得到的蒙版遮罩和标签信息以及原始图像一并送入判别器网络以进行后期的优化,最终得到一个精细的图像蒙版。本专利技术的技术方案:一种全自动自然图像抠图方法,在无需任何额外辅助信息的情况下实现了从单张RGB图像中获取精细的前景物体的蒙版遮罩,该方法共由四部分构成,整体框架如图1所示,具体步骤如下:(1)层级特征提取阶段层级特征提取阶段主要从输入的图像中抽取不同层级的特征表示;选取ResNext作为基础网络,将其划分为五个块,五个块由浅到深,从浅层提取低级空间特征和纹理特征,到深层提取高级语义特征,依次递进;随着网络的深度加深,网络本身学习到的更多是深层语义特征,因此利用第二个块去提取低级空间特征和纹理特征,如图2所示展示了图像结构性相关的信息。为了让深层网络获得更大的感受野,先将第五个块的普通卷积操作改为扩张率为2的扩张卷积;为了解决图像中前景物体大小不同的问题,将第五个块提取出来的高级语义特征送入扩张空间金字塔池化模块,如图3所示,对于带扩张率的扩张卷积,设定扩张率分别是6、12和18;随后将这五个并行操作的结果级联起来经过一个3×3的卷积操作得到高层语义特征表示;(2)金字塔特征过滤阶段在将高层语义特征表示提取出来之后,传统方法通常是不加筛选的对整个特征表示进行下一步处理。由于图像中的物体种类不止一种,导致高层被激活的语义信息不止一处,前景背景的物体均有被激活的可能性(即不同的通道对于响应的物体也不同),这对于图像抠取来说会造成很大的困扰。本专利技术提出了金字塔特征过滤模块(即分层注意力中的通道注意力),具体流程如图4所示,将得到的高级语义特征先通过一个最大池化操作,以此将每一层的多个特征值压缩为一个特征值;接着将压缩后的特征值通过一个由三层卷积操作组成的共享多层感知机以进行多个通道间特征值的更新;最后将通过非线性激活函数得到的通道注意力图中每一个通道的元素和上阶段的高级语义特征对应的该通道所有元素进行相乘操作,以此来达到对不同激活区域的选择;数学表达式如下:O本文档来自技高网...
【技术保护点】
1.一种全自动自然图像抠图方法,在无需任何额外辅助信息的情况下实现了从单张RGB图像中获取精细的前景物体的蒙版遮罩,该方法共由四部分构成,其特征在于,步骤如下:/n(1)层级特征提取阶段/n层级特征提取阶段主要从输入的图像中抽取不同层级的特征表示;选取ResNext作为基础网络,将其划分为五个块,五个块由浅到深,从浅层提取低级空间特征和纹理特征,到深层提取高级语义特征,依次递进;随着网络的深度加深,网络本身学习到的更多是深层语义特征,因此利用第二个块去提取低级空间特征和纹理特征;为了让深层网络获得更大的感受野,先将第五个块的普通卷积操作改为扩张率为2的扩张卷积;为了解决图像中前景物体大小不同的问题,将第五个块提取出来的高级语义特征送入扩张空间金字塔池化模块,对于带扩张率的扩张卷积,设定扩张率分别是6、12和18;随后将这五个并行操作的结果级联起来经过一个3×3的卷积操作得到高层语义特征表示;/n(2)金字塔特征过滤阶段/n提出金字塔特征过滤模块将得到的高级语义特征先通过一个最大池化操作,以此将每一层的多个特征值压缩为一个特征值;接着将压缩后的特征值通过一个由三层卷积操作组成的共享多层感知机以进行多个通道间特征值的更新;最后将通过非线性激活函数得到的通道注意力图中每一个通道的元素和上阶段的高级语义特征对应的该通道所有元素进行相乘操作,以此来达到对不同激活区域的选择;数学表达式如下:/nOutput=σ(MLP(MaxPool(Input)))×Input(2)/n式中,Input表示第一阶段得到的高级语义特征;σ表示非线性激活函数,经过σ之后得到的通道注意力图的大小是1×1×n,n表示通道的数量,而得到的高级语义特征的大小是x×y×n,x和y表示通道的长和宽,二者在执行相乘时会执行广播操作,是通道注意力图的一个元素和高级语义特征中对应通道的全部元素相乘;/n(3)空间信息抽取阶段/n提出一种空间信息抽取模块将更新后的高级语义特征连同层级特征提取阶段中第二个块抽取出来的空间特征和纹理特征一并作为输入,利用更新过的高级语义特征当作引导信息,以此去有选择性的从空间信息中抽取与前景物体相关的空间特征和纹理特征;具体的,先将更新过的高级语义特征经过一个3×3的卷积操作,随后将卷积后的结果从两个方向再去做卷积,一种是先在横向做7×1的卷积,在该结果上在纵向做1×7的卷积;另一种则是先在纵向做1×7的卷积,在该结果上在横向做7×1的卷积,然后将两个平行却顺序不同的卷积操作的结果做一个级联操作,通过此方法对更新过的高级语义特征做进一步的筛选和过滤;之后将该结果做一个1×1的卷积以进行深层融合,再经过一个非线性激活函数得到空间注意力图,用此空间注意力图和来自第二个块的低级特征做逐元素相乘操作去得到更新过的低级特征;更新过的低级特征经过一个3×3的卷积之后和更新过的高级语义特征做级联操作,二者的融合特征随后经过一个3×3的卷积得到该阶段的输出;在该阶段为了保证最终生成的蒙版遮罩与标签信息的一致性,设计一个由结构相似性误差和均方误差构成的混合误差函数;均方误差用于监督蒙版遮罩与监督信息之间的逐像素一致性,计算方式如下:/n...
【技术特征摘要】
1.一种全自动自然图像抠图方法,在无需任何额外辅助信息的情况下实现了从单张RGB图像中获取精细的前景物体的蒙版遮罩,该方法共由四部分构成,其特征在于,步骤如下:
(1)层级特征提取阶段
层级特征提取阶段主要从输入的图像中抽取不同层级的特征表示;选取ResNext作为基础网络,将其划分为五个块,五个块由浅到深,从浅层提取低级空间特征和纹理特征,到深层提取高级语义特征,依次递进;随着网络的深度加深,网络本身学习到的更多是深层语义特征,因此利用第二个块去提取低级空间特征和纹理特征;为了让深层网络获得更大的感受野,先将第五个块的普通卷积操作改为扩张率为2的扩张卷积;为了解决图像中前景物体大小不同的问题,将第五个块提取出来的高级语义特征送入扩张空间金字塔池化模块,对于带扩张率的扩张卷积,设定扩张率分别是6、12和18;随后将这五个并行操作的结果级联起来经过一个3×3的卷积操作得到高层语义特征表示;
(2)金字塔特征过滤阶段
提出金字塔特征过滤模块将得到的高级语义特征先通过一个最大池化操作,以此将每一层的多个特征值压缩为一个特征值;接着将压缩后的特征值通过一个由三层卷积操作组成的共享多层感知机以进行多个通道间特征值的更新;最后将通过非线性激活函数得到的通道注意力图中每一个通道的元素和上阶段的高级语义特征对应的该通道所有元素进行相乘操作,以此来达到对不同激活区域的选择;数学表达式如下:
Output=σ(MLP(MaxPool(Input)))×Input(2)
式中,Input表示第一阶段得到的高级语义特征;σ表示非线性激活函数,经过σ之后得到的通道注意力图的大小是1×1×n,n表示通道的数量,而得到的高级语义特征的大小是x×y×n,x和y表示通道的长和宽,二者在执行相乘时会执行广播操作,是通道注意力图的一个元素和高级语义特征中对应通道的全部元素相乘;
(3)空间信息抽取阶段
提出一种空间信息抽取模块将更新后的高级语义特征连同层级特征提取阶段中第二个块抽取出来的空间特征和纹理特征一...
【专利技术属性】
技术研发人员:杨鑫,刘宇豪,魏小鹏,张强,乔羽,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。