基于深度学习的图像空洞填充方法技术

技术编号:19905593 阅读:26 留言:0更新日期:2018-12-26 03:34
本发明专利技术公开了一种基于深度学习的图像空洞填充方法,该方法同时考虑补全语义和真实感语义的情况下能够实现图像空洞填充功能;设计了包含语义补全网络与真实感增强网络的两阶段深度学习架构。在语义补全网络中,定义了改进的内容损失函数,保证了样本贡献的一致性。在真实感增强网络中,使用语义补全网络的结果作为输入,将内容损失与对抗损失结合,定义了复合损失函数,实现了对任意大小、任意形状缺失区域的补全功能,能够得到符合语义、具有真实感细节的补全结果。

【技术实现步骤摘要】
基于深度学习的图像空洞填充方法
本专利技术涉及图像合成
,具体涉及一种基于深度学习的图像空洞填充方法,采用GAN深度学习机制,构建卷积神经网络进行学习,利用自然图像与合成图像混合数据集的建立,解决数据集匮乏的问题。具体考虑补全语义和真实感语义特征,能够实现真实感的图像空洞填充。
技术介绍
图像空洞填充技术,是根据图像的已知部分对缺失的未知部分进行填补。在图像补全问题中,待补全的图像一般有较大的缺失空白区域。由于对大块空白区域的补全不仅涉及到图像的结构信息,还涉及到纹理信息的补全,因此图像补全技术一般采取基于结构信息与基于纹理信息相结合的方法。传统的图像补全技术主要基于图像的结构信息与纹理信息对图像缺失部分进行补全。然而,近年来的大量研究表明,在实际复杂自然图像的补全问题中,仅仅通过图像已知部分的结构、纹理等底层特征,几乎无法得到符合语义环境、具有真实感的图像补全结果。基于深度学习的图像补全技术借助神经网络提取高层特征的能力,引入对于图像语义信息的提取与使用,能够克服传统图像补全技术的缺陷,生成符合语义环境的图像补全结果。在现有的基于深度学习的图像补全方法中,首先出现了编码器-解码器结构的网络监督学习,使用AlexNet的前五层结构,解码器部分使用五个扩张卷积层实现空洞填充的功能。在此基础上出现了生成器-判别器网络结构,使用对抗损失与待补全部分的内容损失结合定义损失函数,取得了良好的补全结果。除此而外,通过内容生成网络和纹理网络两个卷积神经网络结合得到补全结果,同时,也出现了基于无监督学习框架的图像补全方法。但是现有方法存在以下问题:基础网络结构较为简单,可能导致网络的学习能力不足,并且对于任意形状的待补全区域,现有方法在训练过程中对生成器与判别器的平衡存在问题,从而可能导致补全结果质量下降。如何建立有效的深度学习的网络模型,有效解决自然图像空洞填充,这都是亟待解决的实际问题。
技术实现思路
本专利技术的目的是针对现有技术的不足,并针对图像空洞填充问题中网络性能及真实感填充效果的实际需求,提供一种有效的空洞填充方法,利用深度学习策略,构建卷积神经网络,同时考虑补全语义和真实感语义的情况下有效实现图像空洞填充功能。实现本专利技术目的的具体技术方案是:一种基于深度学习的图像空洞填充方法,其特征在于,同时考虑补全语义和真实感语义的情况下,输入图像分辨率为Nt×Nt,其Nt为224、448或者896,按照以下步骤可以实现图像空洞填充功能:步骤1:数据集构建(a)构建自然场景数据集DatabaseSun从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:式中是其中的前景图像;从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再随机选取x幅前景图像,其中x为整数,且1≤x≤5,在[0,NF-1]之间生成x个随机的前景图像序号i为整数,且i=0,1,…,x-1,从SF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为随机生成[0.5,1.0]之间的随机数s,作为前景图像缩放因子,将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;上述生成的IS和IM及完整的背景图像作为一组,进一步生成NS组,其中8742≤NS≤10000;(b)构建物体场景数据集DatabaseCar从汽车数据集BMW-10和car-197中选取汽车图像作为背景;前景及掩模图像利用步骤(a)中方法得到;并利用步骤(a)中方法得到NC组数据,14539≤NC≤20000;步骤2:构建神经网络采用生成式对抗网络(GAN)进行构建,由语义填充网络Hole-Net和真实感细节增强网络Detail-Net两部分组成,Hole-Net与Detail-Net顺次连接;并且,Hole-Net和Detail-Net输出端都进行区域覆盖处理;对于Hole-Net,输入图像Iin,其张量形状为Nt×Nt×4;经过Hole-Net语义补全后得到图像IH,张量形状为Nt×Nt×3,然后对IH进行区域覆盖处理如下:Io=IM⊙IH+(1-IM)⊙Iin(2)其中⊙表示IHRGB三通道分别与掩模逐元素相乘运算,IM表示Iin的第四通道的空洞掩模信息,Io为区域覆盖的语义补全结果,Io形状为Nt×Nt×3;进一步将IM和Io输入Detail-Net进行真实感细节增强,Detail-Net的输出结果ID的形状为Nt×Nt×3,再将ID也进行如下区域覆盖处理,然后得到空洞填充的最后结果IE:IE=IM⊙ID+(1-IM)⊙Iin(3)其中⊙表示ID的RGB三通道分别与掩模逐元素相乘运算;Hole-Net与Detail-Net结构相似,都是由以下网络构成:采用U-net架构,编码器及解码均采用Lt层卷积神经网络的架构,如果Nt为224,Lt为5;如果Nt为448,Lt为6;如果Nt为896,Lt为7;(1)编码器有Lt层子结构,每个子结构为1层卷积:采用4×4的卷积核,卷积步长为2,并在输入图像边界外邻域补零处理,每个卷积层的输出进行批归一化,使用LeakyRelu激活函数;第1层卷积核个数为Tk,;当Nt为224,Tk,取64;当Nt为448,Tk,取32;当Nt为896,Tk取16;依次后面各层卷积核个数增加一倍,编码器输出特征图尺寸为7×7;(2)解码器为Lt层子结构,每层子结构由转置卷积层和连接层组成;转置卷积层的卷积核,设计为4×4,卷积步长为2,每个转置卷积层都进行批归一化,激活函数使用Relu;第1个层卷积的卷积核个数为512,后面各层卷积核个数减半;在Lt层之后使用一个额外的转置卷积层,然后是背景区域覆盖层,解码器最后一层连接一个Tanh激活层,需要网路输出为-1至1之间的浮点数;(3)编码器与解码器之间进行跨层连接,即每个编码器中的卷积层都与解码器中相同尺寸的转置卷积层进行逐通道连接,并作为下一层转置卷积层的输入:即编码器第1层与解码器第Lt-1层输入特征图连接,作为解码器第Lt个转置卷积层的输入;同样地,编码器第2层与解码器第Lt-2层连接,作为解码器第Lt-1层的输入,按照这样方式,进行跨层连接;步骤3:神经网络的训练将Database本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的图像空洞填充方法,其特征在于,该方法输入图像分辨率为Nt×Nt,其Nt为224、448或者896,具体包括以下步骤:步骤1:数据集构建(a)构建自然场景数据集DatabaseSun从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:

【技术特征摘要】
1.一种基于深度学习的图像空洞填充方法,其特征在于,该方法输入图像分辨率为Nt×Nt,其Nt为224、448或者896,具体包括以下步骤:步骤1:数据集构建(a)构建自然场景数据集DatabaseSun从pngimg.com网站中收集NF张前景图像,3810≤NF≤8000,其收集的前景图像为自然图像并保持类别数种,且必须包含物体;所述前景图像为包含透明度信息的4通道图像,利用第4通道的透明信息,获取前景目标的掩模,利用选出的NF张前景图像构建SF集合:式中是其中的前景图像;从SUN2012数据集筛选NB张背景图像,2182≤NB≤5000,构建背景图像集合是其中的背景图像,要求其不包含前景物体,并且要确保选取的背景图像类别要涵盖SUN2012的各个种类;场景合成:(1)在[0,NB-1]之间生成随机的背景图像序号RB,从背景图像集合SB中按照RB取出随机的背景图像再随机选取x幅前景图像,其中x为整数,且1≤x≤5,在[0,NF-1]之间生成x个随机的前景图像序号i为整数,且i=0,1,…,x-1,从SF取出随机前景图像(2)叠加图像,对于的裁剪或缩放处理:如果的水平或垂直尺度小于Nt,通过图像缩放功能将图像在该维度分辨率放大到Nt;否则,如果水平或垂直尺度大于Nt,那么在空域范围内,随机裁剪出分辨率为Nt×Nt的背景块,记为随机生成[0.5,1.0]之间的随机数s,作为前景图像缩放因子,将缩放到新的分辨率s*Nt×s*Nt,结果记为再将覆盖到上,两幅图像中心对齐,覆盖合成后得到前景与背景的叠加图像IS;进一步生成IS的掩模图像:利用的第4通道信息进行生成,第4通道如果为透明状态时,标记为0,表示背景区域像素;当第4通道为非透明状态时,标记为1,表示前景区域像素,这样就得到前景掩模图像IM;利用IS和IM创建一个4通道的图像Iin作为网络的输入数据;上述生成的IS和IM及完整的背景图像作为一组,进一步生成NS组,其中8742≤NS≤10000;(b)构建物体场景数据集DatabaseCar从汽车数据集BMW-10和car-197中选取汽车图像作为背景;前景及掩模图像利用步骤(a)中方法得到;并利用步骤(a)中方法得到NC组数据,14539≤NC≤20000;步骤2:构建神经网络采用生成式对抗网络(GAN)进行构建,由语义填充网络Hole-Net和真实感细节增强网络Detail-Net两部分组成,Hole-Net与Detail-Net顺次连接;并且,Hole-Net和Detail-Net输出端都进行区域覆盖处理;对于Hole-Net,输入图像Iin,其张量形状为Nt×Nt×4;经过Hole-Net语义补全后得到图像IH,张量形状为Nt×Nt×3,然后对IH进行区域覆盖处理如下:其中表示IHRGB三通道分别与掩模逐元素相乘运算,IM表示Iin的第四通道的空洞掩模信息,Io为区域覆盖的语义补全结果,Io形状为Nt×Nt×3;进一步将IM和Io输入Detail-Net进行真实感细节增强,Detail-Net的输出结果ID的形状为Nt×Nt×3,再将ID也进行如下区域覆盖处理,然后...

【专利技术属性】
技术研发人员:全红艳沈卓荟
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1