一种基于生成对抗网络使用感知损失解决模型崩塌的方法技术

技术编号:20486702 阅读:36 留言:0更新日期:2019-03-02 19:43
本发明专利技术属于图像重建技术领域,公开了一种基于生成对抗网络使用感知损失解决模型崩塌的方法,利用随机向量z生成与实际数据分布相似的图像,在训练的过程中采用感知损失将z和真实数据映射到特征空间中来提取更高层次的特征,并结合对抗损失来鼓励生成网络产生与实际图像相似的图像样本;最后,使得鉴别器不能判断这是一个虚假图像。本发明专利技术针对已有网络采用较小的数据集解决了模型崩塌问题,VGG‑GAN在两个小场景数据集上进行评价;实验结果表明,用VGG‑GAN方法生成的图像质量优于现有方法。

A Method of Solving Model Collapse Using Perception Loss Based on Generating Countermeasure Network

The invention belongs to the field of image reconstruction technology, and discloses a method of solving model collapse by using perceptual loss based on generating antagonistic network. Random vector Z is used to generate images similar to the actual data distribution. In the training process, perceptual loss is used to map Z and real data into feature space to extract higher-level features, and combined with antagonistic loss to encourage generation network. The network generates image samples similar to the actual image; finally, the discriminator can not judge that this is a false image. The method solves the problem of model collapse by using smaller data sets for existing networks, and VGG GAN is evaluated on two small scene data sets. The experimental results show that the image quality generated by VGG GAN method is better than the existing method.

【技术实现步骤摘要】
一种基于生成对抗网络使用感知损失解决模型崩塌的方法
本专利技术属于图像重建
,尤其涉及一种基于生成对抗网络使用感知损失解决模型崩塌的方法。具体涉及一种基于生成对抗网络使用感知损失解决模型崩塌的方法VGG-GAN。
技术介绍
目前,业内常用的现有技术是这样的:传统生成对抗网络GAN有生成器网络和鉴别器网络组成。训练GAN使生成器网络和鉴别器网络相互竞争达到最优的过程,即达到纳什均衡。然而,目前并没有一个明确的方法来确定GAN网络是否已经进入纳什平衡。该问题是一个高维非凸优化目标。网络试图在下一步中最小化非凸优化目标,这最终可能导致振荡,而不是收敛到底层的真实目标。只要一个生成器和鉴别器不再改变,任何一方不会进一步改进。从梯度下降开始,选择一个可微的损失函数,并最小化它。GAN应用广泛,但存在训练不稳定、梯度消失、模型崩溃等问题。例如,当GAN训练不稳定时,实验的结果会很差,即使训练增加训练的时间也不会让最终的结果改进。众所周知,最优的D旨在最大化真实数据分布与生成的样本分布之间的Jensen-Shannon(JS)偏差。理论上,高维空间中两个分布之间的JS距离的最大概率是常数。当优化的目标是常数时,对于最优鉴别器,生成器不能得到任何的梯度信息。即使对于接近最优的鉴别器,生成器也有很大的可能来面对梯度消失的问题。模型崩溃被称为GAN网络中最重要的失败模式。生成器重复产生完全相同的图像,本专利技术称之为模式崩溃。一般来说,现实世界的数据分布是高度复杂和多模态的。数据描述的概率分布具有多重性。由不同的子组样本集中。生成器崩塌到一个非常狭窄的分布,并导致生成的样本不再改变。这显然违反了GAN的本质。此外,模式崩塌的严重程度因完全崩塌而不同。在现实中,生成的样本几乎是相同的部分崩塌(大多数样本都具有一些共同属性)。为了解决图像生成中的模型崩塌问题,基于GAN框架提出了使用权重削减的新算法WGAN。WGAN采用大型场景LSUN卧室数据集(数量为3033042)来表现出色的视觉效果,证明了该方法的有效性。综上所述,现有技术存在的问题是:(1)目前并没有一个明确的方法来确定GAN网络是否已经进入纳什平衡;(2)GAN应用广泛,但存在训练不稳定、梯度消失、模型崩溃等问题,实验的结果会很差,即使训练增加训练的时间也不会让最终的结果改进;(3)现有技术中,使用大场景数据集(例如LSUN,CelebA),并且最终结果呈现良好的视觉效果。然而,当训练数据是一个小场景数据集时,实验结果会产生模式崩塌;导致了生成样本失去多样性。解决上述技术问题的意义:本专利技术的VGG-GAN有两个优点:第一,解决了在小场景数据集下的模式崩溃问题,保证生成样本的多样性。第二,VGG-GAN网络收敛速度快,并且稳定。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于生成对抗网络使用感知损失解决模型崩塌的方法。本专利技术是这样实现的,一种基于生成对抗网络使用感知损失解决模型崩塌的方法,包括以下步骤:输入待训练的图像I;将待训练图像I转为m×m的图像块集合,图像块用Idata表示。随机产生满足高斯分布或均匀分布的噪声z;将噪声z输入到生成器G中进行训练;将生成器G输出的结果Iz和Idata一同输入到鉴别器D中;生成器和鉴别器不断更新学习,直到达到纳什平衡,生成类似于真实图像的样本图像。进一步,所述将随机噪声z输入到生成器G中进行训练,包括以下步骤:对z做全连接处理。然后reshape成512个特征映射的高维张量。输出的特征图经过四个大小为5*5反卷积处理,随后归一化处理,再经过ReLU激活函数。输出生成的图像。进一步,所述将生成器G输出的结果Iz和Idata一同输入到鉴别器D中,包括以下步骤:经过四次大小为5*5的卷积核,对图像做卷积处理;随后归一化处理,再经过LeakyReLU激活函数。将得到的结果构造一个全连接隐藏层得到一维的数组,进行非线性激活输出结果,判断图像是来自生成器Iz还是图像块Idata。本专利技术的另一目的在于提供一种实现任意一项所述基于生成对抗网络使用感知损失解决模型崩塌的方法的计算机程序。本专利技术的另一目的在于提供一种实现所述基于生成对抗网络使用感知损失解决模型崩塌的方法的信息数据处理终端。本专利技术的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于生成对抗网络使用感知损失解决模型崩塌的方法。本专利技术的另一目的在于提供一种实现所述基于生成对抗网络使用感知损失解决模型崩塌的方法的基于生成对抗网络使用感知损失解决模型崩塌控制系统。本专利技术的另一目的在于提供一种实现所述基于生成对抗网络使用感知损失解决模型崩塌的方法的生成器网络平台。综上所述,本专利技术的优点及积极效果为:本专利技术基本解决了小型场景数据集下的模式崩塌问题。保证了生成的样本的多样性,并且使得生成样本的分布更容易接近真实数据的分布。使生成器网络快速收敛,证明了训练的稳定性。如图3所示,本专利技术与现有的最先进方法在训练时网络的收敛对比图。对比方法从上到下依次是DCGAN,LSGAN,WGAN,WGAN-GP和VGG-GAN。可以观察到DCGAN在生成网络中的损失不仅没有下降的趋势,而且还在不断增加。它也使得鉴别器的损失出现振荡,不能准确判断真实数据或生成样本。LSGAN的生成网络和鉴别网络在训练时发生了振荡,也出现中度模型崩溃。此外,LSGAN的收敛速度也很慢。WGAN的生成网络及其判别网络损失收敛网络趋于正常,但速度慢于的VGG-GAN,导致最终生成的样本没有VGG-GAN清晰。20个epoch以后出现小振荡,但不影响结果。WGANGP中生成网络与判别网络一开始出现较高的损失值。随着训练的进行,损失不断减少。但是在训练结束后,没有达到最佳效果,结果不理想。VGG-GAN训练时网络收敛比其他方法更快。最后,本专利技术的方法可以生成感知真实感图像。本专利技术在基于GAN的图像生成中解决了模型崩塌的问题,并且表现出了良好的视觉效果。实验结果表明,明显优于目前最先进的方法。附图说明图1是本专利技术实施例提供的基于生成对抗网络使用感知损失解决模型崩塌的方法流程图。图2是本专利技术实施例提供的图2为VGG-GAN网络在Cartoon数据集上生成图像的视觉对比图。图3是本专利技术实施例提供的图3为VGG-GAN网络与现有的最先进方法在训练时网络的收敛对比图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明确,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。目前并没有一个明确的方法来确定GAN网络是否已经进入纳什平衡;GAN应用广泛,但存在训练不稳定、梯度消失、模型崩溃等问题,实验的结果会很差,即使增加训练的时间也不会让最终的结果改进。下面结合具体分析对本专利技术作详细的进一步描述。如图1所示,本专利技术实施例提供的基于生成对抗网络使用感知损失解决模型崩塌的方法,包括以下步骤:(1)输入训练数据集I。(2)利用VGG-GAN结构生成新的图像。a.将图像I转成大小为64×64的图像块集合,每一块用Idata。b.随机产生满足正太分布或高斯分布的噪声z,数据形式为64*100。(3)将z输入到生成器G中进行训练。c本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络使用感知损失解决模型崩塌的方法,其特征在于,所述基于生成对抗网络使用感知损失解决模型崩塌的方法包括以下步骤:输入待训练的图像I;将待训练图像I转为m×m的图像块集合,图像块用Idata表示;随机产生满足高斯分布或均匀分布的噪声z;将噪声z输入到生成器G中进行训练;将生成器G输出的结果Iz和Idata一同输入到鉴别器D中;生成器和鉴别器不断更新学习,直到达到纳什平衡,生成类似于真实图像的样本图像。

【技术特征摘要】
1.一种基于生成对抗网络使用感知损失解决模型崩塌的方法,其特征在于,所述基于生成对抗网络使用感知损失解决模型崩塌的方法包括以下步骤:输入待训练的图像I;将待训练图像I转为m×m的图像块集合,图像块用Idata表示;随机产生满足高斯分布或均匀分布的噪声z;将噪声z输入到生成器G中进行训练;将生成器G输出的结果Iz和Idata一同输入到鉴别器D中;生成器和鉴别器不断更新学习,直到达到纳什平衡,生成类似于真实图像的样本图像。2.如权利要求1所述的基于生成对抗网络使用感知损失解决模型崩塌的方法,其特征在于,所述将随机噪声z输入到生成器G中进行训练,包括以下步骤:对z做全连接处理;然后reshape成512个特征映射的高维张量;输出的特征图经过四个大小为5*5反卷积处理,随后归一化处理,再经过ReLU激活函数;输出生成的图像。3.如权利要求1所述的基于生成对抗网络使用感知损失解决模型崩塌的方法,其特征在于,所述将生成器G输出的结果Iz和Idata一同输入到鉴别器D中,包括以下步骤:经过四次大小为5*5的卷积核,对图像做卷积处理;随后归一化处理,再经过LeakyReLU激活函数;将得到的结果构造一个全连接隐藏层得到一维的数组,进行非线性激活输出结果,判断图像是来自生成器Iz还是图像块Idata。4.如权利要求2所述的基于生成对抗网络使用感知损失解决模型崩塌的方法,其特征在于,所述将随机噪声z输入到生成器G中进行训练,具体包括:1)对z作全连接处理,输出为64*8192;2)然后reshape成512个特征映射的高维张量;3)用大小为5×5,步长为2的反卷积,每个卷积层的输出归一化处理再经过ReLU激活函数,ReLU函数如下表示:f(x)=max(0,x)当输入信号小于0时,输出为0,当输入信号大于0时,输出等...

【专利技术属性】
技术研发人员:李孝杰伍贤宇冯诗皓史沧红罗超张宪刘书樵李俊良
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1