一种基于生成对抗网络的人脸属性编辑方法技术

技术编号:27268578 阅读:20 留言:0更新日期:2021-02-06 11:33
人脸属性编辑,是在保持图像背景不变的条件下将图像修改为给定属性的任务.本发明专利技术提出了一种使用选择性传输单元(Selective Transfer Unit,STU)和生成对抗网络(Generative Adversarial Networks,GAN)进行人脸属性编辑的方法:使用条件生成对抗网络(CGAN),以原属性与目标属性之间的差异作为条件输入生成器;生成器采用编码器

【技术实现步骤摘要】
一种基于生成对抗网络的人脸属性编辑方法


[0001]本专利技术涉及深度学习风格迁移、图像翻译、人脸属性编辑。需要用到Pytorch深度学习框架,使用的主要开发环境为Pytorch1.1, Python3.5,CUDA10.0.。

技术介绍

[0002]在生成对抗网络提出之前,深度学习的主要侧重点是致力于研究 丰富的分层模型,用来表示在应用过程中遇到的各种数据的概率分布, 比如自然图像、包含语音的音频波形以及自然语言库里的各种符号。 直到Ian Goodfellow在2014年提出的生成对抗网络(GAN)打破了 这一现状,GAN一经提出便举世瞩目,并且一跃成为深度学习中最 热的模型。生成对抗网络可以分为两部分理解,生成是让模型像大脑 一样学习一些图片,语言等数据并能自动生成一些相似的数据。比如 让模型学习一些猫咪的图片,然后自己可以产生猫咪的图片;对抗, 顾名思义,是二者之间的关系,因此必然包含两个网络才能形成对抗 网络。
[0003]GAN的出现掀起了图像生成领域的一场革命,自GAN之后, 各种命名的GAN的变体层出不穷,以下是比较有代表性的衍生 GAN。
[0004](1)CGAN。生成对抗网络的优点毋庸置疑,它只需要通过反向 传播算法来获得梯度,不需要马尔可夫链,学习的过程中不需要进行 复杂推理,很容易地就能将多种因素和相互之间的关系融合到模型当 中。这种生成模型没有约束条件,因此也无法掌控生成什么样的数据。 CGAN是通过一些附加信息对模式进行条件限制,这样就可以指导 数据的生成过程。这些附加信息包括一些类标签,图像修复的部分提 示信息或者来自其它模式的信息。与原始GAN相比,CGAN在判别 器和生成器中都添加了约束条件,这样图片的生成就不至于是无监督, 无目的的。
[0005](2)DCGAN。DCGAN通过一定的架构约束,完善了卷积网络 在监督学习和无监督学习方面取得的成就,它凭借良好的性能成为无 监督学习的强有力候选。在大量的无标签的数据采集中,研究如何表 示数据可重复利用的那部分特征一直是一个很活跃的领域。人们利用 实际上无限数量的未标记图像和视频来学习,得到好的中间表示后就 可以把它用在不同的有监督学习的研究或任务中。DCGAN沿用了上 面这种思想,它通过训练生成式对抗网络(GANs),然后将生成器和判 别器网络重复使用,在不同的监督任务中进行特征提取,并提出了评 估GAN拓扑结构上的一组约束条件,这些约束条件使GAN在大 多数设置下都能保持稳定训练,避免了生成器产生无意义的输出。
[0006](3)InfoGAN。InfoGAN最大化了潜在变量和观测数据之间的 相互信息。具体来说,InfoGAN成功地从MNIST数据集中的数字形 状中分离出了写作风格,从3D渲染图像中分离出了姿势,从SVHN 数据集的中心数字中分离出了背景数字。它还发现了一些视觉上的概 念,包括发型、是否戴眼镜以及CelebA面部数据集中的面部情绪等。 在原始GAN中,生成器接收的输入是一段无规律单一连续的噪音, 具有不可解释性,没有办法来控制某个维度来使其产生特定的图像信 息,通常会将噪音进行过拟合处理。就MNIST数据集进行分析,可 以将数字分解为多个维度,每个维度代表不同的特征,如数字内容、 线条粗细、字体倾斜程
度等,在原始GAN中是无法改变某个维度来 让生成器生成特定维度的图像。InfoGAN在此基础上进行了改进,将 单一连续的输入噪声Z进行了处理,将其分解为两部分,一部分是 原始的噪声Z,另一部分是噪声Z的特征维度,不同维度代表不同 的特征。
[0007][0008][0009][0010]
技术实现思路

[0011]人脸属性编辑,是在保持图像背景不变的条件下将图像修改为给定属性的任务.本专利技术提出了一种使用选择性传输单元(Selective Transfer Unit,STU)和生成对抗网络(Generative Adversarial Networks, GAN)进行人脸属性编辑的方法:使用条件生成对抗网络(CGAN),以原属性与目标属性之间的差异作为条件输入生成器;生成器采用编码器-解码器结构和STU相结合,从而选择性的将编码器特征与解码器特征进行连接,克服了跳跃连接虽然有助于提升生成图像的训练稳定性和视觉质量,但是弱化了属性编辑能力的缺点;使用属性分类器使生成的图像正确拥有预期的属性.
[0012]一种基于生成对抗网络的人脸属性编辑方法,其特征在于提出了一种选择性传输单元和生成对抗网络相结合的人脸属性编辑模型. 编码器-解码器结构作为生成器,模型的输入为图片和差分属性向量,使用WGAN-GP对GAN损失进行优化,并使用谱归一化方法对判别器矩阵参数进行归一化处理,实现多个属性编辑的任务.使用选择性传输单元而不是跳跃连接选择性地将编码器特征与解码器特征进行连接,同时提高了生成图像质量和属性编辑能力.
[0013]本专利技术所提出的网络的训练过程如算法1所示.其中n_d=5表示生成器更新一次而判别器更新五次.第一阶段模型训练判别器和属性分类器网络,利用对抗损失和属性分类损失来更新判别器和属性分类器.第二阶段对生成器(即编码器-解码器)网络进行训练,利用对抗损失、属性分类损失和重建损失来更新判别器和属性分类器.整个训练过程是通过反向传播完成的.
[0014]附图说明
[0015]图1为本专利技术的人脸属性编辑示例图。图2为本专利技术的网络架构图。如图2所示,本专利技术的网络结构包含五个组成部分:编码器Enc、 解码器Dec,属性分类器C1、C2,判别器D1、D2,以及选择性传输 单元(STU)。模型的输入为图像和差分属性向量,使用选择性传输 单元(STU)将编码器与解码器特征进行连接。.
[0016]在训练阶段,输入图像X
a
首先由编码器编码,得到其潜在表示,解码器解码潜在表示和差分属性向量diff
b-a
,生成改变属性的图像X
b
,然后将X
b
再经过编码器、解码器解码图像X
b
的潜在表示和差分属性向量diff
a-b
,再次得到具有属性a的生成图像X
a

.
[0017]表1编码器Enc网络结构
[0018][0019]表2解码器Dec网络结构
[0020][0021]生成器(包括编码器和解码器)的详细架构如表1和表2所示. 其中,编码器Enc使用五层卷积,每层卷积后面紧跟BN(批量标准化)和Leaky ReLU,解码器Dec使用五层反卷积,前四层的反卷积后面紧跟BN(批量标准化)和ReLU,第五层的反卷积后面的激活函数为Tanh.除此之外,模型采用STU的结构,在编码器和解码器之间进行选择性连接,它可以在图像转换任务中改善生成图像的质量并提高属性编辑能力.
具体实施方式
[0022]本专利技术所提出的网络的训练过程如算法1所示.其中n_d=5表示生成器更新一次而判别器更新五次.第一阶段模型训练判别器和属性分类器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的人脸属性编辑方法,其特征在于提出了一种选择性传输单元和生成对抗网络相结合的人脸属性编辑模型.编码器-解码器结构作为生成器,模型的输入为图片和差分属性向量,使用WGAN-GP对GAN损失进行优化,并使用谱归一化方法对判别器矩阵参数进行归一化处理,实现多个属性编辑的任务.使用选择性传输单元而不是跳跃连接选择性地将编码器特征与解码器特征进行连接,同时提...

【专利技术属性】
技术研发人员:张友彩邵明文禹发
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1