一种基于生成式对抗网络的人脸表情生成方法技术

技术编号:28943132 阅读:23 留言:0更新日期:2021-06-18 21:51
本发明专利技术公开了一种基于生成式对抗网络的人脸表情生成方法。该方法包括:构建深度学习网络模型,其包括循环神经网络、生成器、图像判别器、第一视频判别器和第二视频判别器,其中循环神经网络针对输入图像产生时间相关的运动向量,生成器以运动向量和输入图像作为输入,输出相应的视频帧,图像判别器用于判断各视频帧的真伪,第一视频判别器判断视频的真伪并进行分类,第二视频判别器控制生成视频变化的真实性和平滑性;利用包含不同表情类别的样本图像作为输入,训练所述深度学习网络模型;利用经训练的生成器实时生成人脸视频。本发明专利技术在生成表情的同时保留人脸特征、所生成视频保持了连续性和真实性、对不同的人脸有泛化能力。

【技术实现步骤摘要】
一种基于生成式对抗网络的人脸表情生成方法
本专利技术涉及计算机视觉
,更具体地,涉及一种基于生成式对抗网络的人脸表情生成方法。
技术介绍
在人脸生成方面,3DMM(人脸3D形变统计模型)通过改变形状、纹理、姿态、光照等参数生成人脸。DRAW(深度递归书写器)用循环神经网络(RNN)实现图像生成,PixelCNN用卷积神经网络(CNN)代替RNN,实现逐像素的图像生成。生成式对抗网络(GAN)出现之后被广泛应用于图像生成方面,越来越多基于GAN的模型被应用于人脸表情转换。例如,ExprGAN(基于强度可控的表情编辑)将条件生成对抗网络和对抗自动译码器相结合,实现人脸表情的转换。又如,Facelet-Bank在固定解码器和译码器的基础上,根据目标输入域和输出域训练出表示两个域差值的网络,以此实现人脸图像编辑。目前,用图像生成视频的主要方法之一是运动序列预测。例如,ConvLSTM(卷积长短时记忆网络)通过循环神经网络和卷积神经网络相结合的方法预测未来的视频帧;VGAN(VondrickC等)在实现表情视频识别之外,用GAN实现本文档来自技高网...

【技术保护点】
1.一种基于生成式对抗网络的人脸表情生成方法,包括以下步骤:/n构建深度学习网络模型,该深度学习网络模型包括循环神经网络、生成器、图像判别器、第一视频判别器和第二视频判别器,其中循环神经网络针对输入图像产生时间相关的运动向量;生成器用于将循环神经网络产生的运动向量和输入图像作为输入,输出相应的视频帧;图像判别器用于判断各视频帧的真伪;第一视频判别器用于判断视频真伪并对视频进行分类;第二视频判别器辅助第一视频判别器用于控制生成视频变化的真实性和平滑性;/n利用包含不同表情类别的样本图像作为输入,以设定的目标函数为优化目标训练所述深度学习网络模型;/n利用经训练的生成器实时生成人脸视频。/n

【技术特征摘要】
1.一种基于生成式对抗网络的人脸表情生成方法,包括以下步骤:
构建深度学习网络模型,该深度学习网络模型包括循环神经网络、生成器、图像判别器、第一视频判别器和第二视频判别器,其中循环神经网络针对输入图像产生时间相关的运动向量;生成器用于将循环神经网络产生的运动向量和输入图像作为输入,输出相应的视频帧;图像判别器用于判断各视频帧的真伪;第一视频判别器用于判断视频真伪并对视频进行分类;第二视频判别器辅助第一视频判别器用于控制生成视频变化的真实性和平滑性;
利用包含不同表情类别的样本图像作为输入,以设定的目标函数为优化目标训练所述深度学习网络模型;
利用经训练的生成器实时生成人脸视频。


2.根据权利要求1所述的方法,其中,所述生成器基于U-net结构构建,包括用于下采样的多层卷积层,以及与所述多层卷积层对应的多层反卷积用于实现上采样。


3.根据权利要求1所述的方法,其中,所述目标函数设置为:



其中D包括图像判别器、第一视频判别器和第二视频判别器,G包括生成器和循环神经网络,λ1、λ2、λ3、λ4是超参数,limg_adv是图像判别器的损失函数,lvid_adv是第一视频判别器的对抗损失函数,lpatch_adv是第二视频判别器的对抗损失函数,lcat是生成器的分类损失函数,lrec是生成器的重构损失函数。


4.根据权利要求3所述的方法,其中,所述图像判别器的损失函数表示为:



其中Pvideo(v)是真实视频的分布,v[0]表示视频v的第一帧,v[t]表示视频的第(t+1)帧,Pz(z)是随机噪声,c是目标类别,G表示生成器,Dimg表示图像判别器,Pdata(x)、Pz(...

【专利技术属性】
技术研发人员:王蕊施璠曲强姜青山
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1