当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度学习的语音驱动人脸生成方法技术

技术编号:37059817 阅读:16 留言:0更新日期:2023-03-29 19:36
本发明专利技术公开了一种基于深度学习的语音驱动人脸生成方法,涉及模式识别技术领域,解决了不能自动且准确的生成符合文本信息的人脸的技术问题,其技术方案要点是针对驱动人脸的输入类型在系统框架上作出针对性改进,创新性地加入语音识别模块,通过语音识别直接获取人脸的基本面部特征,简化了人脸生成的流程;同时充分利用StyleGAN2模型中不同人脸生成模型间映射关系的相似性,能够针对性的生成某一风格的人脸脸型,在刑侦领域具有重要的实践意义。义。义。

【技术实现步骤摘要】
一种基于深度学习的语音驱动人脸生成方法


[0001]本申请涉及模式识别
,尤其涉及一种基于深度学习的语音驱动人脸生成方法。

技术介绍

[0002]语音驱动人脸生成技术的出现,源自于对模拟画像的迫切需要,如果计算机能够提供帮助,描绘出更准确的画像,对模拟画像有巨大的帮助。
[0003]模拟画像追求特征相像,确保眼睛、鼻子、嘴、眉毛都要精确相似。除了力求还原相貌,还要注重神态的模拟和人物在不同年龄阶段面部特征的变化。如何通过口述,就自动生成一张包含相应描述信息的画像,具有重要的实践意义。

技术实现思路

[0004]本申请提供了一种基于深度学习的语音驱动人脸生成方法,其技术目的是根据口述信息自动且准确的生成包括相应特征的人脸。
[0005]本申请的上述技术目的是通过以下技术方案得以实现的:
[0006]一种基于深度学习的语音驱动人脸生成方法,包括:
[0007]S1:对语音信号进行识别并转换成对应的文本信息;
[0008]S2:对StyleGAN2模型的生成器进行反转得到图像编码器,对CLIP模型的文本编码器进行训练使得文本向量w
l
和图像向量w
v
的距离最小,则得到训练好的文本编码器,则所述图像编码器和训练好的文本编码器与StyleGAN2模型的合成网络连接构成渐进式生成对抗网络;
[0009]S3:将所述文本信息输入到所述渐进式生成对抗网络中,得到与所述文本信息对应的潜在编码W;
[0010]S4:将所述潜在编码W输入到所述StyleGAN2模型的生成器中,生成人脸。
[0011]本申请的有益效果在于:本申请针对驱动人脸的输入类型在系统框架上作出针对性改进,创新性地加入语音识别模块,通过语音识别直接获取人脸的基本面部特征,简化了人脸生成的流程;同时充分利用StyleGAN2模型中不同人脸生成模型间映射关系的相似性,能够针对性的生成某一风格的人脸脸型。
附图说明
[0012]图1为本申请所述方法的流程图;
[0013]图2为具体实施例中生成的人脸效果图。
具体实施方式
[0014]下面将结合附图对本申请技术方案进行详细说明。
[0015]如图1所示,本申请所述的基于深度学习的语音驱动人脸生成方法,包括:
[0016]S1:对语音信号进行识别并转换成对应的文本信息。
[0017]具体地,上述语音识别过程通过特征提取网络、声学模型、语言模型、字典及解码来实现。且为了更有效地提取特征还需要对采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来。待检测音频应包括特定人员基本的面部特征,包括但不限于性别、年龄、鼻子形状、嘴唇厚薄、头发颜色及长短、是否佩戴眼镜等。
[0018]作为具体实施例地,基于百度API对语音信号进行识别,通过API Key以及Secret Key对API进行调用。
[0019]S2:对StyleGAN2模型的生成器进行反转得到图像编码器,对CLIP模型的文本编码器进行训练使得文本向量w
l
和图像向量w
v
的距离最小,则得到训练好的文本编码器,则所述图像编码器和训练好的文本编码器与StyleGAN2模型的合成网络连接构成渐进式生成对抗网络。
[0020]具体地,反转思路就是引入一个额外的图像编码器E
v
,通过图像编码器E
v
对真实图像x再进行编码,使真实图像x映射到Z
s
附近,表示为:
[0021][0022]其中,Z
s
表示s空间里的向量Z;G(.)表示StyleGAN2模型的生成器;G(Z
s
)表示StyleGAN2模型的生成器根据向量Z
s
生成图像;E
v
(G(Z
s
))表示通过图像编码器E
v
对图像G(Z
s
)再进行编码。
[0023]再额外加入真实图像x的文本信息,使该文本信息映射到潜在空间w,从而获取真实图像x的语义信息,表示为:
[0024][0025][0026]其中,F(.)表示特征提取网络VGG;||
·
||2表示L2距离;表示方差计算公式;D
v
表示图像判别器;λ1、λ2和λ3均表示超参数;
[0027]通过式(2)至式(3)对图像编码器E
v
进行训练,使其具备从图像x推理出Z
s
的能力,从而得到所述图像编码器。
[0028]对CLIP模型的文本编码器进行训练使得文本向量w
l
和图像向量w
v
的距离最小,则得到训练好的文本编码器,包括:
[0029]通过CLIP模型分别对文本和图像进行编码,则文本通过CLIP模型的文本编码器得到潜在空间w的向量w
l
,图像通过CLIP模型的图像编码器得到潜在空间w的向量w
v
,对CLIP模型的文本编码器进行训练使得w
l
和w
v
的距离最小,通过式(4)得到训练好的文本编码器,表示为:
[0030][0031]其中,E
l
表示文本编码器;p
i
表示生成器第i输入层的权重。
[0032]式(4)即为训练文本编码器的核心思想,w
v
为通过图像编码器E
v
将图片映射到w空间得到的向量;w
l
表示通过文本编码器(CLIP模型自带的编码器)将文本映射到w空间得到
的向量。对于StyleGAN2模型的每个输入层,使w
l
和w
v
之间的距离最小,也就是说同一对文本和图像映射到潜在空间的w应该尽可能相似。
[0033]S3:将所述文本信息输入到所述渐进式生成对抗网络中,得到与所述文本信息对应的潜在编码W。
[0034]S4:将所述潜在编码W输入到所述StyleGAN2模型的生成器中,生成人脸。
[0035]作为具体实施例地,潜在编码W为一个(18,512)维度的向量,所述潜在编码W通过StyleGAN2模型的生成器建立了从(18,512)维向量到(1024,1024,3)维向量的映射关系。为了配合模拟画像的任务要求,针对性地利用独居亚洲人风格的人脸数据集训练得到亚洲人网络模型,人脸生成的具体方法为,将步骤S3中得到的弥合文本的(18,512)维潜在编码W输入到加载亚洲人网络模型参数的StyleGAN2模型的生成器中,自动生成具有亚洲人脸风格的人脸图像。
[0036]作为具体实施例地,本申请所述的StyleGAN2模型为通过10000张具有亚洲风格的人脸数据集进行训练得到的。StyleGAN2模型的网络结构包含两个部分,第一个是Mapping本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的语音驱动人脸生成方法,其特征在于,包括:S1:对语音信号进行识别并转换成对应的文本信息;S2:对StyleGAN2模型的生成器进行反转得到图像编码器,对CLIP模型的文本编码器进行训练使得文本向量w
l
和图像向量w
v
的距离最小,则得到训练好的文本编码器,则所述图像编码器和训练好的文本编码器与StyleGAN2模型的合成网络连接构成渐进式生成对抗网络;S3:将所述文本信息输入到所述渐进式生成对抗网络中,得到与所述文本信息对应的潜在编码W;S4:将所述潜在编码W输入到所述StyleGAN2模型的生成器中,生成人脸。2.如权利要求1所述的方法,其特征在于,所述步骤S1通过特征提取网络、声学模型、语言模型、字典及解码来实现。3.如权利要求2所述的方法,其特征在于,将语音信号投入到特征提取网络进行特征提取前,先对语音信号进行预处理,预处理包括滤波和分帧。4.如权利要求1所述的方法,其特征在于,所述潜在编码W为一个(18,512)维度的向量,所述潜在编码W通过StyleGAN2模型的生成器建立了从(18,512)维向量到(1024,1024,3)维向量的映射关系。5.如权利要求1所述的方法,其特征在于,所述StyleGAN2模型为通过10000张具有亚洲风格的人脸数据集进行训练得到的。6.如权利要求1所述的方法,其特征在于,所述步骤S2中,对StyleGAN2模型的生成器进行反转得到图像编码器,包括:引入一个的图像编码器E
v
,通过图像编码器E
v
对真实图像x再进行编码,使真实图像x映射到Z
s
附近,表示为:其中,Z
s
表示s空间里的向量Z;G(.)表示StyleGAN2模型的生成器;G(Z
...

【专利技术属性】
技术研发人员:李沛霖吴卓骏夏思宇
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1