一种基于深度学习的语音驱动人脸生成方法技术

技术编号：37059817 阅读：16 留言：0更新日期：2023-03-29 19:36

本发明专利技术公开了一种基于深度学习的语音驱动人脸生成方法，涉及模式识别技术领域，解决了不能自动且准确的生成符合文本信息的人脸的技术问题，其技术方案要点是针对驱动人脸的输入类型在系统框架上作出针对性改进，创新性地加入语音识别模块，通过语音识别直接获取人脸的基本面部特征，简化了人脸生成的流程；同时充分利用StyleGAN2模型中不同人脸生成模型间映射关系的相似性，能够针对性的生成某一风格的人脸脸型，在刑侦领域具有重要的实践意义。义。义。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的语音驱动人脸生成方法

[0001]本申请涉及模式识别
，尤其涉及一种基于深度学习的语音驱动人脸生成方法。

技术介绍

[0002]语音驱动人脸生成技术的出现，源自于对模拟画像的迫切需要，如果计算机能够提供帮助，描绘出更准确的画像，对模拟画像有巨大的帮助。
[0003]模拟画像追求特征相像，确保眼睛、鼻子、嘴、眉毛都要精确相似。除了力求还原相貌，还要注重神态的模拟和人物在不同年龄阶段面部特征的变化。如何通过口述，就自动生成一张包含相应描述信息的画像，具有重要的实践意义。

技术实现思路

[0004]本申请提供了一种基于深度学习的语音驱动人脸生成方法，其技术目的是根据口述信息自动且准确的生成包括相应特征的人脸。
[0005]本申请的上述技术目的是通过以下技术方案得以实现的：
[0006]一种基于深度学习的语音驱动人脸生成方法，包括：
[0007]S1：对语音信号进行识别并转换成对应的文本信息；
[0008]S2：对StyleGAN2模型的生成器进行反转得到图像编码器，对CLIP模型的文本编码器进行训练使得文本向量w
l
和图像向量w
v
的距离最小，则得到训练好的文本编码器，则所述图像编码器和训练好的文本编码器与StyleGAN2模型的合成网络连接构成渐进式生成对抗网络；
[0009]S3：将所述文本信息输入到所述渐进式生成对抗网络中，得到与所述文本信息对应的潜在编码W；
[0010]S4：将所述潜...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的语音驱动人脸生成方法，其特征在于，包括：S1：对语音信号进行识别并转换成对应的文本信息；S2：对StyleGAN2模型的生成器进行反转得到图像编码器，对CLIP模型的文本编码器进行训练使得文本向量w
l
和图像向量w
v
的距离最小，则得到训练好的文本编码器，则所述图像编码器和训练好的文本编码器与StyleGAN2模型的合成网络连接构成渐进式生成对抗网络；S3：将所述文本信息输入到所述渐进式生成对抗网络中，得到与所述文本信息对应的潜在编码W；S4：将所述潜在编码W输入到所述StyleGAN2模型的生成器中，生成人脸。2.如权利要求1所述的方法，其特征在于，所述步骤S1通过特征提取网络、声学模型、语言模型、字典及解码来实现。3.如权利要求2所述的方法，其特征在于，将语音信号投入到特征提取网络进行特征提取前，先对语音信号进行预处理，预处理包括滤波和分帧。4.如权利要求1所述的方法，其特征在于，所述潜在编码W为一个(18，512)维度的向量，所述潜在编码W通过StyleGAN2模型的生成器建立了从(18，512)维向量到(1024，1024，3)维向量的映射关系。5.如权利要求1所述的方法，其特征在于，所述StyleGAN2模型为通过10000张具有亚洲风格的人脸数据集进行训练得到的。6.如权利要求1所述的方法，其特征在于，所述步骤S2中，对StyleGAN2模型的生成器进行反转得到图像编码器，包括：引入一个的图像编码器E
v
，通过图像编码器E
v
对真实图像x再进行编码，使真实图像x映射到Z
s
附近，表示为：其中，Z
s
表示s空间里的向量Z；G(.)表示StyleGAN2模型的生成器；G(Z
...

【专利技术属性】
技术研发人员：李沛霖，吴卓骏，夏思宇，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人