一种利用扩散模型的语音驱动人脸图像生成方法及系统技术方案

技术编号：39652416 阅读：11 留言：0更新日期：2023-12-09 11:20

本发明专利技术提供一种利用扩散模型的语音驱动人脸图像生成方法及系统，涉及

全部详细技术资料下载

【技术实现步骤摘要】
一种利用扩散模型的语音驱动人脸图像生成方法及系统

[0001]本专利技术涉及
AIGC

，尤其是涉及一种利用扩散模型的语音驱动人脸图像生成方法及系统
。

技术介绍

[0002]AI
生成内容，即
AIGC
，是当前最为热门的话题之一
。AIGC
本质是利用
AI
来自动生成内容
。
而内容的形式可以表现为文字
、
图像
、
音频
、
视频等等
。
[0003]对于语音驱动人脸图像生成任务，深度学习是当前最为流行的方法
。
语音驱动人脸图像生成技术主要是采用深度模型来处理音频和图像特征以及一些附加的特征，比如
2D
的关键点特征或者
3D
的人脸重建相关特征，并生成相应的人脸图像
。
而根据使用的模型架构，语音驱动人脸图像生成技术主要可以分为两类：一类是采用对抗生成网络
GANs
；另一类是采用神经辐射场
Nerf。
但上述两类模型，在人脸图像生成的质量上都有所欠缺
。
[0004]语音驱动人脸生成技术，涉及到多模态数据，与
AIGC
中的图像生成领域十分相关，如何利用
AIGC
技术实现语音驱动人脸图像生成是一个非常重要的问题
。

技术实现思路

[0005]针对上述问题，本专利技术提供了...

【技术保护点】

【技术特征摘要】
1.
一种利用扩散模型的语音驱动人脸图像生成方法，其特征在于，包括：输入驱动音频和部分人脸图像；对所述驱动音频和所述部分人脸图像分别进行特征提取，得到音频特征和图像特征；将所述音频特征和所述图像特征输入到扩散模型，生成完整图像特征；将所述扩散模型生成的所述完整图像特征输入解码器，得到完整人脸图像
。2.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述部分人脸图像为掩码掉下半脸的人脸图像，包含人脸的姿态信息
。3.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：采用不同的神经网络对输入的所述部分人脸图像和所述驱动音频进行特征提取
。4.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：采用预训练好的自编码器的编码部分对所述部分人脸图像进行特征提取，得到所述图像特征
。5.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：采用预训练好的第一网络对所述驱动音频进行特征提取，得到所述音频特征；并采用包括卷积
、
跳层连接结构的第二网络对所述音频特征进一步映射，得到映射后的所述音频特征
。6.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述扩散模型采用
UNet
结构的深度网络模型；所述图像特征输入所述扩散模型的第一层，映射后的所述音频特征融合到所述扩散模型的每一层中
。7.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法，其特征在于：所述驱动音频的长度大于一帧图像的音频长度
。8.
根据权...

【专利技术属性】
技术研发人员：虞钉钉，徐清，王晓梅，沈伟林，沈旭立，曹培，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人