一种利用扩散模型的语音驱动人脸图像生成方法及系统技术方案

技术编号:39652416 阅读:11 留言:0更新日期:2023-12-09 11:20
本发明专利技术提供一种利用扩散模型的语音驱动人脸图像生成方法及系统,涉及

【技术实现步骤摘要】
一种利用扩散模型的语音驱动人脸图像生成方法及系统


[0001]本专利技术涉及
AIGC

,尤其是涉及一种利用扩散模型的语音驱动人脸图像生成方法及系统


技术介绍

[0002]AI
生成内容,即
AIGC
,是当前最为热门的话题之一
。AIGC
本质是利用
AI
来自动生成内容

而内容的形式可以表现为文字

图像

音频

视频等等

[0003]对于语音驱动人脸图像生成任务,深度学习是当前最为流行的方法

语音驱动人脸图像生成技术主要是采用深度模型来处理音频和图像特征以及一些附加的特征,比如
2D
的关键点特征或者
3D
的人脸重建相关特征,并生成相应的人脸图像

而根据使用的模型架构,语音驱动人脸图像生成技术主要可以分为两类:一类是采用对抗生成网络
GANs
;另一类是采用神经辐射场
Nerf。
但上述两类模型,在人脸图像生成的质量上都有所欠缺

[0004]语音驱动人脸生成技术,涉及到多模态数据,与
AIGC
中的图像生成领域十分相关,如何利用
AIGC
技术实现语音驱动人脸图像生成是一个非常重要的问题


技术实现思路

[0005]针对上述问题,本专利技术提供了一种利用扩散模型的语音驱动人脸图像生成方法及系统,采用扩散模型,通过充分利用扩散模型的生成能力,准确生成和音频相对应的高质量人脸图像

[0006]为实现上述目的,本专利技术提供了一种利用扩散模型的语音驱动人脸图像生成方法,包括:
[0007]输入驱动音频和部分人脸图像;
[0008]对所述驱动音频和所述部分人脸图像分别进行特征提取,得到音频特征和图像特征;
[0009]将所述音频特征和所述图像特征输入到扩散模型,生成完整图像特征;
[0010]将所述扩散模型生成的所述完整图像特征输入解码器,得到完整人脸图像

[0011]作为本专利技术的进一步改进,所述部分人脸图像为掩码掉下半脸的人脸图像,包含人脸的姿态信息

[0012]作为本专利技术的进一步改进,采用不同的神经网络对输入的所述部分人脸图像和所述驱动音频进行特征提取

[0013]作为本专利技术的进一步改进,采用预训练好的自编码器的编码部分对所述部分人脸图像进行特征提取,得到所述图像特征

[0014]作为本专利技术的进一步改进,采用预训练好的第一网络对所述驱动音频进行特征提取,得到所述音频特征;并采用包括卷积

跳层连接结构的第二网络对所述音频特征进一步映射,得到映射后的所述音频特征

[0015]作为本专利技术的进一步改进,所述扩散模型采用
UNet
结构的深度网络模型;
[0016]所述图像特征输入所述扩散模型的第一层,映射后的所述音频特征融合到所述扩散模型的每一层中

[0017]作为本专利技术的进一步改进,所述驱动音频的长度大于一帧图像的音频长度

[0018]作为本专利技术的进一步改进,所述解码器为预训练好的自编码器的解码部分

[0019]作为本专利技术的进一步改进,所述编码器和所述解码器构成完整的自编码器模型,其损失函数为:
[0020]L
AE

L
rec
(x,S(x))+L
dis
(S(x))+L
dis
(S(x))
[0021]其中,
[0022]L
rec
(x,S(x))
表示回归损失,衡量输入的部分人脸图像和输出的所述完整人脸图像的区别;
[0023]L
dis
(S(x))
表示对自编码以后的所述完整人脸图像的判别损失;
[0024]L
dis
(S(x))
表示对自编码器模型
S
的正则化损失

[0025]本专利技术还提供了一种用扩散模型的语音驱动人脸图像生成系统,包括:输入模块

特征提取模块

特征融合模块和解码输出模块;
[0026]所述输入模块,用于:
[0027]输入驱动音频和部分人脸图像;
[0028]所述特征提取模块,用于:
[0029]对所述驱动音频和所述部分人脸图像分别进行特征提取,得到音频特征和图像特征;
[0030]所述特征融合模块,用于:
[0031]将所述音频特征和所述图像特征输入到扩散模型,生成完整图像特征;
[0032]所述解码输出模块,用于:
[0033]将所述扩散模型生成的所述完整图像特征输入解码器,得到完整人脸图像

[0034]与现有技术相比,本专利技术的有益效果为:
[0035]本专利技术通过对部分图像的图像特征提取

驱动音频特征提取

图像特征和音频特征融合及扩散,得到与音频口型相一致的完整人脸图像输出,实现了人脸图像与音频的结合,能够准确生成和音频相对应的高质量人脸图像

[0036]本专利技术通过通过掩码掉下半张脸的人脸图像作为基础,使用其人脸姿态信息,对于完整人脸图像的生成具有意义及作用

[0037]本专利技术输入超过一帧图像音频长度几倍甚至几十倍的驱动音频,在当前人脸图像的生成过程中,可以更好的结合前后信息,使最终生成的人脸图像与前后剧情更加贴合,与前后人脸图像结合后更加平滑

附图说明
[0038]图1为本专利技术一种实施例公开的利用扩散模型的语音驱动人脸图像生成方法流程图;
[0039]图2为本专利技术一种实施例公开的利用扩散模型的语音驱动人脸图像生成系统示意图;
[0040]图3为本专利技术一种实施例公开的完整模型示意图;
[0041]图4为本专利技术一种实施例公开的图像特征和音频特征融合到扩散模型的示意图

具体实施方式
[0042]为使本专利技术实施例的目的

技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0043]下面结合附图对本专利技术做进一步的详细描述:
[0044]如图
1、3
所示,本专利技术提供的一种利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种利用扩散模型的语音驱动人脸图像生成方法,其特征在于,包括:输入驱动音频和部分人脸图像;对所述驱动音频和所述部分人脸图像分别进行特征提取,得到音频特征和图像特征;将所述音频特征和所述图像特征输入到扩散模型,生成完整图像特征;将所述扩散模型生成的所述完整图像特征输入解码器,得到完整人脸图像
。2.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述部分人脸图像为掩码掉下半脸的人脸图像,包含人脸的姿态信息
。3.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:采用不同的神经网络对输入的所述部分人脸图像和所述驱动音频进行特征提取
。4.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:采用预训练好的自编码器的编码部分对所述部分人脸图像进行特征提取,得到所述图像特征
。5.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:采用预训练好的第一网络对所述驱动音频进行特征提取,得到所述音频特征;并采用包括卷积

跳层连接结构的第二网络对所述音频特征进一步映射,得到映射后的所述音频特征
。6.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述扩散模型采用
UNet
结构的深度网络模型;所述图像特征输入所述扩散模型的第一层,映射后的所述音频特征融合到所述扩散模型的每一层中
。7.
根据权利要求1所述的利用扩散模型的语音驱动人脸图像生成方法,其特征在于:所述驱动音频的长度大于一帧图像的音频长度
。8.
根据权...

【专利技术属性】
技术研发人员:虞钉钉徐清王晓梅沈伟林沈旭立曹培
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1