唇形驱动模型的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37478164 阅读:10 留言:0更新日期:2023-05-07 09:19
本公开提供了一种唇形驱动模型的生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、虚拟数字人等场景。包括:将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;根据唇形图像与样本脸部图像之间的差异,确定第一损失;将音频数据及唇形图像分别输入多个基于不同类型的语音训练生成的同步网络中,以获取每个同步网络输出的第二损失,根据第一损失及多个第二损失中的最小值,对初始唇形驱动模型进行修正,以获取唇形驱动模型。由此,生成的唇形驱动模型可以在不同类型的语音场景下,拥有较高的准确性。拥有较高的准确性。拥有较高的准确性。

【技术实现步骤摘要】
唇形驱动模型的生成方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等
,可应用于元宇宙、虚拟数字人等场景,具体涉及一种唇形驱动模型的生成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能(Artificial Intelligence,AI)和大数据技术的蓬勃发展,AI已经渗透到生活的方方面面,而虚拟对象技术是AI技术中一个比较重要的子领域,其可以通过AI技术如深度学习技术构建一个虚拟对象,同时驱动这个虚拟对象的脸部表情,以模拟人的说话。
[0003]脸部表情驱动的主要应用在于通过语音来实现虚拟对象的唇形驱动,以达到语音与唇形同步的目的。因此,如何实现不同类型的语音对虚拟对象进行准确的唇形驱动,成为重点的研究方向。

技术实现思路

[0004]本公开提供了一种唇形驱动模型的生成方法、装置、电子设备及存储介质。
[0005]根据本公开的第一方面,提供了一种唇形驱动模型的生成方法,包括:
[0006]获取训练数据集,其中,所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像;
[0007]将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;
[0008]根据所述唇形图像与所述样本脸部图像之间的差异,确定第一损失;
[0009]将所述音频数据及所述唇形图像分别输入多个同步网络中,以获取每个所述同步网络输出的第二损失,其中,各个所述同步网络分别为基于不同类型的语音训练生成的;
[0010]根据所述第一损失及所述多个第二损失中的最小值,对所述初始唇形驱动模型进行修正,以获取唇形驱动模型。
[0011]根据本公开的第二方面,提供了一种唇形驱动方法,包括:
[0012]获取待驱动脸部图像数据、所述待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据;
[0013]将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据,输入唇形驱动模型,以获取在所述目标语音数据驱动下的目标唇形图像数据;其中,所述唇形驱动模型为基于本公开第一方面提供的唇形驱动模型的生成方法得到的。
[0014]根据本公开的第三方面,提供了一种唇形驱动模型的生成装置,包括:
[0015]第一获取模块,用于获取训练数据集,其中,所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像;
[0016]第二获取模块,用于将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;
[0017]确定模块,用于根据所述唇形图像与所述样本脸部图像之间的差异,确定第一损失;
[0018]第三获取模块,用于将所述音频数据及所述唇形图像分别输入多个同步网络中,以获取每个所述同步网络输出的第二损失,其中,各个所述同步网络分别为基于不同类型的语音训练生成的;
[0019]第四获取模块,用于根据所述第一损失及所述多个第二损失中的最小值,对所述初始唇形驱动模型进行修正,以获取唇形驱动模型。
[0020]根据本公开的第四方面,提供了一种唇形驱动装置,包括:
[0021]第一获取模块,用于获取待驱动脸部图像数据、所述待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据;
[0022]第二获取模块,用于将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据,输入唇形驱动模型,以获取在所述目标语音数据驱动下的目标唇形图像数据;其中,所述唇形驱动模型为本公开第一方面提供的唇形驱动模型的生成装置得到的。
[0023]根据本公开的第五方面,提供了一种电子设备,包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的唇形驱动模型的生成方法,或者执行如第二方面所述的唇形驱动方法。
[0027]根据本公开第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面所述的唇形驱动模型的生成方法,或者执行如第二方面所述的唇形驱动方法。
[0028]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机指令,计算机指令在被处理器执行时实现如第一方面的唇形驱动模型的生成方法的步骤,或者执行如第二方面的唇形驱动方法的步骤。
[0029]本公开提供的唇形驱动模型的生成方法、装置、电子设备及存储介质,存在如下
[0030]有益效果:
[0031]本公开实施例中,首先将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中,以获取唇形图像,之后根据唇形图像与样本脸部图像之间的差异,确定第一损失,并将音频数据及唇形图像分别输入多个同步网络中,以获取每个同步网络输出的第二损失,其中,各个同步网络分别为基于不同类型的语音训练生成的;最后根据第一损失及多个第二损失中的最小值,对初始唇形驱动模型进行修正,以获取唇形驱动模型。由此,从多个不同类型的语音训练生成的同步网络中,选择最佳的同步网络生成的第二损失对唇形驱动网络进行监督训练,从而可以使生成的唇形驱动模型在不同类型的语音场景下,拥有较高的准确性。
[0032]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0033]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0034]图1是根据本公开一实施例提供的一种唇形驱动模型的生成方法的流程示意图;
[0035]图2是根据本公开又一实施例提供的一种唇形驱动模型的生成方法的流程示意图;
[0036]图3是根据本公开又一实施例提供的一种唇形驱动模型的生成方法的流程示意图;
[0037]图4是根据本公开又一实施例提供的一种唇形驱动方法的流程示意图;
[0038]图5是根据本公开又一实施例提供的一种唇形驱动方法的流程示意图;
[0039]图6是根据本公开一实施例提供的一种唇形驱动模型的生成装置的结构示意图;
[0040]图7是根据本公开又一实施例提供的一种唇形驱动装置的结构示意图;
[0041]图8是用来实现本公开实施例的唇形驱动模型的生成方法的电子设备的框图。
具体实施方式
[0042]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唇形驱动模型的生成方法,包括:获取训练数据集,其中,所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像;将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;根据所述唇形图像与所述样本脸部图像之间的差异,确定第一损失;将所述音频数据及所述唇形图像分别输入多个同步网络中,以获取每个所述同步网络输出的第二损失,其中,各个所述同步网络分别为基于不同类型的语音训练生成的;根据所述第一损失及所述多个第二损失中的最小值,对所述初始唇形驱动模型进行修正,以获取唇形驱动模型。2.根据权利要求1所述的方法,其中,所述将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图像,包括:将所述音频数据输入所述初始唇形驱动模型中的音频编码器,以获取音频特征;将所述遮罩图像及所述参考脸部图像输入所述初始唇形驱动模型中的图像编码器,以获取所述遮罩图像对应的第一图像特征,及所述参考样本图像对应的第二图像特征;将所述音频特征、所述第一图像特征及所述第二图像特征输入所述初始唇形驱动模型中的生成网络,以获取所述唇形图像。3.根据权利要求2所述的方法,其中,所述根据所述唇形图像与所述样本脸部图像之间的差异,确定第一损失,包括:基于均绝对误差公式,确定所述唇形图像与所述样本脸部图像之间的人脸重建损失;将所述唇形图像及所述样本脸部图像输入卷积神经网络VGG,以获取所述唇形图像与所述样本脸部图像之间的内容感知损失;将所述唇形图像及所述样本脸部图像输入对抗网络,以获取所述唇形图像与所述样本脸部图像之间的对抗损失;将所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合,以确定所述第一损失。4.根据权利要求3所述的方法,其中,所述将所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合,以确定所述第一损失,包括:获取所述人脸重建损失对应的第一权重,所述内容感知损失对应的第二权重,及所述对抗损失对应的第三权重;基于所述第一权重、所述第二权重及所述第三权重,对所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合,以获取所述第一损失。5.根据权利要求4所述的方法,其中,所述根据所述第一损失及所述多个第二损失中的最小值,对所述初始唇形驱动模型进行修正,以获取唇形驱动模型,包括:获取所述多个第二损失中的最小值对应的第四权重;基于所述第四权重,将所述第二损失中的最小值与所述第一损失进行融合,以获取目标损失;基于所述目标损失,对所述初始唇形驱动模型中的所述音频编码器、所述图像编码器及所述生成网络进行修正,以获取所述唇形驱动模型。
6.一种唇形驱动方法,包括:获取待驱动脸部图像数据、所述待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据;将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据,输入唇形驱动模型,以获取在所述目标语音数据驱动下的目标唇形图像数据;其中,所述唇形驱动模型为基于权利要求1

5中任一项所述的唇形驱动模型的生成方法得到的。7.根据权利要求6所述的方法,其中,所述将所述待驱动脸部图像数据,输入唇形驱动模型,以获取在所述目标语音数据驱动下的目标唇形图像数据,包括:将所述目标语音数据输入所述唇形驱动模型中的音频编码器,以获取所述目标语音数据中每帧语音数据对应的语音特征;将每帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合,以获取每帧语音数据对应的目标语音特征;将所述待驱动脸部图像数据及所述遮罩图像数据输入所述唇形驱动模型中的图像编码器,以获取所述待驱动脸部图像数据对应的第一目标图像特征,及所述遮罩图像数据对应的第二目标图像特征;将所述第一目标图像特征、所述第二目标图像特征及所述目标语音特征输入所述唇形驱动模型中的生成网络,以获取在所述目标语音数据驱动下的所述目标唇形图像数据。8.一种唇形驱动模型的生成装置,包括:第一获取模块,用于获取训练数据集,其中,所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像;第二获取模块,用于将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图...

【专利技术属性】
技术研发人员:张展望胡天舒颜剑锋梁伯荣
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1