【技术实现步骤摘要】
唇形驱动模型的生成方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等
,可应用于元宇宙、虚拟数字人等场景,具体涉及一种唇形驱动模型的生成方法、装置、电子设备及存储介质。
技术介绍
[0002]随着人工智能(Artificial Intelligence,AI)和大数据技术的蓬勃发展,AI已经渗透到生活的方方面面,而虚拟对象技术是AI技术中一个比较重要的子领域,其可以通过AI技术如深度学习技术构建一个虚拟对象,同时驱动这个虚拟对象的脸部表情,以模拟人的说话。
[0003]脸部表情驱动的主要应用在于通过语音来实现虚拟对象的唇形驱动,以达到语音与唇形同步的目的。因此,如何实现不同类型的语音对虚拟对象进行准确的唇形驱动,成为重点的研究方向。
技术实现思路
[0004]本公开提供了一种唇形驱动模型的生成方法、装置、电子设备及存储介质。
[0005]根据本公开的第一方面,提供了一种唇形驱动模型的生成方法,包括:
[0006]获取训练数据集,其中,所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像;
[0007]将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;
[0008]根据所述唇形图像与所述样本脸部图像之间的差异,确定第一损失;
[0009]将所述音频数据及所述唇形图像分别输入 ...
【技术保护点】
【技术特征摘要】
1.一种唇形驱动模型的生成方法,包括:获取训练数据集,其中,所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像;将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;根据所述唇形图像与所述样本脸部图像之间的差异,确定第一损失;将所述音频数据及所述唇形图像分别输入多个同步网络中,以获取每个所述同步网络输出的第二损失,其中,各个所述同步网络分别为基于不同类型的语音训练生成的;根据所述第一损失及所述多个第二损失中的最小值,对所述初始唇形驱动模型进行修正,以获取唇形驱动模型。2.根据权利要求1所述的方法,其中,所述将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图像,包括:将所述音频数据输入所述初始唇形驱动模型中的音频编码器,以获取音频特征;将所述遮罩图像及所述参考脸部图像输入所述初始唇形驱动模型中的图像编码器,以获取所述遮罩图像对应的第一图像特征,及所述参考样本图像对应的第二图像特征;将所述音频特征、所述第一图像特征及所述第二图像特征输入所述初始唇形驱动模型中的生成网络,以获取所述唇形图像。3.根据权利要求2所述的方法,其中,所述根据所述唇形图像与所述样本脸部图像之间的差异,确定第一损失,包括:基于均绝对误差公式,确定所述唇形图像与所述样本脸部图像之间的人脸重建损失;将所述唇形图像及所述样本脸部图像输入卷积神经网络VGG,以获取所述唇形图像与所述样本脸部图像之间的内容感知损失;将所述唇形图像及所述样本脸部图像输入对抗网络,以获取所述唇形图像与所述样本脸部图像之间的对抗损失;将所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合,以确定所述第一损失。4.根据权利要求3所述的方法,其中,所述将所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合,以确定所述第一损失,包括:获取所述人脸重建损失对应的第一权重,所述内容感知损失对应的第二权重,及所述对抗损失对应的第三权重;基于所述第一权重、所述第二权重及所述第三权重,对所述人脸重建损失、所述内容感知损失及所述对抗损失进行融合,以获取所述第一损失。5.根据权利要求4所述的方法,其中,所述根据所述第一损失及所述多个第二损失中的最小值,对所述初始唇形驱动模型进行修正,以获取唇形驱动模型,包括:获取所述多个第二损失中的最小值对应的第四权重;基于所述第四权重,将所述第二损失中的最小值与所述第一损失进行融合,以获取目标损失;基于所述目标损失,对所述初始唇形驱动模型中的所述音频编码器、所述图像编码器及所述生成网络进行修正,以获取所述唇形驱动模型。
6.一种唇形驱动方法,包括:获取待驱动脸部图像数据、所述待驱动脸部图像数据对应的不包含唇部区域的遮罩图像数据及目标语音数据;将所述待驱动脸部图像数据、所述遮罩图像数据和所述目标语音数据,输入唇形驱动模型,以获取在所述目标语音数据驱动下的目标唇形图像数据;其中,所述唇形驱动模型为基于权利要求1
‑
5中任一项所述的唇形驱动模型的生成方法得到的。7.根据权利要求6所述的方法,其中,所述将所述待驱动脸部图像数据,输入唇形驱动模型,以获取在所述目标语音数据驱动下的目标唇形图像数据,包括:将所述目标语音数据输入所述唇形驱动模型中的音频编码器,以获取所述目标语音数据中每帧语音数据对应的语音特征;将每帧语音数据对应的语音特征与前一帧语音数据对应的目标语音特征进行融合,以获取每帧语音数据对应的目标语音特征;将所述待驱动脸部图像数据及所述遮罩图像数据输入所述唇形驱动模型中的图像编码器,以获取所述待驱动脸部图像数据对应的第一目标图像特征,及所述遮罩图像数据对应的第二目标图像特征;将所述第一目标图像特征、所述第二目标图像特征及所述目标语音特征输入所述唇形驱动模型中的生成网络,以获取在所述目标语音数据驱动下的所述目标唇形图像数据。8.一种唇形驱动模型的生成装置,包括:第一获取模块,用于获取训练数据集,其中,所述训练数据集中包含音频数据、与所述音频数据对齐的样本脸部图像、所述样本脸部图像对应的不包含唇部区域的遮罩图像及参考脸部图像;第二获取模块,用于将所述音频数据、所述遮罩图像及所述参考脸部图像输入初始唇形驱动模型中,以获取唇形图...
【专利技术属性】
技术研发人员:张展望,胡天舒,颜剑锋,梁伯荣,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。