数字人生成模型的生成器训练方法、数字人生成方法及装置制造方法及图纸

技术编号：40221465 阅读：32 留言：0更新日期：2024-02-02 22:27

本发明专利技术公开了一种数字人生成模型的生成器训练方法、数字人生成方法及装置，该方法包括：将样本视频中的当前帧、参考帧以及与当前帧对应的语音输入数字人生成模型的生成器，生成语音驱动的人脸图像；采用预训练模型提取当前帧的人脸关键点特征，人脸关键点特征包括嘴唇的外圈关键点特征，将嘴唇的外圈关键点特征形成闭合的嘴唇掩膜，采用嘴唇掩膜分别与当前帧和语音驱动生成的人脸图像进行掩膜操作，并构建嘴部重构损失函数；计算L1重构损失函数、SSIM损失函数、对抗损失函数和嘴型同步损失函数，并结合嘴部重构损失函数构建得到总损失函数，基于总损失函数对数字人生成模型的生成器进行训练，使经训练的生成器生成的人脸图像的嘴唇和牙齿更加清晰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人，具体涉及一种数字人生成模型的生成器训练方法、数字人生成方法及装置。

技术介绍

1、现在的2d超写实数字人主要是通过语音驱动嘴型变化来实现，常用的方法是wav2lip，该方法在训练完模型后，可用于任意的人脸，即不需要针对特定人进行训练；另外，该方法的嘴型和语音匹配得很好。然而，使用该方法存在一个问题，就是牙齿和嘴唇的细节会比较模糊，这会影响到其实际应用的效果。所以需要进一步完善这个方法，使得生成的数字人更加真实和逼真。

2、目前在wav2lip的训练过程中，通常使用生成的整张人脸和当前帧比较，得到l1重构损失，并通过梯度下降方法来得到生成的人脸图像。一方面，由于牙齿和嘴唇在整个人脸图像中的比例占比很低，因此导致了牙齿和嘴唇模糊。另一方面，l1重构损失只关注每个像素的差异，无法捕捉到图像的结构、纹理等重要特征，这也是导致牙齿和嘴唇模糊的原因之一。

技术实现思路

1、针对上述提到的现有数字人生成模型的生成器所生成的人脸图像牙齿和嘴唇模糊的技术问题。本申请的实施例...

【技术保护点】

1.一种数字人生成模型的生成器训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数字人生成模型的生成器训练方法，其特征在于，所述根据所述第一图像和第二图像构建嘴部重构损失函数，具体包括：

3.根据权利要求2所述的数字人生成模型的生成器训练方法，其特征在于，所述计算所述语音驱动生成的人脸图像和所述当前帧之间的L1重构损失函数、SSIM损失函数、对抗损失函数和嘴型同步损失函数，具体包括：

4.根据权利要求3所述的数字人生成模型的生成器训练方法，其特征在于，所述总损失函数Ltotal如下式所示：

5.根据权利要求1所述的数字人生成模型...

【技术特征摘要】

1.一种数字人生成模型的生成器训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数字人生成模型的生成器训练方法，其特征在于，所述根据所述第一图像和第二图像构建嘴部重构损失函数，具体包括：

3.根据权利要求2所述的数字人生成模型的生成器训练方法，其特征在于，所述计算所述语音驱动生成的人脸图像和所述当前帧之间的l1重构损失函数、ssim损失函数、对抗损失函数和嘴型同步损失函数，具体包括：

4.根据权利要求3所述的数字人生成模型的生成器训练方法，其特征在于，所述总损失函数ltotal如下式所示：

5.根据权利要求1所述的数字人生成模型的生成器训练方法，其特征在于，所述...

【专利技术属性】
技术研发人员：叶志坚，肖龙源，李海洲，李稀敏，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人