人脸图像生成方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号：40065453 阅读：8 留言：0更新日期：2024-01-16 23:21

一种人脸图像生成方法及装置、计算机可读存储介质、终端，方法包括：确定人脸图像生成模型，包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型；将驱动音频输入音频编码子模型，得到音频编码特征，以及将下半部分被遮挡的人脸图像输入图像编码子模型，得到人脸图像编码特征；将音频编码特征输入音频映射子模型，得到权重向量；采用权重向量，对预设的多个记忆口型编码特征进行加权运算，得到融合口型特征，其中，多个记忆口型编码特征对应于不同类型的口型；将音频编码特征、人脸图像编码特征以及融合口型特征，输入解码子模型，得到人脸生成图像。上述方案有助于提高人脸生成图像与驱动音频的口型匹配度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人生成，尤其涉及一种人脸图像生成方法及装置、计算机可读存储介质、终端。

技术介绍

1、随着人工智能技术的发展，生成式人工智能(artificial intelligencegenerated content，aigc)已经成为当前最热门的研究课题。aigc技术在数字说话人生成领域也具有广泛的应用。数字说话人生成任务，其本质是输入音频和人物图像，然后依次生成和音频内容相对应的人脸图像。如何提高人脸生成图像与输入音频的口型匹配度，仍然具有重要的研究价值。

2、当前，对于该任务的主流技术基本都会采用深度模型。具体而言，可以分为两大类：二阶段方法和单阶段方法。二阶段方法通过引入中间特征，将生成任务分为两个子任务，并用两个深度模型分别完成相应的子任务。常见的中间特征包括关键点、三维重建系数等等。单阶段方法则对输入音频和输入人脸图像分别进行编码得到的音频编码特征和人脸图像编码特征；然后直接基于音频编码特征和人脸图像编码特征进行解码得到人脸生成图像。

3、然而，无论采用上述现有技术的何种方法，获得的人脸生成图像与输入音频的口型匹配度仍不够高，并且可能出现一些非自然的口型。

技术实现思路

1、本专利技术实施例解决的技术问题是如何提高人脸生成图像与输入音频的口型匹配度，改进人脸生成图像的效果。

2、为解决上述技术问题，本专利技术实施例提供一种人脸图像生成方法，包括以下步骤：确定人脸图像生成模型，所述人脸图像生成模型包括图像编码子模型、音频编码子模

3、可选的，在采用所述权重向量，对预设的多个记忆口型编码特征进行加权运算，得到融合口型特征之前，所述方法还包括：获取多张样本人脸图像，所述多张样本人脸图像具有不同的预设类型的口型；对所述多张样本人脸图像的下半部分分别进行图像编码，得到对应的多个样本口型编码特征；对所述多个样本口型编码特征进行聚类，将作为聚类的中心的各个样本口型编码特征，确定为所述多个记忆口型编码特征。

4、可选的，对每张所述样本人脸图像的下半部分进行图像编码，包括：确定编解码模型，所述编解码模型包含样本图像编码子模型和样本图像解码子模型；采用所述多张样本人脸图像，对所述编解码模型进行训练，得到训练后的样本图像编码子模型和训练后的样本图像解码子模型；将所述多张样本人脸图像的下半部分，输入所述训练后的样本图像编码子模型进行图像编码。

5、可选的，满足以下一项或多项：所述多张样本人脸图像选自：用于训练得到所述人脸图像生成模型的人脸图像训练数据集；所述编解码模型包含的样本图像编码子模型与所述人脸图像生成模型包含的图像编码子模型的模型架构一致；以及，所述编解码模型包含的样本图像解码子模型的模型架构与所述人脸图像生成模型包含的解码子模型架构一致。

6、可选的，所述确定人脸图像生成模型，包括：构建待训练模型，所述待训练模型包括：待训练图像编码子模型、待训练音频编码子模型、待训练音频映射子模型以及待训练解码子模型；确定训练数据集，所述训练数据集包括多张下半部分被遮挡的人脸训练图像以及多帧训练音频；采用目标损失函数，将所述训练数据集输入所述待训练模型进行迭代训练，得到所述人脸图像生成模型；

7、其中，每轮迭代操作包括：将所述人脸训练图像输入所述待训练图像编码子模型，得到样本人脸图像编码特征，以及将所述训练音频输入所述待训练音频编码子模型，得到样本音频编码特征；所述样本音频编码特征输入所述待训练音频映射子模型，得到样本权重向量；采用所述样本权重向量，对所述多个记忆口型编码特征进行加权运算，融合样本口型编码特征；将所述样本音频编码特征、样本人脸图像编码特征以及所述融合样本口型编码特征，输入所述待训练解码子模型，得到当前轮迭代后的样本人脸生成图像。

8、可选的，所述目标损失函数是对l1损失函数、生成对抗网络gan损失函数以及感知损失函数中的至少两项进行加权运算得到的。

9、可选的，所述权重向量满足以下一项或多项：所述权重向量中的多个权重值之和为1；所述权重向量中的多个权重与所述多个记忆口型编码特征一一对应。

10、可选的，输入所述音频编码子模型的驱动音频的时长，与输入所述图像编码子模型的人脸图像的时长的比值大于等于5。

11、本专利技术实施例还提供一种人脸图像生成装置，包括：确定人脸图像生成模型，所述人脸图像生成模型包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型；将驱动音频输入所述音频编码子模型，得到音频编码特征，以及将下半部分被遮挡的人脸图像输入所述图像编码子模型，得到人脸图像编码特征；将所述音频编码特征输入所述音频映射子模型，得到权重向量；采用所述权重向量，对预设的多个记忆口型编码特征进行加权运算，得到融合口型特征；将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征，输入所述解码子模型，得到人脸生成图像。

12、本专利技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述人脸图像生成方法的步骤。

13、本专利技术实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述人脸图像生成方法的步骤。

14、与现有技术相比，本专利技术实施例的技术方案具有以下有益效果：

15、在本专利技术实施例中，考虑到大多数输入音频对应的口型与人类说话时的常见类型的口型的一种或多种的相关性较高，基于此原理，通过引入对应于不同类型的口型的多个记忆口型编码特征，获得最终的人脸生成图像。具体而言：将所述音频编码特征映射为权重向量，由于所述权重向量中的各个权重值可以准确表征驱动音频与记忆口型编码特征(对应于不同类型的真实口型)之间的相关性程度；然后通过加权融合，获得融合了多种不同的真实口型的融合口型特征。在后续解码操作中，除音频编码特征、人脸图像编码特征之外，还将所述融合口型特征作为解码输入数据之一。由此，在所述融合口型特征的作用下，可以生成口型和所述驱动音频准确匹配的人脸生成图像，即，所述人脸生成图像具有和所述驱动音频准确匹配的嘴部动态。进一步，通过加权融合处理还有助于获得更加标准、自然的口型。

16、进一步，由于所述融合口型特征是对所述多个记忆口型编码特征进行加权运算获得，因此，所述记忆口型编码特征的精度可以直接决定获得的融合口型特征的精度，进而影响人脸生成图像的质量。基于此，在本专利技术实施例中本文档来自技高网...

【技术保护点】

1.一种人脸图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在采用所述权重向量，对预设的多个记忆口型编码特征进行加权运算，得到融合口型特征之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，对每张所述样本人脸图像的下半部分进行图像编码，包括：

4.根据权利要求3所述的方法，其特征在于，满足以下一项或多项：

5.根据权利要求1所述的方法，其特征在于，所述确定人脸图像生成模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述目标损失函数是对L1损失函数、生成对抗网络GAN损失函数以及感知损失函数中的至少两项进行加权运算得到的。

7.根据权利要求1所述的方法，其特征在于，所述权重向量满足以下一项或多项：

8.根据权利要求1所述的方法，其特征在于，输入所述音频编码子模型的驱动音频的时长，与输入所述图像编码子模型的人脸图像的时长的比值大于等于5。

9.一种人脸图像生成装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算

11.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至8任一项所述人脸图像生成方法的步骤。

...

【技术特征摘要】

1.一种人脸图像生成方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，对每张所述样本人脸图像的下半部分进行图像编码，包括：

4.根据权利要求3所述的方法，其特征在于，满足以下一项或多项：

5.根据权利要求1所述的方法，其特征在于，所述确定人脸图像生成模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述目标损失函数是对l1损失函数、生成对抗网络gan损失函数以及感知损失函数中的至少两项进行加权运算得到的。

<...

【专利技术属性】
技术研发人员：虞钉钉，徐清，宣晓华，王晓梅，沈伟林，沈旭立，曹培，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人