人脸图像生成方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号：41313651 阅读：3 留言：0更新日期：2024-05-13 14:56

一种人脸图像生成方法及装置、计算机可读存储介质、终端，所述方法包括：确定人脸图像生成模型，人脸图像生成模型包括音频内容特征提取子模型、音频情感特征提取子模型、扩散子模型；将驱动音频分别输入音频内容特征提取子模型和音频情感特征提取子模型进行特征提取，得到音频内容特征和音频情感特征；至少基于音频内容特征和音频情感特征进行拼接，得到音频融合特征；将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理，得到目标完整人脸特征；对目标完整人脸特征进行解码，得到完整人脸生成图像。上述方案有助于生成既能准确匹配驱动音频中的口型，又能精准表达驱动音频包含的情绪的人脸生成图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人生成，尤其涉及一种人脸图像生成方法及装置、计算机可读存储介质、终端。

技术介绍

1、随着人工智能技术的发展，生成式人工智能(artificial intelligencegenerated content，aigc)已经成为当前最热门的研究课题。aigc技术在数字说话人生成领域也具有广泛的应用。数字说话人生成任务，其本质是输入音频和人物图像，然后依次生成和音频内容相对应的人脸图像。如何利用aigc技术实现音频驱动生成既包含准确的口型又能精准表达音频中包含的情绪的人脸生成图像，具有重要的研究价值。

2、当前，音频驱动人脸图像生成任务的主流技术主要是采用深度模型来处理音频特征和图像特征。具体而言，通过对驱动音频和人脸图像分别进行编码得到音频编码特征和人脸图像编码特征；然后直接将音频编码特征和人脸图像编码特征输入至预训练的人脸图像生成模型，获得人脸生成图像。

3、然而，上述方案中，驱动人脸图像生成所采用的音频特征通常仅包含单一维度的特征信息(例如，包含内容或语义层面或维度的特征信息，而未包含情感或情绪维度的特征信息)，或者将音频表达的内容和情感混淆。这就导致阻碍了网络清晰地挖掘出音频与人脸生成图像表达的口型、情绪这两个维度的对应关系，从而使得生成的人脸图像或口型匹配度不高、或情绪表达(例如面部表情)不够准确。

技术实现思路

1、本专利技术实施例解决的技术问题是如何生成既能准确匹配驱动音频中的口型，又能精准表达驱动音频包含的情绪的人脸生成图像。</p>

2、为解决上述技术问题，本专利技术实施例提供一种人脸图像生成方法，包括以下步骤：确定人脸图像生成模型，所述人脸图像生成模型包括音频内容特征提取子模型、音频情感特征提取子模型、扩散子模型；将驱动音频输入所述音频内容特征提取子模型进行特征提取，得到音频内容特征，以及将所述驱动音频输入所述音频情感特征提取子模型进行特征提取，得到音频情感特征；至少基于所述音频内容特征和所述音频情感特征进行拼接，得到音频融合特征；将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理，得到目标完整人脸特征，其中，所述带噪声的参考人脸图像特征是对参考人脸图像的图像特征与噪声矩阵进行拼接得到的；对所述目标完整人脸特征进行解码，得到完整人脸生成图像。

3、可选的，所述人脸图像生成模型还包括关键点特征提取子模型；所述至少基于所述音频内容特征和所述音频情感特征进行拼接，包括：对所述音频内容特征、音频情感特征以及人脸关键点特征进行拼接；其中，所述人脸关键点特征是对下半部分被遮挡的人脸图像提取关键点后，将提取的关键点输入所述关键点特征提取子模型进行特征提取得到的。

4、可选的，在至少基于所述音频内容特征和所述音频情感特征进行拼接之前，所述方法还包括：确定时序位于所述驱动音频之前的第一数量个音频，以及时序位于所述驱动音频之后的第二数量个音频，分别记为第一音频和第二音频；将每个第一音频和第二音频输入所述音频内容特征提取子模型分别进行特征提取，得到对应的多个第一音频内容特征和多个第二音频内容特征；对所述多个第一音频内容特征、多个第二音频内容特征以及所述音频内容特征进行加权运算，得到融合音频内容特征；采用所述融合音频内容特征更新所述音频内容特征。

5、可选的，所述参考人脸图像包含来自同一说话者且具有相同情绪的完整人脸图像和下半部分被遮挡的人脸图像；在将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理之前，所述方法还包括：对所述下半部分被遮挡的人脸图像和所述完整人脸图像分别进行特征提取，得到部分人脸图像特征和完整人脸图像特征；对所述部分人脸图像特征、完整人脸图像特征以及所述噪声矩阵进行拼接，得到所述带噪声的参考人脸图像特征。

6、可选的，所述扩散子模型采用包含多层网络的u-net模型；将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理，得到目标完整人脸特征，包括：将所述带噪声的参考人脸图像特征输入所述扩散子模型的第一层网络，以及将所述音频融合特征输入所述扩散子模型的每一层网络，并将所述扩散子模型的最后一层网络的输出结果作为所述目标完整人脸特征；其中，自所述扩散子模型的第二层网络起，每一层网络的输入数据是上一层网络的输出数据和所述音频融合特征。

7、可选的，所述音频情感特征提取子模型包括：预训练的情感分类网络和情感特征提取网络；将驱动音频输入所述音频内容特征提取子模型进行特征提取，得到音频内容特征，包括：将所述驱动音频输入所述预训练的情感分类网络，得到预测情感类型标签；对所述预测情感类型标签进行编码，得到音频情感编码向量；将所述音频情感编码向量输入所述情感特征提取网络进行特征提取，得到所述音频情感特征。

8、可选的，对所述预测情感类型标签进行编码，得到音频情感编码向量，包括：基于预设的情绪编码长度，对所述预测情感类型标签进行预编码，得到多组情绪子编码，每组情绪子编码中包含两个相同的情绪子编码；对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码，并基于所得到的多个情绪编码，确定所述音频情感编码向量。

9、可选的，所述预训练的情感分类网络是基于第一损失函数，将多个第一样本音频及其情感类型标签构建的第一训练数据集输入初始化情感分类网络进行训练得到的；所述第一损失函数采用下述表达式表示：

10、

11、其中，lec表示所述第一损失函数的函数值，i表示所述第一样本音频的序号，n表示所述第一样本音频的总数量，yi表示第i个第一样本音频的真实情感类型标签，表示对第i个第一样本音频预测得到的情感类型标签，ln()表示以常数e为底数的对数。

12、可选的，所述确定人脸图像生成模型，包括：构建待训练人脸图像生成模型，所述待训练人脸图像生成模型包括：待训练音频内容特征提取子模型、待训练音频情感特征提取子模型、待训练扩散子模型；采用多张参考样本人脸图像、多个第二样本音频以及样本噪声矩阵，构建第二训练数据集，其中，参考样本人脸图像与第二样本音频在时序上一一对齐；基于第二损失函数，将所述第二训练数据集输入所述待训练人脸图像生成模型进行迭代训练，得到所述人脸图像生成模型。

13、可选的，所述第二损失函数采用下述表达式表示：

14、

15、其中，l′表示所述第二损失函数的函数值，t表示所述待训练扩散子模型中网络的层次序号，m()表示所述待训练扩散子模型第t层网络输出的预测噪声矩阵，∈表示样本噪声矩阵，表示∈服从正态分布，zt表示所述待训练扩散子模型第t层网络的输入数据的其中之一项，即，所述待训练扩散子模型第t-1层网络的输出数据，c为所述待训练扩散子模型的第t层网络的输入数据的其中之另一项，且c是至少基于样本音频内容特征和样本音频情感特征进行拼接得到的样本音频融合特征；‖∈-m(zt,t,c)‖表示所述样本噪声矩阵与所述待训本文档来自技高网...

【技术保护点】

1.一种人脸图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述人脸图像生成模型还包括关键点特征提取子模型；

3.根据权利要求1或2所述的方法，其特征在于，在至少基于所述音频内容特征和所述音频情感特征进行拼接之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述参考人脸图像包含来自同一说话者且具有相同情绪的完整人脸图像和下半部分被遮挡的人脸图像；在将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理之前，所述方法还包括：

5.根据权利要求1或4所述的方法，其特征在于，所述扩散子模型采用包含多层网络的U-Net模型；

6.根据权利要求1所述的方法，其特征在于，所述音频情感特征提取子模型包括：预训练的情感分类网络和情感特征提取网络；

7.根据权利要求6所述的方法，其特征在于，对所述预测情感类型标签进行编码，得到音频情感编码向量，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述预训练的情感分类网络是基于第一损失函数，将多个第一样

9.根据权利要求1所述的方法，其特征在于，所述确定人脸图像生成模型，包括：

10.根据权利要求9所述的方法，其特征在于，所述第二损失函数采用下述表达式表示：

11.一种人脸图像生成装置，其特征在于，包括：

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至10任一项所述人脸图像生成方法的步骤。

13.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至10任一项所述人脸图像生成方法的步骤。

...

【技术特征摘要】

1.一种人脸图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述人脸图像生成模型还包括关键点特征提取子模型；

3.根据权利要求1或2所述的方法，其特征在于，在至少基于所述音频内容特征和所述音频情感特征进行拼接之前，所述方法还包括：

5.根据权利要求1或4所述的方法，其特征在于，所述扩散子模型采用包含多层网络的u-net模型；

6.根据权利要求1所述的方法，其特征在于，所述音频情感特征提取子模型包括：预训练的情感分类网络和情感特征提取网络；

7.根据权利要求6所述的方法，其特征在于，对所述预测情感类型标...

【专利技术属性】
技术研发人员：王霄鹏，虞钉钉，胡贤良，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人