基于多模态的人脸图像生成方法、模型的训练方法及设备技术

技术编号：38896246 阅读：25 留言：0更新日期：2023-09-22 14:17

本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备，涉及人工智能领域，尤其涉及图像领域。具体实现方案为：获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；确定所述模态数据对应的口型特征；其中，口型特征用于表示口型在人脸图像上的大小信息和形状信息；根据模态数据对应的口型特征，对预设的人脸图像进行处理，生成具有口型的人脸图像。生成具有口型的人脸图像。生成具有口型的人脸图像。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态的人脸图像生成方法、模型的训练方法及设备

[0001]本公开涉及人工智能领域中的图像领域，尤其涉及一种基于多模态的人脸图像生成方法、模型的训练方法及设备。

技术介绍

[0002]数字人的人脸图像的生成是元宇宙和智能客服等场景中的一项重要技术。数字人与用户进行交流时，可以在发出语音的同时，生成与语音匹配的具有口型的人脸图像。
[0003]若在人脸图像上不能跟随语音做出准确的口型变化，则会影响用户的使用体验。因此，如何提高人脸图像的生成精度，成为亟待解决的问题。

技术实现思路

[0004]本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备。
[0005]根据本公开的第一方面，提供了一种基于多模态的人脸图像生成方法，包括：获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的人脸图像生成方法，包括：获取待处理的数据集合和预设的人脸图像；其中，所述待处理的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的人脸图像为不具有口型的人脸图像；确定所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像。2.根据权利要求1所述的方法，其中，所述确定所述模态数据对应的口型特征，包括：确定所述模态数据对应的数据特征；其中，所述数据特征为文本特征、或者音频特征、或者口型图像特征；根据所述模态数据对应的数据特征，确定所述模态数据对应的口型特征。3.根据权利要求2所述的方法，其中，所述确定所述模态数据对应的数据特征，包括：根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征。4.根据权利要求3所述的方法，所述模态数据为文本数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：根据所述预设的特征提取模型中的文本编码器，对所述文本数据进行编码处理，得到所述文本数据的文本向量；根据所述预设的特征提取模型中的全连接层，对所述文本向量进行特征提取处理，得到所述文本数据对应的文本特征。5.根据权利要求3所述的方法，所述模态数据为音频数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：根据所述预设的特征提取模型中的音频编码器，对所述音频数据进行编码处理，得到所述音频数据的音频向量；根据所述预设的特征提取模型中的全连接层，对所述音频向量进行特征提取处理，得到所述音频数据对应的音频特征。6.根据权利要求3所述的方法，所述模态数据为口型图像；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：根据所述预设的特征提取模型中的图像编码器，对所述口型图像进行编码处理，得到所述口型图像的口型图像向量；根据所述预设的特征提取模型中的全连接层，对所述口型图像向量进行特征提取处理，得到所述口型图像对应的口型图像特征。7.根据权利要求2
‑
6中任一项所述的方法，所述根据所述模态数据对应的数据特征，确定所述模态数据对应的口型特征，包括：对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果；其中，所述特征调制结果用于表示模态数据对应的数据特征；根据预设数量的全连接层，对所述模态数据对应的特征调制结果进行特征提取处理，
得到所述模态数据对应的口型特征。8.根据权利要求7所述的方法，若所述模态数据为所述待处理的数据集合中的第一种模态数据；所述对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果，包括：根据预设的向量数据，基于预设的调制公式，对所述第一种模态数据对应的数据特征进行调制处理，得到所述第一种模态数据对应的特征调制结果；其中，所述预设的向量数据为预设维度的向量。9.根据权利要求8所述的方法，若所述模态数据为所述待处理的数据集合中的第二种模态数据；所述对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果，包括：根据所述第一种模态数据对应的口型特征，基于预设的调制公式，对所述第二种模态数据对应的数据特征进行调制处理，得到所述第二种模态数据对应的特征调制结果。10.根据权利要求9所述的方法，若所述模态数据为所述待处理的数据集合中的第三种模态数据；所述对所述模态数据对应的数据特征进行调制处理，得到所述模态数据对应的特征调制结果，包括：根据所述第二种模态数据对应的口型特征，基于预设的调制公式，对所述第三种模态数据对应的数据特征进行调制处理，得到所述第三种模态数据对应的特征调制结果。11.根据权利要求8
‑
10中任一项所述的方法，所述预设的调制公式为；其中，为特征调制结果；若S为所述第一种模态数据对应的数据特征，则F为所述预设的向量数据；若S为所述第二种模态数据对应的数据特征，则F为所述第一种模态数据对应的口型特征；若S为所述第三种模态数据对应的数据特征，则F为所述第二种模态数据对应的口型特征。12.根据权利要求1
‑
11中任一项所述的方法，所述根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像，包括：对所述预设的人脸图像进行编码处理，得到人脸向量数据；对所述模态数据对应的口型特征进行特征提取处理，得到所述模态数据对应的目标特征；其中，所述目标特征用于表示模态数据对应的口型特征中的局部特征；将所述人脸向量数据与至少两种所述模态数据对应的目标特征，进行残差连接处理，得到第一图像特征数据；对所述第一图像特征数据进行解码，得到所述具有口型的人脸图像。13.根据权利要求1
‑
11中任一项所述的方法，所述根据所述模态数据对应的口型特征，对所述预设的人脸图像进行处理，生成具有口型的人脸图像，包括：对所述预设的人脸图像进行编码处理，得到人脸向量数据；基于所述模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征；其中，所述多模态特征表征至少两种模态数据对应的口型特征中的局部特征；将所述人脸向量数据与所述多模态特征，进行残差连接处理，得到第二图像特征数据；对所述第二图像特征数据进行解码，得到所述具有口型的人脸图像。
14.根据权利要求13所述的方法，所述基于所述模态数据对应的口型特征进行多模态的特征提取处理，得到多模态特征，包括：根据所述人脸向量数据，基于预设的调制公式，对所述待处理的数据集合中的第一种模态数据对应的口型特征进行调制处理，得到所述第一种模态数据对应的口型调制结果；其中，所述口型调制结果用于表示模态数据对应的口型特征；根据预设数量的全连接层，对所述第一种模态数据对应的口型调制结果进行特征提取处理，得到所述第一种模态数据对应的待聚合特征；根据所述第一种模态数据对应的待聚合特征，基于预设的调制公式，对所述待处理的数据集合中的第二种模态数据对应的口型特征进行调制处理，得到所述第二种模态数据对应的口型调制结果；根据预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征。15.根据权利要求14所述的方法，所述根据预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述多模态特征，包括：根据预设数量的全连接层，对所述第二种模态数据对应的口型调制结果进行特征提取处理，得到所述第二种模态数据对应的待聚合特征；根据所述第二种模态数据对应的待聚合特征，基于预设的调制公式，对所述待处理的数据集合中的第三种模态数据对应的口型特征进行调制处理，得到所述第三种模态数据对应的口型调制结果，为所述多模态特征。16.一种基于多模态的人脸图像生成模型的训练方法，包括：获取待训练的数据集合和预设的训练图像；其中，所述待训练的数据集合包括至少两种模态数据；所述模态数据为以下的任意一种：文本数据、音频数据、口型图像；所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应；所述预设的训练图像为不具有口型的人脸图像；将所述模态数据输入至初始模型中进行训练，得到所述模态数据对应的口型特征；其中，所述口型特征用于表示口型在人脸图像上的大小信息和形状信息；根据所述模态数据对应的口型特征，对所述预设的训练图像进行处理，以生成训练完成的人脸图像生成模型；其中，所述人脸图像生成模型用于基于如权利要求1
‑
15中任一项所述的待处理的数据集合和预设的人脸图像，生成具有口型的人脸图像。17.根据权利要求16所述的方法，其中，所述将所述模态数据输入至初始模型中进行训练，得到所述模态数据对应的口型特征，包括：确定所述模态数据对应的数据特征；其中，所述数据特征为文本特征、或者音频特征、或者口型图像特征；将所述模态数据对应的数据特征输入至初始模型中进行训练，确定所述模态数据对应的口型特征。18.根据权利要求17所述的方法，其中，所述确定所述模态数据对应的数据特征，包括：根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征。
19.根据权利要求18所述的方法，所述模态数据为文本数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：根据所述预设的特征提取模型中的文本编码器，对所述文本数据进行编码处理，得到所述文本数据的文本向量；根据所述预设的特征提取模型中的全连接层，对所述文本向量进行特征提取处理，得到所述文本数据对应的文本特征。20.根据权利要求18所述的方法，所述模态数据为音频数据；所述根据预设的特征提取模型，对所述模态数据进行特征提取处理，得到所述模态数据对应的数据特征，包括：根据所述预设的特征提取模型中的音频编码器，对所述音频数据进行编码处理，得到所述音频数据的音频向量；根据所述预设的特征提取模型中的全连接层，对所述音频向量进行特征提取处理，得到所述音频数据...

【专利技术属性】
技术研发人员：杜宗财，赵亚飞，范锡睿，陈毅，王志强，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人