基于多模态的人脸图像生成方法、模型的训练方法及设备技术

技术编号:38896246 阅读:10 留言:0更新日期:2023-09-22 14:17
本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备,涉及人工智能领域,尤其涉及图像领域。具体实现方案为:获取待处理的数据集合和预设的人脸图像;其中,所述待处理的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的人脸图像为不具有口型的人脸图像;确定所述模态数据对应的口型特征;其中,口型特征用于表示口型在人脸图像上的大小信息和形状信息;根据模态数据对应的口型特征,对预设的人脸图像进行处理,生成具有口型的人脸图像。生成具有口型的人脸图像。生成具有口型的人脸图像。

【技术实现步骤摘要】
基于多模态的人脸图像生成方法、模型的训练方法及设备


[0001]本公开涉及人工智能领域中的图像领域,尤其涉及一种基于多模态的人脸图像生成方法、模型的训练方法及设备。

技术介绍

[0002]数字人的人脸图像的生成是元宇宙和智能客服等场景中的一项重要技术。数字人与用户进行交流时,可以在发出语音的同时,生成与语音匹配的具有口型的人脸图像。
[0003]若在人脸图像上不能跟随语音做出准确的口型变化,则会影响用户的使用体验。因此,如何提高人脸图像的生成精度,成为亟待解决的问题。

技术实现思路

[0004]本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备。
[0005]根据本公开的第一方面,提供了一种基于多模态的人脸图像生成方法,包括:获取待处理的数据集合和预设的人脸图像;其中,所述待处理的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的人脸图像为不具有口型的人脸图像;确定所述模态数据对应的口型特征;其中,所述口型特征用于表示口型在人脸图像上的大小信息和形状信息;根据所述模态数据对应的口型特征,对所述预设的人脸图像进行处理,生成具有口型的人脸图像。
[0006]根据本公开的第二方面,提供了一种基于多模态的人脸图像生成模型的训练方法,包括:获取待训练的数据集合和预设的训练图像;其中,所述待训练的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的训练图像为不具有口型的人脸图像;将所述模态数据输入至初始模型中进行训练,得到所述模态数据对应的口型特征;其中,所述口型特征用于表示口型在人脸图像上的大小信息和形状信息;根据所述模态数据对应的口型特征,对所述预设的训练图像进行处理,以生成训练完成的人脸图像生成模型;其中,所述人脸图像生成模型用于基于如本公开第一方面所述的待处理的数据集合和预设的人脸图像,生成具有口型的人脸图像。
[0007]根据本公开的第三方面,提供了一种基于多模态的人脸图像生成装置,包括:数据获取单元,用于获取待处理的数据集合和预设的人脸图像;其中,所述待处理的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数
据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的人脸图像为不具有口型的人脸图像;特征确定单元,用于确定所述模态数据对应的口型特征;其中,所述口型特征用于表示口型在人脸图像上的大小信息和形状信息;图像生成单元,用于根据所述模态数据对应的口型特征,对所述预设的人脸图像进行处理,生成具有口型的人脸图像。
[0008]根据本公开的第四方面,提供了一种基于多模态的人脸图像生成模型的训练装置,包括:集合获取单元,用于获取待训练的数据集合和预设的训练图像;其中,所述待训练的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的训练图像为不具有口型的人脸图像;模型训练单元,用于将所述模态数据输入至初始模型中进行训练,得到所述模态数据对应的口型特征;其中,所述口型特征用于表示口型在人脸图像上的大小信息和形状信息;模型生成单元,用于根据所述模态数据对应的口型特征,对所述预设的训练图像进行处理,以生成训练完成的人脸图像生成模型;其中,所述人脸图像生成模型用于基于如本公开第三方面所述的待处理的数据集合和预设的人脸图像,生成具有口型的人脸图像。
[0009]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面和第二方面所述的方法。
[0010]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开第一方面和第二方面所述的方法。
[0011]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开第一方面和第二方面所述方法的步骤。
[0012]根据本公开的技术,提高了具有口型的人脸图像的生成精度。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图;图2是本公开实施例提供的口型图像的示意图;图3是本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图;
图4是本公开实施例提供的一种基于多模态的人脸图像生成方法的流程示意图;图5是本公开实施例提供的人脸图像生成方法的流程示意图;图6是本公开实施例提供的一种基于多模态的人脸图像生成模型的训练方法的流程示意图;图7是本公开实施例提供的一种基于多模态的人脸图像生成模型的训练方法的流程示意图;图8是本公开实施例提供的一种基于多模态的人脸图像生成装置的结构框图;图9是本公开实施例提供的一种基于多模态的人脸图像生成装置的结构框图;图10是本公开实施例提供的一种基于多模态的人脸图像生成模型的训练装置的结构框图;图11是用来实现本公开实施例的基于多模态的人脸图像生成方法和模型的训练方法的电子设备的框图;图12是用来实现本公开实施例的基于多模态的人脸图像生成方法和模型的训练方法的电子设备的框图。
具体实施方式
[0015]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0016]数字人面部生成是元宇宙和智能客服等场景中一项重要技术,数字人面部生成的核心是生成连续自然的数字人口型,使数字人在与用户交互时,可以跟随发出的语音,进行人脸图像上口型的变化,提升用户的交互体验。
[0017]可以基于对比学习损失函数,使来源于同一帧的文本、音频和图像的隐向量距离尽可能近,来源于不同帧的文本、音频和图像的隐向量距离尽可能远,由此得到表征力更强的共性口型特征。然而,对比学习损失函数的缺点是容易忽略数据中的差异化信息,例如,忽略音频中包含的音调、情感等信息,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的人脸图像生成方法,包括:获取待处理的数据集合和预设的人脸图像;其中,所述待处理的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的人脸图像为不具有口型的人脸图像;确定所述模态数据对应的口型特征;其中,所述口型特征用于表示口型在人脸图像上的大小信息和形状信息;根据所述模态数据对应的口型特征,对所述预设的人脸图像进行处理,生成具有口型的人脸图像。2.根据权利要求1所述的方法,其中,所述确定所述模态数据对应的口型特征,包括:确定所述模态数据对应的数据特征;其中,所述数据特征为文本特征、或者音频特征、或者口型图像特征;根据所述模态数据对应的数据特征,确定所述模态数据对应的口型特征。3.根据权利要求2所述的方法,其中,所述确定所述模态数据对应的数据特征,包括:根据预设的特征提取模型,对所述模态数据进行特征提取处理,得到所述模态数据对应的数据特征。4.根据权利要求3所述的方法,所述模态数据为文本数据;所述根据预设的特征提取模型,对所述模态数据进行特征提取处理,得到所述模态数据对应的数据特征,包括:根据所述预设的特征提取模型中的文本编码器,对所述文本数据进行编码处理,得到所述文本数据的文本向量;根据所述预设的特征提取模型中的全连接层,对所述文本向量进行特征提取处理,得到所述文本数据对应的文本特征。5.根据权利要求3所述的方法,所述模态数据为音频数据;所述根据预设的特征提取模型,对所述模态数据进行特征提取处理,得到所述模态数据对应的数据特征,包括:根据所述预设的特征提取模型中的音频编码器,对所述音频数据进行编码处理,得到所述音频数据的音频向量;根据所述预设的特征提取模型中的全连接层,对所述音频向量进行特征提取处理,得到所述音频数据对应的音频特征。6.根据权利要求3所述的方法,所述模态数据为口型图像;所述根据预设的特征提取模型,对所述模态数据进行特征提取处理,得到所述模态数据对应的数据特征,包括:根据所述预设的特征提取模型中的图像编码器,对所述口型图像进行编码处理,得到所述口型图像的口型图像向量;根据所述预设的特征提取模型中的全连接层,对所述口型图像向量进行特征提取处理,得到所述口型图像对应的口型图像特征。7.根据权利要求2

6中任一项所述的方法,所述根据所述模态数据对应的数据特征,确定所述模态数据对应的口型特征,包括:对所述模态数据对应的数据特征进行调制处理,得到所述模态数据对应的特征调制结果;其中,所述特征调制结果用于表示模态数据对应的数据特征;根据预设数量的全连接层,对所述模态数据对应的特征调制结果进行特征提取处理,
得到所述模态数据对应的口型特征。8.根据权利要求7所述的方法,若所述模态数据为所述待处理的数据集合中的第一种模态数据;所述对所述模态数据对应的数据特征进行调制处理,得到所述模态数据对应的特征调制结果,包括:根据预设的向量数据,基于预设的调制公式,对所述第一种模态数据对应的数据特征进行调制处理,得到所述第一种模态数据对应的特征调制结果;其中,所述预设的向量数据为预设维度的向量。9.根据权利要求8所述的方法,若所述模态数据为所述待处理的数据集合中的第二种模态数据;所述对所述模态数据对应的数据特征进行调制处理,得到所述模态数据对应的特征调制结果,包括:根据所述第一种模态数据对应的口型特征,基于预设的调制公式,对所述第二种模态数据对应的数据特征进行调制处理,得到所述第二种模态数据对应的特征调制结果。10.根据权利要求9所述的方法,若所述模态数据为所述待处理的数据集合中的第三种模态数据;所述对所述模态数据对应的数据特征进行调制处理,得到所述模态数据对应的特征调制结果,包括:根据所述第二种模态数据对应的口型特征,基于预设的调制公式,对所述第三种模态数据对应的数据特征进行调制处理,得到所述第三种模态数据对应的特征调制结果。11.根据权利要求8

10中任一项所述的方法,所述预设的调制公式为;其中,为特征调制结果;若S为所述第一种模态数据对应的数据特征,则F为所述预设的向量数据;若S为所述第二种模态数据对应的数据特征,则F为所述第一种模态数据对应的口型特征;若S为所述第三种模态数据对应的数据特征,则F为所述第二种模态数据对应的口型特征。12.根据权利要求1

11中任一项所述的方法,所述根据所述模态数据对应的口型特征,对所述预设的人脸图像进行处理,生成具有口型的人脸图像,包括:对所述预设的人脸图像进行编码处理,得到人脸向量数据;对所述模态数据对应的口型特征进行特征提取处理,得到所述模态数据对应的目标特征;其中,所述目标特征用于表示模态数据对应的口型特征中的局部特征;将所述人脸向量数据与至少两种所述模态数据对应的目标特征,进行残差连接处理,得到第一图像特征数据;对所述第一图像特征数据进行解码,得到所述具有口型的人脸图像。13.根据权利要求1

11中任一项所述的方法,所述根据所述模态数据对应的口型特征,对所述预设的人脸图像进行处理,生成具有口型的人脸图像,包括:对所述预设的人脸图像进行编码处理,得到人脸向量数据;基于所述模态数据对应的口型特征进行多模态的特征提取处理,得到多模态特征;其中,所述多模态特征表征至少两种模态数据对应的口型特征中的局部特征;将所述人脸向量数据与所述多模态特征,进行残差连接处理,得到第二图像特征数据;对所述第二图像特征数据进行解码,得到所述具有口型的人脸图像。
14.根据权利要求13所述的方法,所述基于所述模态数据对应的口型特征进行多模态的特征提取处理,得到多模态特征,包括:根据所述人脸向量数据,基于预设的调制公式,对所述待处理的数据集合中的第一种模态数据对应的口型特征进行调制处理,得到所述第一种模态数据对应的口型调制结果;其中,所述口型调制结果用于表示模态数据对应的口型特征;根据预设数量的全连接层,对所述第一种模态数据对应的口型调制结果进行特征提取处理,得到所述第一种模态数据对应的待聚合特征;根据所述第一种模态数据对应的待聚合特征,基于预设的调制公式,对所述待处理的数据集合中的第二种模态数据对应的口型特征进行调制处理,得到所述第二种模态数据对应的口型调制结果;根据预设数量的全连接层,对所述第二种模态数据对应的口型调制结果进行特征提取处理,得到所述多模态特征。15.根据权利要求14所述的方法,所述根据预设数量的全连接层,对所述第二种模态数据对应的口型调制结果进行特征提取处理,得到所述多模态特征,包括:根据预设数量的全连接层,对所述第二种模态数据对应的口型调制结果进行特征提取处理,得到所述第二种模态数据对应的待聚合特征;根据所述第二种模态数据对应的待聚合特征,基于预设的调制公式,对所述待处理的数据集合中的第三种模态数据对应的口型特征进行调制处理,得到所述第三种模态数据对应的口型调制结果,为所述多模态特征。16.一种基于多模态的人脸图像生成模型的训练方法,包括:获取待训练的数据集合和预设的训练图像;其中,所述待训练的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的训练图像为不具有口型的人脸图像;将所述模态数据输入至初始模型中进行训练,得到所述模态数据对应的口型特征;其中,所述口型特征用于表示口型在人脸图像上的大小信息和形状信息;根据所述模态数据对应的口型特征,对所述预设的训练图像进行处理,以生成训练完成的人脸图像生成模型;其中,所述人脸图像生成模型用于基于如权利要求1

15中任一项所述的待处理的数据集合和预设的人脸图像,生成具有口型的人脸图像。17.根据权利要求16所述的方法,其中,所述将所述模态数据输入至初始模型中进行训练,得到所述模态数据对应的口型特征,包括:确定所述模态数据对应的数据特征;其中,所述数据特征为文本特征、或者音频特征、或者口型图像特征;将所述模态数据对应的数据特征输入至初始模型中进行训练,确定所述模态数据对应的口型特征。18.根据权利要求17所述的方法,其中,所述确定所述模态数据对应的数据特征,包括:根据预设的特征提取模型,对所述模态数据进行特征提取处理,得到所述模态数据对应的数据特征。
19.根据权利要求18所述的方法,所述模态数据为文本数据;所述根据预设的特征提取模型,对所述模态数据进行特征提取处理,得到所述模态数据对应的数据特征,包括:根据所述预设的特征提取模型中的文本编码器,对所述文本数据进行编码处理,得到所述文本数据的文本向量;根据所述预设的特征提取模型中的全连接层,对所述文本向量进行特征提取处理,得到所述文本数据对应的文本特征。20.根据权利要求18所述的方法,所述模态数据为音频数据;所述根据预设的特征提取模型,对所述模态数据进行特征提取处理,得到所述模态数据对应的数据特征,包括:根据所述预设的特征提取模型中的音频编码器,对所述音频数据进行编码处理,得到所述音频数据的音频向量;根据所述预设的特征提取模型中的全连接层,对所述音频向量进行特征提取处理,得到所述音频数据...

【专利技术属性】
技术研发人员:杜宗财赵亚飞范锡睿陈毅王志强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1