基于口型的人脸图像生成方法、模型的训练方法以及设备技术

技术编号:38891479 阅读:9 留言:0更新日期:2023-09-22 14:16
本公开提供了一种基于口型的人脸图像生成方法、模型的训练方法以及设备,涉及人工智能领域,尤其涉及云计算和数字人领域。具体实现方案为:获取待识别的音频数据和预设的人脸图像;确定所述待识别的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特征;根据所述语速特征和所述语义特征对所述预设的人脸图像进行处理,生成具有口型的人脸图像。通过结合音频数据的语义特征和语速特征,支持在任意语速下,对人脸图像中的口型进行准确驱动,提高人脸图像的确定精度。提高人脸图像的确定精度。提高人脸图像的确定精度。

【技术实现步骤摘要】
基于口型的人脸图像生成方法、模型的训练方法以及设备


[0001]本公开涉及人工智能领域中的云计算和数字人领域,尤其涉及一种基于口型的人脸图像生成方法、模型的训练方法以及设备。

技术介绍

[0002]随着人工智能技术的快速发展,数字人应用成为当前研究的主流。数字人的面部可以随着语音发生变化,例如,数字人的人脸图像中的表情和口型等可以随着语音的改变而改变。
[0003]数字人应用中的一项核心技术就是音频驱动人脸口型技术,如何使人脸图像中的口型准确匹配音频数据是一个亟待解决的技术难题。

技术实现思路

[0004]本公开提供了一种基于口型的人脸图像生成方法、模型的训练方法以及设备。
[0005]根据本公开的第一方面,提供了一种基于口型的人脸图像生成方法,包括:获取待识别的音频数据和预设的人脸图像;确定所述待识别的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特征;根据所述语速特征和所述语义特征对所述预设的人脸图像进行处理,生成具有口型的人脸图像。
[0006]根据本公开的第二方面,提供了一种人脸口型确定模型的训练方法,包括:获取待训练图像数据和预设的人脸图像;其中,所述待训练图像数据中包括待训练的音频数据和待训练的人脸图像,所述待训练的人脸图像具有与待训练的音频数据对应的口型;确定所述待训练的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特征;根据所述语速特征、所述语义特征以及所述预设的人脸图像,对初始的人脸口型确定模型进行训练,得到具有口型的人脸图像;若具有口型的人脸图像与所述待训练的人脸图像两者一致,则确定得到训练完成的人脸口型确定模型。
[0007]根据本公开的第三方面,提供了一种基于口型的人脸图像生成装置,包括:数据获取单元,用于获取待识别的音频数据和预设的人脸图像;特征确定单元,用于确定所述待识别的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特征;图像生成单元,用于根据所述语速特征和所述语义特征对所述预设的人脸图像进行处理,生成具有口型的人脸图像。
[0008]根据本公开的第四方面,提供了一种人脸口型确定模型的训练装置,包括:
图像获取单元,用于获取待训练图像数据和预设的人脸图像;其中,所述待训练图像数据中包括待训练的音频数据和待训练的人脸图像,所述待训练的人脸图像具有与待训练的音频数据对应的口型;特征提取单元,用于确定所述待训练的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特征;模型训练单元,用于根据所述语速特征、所述语义特征以及所述预设的人脸图像,对初始的人脸口型确定模型进行训练,得到具有口型的人脸图像;模型获得单元,用于若具有口型的人脸图像与所述待训练的人脸图像两者一致,则确定得到训练完成的人脸口型确定模型。
[0009]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面和第二方面所述的方法。
[0010]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开第一方面和第二方面所述的方法。
[0011]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开第一方面和第二方面所述方法的步骤。
[0012]根据本公开的技术,提高了基于口型的人脸图像的生成精度。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是本公开实施例提供的一种基于口型的人脸图像生成方法的流程示意图;图2是本公开实施例提供的一种基于口型的人脸图像生成方法的流程示意图;图3是本公开实施例提供的一种基于口型的人脸图像生成方法的流程示意图;图4是本公开实施例提供的一种人脸口型确定模型的训练方法的流程示意图;图5是本公开实施例提供的一种人脸口型确定模型的训练方法的流程示意图;图6是本公开实施例提供的一种基于口型的人脸图像生成装置的结构框图;图7是本公开实施例提供的一种基于口型的人脸图像生成装置的结构框图;图8是本公开实施例提供的一种人脸口型确定模型的训练装置的结构框图;图9是用来实现本公开实施例的基于口型的人脸图像生成方法和模型的训练方法的电子设备的框图;图10是用来实现本公开实施例的基于口型的人脸图像生成方法和模型的训练方法的电子设备的框图。
具体实施方式
[0015]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0016]在目前的数字人应用中,一项核心技术是音频驱动人脸口型,即,通过音频数据改变人脸图像中的口型,使人脸图像中的口型与音频数据相适配。因此,如何做到更真实准确的人脸口型驱动是一个亟待解决的技术难题。
[0017]现有的基于口型的人脸图像生成方法中,很难处理语速的变化,音频数据的语速会对口型产生很大影响。同一句话以不同语速说出时,对应的口型可能完全不同。当说话语速较慢时,每个字的口型都可以和发音完全对齐。但是当语速变快时,人脸图像中的口型并不是等比例加速的,可能来不及做完一个口型就需要进行下一个字的发音。这导致很多字的口型都发生了变化,会出现“吞字”和“连读”等各种现象,很多口型会缺失、融合或简化,影响人脸图像的生成精度。
[0018]本公开提供一种基于口型的人脸图像生成方法、模型的训练方法以及设备,应用于人工智能领域中的云计算和数字人领域,以提高具有口型的人脸图像的生成精度。
[0019]需要说明的是,本实施例中的模型并不是针对某一特定用户,并不能反映出某一特定用户的个人信息。需要说明的是,本实施例中的人脸图像来自于公开数据集。
[0020]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0021]为使读者更深刻地理解本公开的实现原理,现结合以下图1

图10对实施例进行进一步细化。
[0022]图1为根据本公开实施例提供的一种基于口型的人脸图像生成方法的流程示意图,该方法可以由一种基于口型的人脸图像生成装置执行。如图1所示,该方法包括以下步骤:S101、获取待识别的音频数据和预设的人脸图像。
[0023]示例性地,预先设计数字人的人脸,例如,可以设计数字人的脸型、眼睛、鼻子和嘴巴等,生成一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于口型的人脸图像生成方法,包括:获取待识别的音频数据和预设的人脸图像;确定所述待识别的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特征;根据所述语速特征和所述语义特征对所述预设的人脸图像进行处理,生成具有口型的人脸图像。2.根据权利要求1所述的方法,其中,所述确定所述待识别的音频数据的音频特征,包括:根据预设的第一特征提取模型,确定所述待识别的音频数据的语速特征;其中,所述第一特征提取模型用于从待识别的音频数据中提取语速特征;根据预设的第二特征提取模型,确定所述待识别的音频数据的语义特征;其中,所述第二特征提取模型用于从待识别的音频数据中提取语义特征。3.根据权利要求2所述的方法,其中,所述根据预设的第一特征提取模型,确定所述待识别的音频数据的语速特征,包括:将所述待识别的音频数据输入至预设的第一特征提取模型中进行特征提取,得到所述待识别的音频数据的语音后验概率特征;其中,所述语音后验概率特征表征待识别的音频数据的音素类别的信息;根据所述待识别的音频数据的语音后验概率特征,确定所述待识别的音频数据的语速特征。4.根据权利要求3所述的方法,其中,所述根据所述待识别的音频数据的语音后验概率特征,确定所述待识别的音频数据的语速特征,包括:对所述语音后验概率特征进行快速傅里叶变换处理,得到频域信号特征;其中,所述频域信号特征表征待识别的音频数据的音素类别的信息;根据预设的频段大小,将所述频域信号特征切分为至少两个频段的频域信号特征;对所述至少两个频段的频域信号特征进行积分处理,得到所述待识别的音频数据的语速特征。5.根据权利要求2

4中任一项所述的方法,其中,所述根据预设的第二特征提取模型,确定所述待识别的音频数据的语义特征,包括:将所述待识别的音频数据输入至预设的第二特征提取模型中进行特征提取,输出得到所述待识别的音频数据的语义特征。6.根据权利要求5所述的方法,其中,所述根据所述语速特征和所述语义特征对所述预设的人脸图像进行处理,生成具有口型的人脸图像,包括:将所述语速特征和所述语义特征,输入至预设的人脸口型确定模型中进行处理,根据处理得到的结果和所述预设的人脸图像,生成具有口型的人脸图像。7.根据权利要求6所述的方法,其中,所述将所述语速特征和所述语义特征,输入至预设的人脸口型确定模型中进行处理,根据处理得到的结果和所述预设的人脸图像,生成具有口型的人脸图像,包括:基于所述预设的人脸口型确定模型对所述语速特征和所述语义特征进行拼接处理,得到所述待识别的音频数据的拼接特征;其中,所述拼接特征表征语速特征和语义特征;
根据所述预设的人脸口型确定模型中的卷积层,对所述拼接特征进行特征提取,得到人脸驱动参数;其中,所述人脸驱动参数用于表示驱动人脸图像中的口型变化所需的参数;根据所述人脸驱动参数对所述预设的人脸图像进行图像渲染,生成具有口型的人脸图像。8.根据权利要求7所述的方法,其中,所述人脸驱动参数为混合变形的权重参数;所述根据所述人脸驱动参数对所述预设的人脸图像进行图像渲染,生成具有口型的人脸图像,包括:根据所述混合变形的权重参数,确定所述预设的人脸图像所对应的人脸三维网格数据;其中,所述人脸三维网格数据为表示人脸图像上人脸表面的三维网格模型的数据;根据所述人脸三维网格数据对所述预设的人脸图像进行图像渲染,生成具有口型的人脸图像。9.根据权利要求8所述的方法,还包括:若确定所述待识别的音频数据的语速特征所表征的数值,小于预设的语速阈值,则根据所述语义特征对所述预设的人脸图像进行处理,生成具有口型的人脸图像。10.一种人脸口型确定模型的训练方法,包括:获取待训练图像数据和预设的人脸图像;其中,所述待训练图像数据中包括待训练的音频数据和待训练的人脸图像,所述待训练的人脸图像具有与待训练的音频数据对应的口型;确定所述待训练的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特征;根据所述语速特征、所述语义特征以及所述预设的人脸图像,对初始的人脸口型确定模型进行训练,得到具有口型的人脸图像;若具有口型的人脸图像与所述待训练的人脸图像两者一致,则确定得到训练完成的人脸口型确定模型。11.根据权利要求10所述的方法,其中,所述确定所述待训练的音频数据的音频特征,包括:根据预设的第一特征提取模型,确定所述待训练的音频数据的语速特征;其中,所述第一特征提取模型用于从待训练的音频数据中提取语速特征;根据预设的第二特征提取模型,确定所述待训练的音频数据的语义特征;其中,所述第二特征提取模型用于从待训练的音频数据中提取语义特征。12.根据权利要求11所述的方法,其中,所述根据预设的第一特征提取模型,确定所述待训练的音频数据的语速特征,包括:将所述待训练的音频数据输入至预设的第一特征提取模型中进行特征提取,得到所述待训练的音频数据的语音后验概率特征;其中,所述语音后验概率特征表征待训练的音频数据的音素类别的信息;根据所述待训练的音频数据的语音后验概率特征,确定所述待训练的音频数据的语速特征。13.根据权利要求12所述的方法,其中,所述根据所述待训练的音频数据的语音后验概率特征,确定所述待训练的音频数据的语速特征,包括:
对所述语音后验概率特征进行快速傅里叶变换处理,得到频域信号特征;其中,所述频域信号特征表征待训练的音频数据的音素类别的信息;根据预设的频段大小,将所述频域信号特征切分为至少两个频段的频域信号特征;对所述至少两个频段的频域信号特征进行积分处理,得到所述待训练的音频数据的语速特征。14.根据权利要求11

13中任一项所述的方法,其中,所述根据预设的第二特征提取模型,确定所述待训练的音频数据的语义特征,包括:将所述待训练的音频数据输入至预设的第二特征提取模型中进行特征提取,输出得到所述待训练的音频数据的语义特征。15.根据权利要求14所述的方法,其中,所述根据所述语速特征、所述语义特征以及所述预设的人脸图像,对初始的人脸口型确定模型进行训练,得到具有口型的人脸图像,包括:基于所述初始的人脸口型确定模型对所述语速特征和所述语义特征进行拼接处理,得到所述待训练的音频数据的拼接特征;其中,所述拼接特征表征语速特征和语义特征;根据所述初始的人脸口型确定模型中的卷积层,对所述拼接特征进行特征提取,得到人脸驱动参数;其中,所述人脸驱动参数用于表示驱动人脸图像中的口型变化所需的参数;根据所述人脸驱动参数对所述预设的人脸图像进行图像渲染,得到具有口型的人脸图像。16.根据权利要求15所述的方法,其中,所述人脸驱动参数为混合变形的权重参数;所述根据所述人脸驱动参数对所述预设的人脸图像进行图像渲染,得到具有口型的人脸图像,包括:根据所述混合变形的权重参数,确定所述预设的人脸图像所对应的人脸三维网格数据;其中,所述人脸三维网格数据为表示人脸图像上人脸表面的三维网格模型的数据;根据所述人脸三维网格数据对所述预设的人脸图像进行图像渲染,生成具有口型的人脸图像。17.根据权利要求16所述的方法,其中,所述获取待训练图像数据,包括:获取所述待训练的音频数据;根据所述待训练的音频数据进行人脸图像的三维重建处理,得到所述待训练的音频数据所对应的人脸三维网格数据;根据所述待训练的音频数据所对应的人脸三维网格数据,得到所述待训练的人脸图像。18.一种基于口型的人脸图像生成装置,包括:数据获取单元,用于获取待识别的音频数据和预设的人脸图像;特征确定单元,用于确定所述待识别的音频数据的音频特征;其中,所述音频特征包括语速特征和语义特...

【专利技术属性】
技术研发人员:范锡睿赵亚飞杜宗财陈毅王志强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1