唇动模型训练方法、唇动的驱动方法、装置和电子设备制造方法及图纸

技术编号:37291703 阅读:31 留言:0更新日期:2023-04-21 03:22
本公开提供了一种唇动模型训练方法、唇动的驱动方法、装置、电子设备,涉及人工智能技术领域,尤其涉及深度学习、语音识别、人脸识别等领域。具体实现方案为:对不同音色用户进行编码,得到用户ID编码;获取与所述用户ID编码对应的音频向量,所述音频向量用于表征与节奏和/或音素相关的口型变化;将所述用户ID编码及所述音频向量输入待训练的第一唇动模型,对所述第一唇动模型进行模型训练,得到训练好的第二唇动模型。采用本公开,该训练好的第二唇动模型可以支持不同音色用户下的唇动模型驱动。动。动。

【技术实现步骤摘要】
唇动模型训练方法、唇动的驱动方法、装置和电子设备


[0001]本公开涉及人工智能
,尤其涉及深度学习、虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等
,具体涉及一种唇动模型训练方法、唇动的驱动方法、装置和电子设备。

技术介绍

[0002]人脸的唇动驱动越来越受到关注,并有着广泛的应用,比如虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等应用。而不同音色用户的发音是不同的,导致不同音色用户下人脸的唇动驱动是不同的。对此,需要一种唇动模型的解决方案,以支持不同音色用户的唇动驱动。

技术实现思路

[0003]本公开提供了一种唇动模型训练方法、唇动的驱动方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种唇动模型训练方法,包括:
[0005]对不同音色用户进行编码,得到用户标识(Identity Document,ID)编码;
[0006]获取与所述用户ID编码对应的音频向量,所述音频向量用于表征与节奏和/或音素相关的口型变化;<br/>[0007]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种唇动模型训练方法,包括:对不同音色用户进行编码,得到用户标识ID编码;获取与所述用户ID编码对应的音频向量,所述音频向量用于表征与节奏和/或音素相关的口型变化;将所述用户ID编码及所述音频向量输入待训练的第一唇动模型,对所述第一唇动模型进行模型训练,得到训练好的第二唇动模型。2.根据权利要求1所述的方法,其中,所述将所述用户ID编码及所述音频向量输入待训练的第一唇动模型,对所述第一唇动模型进行模型训练,得到训练好的第二唇动模型,包括:根据所述用户ID编码及所述音频向量得到融合特征,将所述融合特征输入待训练的第一唇动模型;在所述第一唇动模型中,根据所述融合特征和目标特征进行损失运算,得到损失函数;其中,所述目标特征包括基于口型特征数据聚类得到的第一特征;根据所述损失函数的反向传播对所述第一唇动模型进行模型训练,得到所述第二唇动模型。3.根据权利要求1或2所述的方法,还包括:获取目标语音样本数据;根据所述目标语音样本数据和韵律学模型输出的韵律学特征,确定所述音频向量;其中,所述韵律学模型输出的韵律学特征是由初始语音样本数据输入所述韵律学模型后输出得到,所述初始语音样本数据与所述用户ID编码对应。4.根据权利要求3所述的方法,其中,所述获取目标语音样本数据,包括:根据所述韵律学模型,对多个发音窗口对应的待处理语音样本数据进行特征提取,得到所述多个发音窗口对应的待处理音频特征;将所述多个发音窗口对应的待处理音频特征进行合并,得到待处理目标音频特征;将所述待处理目标音频特征对应的语音风格调整为预设的语音风格,得到所述目标语音样本数据。5.根据权利要求2所述的方法,还包括:获取不同用户对应的口型特征数据;根据所述不同用户对应的口型特征数据进行聚类,得到所述第一特征。6.根据权利要求5所述的方法,还包括:根据所述不同用户对应的口型特征数据进行聚类,得到第一初始特征;对所述第一初始特征进行压缩,得到压缩后的第一初始特征,作为所述第一特征。7.根据权利要求2所述的方法,其中,所述目标特征还包括:基于脸部特征数据聚类得到的第二特征。8.根据权利要求7所述的方法,还包括:通过以下方式基于所述脸部特征数据聚类得到第二特征:获取不同用户对应的脸部特征数据;从所述不同用户对应的脸部特征数据中,提取用于影响口型变化的脸部关键点对应的脸部特征数据;
对所述用于影响口型变化的脸部关键点对应的脸部特征数据进行聚类,得到所述第二特征。9.根据权利要求7所述的方法,还包括:通过以下方式基于所述脸部特征数据聚类得到第二特征:对所述脸部特征数据进行聚类,得到第二初始特征;对所述第二初始特征进行压缩,得到压缩后的第二初始特征,作为所述第二特征。10.一种唇动的驱动方法,包括:获取目标音色用户对应的语音数据,得到目标音频向量;其中,所述目标音频向量用于表征与节奏和/或音素相关的口型变化;对所述目标音色用户编码得到目标用户标识ID编码;将所述目标用户ID编码及所述目标音频向量输入第二唇动模型,得到所述第二唇动模型的输出结果;根据所述第二唇动模型的输出结果,驱动虚拟对象的唇动,得到所述虚拟对象在所述目标音色用户作用下的口型。11.一种唇动模型训练装置,包括:第一编码模块,用于对不同音色用户进行编码,得到用户标识ID编码;获取模块,用于获取与所述用户ID编码对应的音频向量,所述音频向量用于表征与节奏和/或音素相关的口型变化;训练模块,用于将所述用户ID编码及所述音频向量输入待训练的第一唇动模型,对所述第一唇动模型进行模型训练,得到训练好的第二唇动模型。12.根据权利要求1...

【专利技术属性】
技术研发人员:郭紫垣
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1