人脸动画模型的训练方法、语音数据处理方法和装置制造方法及图纸

技术编号:37328370 阅读:23 留言:0更新日期:2023-04-21 23:06
本申请提供一种人脸动画模型的训练方法、语音数据处理方法和装置。通过对采集到的语音进行分帧处理,得到每一帧的语音数据,然后获取表情数据库和训练数据库,最后基于每一帧的语音数据,以及表情数据库,训练数据库,对预先构建的人脸动画模型进行时序生成对抗网络训练,得到训练后的人脸动画模型,人脸动画模型用于生成输入的语音数据对应的人脸动画的序列。从而使得生成的人脸动画带有丰富情绪表征的表情,解决现阶段的语音驱动人脸动画的模型缺少表情动画的技术瓶颈。缺少表情动画的技术瓶颈。缺少表情动画的技术瓶颈。

【技术实现步骤摘要】
人脸动画模型的训练方法、语音数据处理方法和装置


[0001]本申请涉及人工智能
,尤其涉及一种人脸动画模型的训练方法、语音数据处理方法和装置。

技术介绍

[0002]语音驱动人脸动画技术是基于深度学习等算法构建模型,以用户输入的语音或者语音生成的文本作为模型输入,即驱动源,生成人脸表情系数从而完成驱动人脸动画的技术。随着科技不断的进步,语音驱动人脸动画技术在影视、教育行业应用越来越广泛。
[0003]在现有技术中,驱动人脸动画可以分为两种方法,一种是端到端的方法,基于语音直接预测mesh序列;另外一种是先基于语音预测出表情系数或blendshape系数,然后合成mesh序列。口型驱动还可以先通过语音识别生成文本再生成音素序列,然后用音素序列生成口型系数或者直接生成mesh序列。
[0004]然而,上述这些基于深度学习的方法之中,大部分的研究都集中在口型驱动的部分,缺乏富有情绪表征的表情驱动。

技术实现思路

[0005]本申请提供一种人脸动画模型的训练方法、语音数据处理方法和装置。用于解决人脸动画技术无法实现富有情绪表征的表情驱动的问题。
[0006]第一方面,本申请提供一种人脸动画模型的训练方法,包括:
[0007]对采集到的语音进行分帧处理,得到每一帧的语音数据;
[0008]获取表情数据库以及训练数据库,所述表情数据库中包括:表情数据以及对应的表情标签,所述训练数据库中包括标定的所述语音对应的真实人脸动画序列;
[0009]基于所述每一帧的语音数据,以及所述表情数据库,所述训练数据库,对预先构建的人脸动画模型进行时序生成对抗网络训练,得到训练后的人脸动画模型,所述人脸动画模型用于生成输入的语音数据对应的人脸动画的序列。
[0010]结合第一方面,在一些实施例中,所述人脸动画模型包括语音编码模块,语音情绪识别模块,人脸生成模块;
[0011]相应的,所述基于所述每一帧的语音数据,以及所述表情数据库,所述训练数据库,对预先构建的人脸动画模型进行时序生成对抗网络训练,得到训练后的人脸动画模型,包括:
[0012]步骤a,针对每一帧的语音数据,通过人脸动画模型的语音编码模块对所述语音数据进行编码,得到所述语音数据对应的编码信息;
[0013]步骤b,针对每一帧的语音数据,通过人脸动画模型的语音情绪识别模型对所述语音数据进行情绪识别处理,得到所述语音数据对应的表情特征;
[0014]步骤c,针对每一帧的语音数据,将所述语音数据对应的表情特征,预先获取的历时人脸运动的编码信息,以及所述语音数据对应的编码信息输入所述待训练的人脸动画模
型的人脸生成模块,得到所述语音数据对应的人脸动画的序列;
[0015]步骤d,基于所述训练数据库中标定的语音的真实人脸动画序列,构建的人脸动画损失函数,以及所述人脸动画模型输出的每一帧语音数据对应的人脸动画的序列进行时序生成对抗网络训练,优化所述人脸动画模型的参数,重复步骤a

d直至所述人脸动画损失函数收敛,得到最终的人脸动画模型。
[0016]结合第一方面,在一些实施例中,所述针对每一帧的语音数据,通过人脸动画模型的语音编码模块对所述语音数据进行编码,得到所述语音数据对应的编码信息,包括:
[0017]针对每一帧的语音数据,通过语音编码模块的特征抽取层,采用时序卷积神经网络对所述语音数据进行特征处理,得到所述语音数据的特征信息;
[0018]通过所述语音编码模块的线性插值层,对所述语音数据的特征信息进行线性插值处理,得到插值后的特征信息;
[0019]通过所述语音编码模块的编码层对所述插值后的特征信息进行编码,并通过线性映射层进行线性映射处理,得到所述语音数据的编码信息。
[0020]结合第一方面,在一些实施例中,所述针对每一帧的语音数据,通过人脸动画模型的语音情绪识别模型对所述语音数据进行情绪识别处理,得到所述语音数据对应的表情特征,包括:
[0021]针对每一帧的语音数据,通过所述语音情绪识别模块的情绪特征抽取层进行DeepSpeech抽取得到所述语音数据对应的语音特征;
[0022]通过所述情绪识别模块的语音情绪识别层对所述语音特征进行情绪分类,得到情绪概率分布;
[0023]通过所述情绪识别模块的情绪表情查询层,基于所述情绪概率分布在所述表情数据库中进行查询,得到所述语音数据对应的表情特征。
[0024]结合第一方面,在一些实施例中,所述针对每一帧的语音数据,将所述语音数据对应的表情特征,预先获取的历时人脸运动的编码信息,以及所述语音数据对应的编码信息输入所述待训练的人脸动画模型的人脸生成模块,得到所述语音数据对应的人脸动画的序列,包括:
[0025]针对每一帧的语音数据,通过所述人脸生成模块的解码层将预先获取的历时人脸运动的编码信息,以及所述语音数据对应的编码信息进行人脸生成,得到人脸信息;
[0026]通过所述人脸生成模块的表情迁移层将所述表情特征迁移至所述人脸信息中,得到具有情绪特征的人脸动画的序列。
[0027]结合第一方面,在一些实施例中,所述基于所述训练数据库中标定的语音的真实人脸动画序列,构建的人脸动画损失函数,以及所述人脸动画模型输出的语音对应的人脸动画的序列进行时序生成对抗网络训练,优化所述人脸动画模型的参数,包括:
[0028]构建判别器中的人脸动画损失函数:
[0029][0030]其中,λ是控制重建损失函数对总损失函数的贡献度,表示判别器分类的损失函数,表示人脸重建损失函数项;
[0031]针对每一帧的语音数据,将所述人脸动画模型输出的所述语音数据对应的人脸动画的训练与所述训练数据库中标定的所述语音的真实人脸动画序列输入判别器中进行分类判别,得到所述人脸动画损失函数的值;
[0032]根据所述人脸动画损失函数的值,优化所述人脸动画模型的参数。
[0033]第二方面,本申请提供一种语音数据的处理方法,包括:
[0034]对待处理的语音进行分帧处理,得到每一帧的语音数据;
[0035]针对每一帧的语音数据,将所述语音数据输入人脸动画模型进行处理,得到所述语音数据对应的人脸动画的序列。
[0036]其中,所述人脸动画模型是预先训练的用于生成输入的语音数据对应的人脸动画的序列。
[0037]第三方面,本申请提供一种人脸动画模型的训练装置,包括:
[0038]采集处理模块,用于对采集到的语音进行分帧处理,得到每一帧的语音数据;
[0039]信息获取模块,用于获取表情数据库以及训练数据库,所述表情数据库中包括:表情数据以及对应的表情标签,所述训练数据库中包括标定的所述语音对应的真实人脸动画序列;
[0040]模型训练模块,用于基于所述每一帧的语音数据,以及所述表情数据库,训练数据库,对预先构建的人脸动画模型进行时序生成对抗网络训练,得到训练后的人脸动画模型,所述人脸动画模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人脸动画模型的训练方法,其特征在于,包括:对采集到的语音进行分帧处理,得到每一帧的语音数据;获取表情数据库以及训练数据库,所述表情数据库中包括:表情数据以及对应的表情标签,所述训练数据库中包括标定的所述语音对应的真实人脸动画序列;基于所述每一帧的语音数据,以及所述表情数据库,所述训练数据库,对预先构建的人脸动画模型进行时序生成对抗网络训练,得到训练后的人脸动画模型,所述人脸动画模型用于生成输入的语音数据对应的人脸动画的序列。2.根据权利要求1所述的方法,其特征在于,所述人脸动画模型包括语音编码模块,语音情绪识别模块,人脸生成模块;相应的,所述基于所述每一帧的语音数据,以及所述表情数据库,训练数据库,对预先构建的人脸动画模型进行时序生成对抗网络训练,得到训练后的人脸动画模型,包括:步骤a,针对每一帧的语音数据,通过人脸动画模型的语音编码模块对所述语音数据进行编码,得到所述语音数据对应的编码信息;步骤b,针对每一帧的语音数据,通过人脸动画模型的语音情绪识别模型对所述语音数据进行情绪识别处理,得到所述语音数据对应的表情特征;步骤c,针对每一帧的语音数据,将所述语音数据对应的表情特征,预先获取的历时人脸运动的编码信息,以及所述语音数据对应的编码信息输入所述待训练的人脸动画模型的人脸生成模块,得到所述语音数据对应的人脸动画的序列;步骤d,基于所述训练数据库中标定的语音的真实人脸动画序列,构建的人脸动画损失函数,以及所述人脸动画模型输出的每一帧语音数据对应的人脸动画的序列进行时序生成对抗网络训练,优化所述人脸动画模型的参数,重复步骤a

d直至所述人脸动画损失函数收敛,得到最终的人脸动画模型。3.根据权利要求2所述的方法,其特征在于,所述针对每一帧的语音数据,通过人脸动画模型的语音编码模块对所述语音数据进行编码,得到所述语音数据对应的编码信息,包括:针对每一帧的语音数据,通过语音编码模块的特征抽取层,采用时序卷积神经网络对所述语音数据进行特征处理,得到所述语音数据的特征信息;通过所述语音编码模块的线性插值层,对所述语音数据的特征信息进行线性插值处理,得到插值后的特征信息;通过所述语音编码模块的编码层对所述插值后的特征信息进行编码,并通过线性映射层进行线性映射处理,得到所述语音数据的编码信息。4.根据权利要求2所述的方法,其特征在于,所述针对每一帧的语音数据,通过人脸动画模型的语音情绪识别模型对所述语音数据进行情绪识别处理,得到所述语音数据对应的表情特征,包括:针对每一帧的语音数据,通过所述语音情绪识别模块的情绪特征抽取层进行DeepSpeech抽取得到所述语音数据对应的语音特征;通过所述情绪识别模块的语音情绪识别层对所述语音特征进行情绪分类,得到情绪概率分布;通过所述情绪识别模块的情绪表情查询层,基于所述情绪概率分布在所述表情数据库
中进行查询,得到所述语音数据对应的表情特征。5.根据权利要求2所述的方法,其特征在于,所述针对每一帧的语音数据,将所述语音数据对应的表情特征,预先获取的历时人脸运动的编码信息,以及所述语音数据对应的编码信息输入所述待训练的人脸动画模型的人脸生成模块,得到所述语音数据对应的人脸动画的序列,包括:针对每一帧的语音数据,通过所述人脸生成模块的解码层将预先获取的历时人脸运动的编码信息,以及所述语音数据对应的编码信息进行人脸生成,得到人脸信息;通过所述人脸生成模块的表情迁移层将所述表情特征迁移至所述人脸信息中,得到具有情绪特征的人脸动画的序列。6.根据权利要求2至5任一项所述的方法,其特征在于,所述基于所述训练数据库中标定的语音的真实人脸动画序列,构建的人脸动画损失函数,以及所述人脸动画模型输出的语音对应的人脸动画的序列进行时序生成对抗网络训练,优化所述人脸动画模型的参数,包括:构建判别器中的人脸动画损失函数:其中,λ是控制重建损失函数对总损失函数的贡献度,表示判别器分类的损失函数,表示人脸重建损失函数项;针对每一帧的语音数据,将所述人脸动画模型输出的所述语音数据对应的人脸动画的序列与所述训练数据库中标定的所述语音的真实人脸动画序列输入判别器中进行分类判别,得到所述人脸动画损失函数的值;根据所述人脸动画损失函数的值,优化所述人脸动画模型的参数。7.一种语音数据的处理方法,其特征在于,包括:对待处理的语音进行分帧处理,得到每一帧的语音数据;针对每一帧的语音数据,将所述语音数据输入人脸动画模型进行处理,得到所述语音数...

【专利技术属性】
技术研发人员:胡俊佳
申请(专利权)人:浙江吉利控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1