基于因果卷积的音频驱动表情方法及装置制造方法及图纸

技术编号:35444957 阅读:17 留言:0更新日期:2022-11-03 11:57
本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置,所述方法包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;将目标音频特征向量和目标标识输入音频驱动动画模型;将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t

【技术实现步骤摘要】
基于因果卷积的音频驱动表情方法及装置


[0001]本申请涉及数据处理
,具体而言,涉及一种基于因果卷积的音频驱动表情方法及装置、存储介质、电子装置。

技术介绍

[0002]语音驱动三维人脸动画的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对真人录音或者使用从文本到语音(Text To Speech,简称为TTS)技术合成的语音进行预处理,使之驱动虚拟的三维人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。
[0003]相关技术中,语音驱动三维人脸动画的研究主要集中在合成同步、精确的口型动画,以及通过语音分析实现对面部表情的分类上,目前还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部表情。缺乏面部表情会使得语音驱动虚拟人的表情木讷、呆滞,没有较为丰富的信息反馈,降低了人机交互的可理解性和认知度。
[0004]针对相关技术中,无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置、存储介质、电子装置,以至少解决相关技术中无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题。
[0006]在本申请的一个实施例中,提出了一种基于因果卷积的音频驱动表情方法,包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;
[0007]将所述目标音频特征向量和目标标识输入音频驱动动画模型,其中,所述目标标识为从预设标识中选取的标识,所述预设标识用于指示预设的说话风格,所述音频驱动动画模型包括音频编码层和独热编码层;其中,所述音频编码层包括输入层、输出层,以及分布于所述输入层与所述输出层之间的多个卷积层,每一卷积层包括多个第一卷积通道以及多个第二卷积通道,所述第一卷积通道用于指示非空闲的卷积通道,所述第二卷积通道用于指示空闲的卷积通道;位于上一层的所述卷积层中的所述第二卷积通道数量小于位于下一层的所述卷积层中的所述第二卷积通道数量;
[0008]将所述目标音频特征向量输入所述音频编码层,根据每一层卷积层中的所述第一卷积通道针对输入特征向量进行计算;根据上一层卷积层在t时刻和t

n时刻之间的输入特征向量确定下一层卷积层在(2t

n)/2时刻的输入特征向量,将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层卷积层的有效特征向量输出目标音频编码特征,并将所述目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;
[0009]根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模
型输出所述目标音频数据对应的混合变形值;
[0010]根据所述混合变形值驱动虚拟对象的口型动画和面部表情,其中,所述混合变形值与所述目标标识相对应。
[0011]在本申请的一个实施例中,还提出了一种基于因果卷积的音频驱动表情装置,包括:特征提取模块,配置为对获取的目标音频数据进行特征提取,得到目标音频特征向量;输入模块,配置为将所述目标音频特征向量和目标标识输入音频驱动动画模型,其中,所述目标标识为从预设标识中选取的标识,所述预设标识用于指示预设的说话风格,所述音频驱动动画模型包括:音频编码层和独热编码层;其中,所述音频编码层包括输入层、输出层,以及分布于所述输入层与所述输出层之间的多个卷积层,每一卷积层包括多个第一卷积通道以及多个第二卷积通道,所述第一卷积通道用于指示非空闲的卷积通道,所述第二卷积通道用于指示空闲的卷积通道;位于上一层的所述卷积层中的所述第二卷积通道数量小于位于下一层的所述卷积层中的所述第二卷积通道数量;编码模块,配置为将所述目标音频特征向量输入所述音频编码层,根据每一层卷积层中的所述第一卷积通道针对输入特征向量进行计算;根据上一层卷积层在t时刻和t

n时刻之间的输入特征向量确定下一层卷积层在(2t

n)/2时刻的输入特征向量,将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层卷积层的有效特征向量输出目标音频编码特征,并将所述目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;输出模块,配置为根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值;所述输出模块还配置为,根据所述混合变形值驱动虚拟对象的口型动画和面部表情,其中,所述混合变形值与所述目标标识相对应。
[0012]在本申请的一个实施例中,还提出了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0013]在本申请的一个实施例中,还提出了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0014]通过本申请实施例,对获取的目标音频数据进行特征提取,得到目标音频特征向量;将目标音频特征向量和目标标识输入音频驱动动画模型,其中,目标标识为从预设标识中选取的标识,预设标识用于指示预设的说话风格,音频驱动动画模型包括:音频编码层和独热编码层;将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t

n时刻之间的输入特征向量确定下一层(2t

n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值,其中,混合变形值用于指示虚拟对象的口型动画和面部表情,混合变形值与目标标识相对应。解决了相关技术中无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题,本申请使用的编码方式相对于现有的卷积神经网络的编码方式,计算速度快,消耗小,极大的提高了动画生成速度,可以根据音频
实时产生说话动画,同时结合目标标识编码,可以产生指定人物风格的说话动画,适用于多种应用场景。
附图说明
[0015]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0016]图1是根据本申请实施例的一种可选的基于因果卷积的音频驱动表情方法流程图;
[0017]图2是根据本申请实施例的一种可选的音频特征编码方式示意图;
[0018]图3是根据本申请实施例的一种可选的训练数据预处理流程示意图;
[0019]图4是根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于因果卷积的音频驱动表情方法,其特征在于,包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;将所述目标音频特征向量和目标标识输入音频驱动动画模型,其中,所述目标标识为从预设标识中选取的标识,所述预设标识用于指示预设的说话风格,所述音频驱动动画模型包括音频编码层和独热编码层;其中,所述音频编码层包括输入层、输出层,以及分布于所述输入层与所述输出层之间的多个卷积层,每一卷积层包括多个第一卷积通道以及多个第二卷积通道,所述第一卷积通道用于指示非空闲的卷积通道,所述第二卷积通道用于指示空闲的卷积通道;位于上一层的所述卷积层中的所述第二卷积通道数量小于位于下一层的所述卷积层中的所述第二卷积通道数量;将所述目标音频特征向量输入所述音频编码层,根据每一层卷积层中的所述第一卷积通道针对输入特征向量进行计算;根据上一层卷积层在t时刻和t

n时刻之间的输入特征向量确定下一层卷积层在(2t

n)/2时刻的输入特征向量,将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层卷积层的有效特征向量输出目标音频编码特征,并将所述目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值;根据所述混合变形值驱动虚拟对象的口型动画和面部表情,其中,所述混合变形值与所述目标标识相对应。2.根据权利要求1所述的方法,其特征在于,在将所述音频特征向量和目标标识输入音频驱动动画模型之前,所述方法还包括:使用样本数据训练所述音频驱动动画模型,其中,所述样本数据包括采集的说话对象的音频数据和与所述音频数据同步采集的所述说话对象的面部数据,以及所述面部数据对应的混合变形样本值,所述面部数据包括口型和面部表情。3.根据权利要求2所述的方法,其特征在于,所述使用样本数据训练所述音频驱动动画模型,包括:通过自动语音识别模型提取所述音频数据的局部特征向量;将所述局部特征向量输入包含多层卷积层的所述音频编码层,根据上一层卷积层在t时刻和t

n时刻之间的输入特征向量确定下一层卷积层在(2t

n)/2时刻的输入特征向量,将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效局部特征向量,依次根据每一层卷积层的有效局部特征向量输出所述音频数据对应的音频编码特征;将所述说话对象的面部数据对应的标识输入独热编码层,得到所述标识对应的标识编码特征,其中,不同的所述面部数据对应不同的说话风格,所述标识用于指示所述说话风格;将所述音频编码特征和所述标识编码特征拼接后进行编码和解码,输出所述音频数据对应的混合变形预测值,其中,所述混合变形预测值与所述标识相对应;根据所述混合变形样本值和所述混合变形预测值的误差,使用损失函数训练所述音频驱动动画模型的模型参数。4.根据权利要求3所述的方法,其特征在于,所述根据所述混合变形样本值和所述混合
变形预测值的误差,使用损失函数训练所述音频驱动动画模型的模型参数,包括:使用L2 loss函...

【专利技术属性】
技术研发人员:司马华鹏廖铮唐翠翠
申请(专利权)人:宿迁硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1