基于因果卷积的音频驱动表情方法及装置制造方法及图纸

技术编号：35444957 阅读：17 留言：0更新日期：2022-11-03 11:57

本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置，所述方法包括：对获取的目标音频数据进行特征提取，得到目标音频特征向量；将目标音频特征向量和目标标识输入音频驱动动画模型；将目标音频特征向量输入包含多层卷积层的音频编码层，根据上一层t时刻和t

全部详细技术资料下载

【技术实现步骤摘要】
基于因果卷积的音频驱动表情方法及装置

[0001]本申请涉及数据处理
，具体而言，涉及一种基于因果卷积的音频驱动表情方法及装置、存储介质、电子装置。

技术介绍

[0002]语音驱动三维人脸动画的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对真人录音或者使用从文本到语音(Text To Speech，简称为TTS)技术合成的语音进行预处理，使之驱动虚拟的三维人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。
[0003]相关技术中，语音驱动三维人脸动画的研究主要集中在合成同步、精确的口型动画，以及通过语音分析实现对面部表情的分类上，目前还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部表情。缺乏面部表情会使得语音驱动虚拟人的表情木讷、呆滞，没有较为丰富的信息反馈，降低了人机交互的可理解性和认知度。
[0004]针对相关技术中，无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题，尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置、存储介质、电子装置，以至少解决相关技术中无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题。
[0006]在本申请的一个实施例中，提出了一种基于因果卷积的音频驱动表情方法，包括：对获取的目标音频数据进行特征提取，得到目标音频特征向量；
[0007]将所述目标音频特征向量...

【技术保护点】

【技术特征摘要】
1.一种基于因果卷积的音频驱动表情方法，其特征在于，包括：对获取的目标音频数据进行特征提取，得到目标音频特征向量；将所述目标音频特征向量和目标标识输入音频驱动动画模型，其中，所述目标标识为从预设标识中选取的标识，所述预设标识用于指示预设的说话风格，所述音频驱动动画模型包括音频编码层和独热编码层；其中，所述音频编码层包括输入层、输出层，以及分布于所述输入层与所述输出层之间的多个卷积层，每一卷积层包括多个第一卷积通道以及多个第二卷积通道，所述第一卷积通道用于指示非空闲的卷积通道，所述第二卷积通道用于指示空闲的卷积通道；位于上一层的所述卷积层中的所述第二卷积通道数量小于位于下一层的所述卷积层中的所述第二卷积通道数量；将所述目标音频特征向量输入所述音频编码层，根据每一层卷积层中的所述第一卷积通道针对输入特征向量进行计算；根据上一层卷积层在t时刻和t
‑
n时刻之间的输入特征向量确定下一层卷积层在(2t
‑
n)/2时刻的输入特征向量，将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层卷积层的有效特征向量输出目标音频编码特征，并将所述目标标识输入所述独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；根据所述目标音频编码特征和所述目标标识编码特征，通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值；根据所述混合变形值驱动虚拟对象的口型动画和面部表情，其中，所述混合变形值与所述目标标识相对应。2.根据权利要求1所述的方法，其特征在于，在将所述音频特征向量和目标标识输入音频驱动动画模型之前，所述方法还包括：使用样本数据训练所述音频驱动动画模型，其中，所述样本数据包括采集的说话对象的音频数据和与所述音频数据同步采集的所述说话对象的面部数据，以及所述面部数据对应的混合变形样本值，所述面部数据包括口型和面部表情。3.根据权利要求2所述的方法，其特征在于，所述使用样本数据训练所述音频驱动动画模型，包括：通过自动语音识别模型提取所述音频数据的局部特征向量；将所述局部特征向量输入包含多层卷积层的所述音频编码层，根据上一层卷积层在t时刻和t
‑
n时刻之间的输入特征向量确定下一层卷积层在(2t
‑
n)/2时刻的输入特征向量，将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效局部特征向量，依次根据每一层卷积层的有效局部特征向量输出所述音频数据对应的音频编码特征；将所述说话对象的面部数据对应的标识输入独热编码层，得到所述标识对应的标识编码特征，其中，不同的所述面部数据对应不同的说话风格，所述标识用于指示所述说话风格；将所述音频编码特征和所述标识编码特征拼接后进行编码和解码，输出所述音频数据对应的混合变形预测值，其中，所述混合变形预测值与所述标识相对应；根据所述混合变形样本值和所述混合变形预测值的误差，使用损失函数训练所述音频驱动动画模型的模型参数。4.根据权利要求3所述的方法，其特征在于，所述根据所述混合变形样本值和所述混合
变形预测值的误差，使用损失函数训练所述音频驱动动画模型的模型参数，包括：使用L2 loss函...

【专利技术属性】
技术研发人员：司马华鹏，廖铮，唐翠翠，
申请(专利权)人：宿迁硅基智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人