一种基于音频驱动的三维人脸动画生成方法、装置及介质制造方法及图纸

技术编号：37975058 阅读：25 留言：0更新日期：2023-06-30 09:50

本发明专利技术公开了一种基于音频驱动的三维人脸动画生成方法、装置及介质，其中方法包括：获取输入音频，提取音频特征；根据所述音频特征预测得到当前说话人的说话风格；将获得的说话风格和音频特征输入自回归系数预测模型，逐帧预测音频对应的三维人脸模型系数；将获得的三维人脸模型系数映射到三维顶点坐标；根据获得的三维顶点坐标与真实坐标计算损失，并采用嘴型和脸部关键点损失函数对模型进行训练。本发明专利技术通过自回归系数预测算法解决三维人脸动画生成方法泛化性弱、嘴型匹配度低的问题，有效地提高生成动画的嘴型匹配度和模型对于新人脸或新音频的驱动能力。本发明专利技术可广泛应用于三维人脸驱动技术领域。维人脸驱动技术领域。维人脸驱动技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音频驱动的三维人脸动画生成方法、装置及介质

[0001]本专利技术涉及三维人脸驱动
，尤其涉及一种基于音频驱动的三维人脸动画生成方法、装置及介质。

技术介绍

[0002]在虚拟讲师、在线客服、电影制作等多个场景中，三维人脸动画的制作和应用具有广泛的需求。然而，以往制作三维人脸动画的方式十分费时费力，制作质量极大的依赖于动画师的经验。出于提高三维人脸动画制作效率的迫切需求，并提升三维人脸动画的唇形匹配度，研究人员开始广泛关注基于音频驱动的三维人脸动画生成方法。
[0003]基于音频驱动的三维人脸动画生成，是指针对一段音频，通过特定技术手段得到对应的三维人脸动画序列，并且保持嘴型在视觉上与音频一致。现有基于音频驱动的三维人脸动画生成方法主要包括两类：基于规则的方法和基于深度学习的方法。基于规则的方法利用发音和嘴型固有的对应关系建立规则约束，相当于构建了嘴型查询表，按照规则为每一个发音确定嘴型并将其拼接最终得到三维人脸动画。然而，此类方法存在以下问题：1)泛化性差。由于每个人在说话时风格不同，需要专门建立规则...

【技术保护点】

【技术特征摘要】
1.一种基于音频驱动的三维人脸动画生成方法，其特征在于，包括以下步骤：获取输入音频，提取音频特征；根据所述音频特征预测得到当前说话人的说话风格；将获得的说话风格和音频特征输入自回归系数预测模型，逐帧预测音频对应的三维人脸模型系数；将获得的三维人脸模型系数映射到三维顶点坐标；根据获得的三维顶点坐标与真实坐标计算损失，并采用嘴型和脸部关键点损失函数对模型进行训练。2.根据权利要求1所述的一种基于音频驱动的三维人脸动画生成方法，其特征在于，所述获取输入音频，提取音频特征，包括：将输入音频根据预设采样率转换为一维向量X
a
，根据一维向量X
a
提取音频特征f
a
；使用线性插值将音频特征插值到预设帧率，以使音频特征的帧率与真实三维人脸动画的帧率保持一致。3.根据权利要求1所述的一种基于音频驱动的三维人脸动画生成方法，其特征在于，所述根据所述音频特征预测得到当前说话人的说话风格，包括：使用线性整流层、批量归一化层、Softmax层构建风格编码模型；将所述音频特征输入所述风格编码模型进行预测，输出风格编码，作为当前说话人的说话风格。4.根据权利要求3所述的一种基于音频驱动的三维人脸动画生成方法，其特征在于，所述风格编码模型在训练时，给风格编码增加一项风格一致性损失：令S
i
表示第i帧音频特征的风格编码，风格一致性损失的定义如下：其中，表示所有帧的风格编码的平均值，通过风格一致性损失约束每一帧的风格编码尽可能的保持相近。5.根据权利要求1所述的一种基于音频驱动的三维人脸动画生成方法，其特征在于，所述自回归系数预测模型包括一层Transformer解码器和两层线性整流层；所述将获得的说话风格和音频特征输入自回归系数预测模型，逐帧预测音频对应的三维人脸模型系数，包括：在预测第1帧音频对应的三维人脸模型系数时，以说话风格S和第1帧音频的音频特征作为Transformer解码器的输入，提取得到特征F1，使用第一层线性整流层根据特征F1预测得到第一帧系数C1；使用第二层线性整流层根据第一帧系数C1提取得到第一帧嘴型动画特征A1，作为当前嘴型动画特征A＝A1；在预测第2帧系数C2时，则将说话风格S和当前嘴型动画特征A1相加，结合前两帧的音频特征使用Transformer解码器和第一层线性整流层预测得到前两帧的系数C
1,2
；

【专利技术属性】
技术研发人员：谭明奎，刘旭，杜卿，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人