【技术实现步骤摘要】
一种基于音频驱动的三维人脸动画生成方法、装置及介质
[0001]本专利技术涉及三维人脸驱动
,尤其涉及一种基于音频驱动的三维人脸动画生成方法、装置及介质。
技术介绍
[0002]在虚拟讲师、在线客服、电影制作等多个场景中,三维人脸动画的制作和应用具有广泛的需求。然而,以往制作三维人脸动画的方式十分费时费力,制作质量极大的依赖于动画师的经验。出于提高三维人脸动画制作效率的迫切需求,并提升三维人脸动画的唇形匹配度,研究人员开始广泛关注基于音频驱动的三维人脸动画生成方法。
[0003]基于音频驱动的三维人脸动画生成,是指针对一段音频,通过特定技术手段得到对应的三维人脸动画序列,并且保持嘴型在视觉上与音频一致。现有基于音频驱动的三维人脸动画生成方法主要包括两类:基于规则的方法和基于深度学习的方法。基于规则的方法利用发音和嘴型固有的对应关系建立规则约束,相当于构建了嘴型查询表,按照规则为每一个发音确定嘴型并将其拼接最终得到三维人脸动画。然而,此类方法存在以下问题:1)泛化性差。由于每个人在说话时风格不同,需要专门建立规则 ...
【技术保护点】
【技术特征摘要】
1.一种基于音频驱动的三维人脸动画生成方法,其特征在于,包括以下步骤:获取输入音频,提取音频特征;根据所述音频特征预测得到当前说话人的说话风格;将获得的说话风格和音频特征输入自回归系数预测模型,逐帧预测音频对应的三维人脸模型系数;将获得的三维人脸模型系数映射到三维顶点坐标;根据获得的三维顶点坐标与真实坐标计算损失,并采用嘴型和脸部关键点损失函数对模型进行训练。2.根据权利要求1所述的一种基于音频驱动的三维人脸动画生成方法,其特征在于,所述获取输入音频,提取音频特征,包括:将输入音频根据预设采样率转换为一维向量X
a
,根据一维向量X
a
提取音频特征f
a
;使用线性插值将音频特征插值到预设帧率,以使音频特征的帧率与真实三维人脸动画的帧率保持一致。3.根据权利要求1所述的一种基于音频驱动的三维人脸动画生成方法,其特征在于,所述根据所述音频特征预测得到当前说话人的说话风格,包括:使用线性整流层、批量归一化层、Softmax层构建风格编码模型;将所述音频特征输入所述风格编码模型进行预测,输出风格编码,作为当前说话人的说话风格。4.根据权利要求3所述的一种基于音频驱动的三维人脸动画生成方法,其特征在于,所述风格编码模型在训练时,给风格编码增加一项风格一致性损失:令S
i
表示第i帧音频特征的风格编码,风格一致性损失的定义如下:其中,表示所有帧的风格编码的平均值,通过风格一致性损失约束每一帧的风格编码尽可能的保持相近。5.根据权利要求1所述的一种基于音频驱动的三维人脸动画生成方法,其特征在于,所述自回归系数预测模型包括一层Transformer解码器和两层线性整流层;所述将获得的说话风格和音频特征输入自回归系数预测模型,逐帧预测音频对应的三维人脸模型系数,包括:在预测第1帧音频对应的三维人脸模型系数时,以说话风格S和第1帧音频的音频特征作为Transformer解码器的输入,提取得到特征F1,使用第一层线性整流层根据特征F1预测得到第一帧系数C1;使用第二层线性整流层根据第一帧系数C1提取得到第一帧嘴型动画特征A1,作为当前嘴型动画特征A=A1;在预测第2帧系数C2时,则将说话风格S和当前嘴型动画特征A1相加,结合前两帧的音频特征使用Transformer解码器和第一层线性整流层预测得到前两帧的系数C
1,2
;
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。