三维面部动画合成方法、系统、电子设备及存储介质技术方案

技术编号:37991141 阅读:9 留言:0更新日期:2023-06-30 10:05
本发明专利技术提供了一种三维面部动画合成方法、系统、电子设备及存储介质;该方法包括将目标音频转换成相对应的局部特征及全局特征;基于面部网格顶点索引得到具有若干网格顶点的网格特征,并提取若干网格顶点之间的拓扑关系;根据混合特征将基于拓扑关系聚合得到每一网格顶点与目标音频对应的即时位移;将即时位移进行训练处理后和原始头部模板相加得到位移头部模块;通过学习目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差,将限制误差后的头部姿势应用至位移头部模块,以合成三维姿态的面部动画。通过本申请,可避免语音驱动的三维人脸动画合成方法出现面部运动细节及头部姿势的缺失,确保人脸动画合成的真实性及高质量。真实性及高质量。真实性及高质量。

【技术实现步骤摘要】
三维面部动画合成方法、系统、电子设备及存储介质


[0001]本专利技术属于计算机视觉的
,具体地涉及一种三维面部动画合成方法、系统、电子设备及存储介质。

技术介绍

[0002]语音驱动的三维人脸动画合成是以一段说话音频作为驱动信号来控制嘴型,生成和给定音频相配合的目标人脸视频。这种新兴技术具有广泛的应用场景,例如电影配音、视频会议、在线教育和虚拟替身等。尽管现有方法在基于语音驱动的三维面部动画问题上取得了一定进展,可以初步保持语音和面部动作的一致性,但如何保障在说话时的运动细节仍是主要难点。运动细节缺乏会导致一种平均且动作较小的结果,视觉效果难以令人满意。除此之外,现有的语音驱动的三维面部动画方法中都未考虑头部的姿势变化,这会导致整段动画比较僵硬。
[0003]目前已有的基于语音驱动的三维面部动画合成方法的关键思想是通过深度神经网络学习音频空间和三维面部运动空间之间的映射函数。然而,现有的大多数合成方法由于缺乏详细的面部表情细节和头部姿势,导致与实际人脸动画的合成结果不一致。究其原因是因为:一方面,大多数合成方法利用的是编码器

解码器结构网络来建立音频和面部空间之间的映射;但是这些编码器网络只关注音频或面部网格的全局特征,导致面部动画缺乏细节表达。另一方面,由于流行的数据集中没有与音频相对应的头部姿势属性,现有的大部分方法只能产生没有姿势差异的面部动画,无法达到姿势可控的动画效果。由此可知,虽然最近涌现了大量的相关研究,但是如何生成自然且逼真的语音驱动的人脸动画视频仍然具有相当大的挑战。
[0004]因此,如何解决现有语音驱动的三维人脸动画合成方法存在的面部运动细节以及头部姿势的缺失问题,以确保人脸动画合成的真实性以及高质量,一直是本领域技术人员亟待解决的研究课题。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供了一种三维面部动画合成方法、系统、电子设备及存储介质,可以避免语音驱动的三维人脸动画合成方法出现面部运动细节以及头部姿势的缺失,确保人脸动画合成的真实性以及高质量。
[0006]第一方面,该专利技术提供一种三维面部动画合成方法,包括:将获取的目标音频转换成相对应的局部特征及全局特征;基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征,并提取所述若干网格顶点之间的拓扑关系;根据所述局部特征、所述全局特征及所述网格特征得到混合特征,将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移;将所述即时位移进行训练处理,并将训练处理后的所述即时位移和原始头部模板
相加得到位移头部模块;通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差,将限制误差后的头部姿势应用至所述位移头部模块,以合成三维姿态的面部动画。
[0007]较佳地,所述将获取的目标音频转换成相对应的局部特征及全局特征的步骤具体包括:采集待处理的目标音频;采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征;通过卷积神经网络及多层感知机将所述目标音频转换成相对应的局部特征及全局特征。
[0008]较佳地,所述基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征,并提取所述若干网格顶点之间的拓扑关系的步骤具体包括:获取面部网格顶点索引;将所述面部网格顶点索引通过傅里叶嵌入得到具有若干网格顶点的网格特征;采用trimesh方法提取所述若干网格顶点之间的拓扑关系。
[0009]较佳地,所述根据所述局部特征、所述全局特征及所述网格特征得到混合特征,将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移的步骤具体包括:将所述局部特征、所述全局特征及所述网格特征进行融合得到混合特征;采用图神经网络针对所述混合特征进行注意力上的充分交流,以使所述混合特征通过所述拓扑关系先验层聚合;输出每一所述网格顶点与所述目标音频对应的即时位移。
[0010]较佳地,所述将所述即时位移进行训练处理,并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块的步骤包括:采用第一目标函数限制所述即时位移的误差;其中,所述第一目标函数为:式中,表示在时刻i预测出的顶点位移,D
i
表示在时刻i真实的顶点位移,1表示1范数;采用第二目标函数针对限制误差处理后的相邻两帧即时位移进行平滑性约束;其中,所述第二目标函数为:式中,表示在时刻i

1预测出的顶点位移,D
i
‑1表示在时刻i

1真实的顶点位移,1表示1范数;将平滑性约束后的所述即时位移和原始头部模板相加得到位移头部模块。
[0011]较佳地,所述通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差,将限制误差后的头部姿势应用至所述位移头部模块,以合成三维姿态的面部动画的步骤包括:
通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势;将所述目标音频进行映射得到梅尔谱图特征;采用循环神经网络学习所述梅尔谱图特征和所述真实头部姿势之间的关系得到预测头部姿势;基于所述真实头部姿势及所述预测头部姿势并采用第三目标函数限制头部姿势误差;其中,所述第三目标函数为:式中,表示i时刻的预测头部姿势,表示i时刻的真实头部姿势,2表示2范数。
[0012]将限制误差后的头部姿势应用至所述位移头部模块,以合成三维姿态的面部动画。
[0013]较佳地,所述通过MakeItTalk及DECA生成与所述目标音频相对应的真实头部姿势的步骤具体包括:获取任一人物的正面头像图片及其对应的语音;基于所述正面头像图片及所述语音采用MakeItTalk方法生成带有头部姿势运动的语音视频;采用DECA方法针对所述语音视频中的头部进行重建,并提取每一时刻的头部姿势;以所述头部姿势中的第一帧头部姿势为基准,计算其他帧的头部姿势与所述第一帧头部姿势的帧差得到帧差序列,将所述帧差序列作为所述目标音频相对应的真实头部姿势。
[0014]第二方面,该专利技术提供一种三维面部动画合成系统,包括:转换模块,用于将获取的目标音频转换成相对应的局部特征及全局特征;提取模块,用于基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征,并提取所述若干网格顶点之间的拓扑关系;聚合模块,用于根据所述局部特征、所述全局特征及所述网格特征得到混合特征,将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移;训练模块,用于将所述即时位移进行训练处理,并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块;合成模块,用于通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差,将限制误差后的头部姿势应用至所述位移头部模块,以合成三维姿态的面部动画。
[0015]较佳地,所述转换模块包括:采集单元,用于采集待处理的目标音频;处置单元,用于采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征;转换单元,用于通过卷积神经网络及多层感知机将所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三维面部动画合成方法,其特征在于,包括:将获取的目标音频转换成相对应的局部特征及全局特征;基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征,并提取所述若干网格顶点之间的拓扑关系;根据所述局部特征、所述全局特征及所述网格特征得到混合特征,将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移;将所述即时位移进行训练处理,并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块;通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差,将限制误差后的头部姿势应用至所述位移头部模块,以合成三维姿态的面部动画。2.根据权利要求1所述的三维面部动画合成方法,其特征在于,所述将获取的目标音频转换成相对应的局部特征及全局特征的步骤具体包括:采集待处理的目标音频;采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征;通过卷积神经网络及多层感知机将所述目标音频转换成相对应的局部特征及全局特征。3.根据权利要求1所述的三维面部动画合成方法,其特征在于,所述基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征,并提取所述若干网格顶点之间的拓扑关系的步骤具体包括:获取面部网格顶点索引;将所述面部网格顶点索引通过傅里叶嵌入得到具有若干网格顶点的网格特征;采用trimesh方法提取所述若干网格顶点之间的拓扑关系。4.根据权利要求1所述的三维面部动画合成方法,其特征在于,所述根据所述局部特征、所述全局特征及所述网格特征得到混合特征,将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移的步骤具体包括:将所述局部特征、所述全局特征及所述网格特征进行融合得到混合特征;采用图神经网络针对所述混合特征进行注意力上的充分交流,以使所述混合特征通过所述拓扑关系先验层聚合;输出每一所述网格顶点与所述目标音频对应的即时位移。5.根据权利要求1所述的三维面部动画合成方法,其特征在于,所述将所述即时位移进行训练处理,并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块的步骤包括:采用第一目标函数限制所述即时位移的误差;其中,所述第一目标函数为:式中,表示在时刻i预测出的顶点位移,D
i
表示在时刻i真实的顶点位移,1表示1范数;采用第二目标函数针对限制误差处理后的相邻两帧即时位移进行平滑性约束;其中,所述第二目标函数为:
式中,表示在时刻i

1预测出的顶点位移,D
i
‑1表示在时刻i

1真实的顶点位移,1表示1范...

【专利技术属性】
技术研发人员:李波魏啸林刘彬陈伟峰熊小环赵旭
申请(专利权)人:江西睿创科技有限公司联想新视界南昌人工智能工研院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1