当前位置: 首页 > 专利查询>江西睿创科技有限公司联想新视界南昌人工智能工研院有限公司专利>正文

三维面部动画合成方法、系统、电子设备及存储介质技术方案

技术编号：37991141 阅读：9 留言：0更新日期：2023-06-30 10:05

本发明专利技术提供了一种三维面部动画合成方法、系统、电子设备及存储介质；该方法包括将目标音频转换成相对应的局部特征及全局特征；基于面部网格顶点索引得到具有若干网格顶点的网格特征，并提取若干网格顶点之间的拓扑关系；根据混合特征将基于拓扑关系聚合得到每一网格顶点与目标音频对应的即时位移；将即时位移进行训练处理后和原始头部模板相加得到位移头部模块；通过学习目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至位移头部模块，以合成三维姿态的面部动画。通过本申请，可避免语音驱动的三维人脸动画合成方法出现面部运动细节及头部姿势的缺失，确保人脸动画合成的真实性及高质量。真实性及高质量。真实性及高质量。

全部详细技术资料下载

【技术实现步骤摘要】
三维面部动画合成方法、系统、电子设备及存储介质

[0001]本专利技术属于计算机视觉的
，具体地涉及一种三维面部动画合成方法、系统、电子设备及存储介质。

技术介绍

[0002]语音驱动的三维人脸动画合成是以一段说话音频作为驱动信号来控制嘴型，生成和给定音频相配合的目标人脸视频。这种新兴技术具有广泛的应用场景，例如电影配音、视频会议、在线教育和虚拟替身等。尽管现有方法在基于语音驱动的三维面部动画问题上取得了一定进展，可以初步保持语音和面部动作的一致性，但如何保障在说话时的运动细节仍是主要难点。运动细节缺乏会导致一种平均且动作较小的结果，视觉效果难以令人满意。除此之外，现有的语音驱动的三维面部动画方法中都未考虑头部的姿势变化，这会导致整段动画比较僵硬。
[0003]目前已有的基于语音驱动的三维面部动画合成方法的关键思想是通过深度神经网络学习音频空间和三维面部运动空间之间的映射函数。然而，现有的大多数合成方法由于缺乏详细的面部表情细节和头部姿势，导致与实际人脸动画的合成结果不一致。究其原因是因为：一方面，大多数合成方法利用的是编码器
‑
解码器结构网络来建立音频和面部空间之间的映射；但是这些编码器网络只关注音频或面部网格的全局特征，导致面部动画缺乏细节表达。另一方面，由于流行的数据集中没有与音频相对应的头部姿势属性，现有的大部分方法只能产生没有姿势差异的面部动画，无法达到姿势可控的动画效果。由此可知，虽然最近涌现了大量的相关研究，但是如何生成自然且逼真的语音驱动的人脸动画视频仍然具有相当大的挑...

【技术保护点】

【技术特征摘要】
1.一种三维面部动画合成方法，其特征在于，包括：将获取的目标音频转换成相对应的局部特征及全局特征；基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系；根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移；将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块；通过学习所述目标音频的梅尔谱图特征与头部姿势之间的关系并限制头部姿势的误差，将限制误差后的头部姿势应用至所述位移头部模块，以合成三维姿态的面部动画。2.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述将获取的目标音频转换成相对应的局部特征及全局特征的步骤具体包括：采集待处理的目标音频；采用DeepSpeech方法针对所述目标音频进行处理得到每一帧的音频特征；通过卷积神经网络及多层感知机将所述目标音频转换成相对应的局部特征及全局特征。3.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述基于获取的面部网格顶点索引得到具有若干网格顶点的网格特征，并提取所述若干网格顶点之间的拓扑关系的步骤具体包括：获取面部网格顶点索引；将所述面部网格顶点索引通过傅里叶嵌入得到具有若干网格顶点的网格特征；采用trimesh方法提取所述若干网格顶点之间的拓扑关系。4.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述根据所述局部特征、所述全局特征及所述网格特征得到混合特征，将基于所述拓扑关系聚合得到每一所述网格顶点与所述目标音频对应的即时位移的步骤具体包括：将所述局部特征、所述全局特征及所述网格特征进行融合得到混合特征；采用图神经网络针对所述混合特征进行注意力上的充分交流，以使所述混合特征通过所述拓扑关系先验层聚合；输出每一所述网格顶点与所述目标音频对应的即时位移。5.根据权利要求1所述的三维面部动画合成方法，其特征在于，所述将所述即时位移进行训练处理，并将训练处理后的所述即时位移和原始头部模板相加得到位移头部模块的步骤包括：采用第一目标函数限制所述即时位移的误差；其中，所述第一目标函数为：式中，表示在时刻i预测出的顶点位移，D
i
表示在时刻i真实的顶点位移，1表示1范数；采用第二目标函数针对限制误差处理后的相邻两帧即时位移进行平滑性约束；其中，所述第二目标函数为：
式中，表示在时刻i
‑
1预测出的顶点位移，D
i
‑1表示在时刻i
‑
1真实的顶点位移，1表示1范...

【专利技术属性】
技术研发人员：李波，魏啸林，刘彬，陈伟峰，熊小环，赵旭，
申请(专利权)人：江西睿创科技有限公司联想新视界南昌人工智能工研院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人