基于层级语音特征关键点位移的3D说话头动画生成方法及系统技术方案

技术编号：43840983 阅读：8 留言：0更新日期：2024-12-31 18:36

本发明专利技术公开了一种基于层级语音特征关键点位移的3D说话头动画生成方法及系统，方法包括以下步骤：获取原始语音信号并提取不同层级的语音特征；通过可学习的线性层为每个层级的语音特征学习对应的重要性权重；计算各层级的语音特征的加权和，得到加权关键点位移；将加权关键点位移输入线性层得到预测的稀疏关键点位移；将稀疏关键点位移转换为稠密关键点位移；根据稠密关键点位移生成3D说话头动画。本发明专利技术有效捕捉到不同层级语音特征与面部关键点之间的相关性，帮助从语音里面推断面部细节，使得生成的3D说话头动画具有更高的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息，具体涉及一种基于层级语音特征关键点位移的3d说话头动画生成方法及系统。

技术介绍

1、语音驱动的3d说话头动画(3d面部动画)技术广泛应用于多媒体应用，如商业、娱乐和教育。因此，开发准确高效生成的说话头像越来越受到图形、计算机视觉和多媒体技术研究人员的关注。语音驱动的3d面部动画是一项从语音到视觉的复杂且具有挑战性的跨模态任务。它使用提供的语音来预测所有面部细微差别，同时保证动画质量，例如自然度和流畅度。

2、然而，由于固有的发音规则和面部表情、说话风格和情绪等的变化，学习如何将语音特征映射到相应的面部动作由于其一对多的本质而变得困难。关键点对于表示语音过程中活动强度高的区域(如嘴部区域)的运动特别有效，这对于语音驱动的3d说话头生成来说是理想的选择，因此引起了研究人员的兴趣。然而，大多数这些研究在学习面部关键点时，仅仅考虑了单级语音特征。因此，他们在很大程度上忽略了短期发音单元在不同音素、单词、语句甚至不同说话风格中的变化，这往往导致面部动画不自然和过度平滑。

技术实现思路

1、本专利技术要解决的技术问题：针对现有技术的上述问题，提供一种基于层级语音特征关键点位移的3d说话头动画生成方法及系统，有效捕捉到不同层级语音特征与面部关键点之间的相关性，帮助从语音里面推断面部细节，使得生成的3d说话头动画具有更高的质量。

2、为了解决上述技术问题，本专利技术采用的技术方案为：

3、一种基于层级语音特征关键点位移的3d说话头动画生成方法，包括以下步骤：

4、获取原始语音信号并提取不同层级的语音特征；

5、通过可学习的线性层为每个层级的语音特征学习对应的重要性权重；

6、计算各层级的语音特征的加权和，得到加权关键点位移；

7、将加权关键点位移输入线性层得到预测的稀疏关键点位移；

8、将稀疏关键点位移转换为稠密关键点位移；

9、根据稠密关键点位移生成3d说话头动画。

10、进一步的，获取原始语音信号并提取不同层级的语音特征时，包括：

11、将原始语音信号输入语音特征提取器，得到语音特征

12、基于语音特征和短期发音单元在帧级别、音素级别、词级别和句子级别的持续时间的统计学特性，使用分层语音特征提取器提取帧级别音素级别词级别和句子级别的语音特征。

13、进一步的，通过可学习的线性层为每个层级的语音特征学习对应的重要性权重时，包括：

14、将当前层级的语音特性经过线性层进行维度调整；

15、将当前层级的维度调整后的语音特征分别输入不同的两个线性层，然后将两个不同线性层的输出经过双曲正切函数合并，最后输入输出维度为1的线性层，得到当前层级的语音特征对应的重要性权重；

16、对所有层级的语音特征对应的重要性权重使用softmax(*)函数进行归一化计算，得到所有层级的语音特征的最终重要性权重。

17、进一步的，将加权关键点位移输入线性层得到预测的稀疏关键点位移之前，还包括：计算原始语音信号的语音特征对应的稀疏关键点位移的真实参考值；将加权关键点位移输入线性层得到预测的稀疏关键点位移时，包括：

18、将加权关键点位移输入线性层进行维度变换，得到预测的稀疏关键的位移，并使用稀疏关键点位移的真实参考值进行约束，以更新每一轮预测时的网络参数。

19、进一步的，使用稀疏关键点位移的真实参考值进行约束时，包括：

20、计算预测的稀疏关键点位移与稀疏关键点位移的真实参考值之间的损失函数，所述损失函数表达式如下：

21、lhsf2s＝1·lrec,hsf2s+1·lm,hsf2s+10·lvel,hsf2s+0.0001·lcos,hsf2s

22、其中，lrec,hsf2s表示预测的稀疏关键点位移与稀疏关键点位移的真实参考值之间的重构损失，lm,hsf2s表示预测的稀疏关键点位移与稀疏关键点位移的真实参考值之间的嘴部损失，lvel,hsf2s表示预测的稀疏关键点位移与稀疏关键点位移的真实参考值之间的速度损失，lcos,hsf2s表示预测的稀疏关键点位移与稀疏关键点位移的真实参考值之间的余弦损失；

23、计算损失函数关于网络参数的梯度，然后使用根据所述梯度更新网络参数。

24、进一步的，计算原始语音信号的语音特征对应的稀疏关键点位移的真实参考值时，包括：

25、获取原始语音信号的每一帧对应的面部关键点和中性面部关键点，计算面部关键点和中性面部关键点之差，得到稀疏关键点位移的真实参考值。

26、进一步的，将稀疏关键点位移转换为稠密关键点位移时，包括以下步骤：

27、计算稠密关键点位移的真实参考值；

28、将当前时刻预测得到的稀疏关键点位移和当前时刻之前所有时刻的稠密关键点位移一起输入稠密解码器，获取稠密解码器输出的当前时刻预测的稠密关键点位移，并通过稠密关键点位移的真实参考值进行约束，以更新每一轮预测时稠密解码器的网络参数。

29、进一步的，计算稠密关键点位移的真实参考值时，包括：

30、获取原始语音信号的每一帧对应的稠密关键点和中性面部网格，计算稠密关键点和中性面部网格之差，得到稠密关键点位移的真实参考值。

31、进一步的，通过稠密关键点位移的真实参考值进行约束时，包括：

32、计算预测的稠密关键点位移与稠密关键点位移的真实参考值之间的损失函数，所述损失函数表达式如下：

33、ls2d＝1·lrec,s2d+1·lm,s2d+0.0001·lcos,s2d

34、其中，lrec,s2d表示预测的稠密关键点位移与稠密关键点位移的真实参考值之间的重构损失，lm,s2d表示预测的稠密关键点位移与稠密关键点位移的真实参考值之间的嘴部损失，lcos,s2d表示预测的稠密关键点位移与稠密关键点位移的真实参考值之间的余弦损失；

35、计算损失函数关于网络参数的梯度，然后使用根据所述梯度更新网络参数。

36、本专利技术还提出一种基于层级语音特征关键点位移的3d说话头动画生成系统，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或者配置以执行任一项所述的基于层级语音特征关键点位移的3d说话头动画生成方法。

37、与现有技术相比，本专利技术的优点在于：

38、本专利技术使用分层语音特征提取器，针对原始语音的语音特征提取不同层级的语音特征后，将不同层级的语音特征分别输入线性层得到对应的权重，通过权重机制来学习不同层级语音特征对人脸关键点的贡献程度，提高了从语音中推断关键点位移的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，获取原始语音信号并提取不同层级的语音特征时，包括：

3.根据权利要求1所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，通过可学习的线性层为每个层级的语音特征学习对应的重要性权重时，包括：

4.根据权利要求1所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，将加权关键点位移输入线性层得到预测的稀疏关键点位移之前，还包括：计算原始语音信号的语音特征对应的稀疏关键点位移的真实参考值；将加权关键点位移输入线性层得到预测的稀疏关键点位移时，包括：

5.根据权利要求4所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，使用稀疏关键点位移的真实参考值进行约束时，包括：

6.根据权利要求4所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，计算原始语音信号的语音特征对应的稀疏关键点位移的真实参考值时，包括：

7.根据权利要求1所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，将稀疏关键点位移转换为稠密关键点位移时，包括以下步骤：

8.根据权利要求7所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，计算稠密关键点位移的真实参考值时，包括：

9.根据权利要求7所述的基于层级语音特征关键点位移的3D说话头动画生成方法，其特征在于，通过稠密关键点位移的真实参考值进行约束时，包括：

10.一种基于层级语音特征关键点位移的3D说话头动画生成系统，其特征在于，包括互相连接的微处理器和计算机可读存储介质，所述微处理器被编程或者配置以执行权利要求1～9任一项所述的基于层级语音特征关键点位移的3D说话头动画生成方法。

...

【技术特征摘要】

1.一种基于层级语音特征关键点位移的3d说话头动画生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于层级语音特征关键点位移的3d说话头动画生成方法，其特征在于，获取原始语音信号并提取不同层级的语音特征时，包括：

3.根据权利要求1所述的基于层级语音特征关键点位移的3d说话头动画生成方法，其特征在于，通过可学习的线性层为每个层级的语音特征学习对应的重要性权重时，包括：

4.根据权利要求1所述的基于层级语音特征关键点位移的3d说话头动画生成方法，其特征在于，将加权关键点位移输入线性层得到预测的稀疏关键点位移之前，还包括：计算原始语音信号的语音特征对应的稀疏关键点位移的真实参考值；将加权关键点位移输入线性层得到预测的稀疏关键点位移时，包括：

5.根据权利要求4所述的基于层级语音特征关键点位移的3d说话头动画生成方法，其特征在于，使用稀疏关键点位移的真实参考值进行约束时，包括：

...

【专利技术属性】
技术研发人员：张子兴，王彬，赵欢，秦拯，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人