一种基于语音驱动虚拟人脸动作的方法及系统技术方案

技术编号：40985007 阅读：3 留言：0更新日期：2024-04-18 21:29

本申请提供一种基于语音驱动虚拟人脸动作的方法，所述方法包括：提取语音特征；根据所述语音特征获取对应的混合形状；根据所述混合形状控制所述虚拟人脸的动作和/或形状变化。通过使用本申请公开的技术方案，具有高鲁棒性和准确性的特点，同时通过向量嵌入的方式，可以显式地实现语音弱相关动作控制。此外，本方法实时处理数据，满足人机交互领域的基本需求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于动画制作，特别是涉及一种基于语音驱动虚拟人脸动作的方法及系统。

技术介绍

1、根据语音同步驱动三维虚拟人脸口型属于计算机图形学和人机交互领域的一种技术，通常被称为语音驱动的三维人脸动画或者口型同步技术。这项技术利用语音信号中的信息，将其与三维虚拟人脸模型相结合，实现口型与语音内容的高度同步，使得虚拟人物能够栩栩如生地模仿并同步表达出语音的内容和情感。

2、语音驱动口型技术有两种主要实现方法：基于简单的语言学的模型和基于神经网络的模型。这两种方法在处理语音数据和生成口型形状方面有着不同的特点和优势。

3、基于语言学模型的传统方法是利用语音学的知识，将音频信号分解为基本的音素单元，然后为每个音素捏合相应的口型。音素是语音的最小发音单位，每个音素通常对应于一些特定的口腔形状。通过将提取出的每个音素的口型进行加权平均，生成最终的口型形状。这种方法更依赖于人工对音素和口型之间关系的建模和设计。

4、基于神经网络的模型，是利用深度学习强大的函数拟合能力，可以直接将音频数据映射到口型形状当中，学习音频和口型之间的复杂非线性关系，而不是需要事先预定义音素信息。但是基于神经网络的方法也面临着诸多挑战：首先，深度学习本身是一种数据驱动的算法，依赖于大量数据才能学习到良好的先验知识。当数据量较小时，神经网络的泛化性较差，无法保证生成口型的准确性。其次，当数据量较大时，因为采集数据的不同个体之间口型的差异性，会导致“平均脸”现象。最后，如何控制说话人的语音弱相关动作(例如眨眼、眉毛运动和情绪等)也是一项挑战。

5、因此，如何提供一种准确且具有良好泛化性的语音驱动口型和表情方法，成为本领域亟待解决的问题。

6、前面的叙述在于提供一般的背景信息，并不一定构成现有技术。

技术实现思路

1、鉴于以上所述现有技术的缺点，本专利技术提供了一种基于语音驱动虚拟人脸动作的方法，可以根据用户输入的语音，经过语音的高级语义信息提取，在三维虚拟人脸头像上合成与语音同步的口型动画和面部表情。

2、本申请提供了一种基于语音驱动虚拟人脸动作的方法，所述方法包括：提取语音特征；根据所述语音特征获取对应的混合形状；根据所述混合形状控制所述虚拟人脸的动作和/或形状变化。

3、根据本申请的一个实施方式，所述提取语音特征的步骤之前，还包括：构建语音与虚拟人脸动作的数据集；根据所述数据集对hubert模型进行预训练得到hubert预训练模型。

4、根据本申请的一个实施方式，所述提取语音特征，包括：接收用户输入的语音信息；根据所述hubert预训练模型从所述语音信息中提取语音特征。

5、根据本申请的一个实施方式，所述提取语音特征的步骤之前，还包括：构建虚拟人脸动作与混合形状对应关系的数据库；其中，所述虚拟人脸动作包括：口型动作、表情动作以及眨眼动作；构建语音与混合形状及所述混合形状的权重的对应关系的数据库。

6、根据本申请的一个实施方式，根据所述语音特征获取对应的混合形状的步骤，包括：根据所述语音特征获取对应的所述混合形状权重；根据所述混合形状权重从所述数据库中的混合形状获得对应的虚拟人脸动作。

7、根据本申请的一个实施方式，根据所述语音特征获取对应的混合形状以及所述混合形状的权重的步骤，还包括：将所述混合形状与眨眼参数进行分析处理；当所述混合形状满足眨眼条件时，将所述眨眼动作的眨眼动作向量嵌入到所述语音特征中；根据所述嵌入眨眼动作向量的语音特征获得所述混合形状的权重。

8、根据本申请的一个实施方式，根据所述语音特征获取对应的混合形状以及所述混合形状的权重的步骤，还包括：接收用户输入的表情类型；根据所述表情类型确定所述表情动作的表情动作向量，并将所述表情动作向量嵌入到所述语音特征中；根据所述嵌入表情动作向量的语音特征获得所述混合形状的权重。

9、根据本申请的一个实施方式，所述语音特征包括：声音特征和/或语义特征；其中，声音特征包括：语速、语调、长度中的至少一种。

10、本申请还提供了一种基于语音驱动虚拟人脸动作的系统，所述系统包括：提取模块，用于提取接收的语音的语音特征；获取模块，用于根据所述提取模块获取的所述语音特征获取对应的混合形状；控制模块，用于根据所述混合形状控制虚拟人脸的动作和/或形状变化；数据集模块，用于构建语音与混合形状及所述混合形状的权重的数据集；数据库模块，用于构建存储虚拟人脸动作与混合形状的对应关系。

11、本申请还提供了一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于语音驱动虚拟人脸动作的方法的步骤。

12、如上所述，通过使用本申请公开的技术方案，具有以下有益效果：具有高鲁棒性和准确性的特点，同时通过向量嵌入的方式，可以显式地实现语音弱相关动作控制。此外，本方法实时处理数据，满足人机交互领域的基本需求。

本文档来自技高网...

【技术保护点】

1.一种基于语音驱动虚拟人脸动作的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取语音特征的步骤之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述提取语音特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取语音特征的步骤之前，还包括：构建虚拟人脸动作与混合形状对应关系的数据库；其中，所述虚拟人脸动作包括：口型动作、表情动作以及眨眼动作；

5.根据权利要求4所述的方法，其特征在于，根据所述语音特征获取对应的混合形状的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述语音特征获取对应的混合形状以及所述混合形状的权重的步骤，包括：

7.根据权利要求5所述的方法，其特征在于，根据所述语音特征获取对应的混合形状以及所述混合形状的权重的步骤，还包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述语音特征包括：声音特征和/或语义特征；

9.一种基于语音驱动虚拟人脸动作的系统，其特征在于，所述系统包括：