System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音驱动人脸模型处理方法、装置及电子设备制造方法及图纸_技高网

语音驱动人脸模型处理方法、装置及电子设备制造方法及图纸

技术编号:40942370 阅读:2 留言:0更新日期:2024-04-18 14:59
本申请实施例提供了一种语音驱动人脸模型处理方法、装置及电子设备,涉及计算机技术领域。该方法包括:将音频数据输入训练好的语音驱动人脸模型,得到模型形变数据;同时,基于语音驱动人脸模型的模板网格,获取模板网格和目标动画系统的基准网格之间的静态注册关系,然后基于静态注册关系确定目标动画系统中各个模型基底对应的最优形变基底,基于模型形变数据与最优形变基底,获取目标模型形变数据,实现通过标模型形变数据驱动目标动画系统,生成目标动画,提高了语音驱动人脸模型的可迁移性,从而减少模型迁移和应用成本,提高动画生成效率。

【技术实现步骤摘要】

本申请涉及计算机,具体而言,本申请涉及一种语音驱动人脸模型处理方法、装置及电子设备


技术介绍

1、近年来,基于语音驱动的人脸动画技术在虚拟主持人、数字娱乐、人机交互以及远程会议等方面有广泛的应用。如何快速、高效的实现语音驱动的唇形自动合成,以及优化语音与唇形面部表情之间的同步是此项技术的关键。

2、目前,语音驱动人脸(或口型)动画的建模和实现通常是以音频数据作为输入,以形变数据进行输出。然而,若将语音驱动人脸模型输出的形变数据直接应用于目标动画系统,难以保证形变数据可以正常驱动目标动画系统中的模型形变,使得模型展示效果不够好,模型可迁移性不强,难以满足实际应用需求。


技术实现思路

1、本申请实施例的目的旨在能解决语音驱动人脸模型可迁移性不强的问题。

2、第一方面,提供了一种语音驱动人脸模型处理方法,该方法包括:

3、获取语音驱动人脸模型;语音驱动人脸模型包括模板网格;获取待处理的音频数据,将音频数据输入输入语音驱动人脸模型,得到模型形变数据;模型形变数据与语音驱动人脸模型的模板网格相适配;

4、基于语音驱动人脸模型的模板网格,获取模板网格和目标动画系统的基准网格之间的静态注册关系;目标动画系统包括各个模型基底;

5、基于静态注册关系确定各个模型基底对应的最优形变基底;

6、基于模型形变数据与最优形变基底,获取目标模型形变数据;基于目标模型形变数据驱动目标动画系统,生成目标动画。

7、在第一方面的可选实施例中,基于语音驱动人脸模型的模板网格,获取模板网格和目标动画系统的基准网格之间的静态注册关系,包括:

8、通过预设的标注工具获取模板网格和目标动画系统的基准网格之间的关键点映射关系;

9、基于关键点映射关系计算得到模板网格和基准网格之间的静态注册关系。

10、在第一方面的可选实施例中,通过预设的标注工具获取模板网格和目标动画系统的基准网格之间的关键点映射关系,包括:

11、响应于用户针对模板网格的第一关键点选择操作,确定出基于预设顺序的多个第一关键点;

12、响应于用户针对基准网格的第二关键点选择操作,确定出基于预设顺序的多个第二关键点;

13、多个第一关键点与多个第二关键点之间一一对应。

14、在第一方面的可选实施例中,静态注册关系包括模板网格和基准网格在进行静态注册之后得到的多个注册点之间的对应关系;基于静态注册关系确定各个模型基底对应的最优形变基底,包括:

15、根据多个注册点之间的对应关系计算注册点残差;多个注册点之间的对应关系包括模板网格和基准网格的顶点索引数组以及重心坐标;

16、基于各个模型基底和注册点残差构建雅克比矩阵,并基于预设算法对雅克比矩阵进行求解,得到各个模型基底对应的最优形变基底。

17、在第一方面的可选实施例中,基于模型形变数据与最优形变基底,获取目标模型形变数据,包括:

18、基于模型形变数据从各个模型基底对应的最优形变基底中确定出目标形变基底;

19、基于最小二乘法计算模型形变数据在目标形变基底对应的模型空间中的目标模型形变数据。

20、在第一方面的可选实施例中,获取语音驱动人脸模型,包括:

21、获取针对预设基础模型的训练数据,训练数据包括音频样本数据以及对应的样本形变数据;

22、根据训练数据训练预设基础模型,得到语音驱动人脸模型。

23、在第一方面的可选实施例中,获取针对预设基础模型的训练数据,包括:

24、基于面部捕捉系统采集人脸扫描数据,以及与人脸扫描数据时间同步的音频数据;基于音频数据获取音频样本数据;

25、获取人脸基准模板,基于人脸基准模板和人脸扫描数据进行点云几何注册,得到样本形变数据。

26、在第一方面的可选实施例中,根据训练数据训练预设基础模型,得到语音驱动人脸模型,包括:

27、通过拟合音频样本数据和样本形变数据之间的时间序列转换,对预设基础模型的参数进行调整,得到初步模型;

28、对初步模型进行优化处理,得到语音驱动人脸模型;其中,优化处理包括整型量化和稀疏化中的至少一种。

29、在第一方面的可选实施例中,对初步模型进行优化处理,得到语音驱动人脸模型,包括:

30、通过预设的模型剪枝工具,将初步模型中的参数张量转换为稀疏张量,得到语音驱动人脸模型。

31、第二方面,提供了一种语音驱动人脸模型处理装置,该装置包括:

32、形变数据获取模块,用于获取语音驱动人脸模型;语音驱动人脸模型包括模板网格;获取待处理的音频数据,将音频数据输入输入语音驱动人脸模型,得到模型形变数据;模型形变数据与语音驱动人脸模型的模板网格相适配;

33、静态注册模块,用于基于语音驱动人脸模型的模板网格,获取模板网格和目标动画系统的基准网格之间的静态注册关系;目标动画系统还包括各个模型基底;

34、最优形变确定模块,用于目标动画系统还包括各个模型基底;基于静态注册关系确定各个模型基底对应的最优形变基底;

35、动画生成模块,用于基于模型形变数据与最优形变基底,获取目标模型形变数据;基于目标模型形变数据驱动目标动画系统,生成目标动画。

36、第三方面,提供了一种电子设备,该电子设备包括:

37、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例的接语音驱动人脸模型处理方法。

38、第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述任一实施例的语音驱动人脸模型处理方法。

39、第五方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行时实现第一方面实施例中所提供的方法。

40、上述的语音驱动人脸模型处理方法,将音频数据输入训练好的语音驱动人脸模型,得到模型形变数据;同时,基于语音驱动人脸模型的模板网格,获取模板网格和目标动画系统的基准网格之间的静态注册关系,然后基于静态注册关系确定目标动画系统中各个模型基底对应的最优形变基底,基于模型形变数据与最优形变基底,获取目标模型形变数据,实现通过标模型形变数据驱动目标动画系统,生成目标动画,提高了语音驱动人脸模型的可迁移性,从而减少模型迁移和应用成本,提高动画生成效率。

本文档来自技高网...

【技术保护点】

1.一种语音驱动人脸模型处理方法,其特征在于,包括:

2.根据权利要求1所述的语音驱动人脸模型处理方法,其特征在于,所述基于所述语音驱动人脸模型的模板网格,获取所述模板网格和目标动画系统的基准网格之间的静态注册关系,包括:

3.根据权利要求2所述的语音驱动人脸模型处理方法,其特征在于,所述通过预设的标注工具获取所述模板网格和目标动画系统的基准网格之间的关键点映射关系,包括:

4.根据权利要求1所述的语音驱动人脸模型处理方法,其特征在于,所述静态注册关系包括所述模板网格和所述基准网格在进行静态注册之后得到的多个注册点之间的对应关系;所述基于所述静态注册关系确定各个模型基底对应的最优形变基底,包括:

5.根据权利要求1所述的语音驱动人脸模型处理方法,其特征在于,所述基于所述模型形变数据与所述最优形变基底,获取目标模型形变数据,包括:

6.根据权利要求1所述的语音驱动人脸模型处理方法,其特征在于,所述获取语音驱动人脸模型,包括:

7.根据权利要求6所述的语音驱动人脸模型处理方法,其特征在于,所述获取针对预设基础模型的训练数据,包括:

8.根据权利要求6所述的语音驱动人脸模型处理方法,其特征在于,所述根据所述训练数据训练所述预设基础模型,得到所述语音驱动人脸模型,包括:

9.根据权利要求8所述的语音驱动人脸模型处理方法,其特征在于,所述对所述初步模型进行优化处理,得到所述语音驱动人脸模型,包括:

10.一种语音驱动人脸模型处理装置,其特征在于,包括:

11.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-9任一项所述方法的步骤。

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的语音驱动人脸模型处理方法的步骤。

...

【技术特征摘要】

1.一种语音驱动人脸模型处理方法,其特征在于,包括:

2.根据权利要求1所述的语音驱动人脸模型处理方法,其特征在于,所述基于所述语音驱动人脸模型的模板网格,获取所述模板网格和目标动画系统的基准网格之间的静态注册关系,包括:

3.根据权利要求2所述的语音驱动人脸模型处理方法,其特征在于,所述通过预设的标注工具获取所述模板网格和目标动画系统的基准网格之间的关键点映射关系,包括:

4.根据权利要求1所述的语音驱动人脸模型处理方法,其特征在于,所述静态注册关系包括所述模板网格和所述基准网格在进行静态注册之后得到的多个注册点之间的对应关系;所述基于所述静态注册关系确定各个模型基底对应的最优形变基底,包括:

5.根据权利要求1所述的语音驱动人脸模型处理方法,其特征在于,所述基于所述模型形变数据与所述最优形变基底,获取目标模型形变数据,包括:

6.根据权利要求1所述的语音驱动人脸模型处理方法,其...

【专利技术属性】
技术研发人员:陈璞龚志红李志艺倪飞林顺
申请(专利权)人:厦门雅基软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1