数字人的控制方法、模型训练方法和装置制造方法及图纸

技术编号:35692510 阅读:48 留言:0更新日期:2022-11-23 14:41
本公开提供了一种数字人的控制方法、模型训练方法和装置,涉及人工智能技术领域,尤其涉及虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。实现方案为:获取目标语音;从风格向量库中获取与所述目标语音相应的第一风格向量,所述风格向量库包括与所述目标语音相应的不同于第一风格向量的第二风格向量;至少基于所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数;以及基于所述目标口型系数和目标姿态系数控制所述数字人,以使得所述数字人的身体姿态适配于所述第一风格向量相应的身体姿态风格,并且所述数字人的唇动适配所述目标语音。音。音。

【技术实现步骤摘要】
数字人的控制方法、模型训练方法和装置


[0001]本公开涉及人工智能
,尤其涉及虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等
,具体涉及一种数字人的控制方法以及用于数字人的模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术。人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]数字人高精形象生成一直是学术界的研究热点,并有着广泛的应用,最为常见的应用领域有虚拟主播、虚拟客服、虚拟助理、虚拟教师、虚拟偶像以及其他互动游戏和娱乐等。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是相关技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何相关技术中已被公认。

技术实现思路

[0005]本公开提供了一种数字人的控制方法以及用于数字人的模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了数字人的控制方法,包括:获取目标语音;从风格向量库中获取与所述目标语音相应的第一风格向量,所述风格向量库包括与所述目标语音相应的不同于第一风格向量的第二风格向量;至少基于所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数;以及基于所述目标口型系数和目标姿态系数控制所述数字人,以使得所述数字人的身体姿态适配于所述第一风格向量相应的身体姿态风格,并且所述数字人的唇动适配所述目标语音。
[0007]根据本公开的一方面,提供了用于数字人的模型训练方法,包括:获取样本语音以及所述样本语音所包括的至少一个发音单元;获取与所述样本语音相应的真实口型系数和真实姿态系数;获取所述样本语音所包括的每个发音单元,以及与每个发音单元相应的起始帧和结束帧;确定所述样本语音相应的风格向量,其中所述风格向量包括所述至少一个发音单元各自相应的子风格向量,所述样本语音中的每个发音单元的起始帧与结束帧之间的所有帧共用相同的子风格向量;将所述样本语音和所述至少一个发音单元相应的至少一个子风格向量输入身体姿态与唇动模型,并获取所述身体姿态与唇动模型所输出的预测口型系数和预测姿态系数;以及基于所述真实口型系数和预测口型系数之间的损失以及所述真实姿态系数和预测姿态系数之间的损失,更新所述身体姿态与唇动模型的网络参数,并
且更新所述风格向量。
[0008]根据本公开的另一方面,提供了数字人的控制装置,包括:第一获取模块,所述第一获取模块被配置获取目标语音;第二获取模块,所述第二获取模块被配置为从风格向量库中获取与所述目标语音相应的第一风格向量,所述风格向量库包括与所述目标语音相应的不同于第一风格向量的第二风格向量;以及确定模块,所述确定模块被配置为至少基于所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数;以及控制模块,所述控制模块被配置为基于所述目标口型系数和目标姿态系数控制所述数字人,以使得所述数字人的身体姿态适配于所述第一风格向量相应的身体姿态风格,并且所述数字人的唇动适配所述目标语音。
[0009]根据本公开的另一方面,提供了用于数字人的模型训练装置,包括:第三获取模块,所述第三获取模块被配置为获取样本语音以及所述样本语音所包括的至少一个发音单元;第四获取模块,所述第四获取模块被配置为获取与所述样本语音相应的真实口型系数和真实姿态系数;第五获取模块,所述第五获取模块被配置为获取所述样本语音所包括的每个发音单元,以及与每个发音单元相应的起始帧和结束帧;以及第一确定模块,所述第一确定模块被配置为确定所述样本语音相应的风格向量,其中所述风格向量包括所述至少一个发音单元各自相应的子风格向量,所述样本语音中的每个发音单元的起始帧与结束帧之间的所有帧共用相同的子风格向量;第二确定模块,所述第二确定模块被配置为将所述样本语音和所述至少一个发音单元相应的至少一个子风格向量输入身体姿态与唇动模型,并获取所述身体姿态与唇动模型所输出的预测口型系数和预测姿态系数;以及更新模块,所述更新模块被配置为基于所述真实口型系数和预测口型系数之间的损失以及所述真实姿态系数和预测姿态系数之间的损失,更新所述身体姿态与唇动模型的网络参数,并且更新所述风格向量。
[0010]根据本公开的另一方面,提供了一种计算设备,所述计算设备包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的方法。
[0011]根据本公开的另一方面,提供了一种存储程序的计算机可读存储介质,所述程序包括指令,所述程序包括指令,所述指令在由计算设备的处理器执行时,致使所述计算设备执行上述的方法。
[0012]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据上述的方法。
[0013]根据本公开的一个或多个实施例,通过针对一种身体姿态风格使用相应风格向量进行控制,能够实现数字人的身体姿态风格的控制。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0016]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统的示意图;
[0017]图2示出了根据本公开的实施例的数字人的控制方法的流程图;
[0018]图3示出了根据本公开的用于确定目标口型系数和目标姿态系数的方法的流程图;
[0019]图4示出了根据本公开的实施例的用于数字人的模型训练方法的流程图;
[0020]图5示出了根据本公开的驱动数字人的过程图;
[0021]图6示出了根据本公开的身体姿态与唇动模型的框图;
[0022]图7示出了根据本公开的实施例的数字人的控制装置的组成框图;
[0023]图8示出了根据本公开的实施例的用于数字人的模型训练装置的组成框图;
[0024]图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人的控制方法,包括:获取目标语音;从风格向量库中获取与所述目标语音相应的第一风格向量,所述风格向量库包括与所述目标语音相应的不同于第一风格向量的第二风格向量;至少基于所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数;以及基于所述目标口型系数和目标姿态系数控制所述数字人,以使得所述数字人的身体姿态适配于所述第一风格向量相应的身体姿态风格,并且所述数字人的唇动适配所述目标语音。2.根据权利要求1所述的方法,其中,所述风格向量库包括多个风格向量,所述多个风格向量中不同风格向量相应的身体姿态风格不同。3.根据权利要求1或2所述的方法,还包括:获取所述目标语音的语音特征,所述至少基于所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数包括:基于所述目标语音的语音特征和所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数。4.根据权利要求1

3中任一项所述的方法,其中,所述第一风格向量为从风格向量库中所获取的一个风格向量。5.根据权利要求1

3中任一项所述的方法,还包括:获取所述目标语音相应的目标文本,所述目标文本包括多个发音单元;以及获取所述目标语音的每个发音单元相应的时间戳,所述至少基于所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数包括:基于所述目标语音所包括的多个发音单元各自相应的时间戳以及所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数。6.根据权利要求5所述的方法,其中,所述第一风格向量包括从风格向量库中所获取的多个风格向量,基于所述目标语音所包括的多个发音单元各自相应的时间戳以及所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数包括:基于所述目标语音自身的上下文信息,确定所述目标语音中与所述多个风格向量中的每一者相应的起始发音单元和结束发音单元;对于所述多个风格向量中的每一者,基于相应的起始发音单元和结束发音单元的时间戳,确定所述风格向量相应的起始帧和结束帧;以及基于所述多个风格向量、所述多个风格向量中的每一者的起始帧和结束帧,确定与所述目标语音在时间上逐帧地对齐的目标口型系数和目标姿态系数。7.根据权利要求6所述的方法,其中,所述目标语音的上下文信息包括有关下列项中的一者或多者的信息:张口音、闭口音、爆破音、重复语段、语气词、转折词。8.根据权利要求1

7中任一项所述的方法,还包括:获取目标情绪系数;以及
基于目标情绪系数调整所述目标姿态系数,以调整所述数字人的身体姿态幅度,所述基于所述目标口型系数和目标姿态系数控制所述数字人包括:基于所述目标口型系数和调整后的目标姿态系数控制所述数字人。9.根据权利要求1

7中任一项所述的方法,其中,从风格向量库中获取与所述目标语音相应的第一风格向量包括:获取与所述目标语音相关的预设发音单元;从风格向量库中获取所述预设发音单元相应的多个风格向量;基于所述多个风格向量确定所述预设发音单元相应的多个口型系数和所述预设发音单元相应的多个姿态系数;基于所述多个口型系数和所述多个姿态系数控制数字人;以及基于相应的所述多个口型系数和所述多个姿态系数所得到的数字人的控制结果,从所述多个风格向量中确定所述第一风格向量。10.根据权利要求1

7中任一项所述的方法,其中,至少基于所述第一风格向量,确定与所述目标语音相应的目标口型系数和目标姿态系数包括...

【专利技术属性】
技术研发人员:郭紫垣
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1