实时驱动虚拟人的方法、装置、电子设备及介质制造方法及图纸

技术编号:30944132 阅读:20 留言:0更新日期:2021-11-25 19:53
本说明书实施例公开了一种实时驱动虚拟人的方法,获取用于驱动虚拟人的待处理数据,所述待处理数据包括文本数据和语音数据中的至少一种;使用端到端模型对所述待处理数据进行处理,确定出所述待处理数据对应的手势特征序列;将所述手势特征序列输入到已训练的肌肉模型中,通过所述肌肉模型驱动虚拟人;由于端到端模型能够在更短时间内获取手势特征序列;再将手势特征序列输入到肌肉模型中,直接驱动虚拟人,极大的降低了其计算量和数据传输量,且还提高了计算效率,使得驱动虚拟人的实时性得到极大的提高,从而能够实现实时驱动虚拟人进行手语输出。进行手语输出。进行手语输出。

【技术实现步骤摘要】
实时驱动虚拟人的方法、装置、电子设备及介质


[0001]本说明书实施例涉及虚拟人处理
,尤其涉及一种实时驱动虚拟人的方法、装置、电子设备及介质。

技术介绍

[0002]数字人类(Digital Human)简称数字人,是利用计算机模拟真实人类的一种综合性的渲染技术,也被称为虚拟人类、超写实人类、照片级人类。由于人对真人太熟悉了,通过花费大量时间可以获取使得3D静态模型很真,但在驱动3D静态模型进行动作时,即使是一个细微的表情都会重新建模,由于模型的真实度非常高会导致建模会需要进行大量的数据进行计算,其计算过程较长,通常模型的一个动作可能需要一个小时或几个小时的计算才能实现,导致驱动的实时性能非常差。

技术实现思路

[0003]本说明书实施例提供了一种实时驱动虚拟人的方法、装置、电子设备及介质,使得驱动虚拟人的实时性提高。
[0004]本说明书实施例第一方面提供了一种实时驱动虚拟人的方法,包括:
[0005]获取用于驱动虚拟人的待处理数据,所述待处理数据包括文本数据和语音数据中的至少一种;
[0006]使用端到端模型对所述待处理数据进行处理,确定出所述待处理数据对应的手势特征序列;
[0007]将所述手势特征序列输入到已训练的肌肉模型中,通过所述肌肉模型驱动虚拟人;
[0008]其中,所述使用端到端模型对所述待处理数据进行处理,包括:
[0009]获取所述待处理数据的文本特征和时长特征;
[0010]根据所述文本特征和所述时长特征,确定出所述手势特征序列。
[0011]可选的,所述获取所述待处理数据的文本特征和时长特征,包括:
[0012]通过fastspeech模型获取所述文本特征;
[0013]通过时长模型获取所述时长特征,其中,所述时长模型为深度学习模型。
[0014]可选的,若所述fastspeech模型输出面部特征序列和手势特征序列,所述根据所述文本特征和所述时长特征,确定出所述声学特征序列,包括:
[0015]将所述文本特征和所述时长特征输入到所述fastspeech模型中,得到所述面部特征序列和所述手势特征序列。
[0016]可选的,所述将所述手势特征序列输入到已训练的肌肉模型中,包括:
[0017]将所述面部特征序列和所述手势特征序列进行融合,得到融合特征序列;
[0018]将所述融合特征序列输入到所述肌肉模型中。
[0019]可选的,所述将所述面部特征序列和所述手势特征序列进行融合,得到融合特征
序列,包括:
[0020]基于所述时长特征,将所述面部特征序列和所述手势特征序列进行融合,得到所述融合特征序列。
[0021]可选的,所述面部特征序列对应的面部特征包括表情特征和唇部特征。
[0022]本说明书实施例第二方面提供了一种实时驱动虚拟人的装置,包括:
[0023]数据获取模块,用于获取用于驱动虚拟人的待处理数据,所述待处理数据包括文本数据和语音数据中的至少一种;
[0024]数据处理模块,用于使用端到端模型对所述待处理数据进行处理,确定出所述待处理数据对应的手势特征序列;
[0025]虚拟人驱动模块,用于将所述手势特征序列输入到已训练的肌肉模型中,通过所述肌肉模型驱动虚拟人;
[0026]其中,所述数据处理模块,用于获取所述待处理数据的文本特征和时长特征;根根据所述文本特征和所述时长特征,确定出所述手势特征序列。
[0027]可选的,所述数据处理模块,用于通过fastspeech模型获取所述文本特征;通过时长模型获取所述时长特征,其中,所述时长模型为深度学习模型。
[0028]可选的,所述数据处理模块,若所述fastspeech模型输出面部特征序列和手势特征序列,用于将所述文本特征和所述时长特征输入到所述fastspeech模型中,得到所述面部特征序列和所述手势特征序列。
[0029]可选的,所述虚拟人驱动模块,用于将所述面部特征序列和所述手势特征序列进行融合,得到融合特征序列;将所述融合特征序列输入到所述肌肉模型中。
[0030]可选的,所述虚拟人驱动模块,用于基于所述时长特征,将所述面部特征序列和所述手势特征序列进行融合,得到所述融合特征序列。
[0031]可选的,所述面部特征序列对应的面部特征包括表情特征和唇部特征。
[0032]本说明书实施例第三方面提供了一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于如上述实时驱动虚拟人的方法步骤。
[0033]本说明书实施例第四方面提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如上述实时驱动虚拟人的方法。
[0034]本说明书实施例的有益效果如下:
[0035]基于上述技术方案,在获取待处理数据之后,使用端到端模型对待处理数据进行处理,得到手势特征序列;再将所述手势特征序列输入到已训练的肌肉模型中,通过所述肌肉模型驱动虚拟人;由于端到端模型输入的是待处理数据的原始数据,而直接输出手势特征序列,其能够更好的利用和适应新的硬件(比如GPU)并行计算能力,运算速度更快;即,能够在更短时间内获取手势特征序列;再将手势特征序列输入到肌肉模型中,直接驱动虚拟人,是在创建虚拟人之后,直接通过声学特征序列来控制虚拟人进行语音输出,并同时通过面部特征序列和手势特征序列控制虚拟人的手势动作,与需要重新对虚拟人建模相比,极大的降低了其计算量和数据传输量,且还提高了计算效率,使得驱动虚拟人的实时性得到极大的提高,从而能够实现实时驱动虚拟人进行手语输出。
附图说明
[0036]图1为本说明书实施例中对输出声学特征序列的端到端模型进行训练的训练流程图;
[0037]图2为本说明书实施例中实时驱动虚拟人的方法的第一种流程图;
[0038]图3为本说明书实施例中第一fastspeech模型输出声学特征序列的步骤流程图;
[0039]图4为本说明书实施例中实时驱动虚拟人的方法的第二种流程图;
[0040]图5为本说明书实施例中实时驱动虚拟人的装置的结构示意图;
[0041]图6为本说明书实施例中用于实时驱动虚拟人的装置作为设备时的结构框图;
[0042]图7为本说明书实施例中一些实施例中服务端的结构框图。
具体实施方式
[0043]为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
[0044]针对虚拟人在驱动时需要耗费大量时间的技术问题,本专利技术实施例提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时驱动虚拟人的方法,其特征在于,包括:获取用于驱动虚拟人的待处理数据,所述待处理数据包括文本数据和语音数据中的至少一种;使用端到端模型对所述待处理数据进行处理,确定出所述待处理数据对应的手势特征序列;将所述手势特征序列输入到已训练的肌肉模型中,通过所述肌肉模型驱动虚拟人;其中,所述使用端到端模型对所述待处理数据进行处理,包括:获取所述待处理数据的文本特征和时长特征;根据所述文本特征和所述时长特征,确定出所述手势特征序列。2.如权利要求1所述的方法,其特征在于,所述获取所述待处理数据的文本特征和时长特征,包括:通过fastspeech模型获取所述文本特征;通过时长模型获取所述时长特征,其中,所述时长模型为深度学习模型。3.如权利要求2所述的方法,其特征在于,若所述fastspeech模型输出面部特征序列和手势特征序列,所述根据所述文本特征和所述时长特征,确定出所述声学特征序列,包括:将所述文本特征和所述时长特征输入到所述fastspeech模型中,得到所述面部特征序列和所述手势特征序列。4.如权利要求3所述的方法,其特征在于,所述将所述手势特征序列输入到已训练的肌肉模型中,包括:将所述面部特征序列和所述手势特征序列进行融合,得到融合特征序列;将所述融合特征序列输入到所述肌肉模型中。5.如权利要求4所述的方法,其特征在于,所述将所述面部特征序列和所述手势特征序列进行融合,得到融合特征序列,...

【专利技术属性】
技术研发人员:陈伟樊博孟凡博
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1