动画生成方法及装置、存储介质、电子设备制造方法及图纸

技术编号:30435437 阅读:18 留言:0更新日期:2021-10-24 17:35
本公开属于计算机技术领域,涉及一种动画生成方法及装置、存储介质、电子设备。该方法包括:获取制作好的虚拟数字人,并获取虚拟数字人播报的语音信息;对语音信息进行口形动画生成处理得到口形动画,并对语音信息进行表情动画生成处理得到表情动画;对语音信息进行肢体动画生成处理得到肢体动画,并根据口形动画、表情动画和肢体动画对虚拟数字人进行同步渲染。本公开一方面,减少渲染虚拟数字人过程中的人工参与度,提升虚拟数字人动画内容的生成速度和效率;另一方面,虚拟数字人的动画能够即时生成,无需根据新形象的虚拟数字人重新训练算法,丰富了虚拟数字人的应用场景。丰富了虚拟数字人的应用场景。丰富了虚拟数字人的应用场景。

【技术实现步骤摘要】
动画生成方法及装置、存储介质、电子设备


[0001]本公开涉及计算机
,尤其涉及一种动画生成方法与动画生成装置、计算机可读存储介质及电子设备。

技术介绍

[0002]在电商、游戏和动漫等领域,虚拟数字人的应用越来越广泛,影响力也逐渐扩大,尤其是3D(3

dimension,三维)虚拟数字人。而且,3D虚拟数字人等虚拟偶像也都有着广泛的粉丝群体。在电商领域,通过虚拟数字人进行直播可以极大的节省人力,商家无需专业的主播也可以全天候直播;在客服环节,通过虚拟数字人与用户进行沟通,可以拉近与用户之间的距离,安抚用户情绪;在导购环节,通过虚拟数字人进行商品讲解,可以让用户更快的了解商品卖点,提升引单转化。
[0003]目前,基于虚拟数字人的内容制作大体可以分为三类,分别是通过专业的美术制作人员基于文本内容进行模型与动画制作;通过专业的演员佩戴动作捕捉设备和面部表情捕捉设备,结合文本内容进行内容的录制,再将动作和表情等应用到虚拟数字人的模型上进行后期渲染;通过AI(Artificial Intelligence,人工智能)算法智能分析文本内容,以生成相应的视频。
[0004]但是,前两类制作方式都需要专业的人士参与,导致虚拟数字人的内容生产成本高、周期长。而第三类制作方式需要大量的训练数据,对每一个新形象的虚拟数字人往往都需要进行重新训练,而且对于计算设备的性能要求高,生成的虚拟数字人的视频一般只能提前渲染好保存下来,再进行播放,制约了虚拟数字人的应用场景。
[0005]鉴于此,本领域亟需开发一种新的动画生成方法及装置。
[0006]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0007]本公开的目的在于提供一种动画生成方法、动画生成装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的制作周期长和成本高的技术问题。
[0008]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0009]根据本专利技术实施例的第一个方面,提供一种动画生成方法,所述方法包括:获取制作好的虚拟数字人,并获取所述虚拟数字人播报的语音信息;
[0010]对所述语音信息进行口形动画生成处理得到口形动画,并对所述语音信息进行表情动画生成处理得到表情动画;
[0011]对所述语音信息进行肢体动画生成处理得到肢体动画,并根据所述口形动画、所述表情动画和所述肢体动画对所述虚拟数字人进行同步渲染。
[0012]在本专利技术的一种示例性实施例中,所述对所述语音信息进行口形动画生成处理得到口形动画,包括:
[0013]对所述语音信息进行音素转换处理得到与时间信息对齐的音素,并对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位;
[0014]对所述语音视位和所述时间信息进行线性插值处理得到口形动画。
[0015]在本专利技术的一种示例性实施例中,所述对所述语音信息进行音素转换处理得到与时间信息对齐的音素,包括:
[0016]对所述语音信息进行特征提取处理得到声学特征和单帧时长,并利用训练好的声学模型确定与所述声学特征对应的声学状态;
[0017]对所述声学状态进行组合处理得到音素,并利用所述单帧时长对所述音素进行对齐处理得到与单帧时长的时间信息对齐的音素。
[0018]在本专利技术的一种示例性实施例中,所述训练好的声学模型按照如下方式进行训练:
[0019]对语音样本进行训练得到声学特征与声学状态之间的原始概率值,并对所述原始概率值进行语音解码处理得到声学状态网络;
[0020]对所述声学状态网络进行路径搜索处理得到目标概率值,以得到表示所述声学特征与所述声学状态的映射关系的声学模型。
[0021]在本专利技术的一种示例性实施例中,所述对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位,包括:
[0022]获取所述音素与语音视位之间的第一映射关系;
[0023]基于所述第一映射关系,对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位。
[0024]在本专利技术的一种示例性实施例中,所述对所述语音视位和所述时间信息进行线性插值处理得到口形动画,包括:
[0025]在所述语音视位中确定当前语音视位,并利用虚拟网格权重表示所述当前语音视位;
[0026]对所述虚拟网格权重表示的当前语音视位和所述时间信息进行线性插值处理得到口形动画。
[0027]在本专利技术的一种示例性实施例中,所述对所述虚拟网格权重表示的当前语音视位和所述时间信息进行线性插值处理得到口形动画,包括:
[0028]利用虚拟网格权重表示所述语音视位中的目标语音视位,对所述虚拟网格权重表示的当前语音视位和虚拟网格权重表示的所述目标语音视位进行视位计算得到视位计算结果;
[0029]根据所述时间信息确定单帧时长、所述目标语音视位的结束时间以及与所述当前语音视位对应的消耗时长,并对所述单帧时长、所述结束时间和所述消耗时长进行时长计算得到时长计算结果;
[0030]对所述虚拟网格权重表示的当前语音视位、所述视位计算结果和所述时长计算结果进行权重计算得到下一网格权重,以根据所述下一网格权重确定待渲染的口形动画。
[0031]在本专利技术的一种示例性实施例中,所述获取所述虚拟数字人播报的语音信息,包
括:
[0032]获取所述虚拟数字人播报的文本信息;
[0033]对所述文本信息进行合成语音转换处理得到语音信息。
[0034]在本专利技术的一种示例性实施例中,所述对所述语音信息进行表情动画生成处理得到表情动画,包括:
[0035]对所述语音信息进行表情动画配置得到默认表情动画和触发表情动画;
[0036]以预设时间为间隔设置所述默认表情动画中的第一默认动画,并对所述触发表情动画进行第一触发配置确定所述触发表情动画中的第一触发动画;
[0037]基于所述第一触发配置,利用所述第一触发动画替换所述第一默认动画,得到待渲染的表情动画。
[0038]在本专利技术的一种示例性实施例中,所述对所述触发表情动画进行第一触发配置确定所述触发表情动画中的第一触发动画,包括:
[0039]在所述文本信息中确定第一文本信息,并利用所述第一文本信息对所述触发表情动画进行文本触发配置确定所述触发表情动画中的第一触发动画;和/或
[0040]对所述文本信息进行文本情感计算得到情感分值,并利用所述情感分值对所述触发表情动画进行分值触发配置确定所述触发表情动画中的第一触发动画。
[0041]在本专利技术的一种示例性实施例中,所述对所述语音信息进行肢体动画生成处理得到肢体动画,包括:
[0042]对所述语音信息进行肢体动画配置得到默认肢体动画和触发肢体动画;
[0043]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动画生成方法,其特征在于,所述方法包括:获取制作好的虚拟数字人,并获取所述虚拟数字人播报的语音信息;对所述语音信息进行口形动画生成处理得到口形动画,并对所述语音信息进行表情动画生成处理得到表情动画;对所述语音信息进行肢体动画生成处理得到肢体动画,并根据所述口形动画、所述表情动画和所述肢体动画对所述虚拟数字人进行同步渲染。2.根据权利要求1所述的动画生成方法,其特征在于,所述对所述语音信息进行口形动画生成处理得到口形动画,包括:对所述语音信息进行音素转换处理得到与时间信息对齐的音素,并对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位;对所述语音视位和所述时间信息进行线性插值处理得到口形动画。3.根据权利要求2所述的动画生成方法,其特征在于,所述对所述语音信息进行音素转换处理得到与时间信息对齐的音素,包括:对所述语音信息进行特征提取处理得到声学特征和单帧时长,并利用训练好的声学模型确定与所述声学特征对应的声学状态;对所述声学状态进行组合处理得到音素,并利用所述单帧时长对所述音素进行对齐处理得到与单帧时长的时间信息对齐的音素。4.根据权利要求3所述的动画生成方法,其特征在于,所述训练好的声学模型按照如下方式进行训练:对语音样本进行训练得到声学特征与声学状态之间的原始概率值,并对所述原始概率值进行语音解码处理得到声学状态网络;对所述声学状态网络进行路径搜索处理得到目标概率值,以得到表示所述声学特征与所述声学状态的映射关系的声学模型。5.根据权利要求2所述的动画生成方法,其特征在于,所述对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位,包括:获取所述音素与语音视位之间的第一映射关系;基于所述第一映射关系,对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位。6.根据权利要求2所述的动画生成方法,其特征在于,所述对所述语音视位和所述时间信息进行线性插值处理得到口形动画,包括:在所述语音视位中确定当前语音视位,并利用虚拟网格权重表示所述当前语音视位;对所述虚拟网格权重表示的当前语音视位和所述时间信息进行线性插值处理得到口形动画。7.根据权利要求6所述的动画生成方法,其特征在于,所述对所述虚拟网格权重表示的当前语音视位和所述时间信息进行线性插值处理得到口形动画,包括:利用虚拟网格权重表示所述语音视位中的目标语音视位,对所述虚拟网格权重表示的当前语音视位和虚拟网格权重表示的所述目标语音视位进行视位计算得到视位计算结果;根据所述时间信息确定单帧时长、所述目标语音视位的结束时间以及与所述当前语音视位对应的消耗时长,并对所述单帧时长、所述结束时间和所述消耗时长进行时长计算得
到时长计算结果;对所述虚拟网格权重表示的当前语音视位、所述视位计算结果和所述时长计算结果进行权重计算得到下一网格权重,以根据所述下一网格权重确定待渲染的口形动画。8.根据权利要求1所述的动画生成方法,其特征在于,所述获取所述虚拟数字人播报...

【专利技术属性】
技术研发人员:杜峰王海新吴朝阳杨超
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1