【技术实现步骤摘要】
动画生成方法及装置、存储介质、电子设备
[0001]本公开涉及计算机
,尤其涉及一种动画生成方法与动画生成装置、计算机可读存储介质及电子设备。
技术介绍
[0002]在电商、游戏和动漫等领域,虚拟数字人的应用越来越广泛,影响力也逐渐扩大,尤其是3D(3
‑
dimension,三维)虚拟数字人。而且,3D虚拟数字人等虚拟偶像也都有着广泛的粉丝群体。在电商领域,通过虚拟数字人进行直播可以极大的节省人力,商家无需专业的主播也可以全天候直播;在客服环节,通过虚拟数字人与用户进行沟通,可以拉近与用户之间的距离,安抚用户情绪;在导购环节,通过虚拟数字人进行商品讲解,可以让用户更快的了解商品卖点,提升引单转化。
[0003]目前,基于虚拟数字人的内容制作大体可以分为三类,分别是通过专业的美术制作人员基于文本内容进行模型与动画制作;通过专业的演员佩戴动作捕捉设备和面部表情捕捉设备,结合文本内容进行内容的录制,再将动作和表情等应用到虚拟数字人的模型上进行后期渲染;通过AI(Artificial Intelligence,人工智能)算法智能分析文本内容,以生成相应的视频。
[0004]但是,前两类制作方式都需要专业的人士参与,导致虚拟数字人的内容生产成本高、周期长。而第三类制作方式需要大量的训练数据,对每一个新形象的虚拟数字人往往都需要进行重新训练,而且对于计算设备的性能要求高,生成的虚拟数字人的视频一般只能提前渲染好保存下来,再进行播放,制约了虚拟数字人的应用场景。
[0005]鉴于此, ...
【技术保护点】
【技术特征摘要】
1.一种动画生成方法,其特征在于,所述方法包括:获取制作好的虚拟数字人,并获取所述虚拟数字人播报的语音信息;对所述语音信息进行口形动画生成处理得到口形动画,并对所述语音信息进行表情动画生成处理得到表情动画;对所述语音信息进行肢体动画生成处理得到肢体动画,并根据所述口形动画、所述表情动画和所述肢体动画对所述虚拟数字人进行同步渲染。2.根据权利要求1所述的动画生成方法,其特征在于,所述对所述语音信息进行口形动画生成处理得到口形动画,包括:对所述语音信息进行音素转换处理得到与时间信息对齐的音素,并对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位;对所述语音视位和所述时间信息进行线性插值处理得到口形动画。3.根据权利要求2所述的动画生成方法,其特征在于,所述对所述语音信息进行音素转换处理得到与时间信息对齐的音素,包括:对所述语音信息进行特征提取处理得到声学特征和单帧时长,并利用训练好的声学模型确定与所述声学特征对应的声学状态;对所述声学状态进行组合处理得到音素,并利用所述单帧时长对所述音素进行对齐处理得到与单帧时长的时间信息对齐的音素。4.根据权利要求3所述的动画生成方法,其特征在于,所述训练好的声学模型按照如下方式进行训练:对语音样本进行训练得到声学特征与声学状态之间的原始概率值,并对所述原始概率值进行语音解码处理得到声学状态网络;对所述声学状态网络进行路径搜索处理得到目标概率值,以得到表示所述声学特征与所述声学状态的映射关系的声学模型。5.根据权利要求2所述的动画生成方法,其特征在于,所述对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位,包括:获取所述音素与语音视位之间的第一映射关系;基于所述第一映射关系,对所述音素进行视位转换处理得到与所述时间信息对齐的语音视位。6.根据权利要求2所述的动画生成方法,其特征在于,所述对所述语音视位和所述时间信息进行线性插值处理得到口形动画,包括:在所述语音视位中确定当前语音视位,并利用虚拟网格权重表示所述当前语音视位;对所述虚拟网格权重表示的当前语音视位和所述时间信息进行线性插值处理得到口形动画。7.根据权利要求6所述的动画生成方法,其特征在于,所述对所述虚拟网格权重表示的当前语音视位和所述时间信息进行线性插值处理得到口形动画,包括:利用虚拟网格权重表示所述语音视位中的目标语音视位,对所述虚拟网格权重表示的当前语音视位和虚拟网格权重表示的所述目标语音视位进行视位计算得到视位计算结果;根据所述时间信息确定单帧时长、所述目标语音视位的结束时间以及与所述当前语音视位对应的消耗时长,并对所述单帧时长、所述结束时间和所述消耗时长进行时长计算得
到时长计算结果;对所述虚拟网格权重表示的当前语音视位、所述视位计算结果和所述时长计算结果进行权重计算得到下一网格权重,以根据所述下一网格权重确定待渲染的口形动画。8.根据权利要求1所述的动画生成方法,其特征在于,所述获取所述虚拟数字人播报...
【专利技术属性】
技术研发人员:杜峰,王海新,吴朝阳,杨超,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。