用于生成动画的方法和装置制造方法及图纸

技术编号:20427704 阅读:24 留言:0更新日期:2019-02-23 09:23
本申请实施例公开了用于生成动画的方法和装置。该方法的一具体实施方式包括:逐段从目标语音中提取音频特征,汇总为由各语音片段的音频特征所构成的音频特征序列;将该音频特征序列输入至预先训练的嘴型信息预测模型,得到与该音频特征序列相对应的嘴型信息序列;基于该嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像;将所生成的人脸图像作为人脸动画的关键帧,生成人脸动画。该实施方式丰富了动画的生成方式,且实现了所生成的动画中的嘴型与语音的同步。

【技术实现步骤摘要】
用于生成动画的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成动画的方法和装置。
技术介绍
虚拟人像嘴型同步技术,旨在对给定的语音输入,利用计算机技术,为虚拟人像合成与语音同步的高度逼真的嘴型,并能够满足实时性要求。相关的虚拟人像嘴型同步技术,通常依赖于专业的动画师,根据输入的语音,手动地为虚拟人像设置嘴型关键帧,从而实现嘴型同步。
技术实现思路
本申请实施例提出了用于生成动画的方法和装置。第一方面,本申请实施例提供了一种用于生成动画的方法,该方法包括:逐段从目标语音中提取音频特征,汇总为由各语音片段的音频特征所构成的音频特征序列;将音频特征序列输入至预先训练的嘴型信息预测模型,得到与音频特征序列相对应的嘴型信息序列,其中,音频特征序列中的音频特征与嘴型信息序列中的嘴型信息一一对应;对于嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像;将所生成的人脸图像作为人脸动画的关键帧,生成人脸动画。在一些实施例中,嘴型信息序列中的嘴型信息包括所对应的语音片段与各预设音素相匹配的概率;以及对于嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像,包括:对于嘴型信息序列中的嘴型信息,将该嘴型信息中的概率最大值所对应的预设音素作为目标音素,基于预设的对应关系信息,确定与目标音素相对应的嘴型对象,生成包含嘴型对象的人脸图像,其中,对应关系信息用于表征音素与嘴型对象的对应关系。在一些实施例中,嘴型信息预测模型通过如下步骤训练得到:提取样本集,其中,样本集中的样本包括样本语音和样本语音的各语音片段的音素标注;对于样本集中的样本,逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列;将该样本的音频特征序列作为输入,将该样本中的音素标注作为输出,利用机器学习方法训练得到嘴型信息预测模型。在一些实施例中,嘴型信息序列中的嘴型信息包括嘴部区域的关键点信息;以及对于嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像,包括:对于嘴型信息序列中的嘴型信息,将该嘴型信息中的关键点信息所指示的关键点作为人脸的嘴部区域的骨骼点,生成人脸图像。在一些实施例中,嘴型信息预测模型通过如下步骤训练得到:提取样本集,其中,样本集中的样本包括同步录制的样本视频和样本语音;对于样本集中的样本,将该样本中的样本视频中的帧依次进行人脸检测和人脸关键点检测,得到各帧的嘴部区域的关键点信息,汇总为关键点信息序列;逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列,其中,关键点信息序列中的关键点信息与该样本的音频特征序列中的音频特征一一对应;基于预设的延迟步长,对关键点信息序列和该样本的音频特征序列进行更新;将更新后的音频特征序列作为输入,将更新后的关键点信息序列作为输出,利用机器学习方法训练得到嘴型信息预测模型。在一些实施例中,基于预设的延迟步长,对关键点信息序列和该样本的音频特征序列进行更新,包括:删除该样本的音频特征序列中的所在次序不大于延迟步长的音频特征,以对该样本的音频特征序列进行更新;确定更新后的音频特征序列中的音频特征的数量;删除关键点信息序列中的所在次序大于数量的关键点信息,以对关键点信息序列进行更新。第二方面,本申请实施例提供了一种用于生成动画的装置,该装置包括:汇总单元,被配置成逐段从目标语音中提取音频特征,汇总为由各语音片段的音频特征所构成的音频特征序列;输入单元,被配置成将音频特征序列输入至预先训练的嘴型信息预测模型,得到与音频特征序列相对应的嘴型信息序列,其中,音频特征序列中的音频特征与嘴型信息序列中的嘴型信息一一对应;第一生成单元,被配置成对于嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像;第二生成单元,被配置成将所生成的人脸图像作为人脸动画的关键帧,生成人脸动画。在一些实施例中,嘴型信息序列中的嘴型信息包括所对应的语音片段与各预设音素相匹配的概率;以及输入单元进一步被配置成:对于嘴型信息序列中的嘴型信息,将该嘴型信息中的概率最大值所对应的预设音素作为目标音素,基于预设的对应关系信息,确定与目标音素相对应的嘴型对象,生成包含嘴型对象的人脸图像,其中,对应关系信息用于表征音素与嘴型对象的对应关系。在一些实施例中,嘴型信息预测模型通过如下步骤训练得到:提取样本集,其中,样本集中的样本包括样本语音和样本语音的各语音片段的音素标注;对于样本集中的样本,逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列;将该样本的音频特征序列作为输入,将该样本中的音素标注作为输出,利用机器学习方法训练得到嘴型信息预测模型。在一些实施例中,嘴型信息序列中的嘴型信息包括嘴部区域的关键点信息;以及输入单元进一步被配置成:对于嘴型信息序列中的嘴型信息,将该嘴型信息中的关键点信息所指示的关键点作为人脸的嘴部区域的骨骼点,生成人脸图像。在一些实施例中,嘴型信息预测模型通过如下步骤训练得到:提取样本集,其中,样本集中的样本包括同步录制的样本视频和样本语音;对于样本集中的样本,将该样本中的样本视频中的帧依次进行人脸检测和人脸关键点检测,得到各帧的嘴部区域的关键点信息,汇总为关键点信息序列;逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列,其中,关键点信息序列中的关键点信息与该样本的音频特征序列中的音频特征一一对应;基于预设的延迟步长,对关键点信息序列和该样本的音频特征序列进行更新;将更新后的音频特征序列作为输入,将更新后的关键点信息序列作为输出,利用机器学习方法训练得到嘴型信息预测模型。在一些实施例中,基于预设的延迟步长,对关键点信息序列和该样本的音频特征序列进行更新,包括:删除该样本的音频特征序列中的所在次序不大于延迟步长的音频特征,以对该样本的音频特征序列进行更新;确定更新后的音频特征序列中的音频特征的数量;删除关键点信息序列中的所在次序大于数量的关键点信息,以对关键点信息序列进行更新。第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面中任一实施例的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面中任一实施例的方法。本申请实施例提供的用于生成动画的方法和装置,通过逐段从目标语音中提取音频特征,以便汇总为由各语音片段的音频特征所构成的音频特征序列。将该音频特征序列输入至预先训练的嘴型信息预测模型,就可以得到与音频特征序列相对应的嘴型信息序列。而后,可以基于嘴型信息序列中的嘴型信息,生成包含嘴型对象的人脸图像。最后,可以将所生成的人脸图像作为人脸动画的关键帧,生成人脸动画。从而,可以根据从目标语音中提取的语音特征,自动生成相对应的关键帧,丰富了动画的生成方式,且实现了所生成的动画中的嘴型与语音的同步。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于生成动画的方法的一个实施例的流程图;图3是根据本申本文档来自技高网...

【技术保护点】
1.一种用于生成动画的方法,包括:逐段从目标语音中提取音频特征,汇总为由各语音片段的音频特征所构成的音频特征序列;将所述音频特征序列输入至预先训练的嘴型信息预测模型,得到与所述音频特征序列相对应的嘴型信息序列,其中,所述音频特征序列中的音频特征与所述嘴型信息序列中的嘴型信息一一对应;对于所述嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像;将所生成的人脸图像作为人脸动画的关键帧,生成人脸动画。

【技术特征摘要】
1.一种用于生成动画的方法,包括:逐段从目标语音中提取音频特征,汇总为由各语音片段的音频特征所构成的音频特征序列;将所述音频特征序列输入至预先训练的嘴型信息预测模型,得到与所述音频特征序列相对应的嘴型信息序列,其中,所述音频特征序列中的音频特征与所述嘴型信息序列中的嘴型信息一一对应;对于所述嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像;将所生成的人脸图像作为人脸动画的关键帧,生成人脸动画。2.根据权利要求1所述的用于生成动画的方法,其中,所述嘴型信息序列中的嘴型信息包括所对应的语音片段与各预设音素相匹配的概率;以及所述对于所述嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像,包括:对于所述嘴型信息序列中的嘴型信息,将该嘴型信息中的概率最大值所对应的预设音素作为目标音素,基于预设的对应关系信息,确定与所述目标音素相对应的嘴型对象,生成包含所述嘴型对象的人脸图像,其中,所述对应关系信息用于表征音素与嘴型对象的对应关系。3.根据权利要求2所述的用于生成动画的方法,其中,所述嘴型信息预测模型通过如下步骤训练得到:提取样本集,其中,所述样本集中的样本包括样本语音和所述样本语音的各语音片段的音素标注;对于样本集中的样本,逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列;将该样本的音频特征序列作为输入,将该样本中的音素标注作为输出,利用机器学习方法训练得到嘴型信息预测模型。4.根据权利要求1所述的用于生成动画的方法,其中,所述嘴型信息序列中的嘴型信息包括嘴部区域的关键点信息;以及所述对于所述嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像,包括:对于所述嘴型信息序列中的嘴型信息,将该嘴型信息中的关键点信息所指示的关键点作为人脸的嘴部区域的骨骼点,生成人脸图像。5.根据权利要求4所述的用于生成动画的方法,其中,所述嘴型信息预测模型通过如下步骤训练得到:提取样本集,其中,所述样本集中的样本包括同步录制的样本视频和样本语音;对于样本集中的样本,将该样本中的样本视频中的帧依次进行人脸检测和人脸关键点检测,得到各帧的嘴部区域的关键点信息,汇总为关键点信息序列;逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列,其中,所述关键点信息序列中的关键点信息与该样本的音频特征序列中的音频特征一一对应;基于预设的延迟步长,对所述关键点信息序列和该样本的音频特征序列进行更新;将更新后的音频特征序列作为输入,将更新后的关键点信息序列作为输出,利用机器学习方法训练得到嘴型信息预测模型。6.根据权利要求5所述的用于生成动画的方法,其中,所述基于预设的延迟步长,对所述关键点信息序列和该样本的音频特征序列进行更新,包括:删除该样本的音频特征序列中的所在次序不大于所述延迟步长的音频特征,以对该样本的音频特征序列进行更新;确定更新后的音频特征序列中的音频特征的数量;删除所述关键点信息序列中的所在次序大于所述数量的关键点信息,以对所述关键点信息序列进行更新。7.一种用于生成动画的装置,包括:汇总单元,被配置成逐段从目标语音中提取音频特征,汇总为由各语音片段的音频特征所构成的音频特征序列;输...

【专利技术属性】
技术研发人员:王建祥吕复强刘骁纪建超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1