面部动画的合成方法、装置、存储介质、处理器及终端制造方法及图纸

技术编号:20427706 阅读:25 留言:0更新日期:2019-02-23 09:23
本发明专利技术公开了一种面部动画的合成方法、装置、存储介质、处理器及终端。该方法包括:对音频文件进行语音解析,得到音素时间戳文件和表情时间戳文件,其中,音素时间戳文件包括:由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长,每个文字对应至少一个音素;获取与音素时间戳文件对应的口型序列,其中,口型序列用于描述音素时间戳文件中的每个音素对应的口型信息;获取与表情时间戳文件对应的表情序列,其中,表情序列用于描述表情时间戳文件对应的表情信息;将口型序列和表情序列合成为面部动画。本发明专利技术解决了相关技术中所提供的语音解析方式易造成后续合成的语音动画存在较大误差,影响用户体验的技术问题。

【技术实现步骤摘要】
面部动画的合成方法、装置、存储介质、处理器及终端
本专利技术涉及计算机领域,具体而言,涉及一种面部动画的合成方法、装置、存储介质、处理器及终端。
技术介绍
人的面部信息包括:表情和口型。在通常情况下,表情与口型的变化具有独立性,其中,口型包含有较多的高频信息,而表情则更倾向于低频表达。例如,当普通人在阐述一句话时,口型会随着发音的变化而频繁变化。相对而言,表情变化则较为缓慢,甚至缺少明显变化。总体上,面部信息可以看成是表情与口型这两个相对独立部分的融合。针对表情与口型的融合,相关技术中所提供的技术方案主要分为语音解析、表情与口型动画合成、语音驱动面部动画。对于语音解析而言,主要是面向中英文语音进行解析。对于表情与口型动画合成,主要是通过动作捕捉或者美术人员直接制作骨骼动作等方式实现。关于中文语音音素解析,相关技术所提供的其中一种解决方案只能输入中文语音并输出中文文本,而无法准确地获取中文文本中每个音素的时间戳及其持续时长。相关技术所提供的另外一种解决方案(例如:IBM的Waston服务)虽然可以对中文语音进行处理并获得每个分词的时间戳及其持续时长,但是,Waston却无法准确地定位到每个文字的时间戳和持续时长,从而对后续生成的语音动画造成极大的误差。关于表情动画合成与语音驱动面部动画,相关技术中所提供的的动作捕捉方式成本较高、灵活性差、生成的数据量大,因而难以应用在移动端。另外,关于美术人员制作的表情动画合成以及语音驱动面部动画,同样存在效率低、灵活性差,反复修改的成本过高等问题。表1为相关技术中所提供的多种语音解析技术的现状说明,如表1所示:表1表2为相关技术中所提供的多种面部动画合成技术的现状说明,如表2所示:表2针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术至少部分实施例提供了一种面部动画的合成方法、装置、存储介质、处理器及终端,以至少解决相关技术中所提供的语音解析方式易造成后续合成的语音动画存在较大误差,影响用户体验的技术问题。根据本专利技术其中一实施例,提供了一种面部动画的合成方法,包括:对音频文件进行语音解析,得到音素时间戳文件和表情时间戳文件,其中,音素时间戳文件包括:由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长,每个文字对应至少一个音素;获取与音素时间戳文件对应的口型序列,其中,口型序列用于描述音素时间戳文件中的每个音素对应的口型信息;获取与表情时间戳文件对应的表情序列,其中,表情序列用于描述表情时间戳文件对应的表情信息;将口型序列和表情序列合成为面部动画。可选地,在将口型序列和表情序列合成为面部动画之后,还包括:将面部动画与音频文件进行同步播放。可选地,对音频文件进行语音解析,得到音素时间戳文件包括:将音频文件转换为文本序列;根据文本序列中每个文字的中文拼音将文本序列转换为音素序列,其中,每个文字对应至少一个音素;对音素序列进行时序建模,得到音素时间戳文件。可选地,将音频文件转换为文本序列包括:采用连接时态分类-递归神经网络模型将音频文件转换为文本序列。可选地,对音素序列进行时序建模,得到音素时间戳文件包括:采用隐马尔科夫模型对音素序列进行时序建模,得到音素时间戳文件。可选地,获取与表情时间戳文件对应的表情序列包括:提取音频文件在预设时间窗内的声谱图;根据声谱图推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别,得到表情序列。可选地,根据声谱图推导出表情时间戳文件中的每个音素对应的表情动画以及每个表情对应的情感类别,得到表情序列包括:将声谱图设置为输入项,通过卷积神经网络推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别,得到表情序列。可选地,获取与音素时间戳文件对应的口型序列包括:根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型,其中,所述预设对应关系用于记录不同音素与口型类型之间的映射关系,每种口型类型分别对应不同的口型动画;将每个音素的时间戳与对应的口型类型进行映射,得到所述口型序列。可选地,将口型序列和表情序列合成为面部动画,并将面部动画与音频文件进行同步播放包括:判断步骤,每间隔预设时长触发判断是否合成口型序列中的口型动画与表情序列中的表情动画;处理步骤,如果是,则先将当前口型动画与上一个口型动画进行融合,得到待播放的口型动画,再将触发时刻对应的表情动画与待播放的口型动画进行合成,得到触发时刻的面部动画;播放步骤,若未达到音频文件的播放结束时刻,则播放触发时刻的面部动画,并返回判断步骤,直至达到播放结束时刻。根据本专利技术其中一实施例,还提供了一种面部动画的合成装置,包括:解析模块,用于对音频文件进行语音解析,得到音素时间戳文件和表情时间戳文件,其中,音素时间戳文件包括:由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长,每个文字对应至少一个音素;获取模块,用于获取与音素时间戳文件对应的口型序列以及获取与表情时间戳文件对应的表情序列,其中,口型序列用于描述音素时间戳文件中的每个音素对应的口型信息,表情序列用于描述表情时间戳文件对应的表情信息;合成模块,用于将口型序列和表情序列合成为面部动画。可选地,上述装置还包括:播放模块,用于将面部动画与音频文件进行同步播放。可选地,解析模块包括:第一转换单元,用于将音频文件转换为文本序列;第二转换单元,用于根据文本序列中每个文字的中文拼音将文本序列转换为音素序列,其中,每个文字对应至少一个音素;第一处理单元,用于对音素序列进行时序建模,得到音素时间戳文件。可选地,第一转换单元,用于采用连接时态分类-递归神经网络模型将音频文件转换为文本序列。可选地,第一处理单元,用于采用隐马尔科夫模型对音素序列进行时序建模,得到音素时间戳文件。可选地,获取模块包括:提取单元,用于提取音频文件在预设时间窗内的声谱图;第一获取单元,用于根据声谱图推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别,得到表情序列。可选地,第一获取单元,用于将声谱图设置为输入项,通过卷积神经网络推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别,得到表情序列。可选地,获取模块包括:确定单元,用于根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型,其中,所述预设对应关系用于记录不同音素与口型类型之间的映射关系,每种口型类型分别对应不同的口型动画;第二获取单元,用于将每个音素的时间戳与对应的口型类型进行,得到所述口型序列。可选地,合成模块包括:判断单元,用于每间隔预设时长触发判断是否合成口型序列中的口型动画与表情序列中的表情动画;第一处理单元,用于在判断单元输出为是时,则先将当前口型动画与上一个口型动画进行融合,得到待播放的口型动画,再将触发时刻对应的表情动画与待播放的口型动画进行合成,得到触发时刻的面部动画;播放单元,用于若未达到音频文件的播放结束时刻,则播放触发时刻的面部动画,并返回判断步骤,直至达到播放结束时刻。根据本专利技术其中一实施例,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述面部动画的合成方法。根据本专利技术其中一实施例,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述面部动画的合成方法。根据本专利技术其中本文档来自技高网
...

【技术保护点】
1.一种面部动画的合成方法,其特征在于,包括:对音频文件进行语音解析,得到音素时间戳文件和表情时间戳文件,其中,所述音素时间戳文件包括:由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长,每个文字对应至少一个音素;获取与所述音素时间戳文件对应的口型序列,其中,所述口型序列用于描述所述音素时间戳文件中的每个音素对应的口型信息;获取与所述表情时间戳文件对应的表情序列,其中,所述表情序列用于描述所述表情时间戳文件对应的表情信息;将所述口型序列和所述表情序列合成为面部动画。

【技术特征摘要】
1.一种面部动画的合成方法,其特征在于,包括:对音频文件进行语音解析,得到音素时间戳文件和表情时间戳文件,其中,所述音素时间戳文件包括:由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长,每个文字对应至少一个音素;获取与所述音素时间戳文件对应的口型序列,其中,所述口型序列用于描述所述音素时间戳文件中的每个音素对应的口型信息;获取与所述表情时间戳文件对应的表情序列,其中,所述表情序列用于描述所述表情时间戳文件对应的表情信息;将所述口型序列和所述表情序列合成为面部动画。2.根据权利要求1所述的方法,其特征在于,在将所述口型序列和所述表情序列合成为所述面部动画之后,还包括:将所述面部动画与所述音频文件进行同步播放。3.根据权利要求1所述的方法,其特征在于,对所述音频文件进行语音解析,得到所述音素时间戳文件包括:将所述音频文件转换为文本序列;根据所述文本序列中每个文字的中文拼音将所述文本序列转换为音素序列,其中,每个文字对应至少一个音素;对所述音素序列进行时序建模,得到所述音素时间戳文件。4.根据权利要求3所述的方法,其特征在于,将所述音频文件转换为所述文本序列包括:采用连接时态分类-递归神经网络模型将所述音频文件转换为所述文本序列。5.根据权利要求3所述的方法,其特征在于,对所述音素序列进行时序建模,得到所述音素时间戳文件包括:采用隐马尔科夫模型对所述音素序列进行时序建模,得到所述音素时间戳文件。6.根据权利要求1所述的方法,其特征在于,获取与所述表情时间戳文件对应的表情序列包括:提取所述音频文件在预设时间窗内的声谱图;根据所述声谱图推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别,得到所述表情序列。7.根据权利要求6所述的方法,其特征在于,根据所述声谱图推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别,得到所述表情序列包括:将所述声谱图设置为输入项,通过卷积神经网络推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别,得到所述表情序列。8.根据权利要求1所述的方法,其特征在于,获取与所述音素时间戳文件对应的口型序列包括:根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型,其中,所述预设对应关系用于记录不同音素与口型类型之间的映射关系,每种口型类型分别对应不同的口型动画;将每个音素的时间戳与对应的口型类型进行绑定,得到所述口型序列。9.根据权利要求2所述的方法,其特征在于,将所述口型序列和所述表情序列合成为所述面部动画,并将所述面部动画与所述音频文件进行同步播放包括:判断步骤,每间隔预设时长触发判断是否合成所述口型序列中的口型动画与所述表情序列中的表情动画;处理步骤,如果是,则先将当前口型动画与上一个口型动画进行融合,得到待播放的口型动画,再将触发时刻对应的表情动画与所述待播放的口型动画进行合成,得到所述触发时刻的面部动画;播放步骤,若未达到所述音频文件的播放结束时刻,则播放所述触发时刻的面部动画,并返回所述判断步骤,直至达到所述播放结束时刻。10.一种面部动画的合成装置,其特征在于,包括:解析模块,用于对音频文件进行语音解析,得到音素时间戳文件和表情时间戳文件,其中,所述音素时间戳文件包括:由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长,每个...

【专利技术属性】
技术研发人员:陈晓威万里红张伟东张民英
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1