面部信息的生成方法及装置制造方法及图纸

技术编号:33419891 阅读:7 留言:0更新日期:2022-05-19 00:12
本发明专利技术公开了一种面部信息的生成方法及装置。其中,该方法包括:获取虚拟主播播报过程中输出的音频信息,其中,音频信息为将播报文本进行语音合成而生成的信息,且音频信息包括连续的多帧音频;基于神经网络模型对音频信息进行处理,预测得到虚拟主播嘴部的动作序列;将情绪状态标签结合至动作序列中,生成虚拟主播播报过程中的面部动作,其中,情绪状态标签为基于播报文本生成的情绪动作参数。本发明专利技术解决了现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题。面部动作的准确性较低的技术问题。面部动作的准确性较低的技术问题。

【技术实现步骤摘要】
面部信息的生成方法及装置


[0001]本专利技术涉及信息处理
,具体而言,涉及一种面部信息的生成方法及装置。

技术介绍

[0002]在直播的虚拟主播场景中,如何根据语音播报,通过深度学习的方法为虚拟主播生成准确且生动自然的面部动作,是提升虚拟主播表现力的关键问题。虚拟主播的面部动作可以拆解为两个部分,一方面是嘴型动作,需要跟随虚拟主播在播报商品介绍中发不同的音节时做出和声音匹配的嘴型,例如,发



的音时嘴部双唇放松、下颌张大,而发



的音时需要嘴部双唇收缩;另一方面是面部表情,需要根据虚拟主播的播报内容做出合适的面部表情动作,例如在说出“推荐”、“特别好”等短语时面部需要做出高兴的表情,而对于“困扰”、“惨不忍睹”等短语时则需要做出悲伤的表情,通过面部的表情变化能够让虚拟主播的播报更加自然生动。然而现有的语音驱动面部动作的方法,针对嘴型动作的生成,往往通过声音直接预测面部动作,缺少其他辅助信息(如人脸关键点、音素标注)的补充约束,导致生成的嘴型动作不够精准;另外,针对面部表情的生成,往往在一个完整的声音片段中只能做出同一类型的表情动作,而难以根据播报文本中的不同情感关键词做出动态变化的表情动作。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种面部信息的生成方法及装置,以至少解决现有技术中根据虚拟主播的语音播报驱动面部动作的准确性较低的技术问题
[0005]根据本专利技术实施例的一个方面,提供了一种面部信息的生成方法,包括:获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
[0006]可选的,基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列,包括:采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
[0007]可选的,所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;采用所述人脸关键点预测模型和所述
音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
[0008]可选的,获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。
[0009]可选的,在获取虚拟主播播报过程中输出的音频信息之前,所述方法还包括:获取所述播报文本;采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
[0010]可选的,所述方法还包括:解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
[0011]可选的,将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,包括:将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。
[0012]根据本专利技术实施例的另一方面,还提供了一种面部信息的生成方法,包括:在交互界面上显示播报音频信息的虚拟主播,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;在交互界面上展示所述虚拟主播在播报过程中的面部动作,其中,所述面部动作由所述虚拟主播嘴部的动作序列与情绪状态标签结合而生成,所述情绪状态标签为基于所述播报文本生成的情绪动作参数;其中,所述嘴部的动作序列为通过于神经网络模型对所述音频信息进行处理而预测得到。
[0013]根据本专利技术实施例的另一方面,还提供了一种面部信息的生成装置,包括:获取模块,用于获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;预测模块,用于基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;生成模块,用于将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。
[0014]可选的,预测模块包括:预测单元,用于采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;拼接单元,用于对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;预测单元,还用于采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。
[0015]可选的,所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,预测单元包括:提取单元,用于提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;生成单元,用于采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。
[0016]可选的,获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟
主播脸部其他部位的动作序列为空。
[0017]可选的,所述装置还包括:获取模块,还用于获取所述播报文本;合成模块,用于采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。
[0018]可选的,所述装置还包括:解析模块,用于解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;生成模块,用于对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。
[0019]可选的,所述生成模块包括:获取单元,用于将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取单元,还用于获取不同时间点下与所述情绪状态标签关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面部信息的生成方法,其特征在于,包括:获取虚拟主播播报过程中输出的音频信息,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列;将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,其中,所述情绪状态标签为基于所述播报文本生成的情绪动作参数。2.根据权利要求1所述的方法,其特征在于,基于神经网络模型对所述音频信息进行处理,预测得到所述虚拟主播嘴部的动作序列,包括:采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签;对所述脸部的关键部位的坐标、所述音素标签和所述音频信息进行拼接处理,生成拼接结果;采用嘴型动作预测模型对拼接结果进行处理,预测得到所述虚拟主播嘴部在播报过程中的动作序列。3.根据权利要求2所述的方法,其特征在于,所述序列模型包括:人脸关键点预测模型以及音素识别模型,其中,采用序列模型对所述音频信息进行处理,预测得到所述虚拟主播在播报过程中脸部的关键部位的坐标和音素标签,包括:提取所述音频信息的梅尔频率倒谱系数特征,其中,所述梅尔频率倒谱系数特征为所述信息中每帧音频的特征序列;采用所述人脸关键点预测模型和所述音素识别模型处理所述每帧音频的特征序列,生成每帧音频下脸部的关键部位的坐标和音素标签。4.根据权利要求2所述的方法,其特征在于,获取所述虚拟主播的嘴部在播报过程中的动作序列的过程中,所述虚拟主播脸部其他部位的动作序列为空。5.根据权利要求1至4中任意一项所述的方法,其特征在于,在获取虚拟主播播报过程中输出的音频信息之前,所述方法还包括:获取所述播报文本;采用语音合成工具处理将所述播报文本进行合成生成所述虚拟主播播报的所述音频信息。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:解析所述播报文本,获取所述播报文本中用于表征情绪特征的情绪关键词;对所述情绪关键词标注标签信息,生成所述情绪状态标签,其中,所述标签信息包括:所述情绪关键词的播报时间戳、情绪特征。7.根据权利要求6所述的方法,其特征在于,将情绪状态标签结合至所述动作序列中,生成所述虚拟主播播报过程中的面部动作,包括:将所述情绪状态标签按照播报时间戳与所述动作序列进行对齐,获取每帧音频中不同时间点的嘴部动作和情绪状态标签;获取不同时间点下与所述情绪状态标签关联的情绪特征的内容;将不同时间点下的所述情绪特征的内容与所述动作序列进行结合,生成所述虚拟主播
播报过程中的面部动作,其中,所述面部动作用于表征所述虚拟主播播报过程中的情绪变化。8.一种面部信息的生成方法,其特征在于,包括:在交互界面上显示播报音频信息的虚拟主播,其中,所述音频信息为将播报文本进行语音合成而生成的信息,且所述音频信息包括连续的多帧音频;在所述交互界面上展示所述虚拟主播在播报过程中的面部动作,其中,所述面部动作由所述虚拟主播嘴部的动作序列与情绪状态标签结合而生成,所述情绪状态标签为基于所...

【专利技术属性】
技术研发人员:綦金玮张邦潘攀徐盈辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1