语音合成与口型驱动方法、装置、设备及存储介质制造方法及图纸

技术编号:37845149 阅读:8 留言:0更新日期:2023-06-14 22:29
本申请提供一种语音合成与口型驱动方法、装置、设备及存储介质,通过获取音素序列特征,然后基于音素序列特征生成音频PPG特征信息,基于音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息,根据音频PPG特征信息、音高特征信息和能量特征信息生成叠加音频特征信息,根据叠加音频特征信息确定口型特征参数,并根据叠加音频特征信息生成对应的音频,基于口型特征参数确定对应的口型动画,播放口型动画与音频,由于可以直接根据叠加音频特征信息生成对应的音频和对应的口型特征参数,所以无需从音频中进行特征提取,避免了延迟生成口型动画,简化了生成音频和对应口型动画的流程,提升了生成效率。提升了生成效率。提升了生成效率。

【技术实现步骤摘要】
语音合成与口型驱动方法、装置、设备及存储介质


[0001]本申请涉及语音合成
,特别是涉及一种语音合成与口型驱动方法、装置、设备及存储介质。

技术介绍

[0002]在目前的虚拟形象展示领域,通常需要合成虚拟形象发出的音频以及对应的口型动画,目前,通常是先生成对应的音频,然后从音频中进行特征提取,根据提取的特征确定出对应的口型动画,也即需要先生成音频,然后基于生成的音频生成对应的口型动画,口型动画生成延迟,生成效率较低。

技术实现思路

[0003]本申请实施例的目的在于提供一种语音合成与口型驱动方法、装置、设备及存储介质,以解决上述技术问题。
[0004]一方面,提供一种语音合成与口型驱动方法,所述方法包括:
[0005]获取音素序列特征;
[0006]基于所述音素序列特征生成音频PPG特征信息;
[0007]基于所述音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息;
[0008]根据所述音频PPG特征信息、所述音高特征信息和所述能量特征信息生成叠加音频特征信息;
[0009]根据所述叠加音频特征信息确定口型特征参数,并根据所述叠加音频特征信息生成对应的音频;
[0010]基于所述口型特征参数确定对应的口型动画;
[0011]播放所述口型动画与所述音频。
[0012]在其中一个实施例中,所述获取音素序列特征,包括:
[0013]确定待进行播报的文本信息;
[0014]根据所述文本信息生成对应的音素序列;
[0015]对所述音素序列进行编码得到对应的音素序列特征。
[0016]在其中一个实施例中,所述基于所述音素序列特征生成音频PPG特征信息,包括:
[0017]确定用于进行音频合成的声纹信息;
[0018]将所述声纹信息与所述音素序列特征输入预先训练得到的PPG预测模型中,得到对应的音频PPG特征信息;所述PPG预测模型为基于音频训练样本和对应的音频文本序列训练样本进行训练得到的模型。
[0019]在其中一个实施例中,所述PPG预测模型为将音素时长预测特征与PPG预测特征之间的误差作为额外损失进行训练得到的模型,所述音素时长预测特征为根据所述音频训练样本的声纹特征和对应的所述音频文本序列训练样本的音素序列特征进行音素时长预测
得到的特征,所述PPG预测特征为对所述音频训练样本进行语音识别处理得到的特征。
[0020]在其中一个实施例中,所述确定用于进行音频合成的声纹信息,包括:
[0021]通过音频采集设备采集目标语音,并从所述目标语音中提取出声纹信息;
[0022]或,
[0023]接收音色选择指令,并根据所述音色选择指令从预设的声纹信息库中选择对应的声纹信息。
[0024]在其中一个实施例中,所述基于所述音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息,包括:
[0025]将所述声纹信息和所述音频PPG特征信息分别输入预先训练得到的音高预测模型和预先训练得到的能量预测模型,得到音高特征信息和能量特征信息。
[0026]在其中一个实施例中,所述根据所述叠加音频特征信息生成对应的音频,包括:
[0027]根据所述声纹信息和所述叠加音频特征信息生成对应音色的音频。
[0028]另一方面,提供了一种语音合成与口型驱动装置,所述装置包括:
[0029]获取模块,用于获取音素序列特征;
[0030]第一生成模块,用于基于所述音素序列特征生成音频PPG特征信息;
[0031]第二生成模块,用于基于所述音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息;
[0032]第三生成模块,用于根据所述音频PPG特征信息、所述音高特征信息和所述能量特征信息生成叠加音频特征信息;
[0033]第四生成模块,用于根据所述叠加音频特征信息确定口型特征参数,并根据所述叠加音频特征信息生成对应的音频;
[0034]确定模块,用于基于所述口型特征参数确定对应的口型动画;
[0035]播放模块,用于播放所述口型动画与所述音频。
[0036]另一方面,本申请还提供了一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现上述任一所述的方法。
[0037]另一方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一所述的方法。
[0038]本申请提供的语音合成与口型驱动方法、装置、设备及存储介质,通过获取音素序列特征,然后基于音素序列特征生成音频PPG特征信息,基于音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息,根据音频PPG特征信息、音高特征信息和能量特征信息生成叠加音频特征信息,根据叠加音频特征信息确定口型特征参数,并根据叠加音频特征信息生成对应的音频,基于口型特征参数确定对应的口型动画,播放口型动画与音频,由于叠加音频特征信息是高度的抽象音频特征,可以直接用来作为口型动画参数的预测,相比现有方案中需要从音频中进行特征提取以生成对应的口型动画而言,本申请提供的方案可以直接根据叠加音频特征信息生成对应的音频和对应的口型特征参数,也即无需从音频中进行特征提取,避免了延迟生成口型动画,简化了生成音频和对应口型动画的流程,提升了生成效率。
附图说明
[0039]图1为本申请实施例一提供的语音合成与口型驱动方法的流程示意图;
[0040]图2为本申请实施例一提供的获取音素序列特征的流程示意图;
[0041]图3为本申请实施例一提供的生成音频PPG特征信息的流程示意图;
[0042]图4为本申请实施例一提供的语音合成与口型驱动方法的流程框图;
[0043]图5为本申请实施例一提供的PPG预测模型的训练流程框图;
[0044]图6为本申请实施例一提供的音高预测模型和能量预测模型的训练流程框图;
[0045]图7为本申请实施例一提供的音频解码器的训练流程框图;
[0046]图8为本申请实施例一提供的口型解码器的训练流程框图;
[0047]图9为本申请实施例二提供的语音合成与口型驱动装置的结构示意图;
[0048]图10为本申请实施例三提供的电子设备的结构示意图。
具体实施方式
[0049]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0050]实施例一:
[0051]本申请实施例提供一种语音合成与口型驱动方法,请参见图1所示,可以包括如下步骤:
[0052]S11:获取音素序列特征。
[0053]S12:基于音素序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成与口型驱动方法,其特征在于,包括:获取音素序列特征;基于所述音素序列特征生成音频PPG特征信息;基于所述音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息;根据所述音频PPG特征信息、所述音高特征信息和所述能量特征信息生成叠加音频特征信息;根据所述叠加音频特征信息确定口型特征参数,并根据所述叠加音频特征信息生成对应的音频;基于所述口型特征参数确定对应的口型动画;播放所述口型动画与所述音频。2.如权利要求1所述的语音合成与口型驱动方法,其特征在于,所述获取音素序列特征,包括:确定待进行播报的文本信息;根据所述文本信息生成对应的音素序列;对所述音素序列进行编码得到对应的音素序列特征。3.如权利要求1所述的语音合成与口型驱动方法,其特征在于,所述基于所述音素序列特征生成音频PPG特征信息,包括:确定用于进行音频合成的声纹信息;将所述声纹信息与所述音素序列特征输入预先训练得到的PPG预测模型中,得到对应的音频PPG特征信息;所述PPG预测模型为基于音频训练样本和对应的音频文本序列训练样本进行训练得到的模型。4.如权利要求3所述的语音合成与口型驱动方法,其特征在于,所述PPG预测模型为将音素时长预测特征与PPG预测特征之间的误差作为额外损失进行训练得到的模型,所述音素时长预测特征为根据所述音频训练样本的声纹特征和对应的所述音频文本序列训练样本的音素序列特征进行音素时长预测得到的特征,所述PPG预测特征为对所述音频训练样本进行语音识别处理得到的特征。5.如权利要求3所述的语音合成与口型驱动方法,其特征在于,所述确定用于进行音频合成的声纹信息,包括:通过音频采集设备采集目标语音,并从所述目标语音中提取出声纹信息;或,接收...

【专利技术属性】
技术研发人员:刘光毅唐如意
申请(专利权)人:成都赛力斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1