语音合成与口型驱动方法、装置、设备及存储介质制造方法及图纸

技术编号：37845149 阅读：8 留言：0更新日期：2023-06-14 22:29

本申请提供一种语音合成与口型驱动方法、装置、设备及存储介质，通过获取音素序列特征，然后基于音素序列特征生成音频PPG特征信息，基于音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息，根据音频PPG特征信息、音高特征信息和能量特征信息生成叠加音频特征信息，根据叠加音频特征信息确定口型特征参数，并根据叠加音频特征信息生成对应的音频，基于口型特征参数确定对应的口型动画，播放口型动画与音频，由于可以直接根据叠加音频特征信息生成对应的音频和对应的口型特征参数，所以无需从音频中进行特征提取，避免了延迟生成口型动画，简化了生成音频和对应口型动画的流程，提升了生成效率。提升了生成效率。提升了生成效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成与口型驱动方法、装置、设备及存储介质

[0001]本申请涉及语音合成
，特别是涉及一种语音合成与口型驱动方法、装置、设备及存储介质。

技术介绍

[0002]在目前的虚拟形象展示领域，通常需要合成虚拟形象发出的音频以及对应的口型动画，目前，通常是先生成对应的音频，然后从音频中进行特征提取，根据提取的特征确定出对应的口型动画，也即需要先生成音频，然后基于生成的音频生成对应的口型动画，口型动画生成延迟，生成效率较低。

技术实现思路

[0003]本申请实施例的目的在于提供一种语音合成与口型驱动方法、装置、设备及存储介质，以解决上述技术问题。
[0004]一方面，提供一种语音合成与口型驱动方法，所述方法包括：
[0005]获取音素序列特征；
[0006]基于所述音素序列特征生成音频PPG特征信息；
[0007]基于所述音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息；
[0008]根据所述音频PPG特征信息、所述音高特征信息和所述能量特征信息生成叠加音频特征信息；
[0009]根据所述叠加音频特征信息确定口型特征参数，并根据所述叠加音频特征信息生成对应的音频；
[0010]基于所述口型特征参数确定对应的口型动画；
[0011]播放所述口型动画与所述音频。
[0012]在其中一个实施例中，所述获取音素序列特征，包括：
[0013]确定待进行播报的文本信息；
[0014]根据所述文本信息生...

【技术保护点】

【技术特征摘要】
1.一种语音合成与口型驱动方法，其特征在于，包括：获取音素序列特征；基于所述音素序列特征生成音频PPG特征信息；基于所述音频PPG特征信息以及预先训练得到的预测模型生成音高特征信息和能量特征信息；根据所述音频PPG特征信息、所述音高特征信息和所述能量特征信息生成叠加音频特征信息；根据所述叠加音频特征信息确定口型特征参数，并根据所述叠加音频特征信息生成对应的音频；基于所述口型特征参数确定对应的口型动画；播放所述口型动画与所述音频。2.如权利要求1所述的语音合成与口型驱动方法，其特征在于，所述获取音素序列特征，包括：确定待进行播报的文本信息；根据所述文本信息生成对应的音素序列；对所述音素序列进行编码得到对应的音素序列特征。3.如权利要求1所述的语音合成与口型驱动方法，其特征在于，所述基于所述音素序列特征生成音频PPG特征信息，包括：确定用于进行音频合成的声纹信息；将所述声纹信息与所述音素序列特征输入预先训练得到的PPG预测模型中，得到对应的音频PPG特征信息；所述PPG预测模型为基于音频训练样本和对应的音频文本序列训练样本进行训练得到的模型。4.如权利要求3所述的语音合成与口型驱动方法，其特征在于，所述PPG预测模型为将音素时长预测特征与PPG预测特征之间的误差作为额外损失进行训练得到的模型，所述音素时长预测特征为根据所述音频训练样本的声纹特征和对应的所述音频文本序列训练样本的音素序列特征进行音素时长预测得到的特征，所述PPG预测特征为对所述音频训练样本进行语音识别处理得到的特征。5.如权利要求3所述的语音合成与口型驱动方法，其特征在于，所述确定用于进行音频合成的声纹信息，包括：通过音频采集设备采集目标语音，并从所述目标语音中提取出声纹信息；或，接收...

【专利技术属性】
技术研发人员：刘光毅，唐如意，
申请(专利权)人：成都赛力斯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人