【技术实现步骤摘要】
语音合成、语音合成模型训练方法、装置及设备
[0001]本专利技术实施例涉及计算机技术,尤其涉及一种语音合成、语音合成模型训练方法、装置及设备。
技术介绍
[0002]语音合成是通过机械或者电子的方法产生人造语音的技术,目前市场上的语音合成系统分为在线语音合成和离线语音合成两种。在线语音合成所使用的模型一般比较复杂,对设备的算力要求较高,且在线语音合成对网络依赖性高,在网络环境不稳定时,无法实现稳定的语音合成。
[0003]离线语音合成可以脱离网络的束缚,在本地实现语音合成,但在算力较低的移动设备上进行语音合成时,为了能达到实时合成的效果,往往使用一个集成语音合成算法的简单模型来进行语音合成,一方面,由于模型较为简单,合成的语音更像机器人,没有情感及抑扬顿挫的语气,另一方面,如果需要变更说话人或者变更语种时,还需要耗费大量时间重新进行模型训练。
技术实现思路
[0004]本专利技术实施例提供一种语音合成、语音合成模型训练方法、装置及设备,通过双模型进行语音合成,优化语音合成效果的同时,降低计算资源消耗。
[0005]第一方面,本专利技术实施例提供了一种语音合成模型训练方法,所述方法包括:
[0006]对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;
[0007]通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
[0008]通过所述目标频谱训练样 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成模型训练方法,应用于服务器,其特征在于,包括:对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。2.根据权利要求1所述的方法,其特征在于,对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本,包括:对所述音频数据样本进行语音识别,获取所述音频数据样本对应的文本;将所述文本转换为对应音素,并将所述音素作为目标音素训练样本;根据所述音频数据样本,生成与所述音频数据样本对应的音频频谱,并将所述音频频谱作为目标频谱训练样本。3.根据权利要求1所述的方法,其特征在于,将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,包括:将所述音素转换模型和频谱转换模型的计算精度调节至与待部署终端匹配的计算精度;将调整精度后的音素转换模型和频谱转换模型首尾相接,组合构成语音合成模型。4.根据权利要求2所述的方法,其特征在于,在通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型之前,还包括:对所述音频数据样本和所述音频数据样本对应的文本进行情感分析,得到所述音频数据样本对应的情感类型;相应的,通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,包括:通过所述目标音素训练样本和所述音频数据样本对应的情感类型对第一初始模型进行训练,得到音素转换模型;通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,包括:通过所述目标频谱训练样本和所述音频数据样本对应的情感类型对第二初始模型进行训练,得到频谱转换模型。5.一种语音合成方法,应用于终端设备,其特征在于,包括:将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。6.根据权利要求5所述的方法,其特征在于,通过所述音素转换模型,在离线模式下,将
待合成文本对应的音素转换为对应的音频频谱,包括:通过所述音素转换模型,在离线模式下采用强制对齐方法,将待合成文本对应的至少一个音素匹配到对应时间段内;并行提取各时间段内的音素对应的梅尔倒谱系数特征;将各音素对应的梅尔倒谱系数特征转换为音频频谱,并将各音素对应的音频频谱按照所属时间段进行拼接,得到所述待合成文本对应的音频频谱。7.根据权利要求5所述的方法,其特征在于,通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据,包括:通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱切分为至少两个音频频谱块;并行将各音频频谱块转换为对应的子音频数据;将各子音频数据按照对应时间段进行拼接,得到所述音频频谱对应的音频数据。8.根据权利要求5所述的方法,其特征在于,在将待合成文本对应的音素输入至语音合成模型中之前,还包括:对所述待合成文本进行情感分析,得到待合成文本对应的情感类型;相应的,将待合成文本对应...
【专利技术属性】
技术研发人员:丁雪枫,
申请(专利权)人:大众问问北京信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。