【技术实现步骤摘要】
语音合成模型的生成方法、装置、存储介质及电子设备
本申请涉及计算机
,尤其涉及一种语音合成模型的生成方法、装置、存储介质及电子设备。
技术介绍
互联网的发展逐渐推动了人工智能技术的发展,智能语音技术在人工智能技术的发展中尤为突出,将文本转换成语音及将语音转换成文本均是建立在智能语音技术的基础上实现的。其中,将文本转换成语音是智能语音技术中语音合成的过程,语音合成的过程需要利用训练好的语音合成模型,在相关技术中,会通过训练数据对模型进行多次训练生成语音合成模型,但在训练数据缺失或训练数据较少的情况下,由此训练数据训练得到的语音合成模型会存在处理数据准确性差的问题,且此训练过程的时间周期较长。
技术实现思路
本申请实施例提供了一种语音合成模型的生成方法、装置、存储介质及电子设备,可以解决在训练数据缺失或训练数据较少的情况,不能生成质量较好的语音合成模型的问题。所述技术方案如下:第一方面,本申请实施例提供了一种语音合成模型的生成方法,所述方法包括:基于至少两个不同采样率分别对样本音频数据进 ...
【技术保护点】
1.一种语音合成模型的生成方法,其特征在于,所述方法,包括:/n基于至少两个不同采样率分别对样本音频数据进行采样处理得到各自对应的训练音频数据;/n基于至少两个训练音频数据进行训练得到所述语音合成模型。/n
【技术特征摘要】
1.一种语音合成模型的生成方法,其特征在于,所述方法,包括:
基于至少两个不同采样率分别对样本音频数据进行采样处理得到各自对应的训练音频数据;
基于至少两个训练音频数据进行训练得到所述语音合成模型。
2.根据权利要求1所述的方法,其特征在于,所述基于至少两个训练音频数据进行训练得到所述语音合成模型,还包括:
基于所述样本音频数据进行训练得到所述语音合成模型。
3.根据权利要求2所述的方法,其特征在于,所述基于至少两个训练音频数据进行训练得到所述语音合成模型,包括:
获取样本文本数据,以及获取所述至少两个训练音频数据和所述样本音频数据;
对所述样本文本数据分别进行编码处理和解码处理得到所述样本文本数据当前对应的梅尔频谱;
在损失值小于或等于预设阈值时生成所述预训练的语音合成模型;其中,所述损失值为所述样本文本数据当前对应的梅尔频谱与所述至少两个训练音频数据及所述样本音频数据对应的梅尔频谱间的损失值。
4.根据权利要求3所述的方法,其特征在于,所述获取所述至少两个训练音频数据和所述样本音频数据,包括:
分别获取所述至少两个训练音频数据和所述样本音频数据各自对应的梅尔频谱;
将所述梅尔频谱添加到样本梅尔频谱集合中。
5.根据权利要求4所述的方法,其特征在于,所述分别获取所述至少两个训练音频数据和所述样本音频数据各自对应的梅尔频谱,包括:
确定所述至少两个训练音频数据和所述样本音频数据各自对应的线性频谱;
将所述线性频谱转换成所述至少两个训练音频数据和所述样本音频数据各自对应的所述梅尔频谱。
6.根据权利要求4或5所述的方法,其特征在于,所述对所述样本文本数据分别进行编码处理和解码处理得到所述样本...
【专利技术属性】
技术研发人员:杨惠,梁光,吴雨璇,舒景辰,周鼎皓,
申请(专利权)人:北京大米科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。