【技术实现步骤摘要】
训练声码器方法、终端及存储介质
[0001]本申请涉及互联网
,特别涉及一种训练声码器方法、终端及存储介质。
技术介绍
[0002]随着互联网技术的不断发展,人们在阅读小说时,往往通过AI模型对小说内容进行朗读。
[0003]在相关技术中,AI模型实际是由音素转换模型、停顿预测模型、声学模型和声码器组成。应用这些模型得到目标文本的具体过程为:将目标文本分别输入音素转换模型和停顿预测模型,得到音素序列和停顿信息,该停顿信息中包括停顿位置和停顿时长。将音素序列和停顿信息输入训练完成的声学模型,得到频谱数据。将频谱数据输入训练完成的声码器,得到目标文本对应的目标时域数据,进而终端基于该目标时域数据进行播放。
[0004]由于声码器是基于真实声音得到的频谱数据训练完成的,而实际使用过程中输入训练完成的声码器的频谱数据只是声学模型基于音素序列和停顿信息得到的类似真实声音的频谱数据,并非是真实声音的频谱数据,这就造成训练完成的声学模型和训练完成的声码器不匹配,从而导致声码器可能对声学模型得到的频谱数据无法识别,使得 ...
【技术保护点】
【技术特征摘要】
1.一种训练声码器方法,其特征在于,所述方法包括:获取样本音频的时域数据作为基准时域数据;确定所述基准时域数据对应的第一频谱数据,将所述第一频谱数据输入训练完成的声学模型中的自注意学习模块,得到第二频谱数据;将所述第二频谱数据输入声码器,得到预测时域数据;基于所述预测时域数据和所述基准时域数据,对所述声码器进行训练。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取目标文本对应的音素序列和停顿信息,所述停顿信息包括停顿位置和停顿时长;将所述音素序列和所述停顿信息输入训练完成的声学模型,得到第三频谱数据;将所述第三频谱数据输入训练完成的声码器,得到所述目标文本对应的目标时域数据。3.根据权利要求2所述的方法,其特征在于,所述获取目标文本对应的音素序列和停顿信息,包括:将所述目标文本输入音素转换模型,得到所述目标文本对应的音素序列;将所述目标文本输入停顿预测模型,得到所述目标文本对应的停顿信息。4.根据权利要求2所述的方法,其特征在于,所述将所述音素序列和所述停顿信息输入训练完成的声学模型,得到第三频谱数据,包括:将所述音素序列和所述停顿信息输入所述训练完成的声学模型中的频谱预测模块,得到第四频谱数据;将所述第四频谱数据输入所述训练完成的声学模型中的自注意学习模块,得到所述第三频谱数据。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定样本库中每个样本音频的语速,其中,所述样本库中存储有多个样本音频以及所述多个样本音频分别对应的样本文本;确定语速在预设数值范围内的第一样本音频以及所述第一样本音频对应的第一样本文本;基于所述第一样本文本以及对应的第一样本音频,对声学模型进行训练,得到训练完成的声学模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一样本文本以及对应的第一样本音频,对声学模型进行训练,得到训练完成的声学模型,包括:获取所述第一样本音频对应的频谱数据,作为基准频谱数据;确定所述第一样本文本对应的样...
【专利技术属性】
技术研发人员:徐东,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。