【技术实现步骤摘要】
音频合成模型的训练方法以及音频合成方法
[0001]本公开涉及音频处理
,尤其涉及一种音频合成模型的训练方法以及音频合成方法。
技术介绍
[0002]随着计算机技术的飞速发展,语音也成为了人们通过互联网进行交流的普遍方式,TTS(Text
‑
To
‑
Speech,语音合成)技术越来越受到人们的重视,TTS可以将接收到的文字序列转换为自然逼真的语音波形,并将语音传递至用户端,完成智能语音交互。
[0003]相关技术中,在合成多个不同类型的对象的语音的情况下,一般是训练多个单一对象语音合成模型,合成多个单一对象语音,并将多个单一对象语音进行拼接得到完整语音。然而,这种方式较为繁琐,导致需要训练多个单一对象语音合成模型,效率较差。
技术实现思路
[0004]本公开提供一种音频合成模型的训练方法以及音频合成方法,以至少解决相关技术中训练效率较低的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种音频合成模型的训练方法,包括。 >[0006]获取训本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种音频合成模型的训练方法,其特征在于,包括:获取训练数据,所述训练数据包括样本文本的样本音素特征以及所述样本文本的第一样本音频信息;将所述第一样本音频信息输入至待训练的音频合成模型中的第一音频特征提取层,得到所述第一样本音频信息的第一音频特征,所述第一音频特征提取层是所述音频合成模型包括的多个音频特征提取层中与所述样本文本的对象类型相匹配的特征提取层;基于所述待训练的音频合成模型、所述样本音素特征以及所述第一音频特征,得到所述样本文本对应的预测音频信息;根据所述第一样本音频信息以及所述预测音频信息计算损失值,并基于所述损失值更新所述待训练的音频合成模型包含的各模块的模型参数,直至达到预设训练完成条件,得到训练完成的音频合成模型。2.根据权利要求1所述的音频合成模型的训练方法,其特征在于,所述方法还包括:根据所述训练数据包含的各所述样本文本的次序,在所述训练数据中获取所述样本文本的上一文本的音素特征、所述样本文本的下一文本的音素特征,以及所述上一文本的第二样本音频信息;在所述音频合成模型包括的多个音频特征提取层中,确定所述上一文本对应的第二音频特征提取层,并通过所述第二音频特征提取层,得到所述第二样本音频信息的第二音频特征;所述基于所述待训练的音频合成模型、所述样本音素特征以及所述第一音频特征,得到所述样本文本对应的预测音频信息,包括:基于所述待训练的音频合成模型、所述样本音素特征、所述样本文本的上一文本的音素特征、所述样本文本的下一文本的音素特征、所述第一音频特征以及所述第二音频特征,得到所述样本文本对应的预测音频信息。3.根据权利要求2所述的音频合成模型的训练方法,其特征在于,所述待训练的音频合成模型还包括编码器、注意力机制模块、解码器以及音频全连接层;所述基于所述待训练的音频合成模型、所述样本音素特征、所述样本文本的上一文本的音素特征、所述样本文本的下一文本的音素特征、所述第一音频特征以及所述第二音频特征,得到所述样本文本对应的预测音频信息,包括:通过所述编码器对所述样本音素特征、所述样本文本的上一文本的音素特征、所述样本文本的下一文本的音素特征进行编码,得到目标音素特征矩阵;通过所述注意力机制模块对所述目标音素特征矩阵进行处理,得到目标注意力权重矩阵;通过所述解码器对所述目标注意力权重矩阵、所述第一音频特征以及所述第二音频特征进行解码,得到目标融合特征矩阵;基于所述音频全连接层以及所述目标融合特征矩阵进行预测,得到所述样本文本对应预测音频信息。4.根据权利要求3所述的音频合成模型的训练方法,其特征在于,所述通过所述注意力机制模块对所述目标音素特征矩阵进行处理,得到目标注意力权重矩阵,包括:通过所述注意力机制模块对所述目标音素特征矩阵进行处理,得到初始注意力权重矩
阵;通过所述解码器对所述初始注意力权重矩阵、所述第一音频特征以及所述第二音频特征进行解码,得到初始融合特征矩阵;通过所述注意力机制模块对所述初始融合特征矩阵以及所述目标音素特征矩阵进行处理,得到目标注意力权重矩阵。5.根据权利要求3所述的音频合成模型的训练方法,其特征在于,所述编码器包括卷积层、双向长短时记忆网络以及编码模块;所述通过所述编码器对所述样本音素特征、所述样本文本的上一文本的音素特征、所述样本文本的下一文本的音素特征进行编码,得到目标音素特征矩阵,包括:将所述样本音素特征输入至所述卷积层,得到进行卷积处理后的样本音素特征;将所述上一文本的音素特征输入至所述双向长短时记忆网络的初始位置,以及将所述下一文本的音素特征输入至所述双向长短时记忆网络的末端位置,得到处理后的双向长短时记忆网络;通过所述编码模块以及所述处理后的双向长短时记忆网络,对所述进行卷积处理后的样本音素特征进行编码,得到所述目标音素特征矩阵。6.根据权利要求3所述的音频合成模型的训练方法,其特征在于,所述解码器包括循环神经网络、第一解码模块以及第二...
【专利技术属性】
技术研发人员:强春雨,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。