声码器的训练方法和装置及合成音频信号的方法和声码器制造方法及图纸

技术编号:30164617 阅读:26 留言:0更新日期:2021-09-25 15:19
提供了一种声码器的训练方法和装置及合成音频信号的方法和声码器,其特征在于,所述声码器的训练方法包括:基于音频信号获取第一低频时域信号和第一高频时域信号;基于第一低频时域信号获取低频频域特征,并基于第一高频时域信号获取高频频域特征;基于低频频域特征,通过声码器的第一网络来获取第二低频时域信号;基于高频频域特征和第二低频时域信号,通过声码器的第二网络来获取第二高频时域信号;基于第二低频时域信号和第二高频时域信号来获取损失函数;基于所述损失函数来训练声码器的第一网络和第二网络。器的第一网络和第二网络。器的第一网络和第二网络。

【技术实现步骤摘要】
声码器的训练方法和装置及合成音频信号的方法和声码器


[0001]本申请涉及音频处理领域,更具体地,涉及一种声码器的训练方法和装置以及合成音频信号的方法和声码器。

技术介绍

[0002]声码器在使用深度学习进行语音合成方面有着广泛的应用。传统声码器使用输入的文字进行频域梅尔谱的预测,将梅尔谱转为时域的采样点,采用格里芬算法进行的由梅尔谱到采样点的语音质量较差,而使用深度学习的声码器转换出的语音质量较高。语音的采样率越高,合成出的语音质量就越高,但是通常也伴随着网络参数量的增大,使得运行网络的成本增加。
[0003]例如,在16k采样率下,现有的使用深度学习的声码器对每秒语音需要运行16000次解码器,提升至32k采样率之后,则需要运行32000次解码器,导致运算量非常大。

技术实现思路

[0004]根据本专利技术的示例性实施例,提供了一种声码器的训练方法,其特征在于,包括:基于音频信号获取第一低频时域信号和第一高频时域信号;基于第一低频时域信号获取低频频域特征,并基于第一高频时域信号获取高频频域特征;基于低频频域特征,通过本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种声码器的训练方法,其特征在于,包括:基于音频信号获取第一低频时域信号和第一高频时域信号;基于第一低频时域信号获取低频频域特征,并基于第一高频时域信号获取高频频域特征;基于低频频域特征,通过声码器的第一网络来获取第二低频时域信号;基于高频频域特征和第二低频时域信号,通过声码器的第二网络来获取第二高频时域信号;基于第二低频时域信号和第二高频时域信号来获取损失函数;基于所述损失函数来训练声码器的第一网络和第二网络。2.如权利要求1所述的声码器的训练方法,其特征在于,获取第二低频时域信号的步骤包括:基于低频频域特征,通过第一网络的编码器来获取用于当前采样点的第一向量;基于在与低频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的低频时域值来获取当前采样点的低频时域预测值;基于第一向量、低频时域预测值、在当前采样点之前获取的前一采样点的低频时域值和所述前一采样点的低频时域误差值,通过第一网络的解码器来获取当前采样点的低频时域误差值;基于当前采样点的低频时域预测值和低频时域误差值来获取当前采样点的低频时域值;基于所述多个采样点的低频时域值来获取第二低频时域信号。3.如权利要求2所述的声码器的训练方法,其特征在于,获取第二高频时域信号的步骤包括:基于高频频域特征,通过第二网络的编码器来获取用于当前采样点的第二向量;基于在与高频频域特征对应的多个采样点中的当前采样点之前获取的至少一个先前采样点的高频时域值来获取当前采样点的高频时域预测值;基于第二向量、高频时域预测值、在当前采样点之前获取的前一采样点的高频时域值、所述前一采样点的高频时域误差值和当前采样点的低频时域值,通过第二网络的解码器来获取当前采样点的高频时域误差值;基于当前采样点的高频时域预测值和高频时域误差值来获取当前采样点的高频时域值;基于所述多个采样点的高频时域值来获取第二高频时域信号。4.如权利要求1所述的声码器的训练方法,其特征在于,基于第二低频时域信号和第二高频时域信号来获取损失函数的步骤包括:基于第一低频时域信号和第二低频时域信号来获取第一交叉熵损失函数;基于第一高频时域信号和第二高频时域信号来获取第二交叉熵损失函数;基于第...

【专利技术属性】
技术研发人员:崔凡任新蕾郑羲光李楠张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1