语音处理方法和装置以及声码器和声码器的训练方法制造方法及图纸

技术编号:30329226 阅读:49 留言:0更新日期:2021-10-10 00:30
本公开提供一种语音处理方法和装置以及声码器和声码器的训练方法。所述语音处理方法可包括:对高采样率梅尔谱特征进行下采样来获取低采样率梅尔谱特征;基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号。本公开能够在合成高采样率语音信号的同时保持较低的运算复杂度。采样率语音信号的同时保持较低的运算复杂度。采样率语音信号的同时保持较低的运算复杂度。

【技术实现步骤摘要】
语音处理方法和装置以及声码器和声码器的训练方法


[0001]本公开涉及语音处理领域,尤其涉及一种用于语音合成的语音处理方法和语音处理装置以及声码器和声码器的训练方法。

技术介绍

[0002]声码器在使用深度学习进行语音合成方面有着广泛的应用。现有的语音合成流程一般为对输入的文字进行频域梅尔谱的预测,然后将梅尔谱转换为时域的采样点。通常,采用格里芬算法进行由梅尔谱到采样点的转换,但是这种算法可能导致语音质量较差,而采用深度学习方法转换出的语音质量较高。通常情况下,语音的有效采样率越高,合成出的语音质量就越高,听感就越好。但是高采样率音频的合成通常也伴随着网络参数量增大的问题,使得运行网络的成本增加。

技术实现思路

[0003]本公开提供一种用于语音合成的语音处理方法和语音处理装置以及声码器和声码器的训练方法,以至少解决上述提及的问题。
[0004]根据本公开实施例的第一方面,提供一种语音处理方法,所述语音处理方法可包括以下步骤:对高采样率梅尔谱特征进行下采样来获取低采样率梅尔谱特征;基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号。
[0005]可选地,基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号的步骤可包括:针对低时域信号的每个采样点执行以下操作:基于与低采样率梅尔谱特征相应的幅度谱计算低时域信号的当前采样点的第一估计值;基于低采样率梅尔谱特征经由第一神经网络的第一编码器的运算来获得第一嵌入向量;基于第一嵌入向量、第一估计值和针对第一神经网络的第一解码器在前一时刻的采样点误差经由第一解码器的运算来获得低时域信号的当前采样点。
[0006]可选地,基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号的步骤可包括:针对所述语音信号的每个采样点执行以下操作:基于与高采样率梅尔谱特征相应的幅度谱计算所述语音信号的当前采样点的第二估计值;基于高采样率梅尔谱特征经由第二神经网络的第二编码器的运算来获得第二嵌入向量;基于第二嵌入向量、高时域信号的当前采样点、第二估计值、针对高时域信号的前一时刻的采样点误差、针对第二神经网络的第二解码器在前一时刻的采样点误差和第二解码器在前一时刻输出的采样点经由第二解码器的运算来获得所述语音信号的当前采样点。
[0007]可选地,高采样率梅尔谱特征可以是通过对输入的文字执行梅尔谱预测得到的。
[0008]根据本公开实施例的第二方面,提供一种声码器的训练方法,所述训练方法可包
括以下步骤:获取样本集,其中,所述样本集包括高采样率时域信号、低采样率时域信号、低频域特征和高频域特征,其中,所述低采样率时域信号是对所述高采样率时域信号进行下采样获得的,低频域特征是所述低采样率时域信号的梅尔谱特征,高频域特征是所述高采样率时域信号的梅尔谱特征;基于低频域特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高频域特征和高时域信号利用声码器的第二神经网络来获得合成信号;利用低时域信号、所述低采样率时域信号、所述合成信号和所述高采样率时域信号来构建损失函数;基于由所述损失函数计算的损失来训练所述声码器的参数。
[0009]可选地,基于低频域特征利用声码器的第一神经网络来获得低时域信号的步骤可包括:针对低时域信号的每个采样点执行以下操作:基于所述低采样率时域信号的幅度谱计算低时域信号的当前采样点的第一估计值;基于低频域特征经由第一神经网络的第一编码器的运算来获得第一嵌入向量;基于第一嵌入向量、第一估计值和针对第一神经网络的第一解码器在前一时刻的采样点误差经由第一解码器的运算来获得低时域信号的当前采样点。
[0010]可选地,基于高频域特征和高时域信号利用声码器的第二神经网络来获得合成信号的步骤可包括:针对所述合成信号的每个采样点执行以下操作:基于所述高采样率时域信号的幅度谱计算所述合成信号的当前采样点的第二估计值;基于高频域特征经由第二神经网络的第二编码器的运算来获得第二嵌入向量;基于第二嵌入向量、高时域信号的当前采样点、第二估计值、针对高时域信号的前一时刻的采样点误差、针对第二神经网络的第二解码器在前一时刻的采样点误差和第二解码器在前一时刻输出的采样点经由第二解码器的运算来获得所述合成信号的当前采样点。
[0011]可选地,利用低时域信号、所述低采样率时域信号、所述合成信号和所述高采样率时域信号来构建损失函数的步骤可包括:利用低时域信号和所述低采样率时域信号来构建第一交叉熵损失函数;利用所述合成信号和所述高采样率时域信号来构建第二交叉熵损失函数;由第一交叉熵损失函数和第二交叉熵损失函数来构成所述损失函数。
[0012]根据本公开实施例的第三方面,提供一种语音处理装置,所述语音处理装置可包括:获取模块,被配置为对高采样率梅尔谱特征进行下采样来获取低采样率梅尔谱特征;以及处理模块,被配置为:基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号。
[0013]可选地,处理模块可被配置为针对低时域信号的每个采样点执行以下操作:基于与低采样率梅尔谱特征相应的幅度谱计算低时域信号的当前采样点的第一估计值;基于低采样率梅尔谱特征经由第一神经网络的第一编码器的运算来获得第一嵌入向量;基于第一嵌入向量、第一估计值和针对第一神经网络的第一解码器在前一时刻的采样点误差经由第一解码器的运算来获得低时域信号的当前采样点。
[0014]可选地,处理模块被配置为针对所述语音信号的每个采样点执行以下操作:基于与高采样率梅尔谱特征相应的幅度谱计算所述语音信号的当前采样点的第二估计值;基于高采样率梅尔谱特征经由第二神经网络的第二编码器的运算来获得第二嵌入向量;基于第二嵌入向量、高时域信号的当前采样点、第二估计值、针对高时域信号的前一时刻的采样点
误差、针对第二神经网络的第二解码器在前一时刻的采样点误差和第二解码器在前一时刻输出的采样点经由第二解码器的运算来获得所述语音信号的当前采样点。
[0015]可选地,高采样率梅尔谱特征可以是通过对输入的文字执行梅尔谱预测得到的。
[0016]根据本公开实施例的第四方面,提供一种声码器的训练装置,所述训练装置可包括:获取模块,被配置为获取样本集,其中,所述样本集包括高采样率时域信号、低采样率时域信号、低频域特征和高频域特征,其中,所述低采样率时域信号是对所述高采样率时域信号进行下采样获得的,低频域特征是所述低采样率时域信号的梅尔谱特征,高频域特征是所述高采样率时域信号的梅尔谱特征;以及训练模块,被配置为:基于低频域特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述语音处理方法包括:对高采样率梅尔谱特征进行下采样来获取低采样率梅尔谱特征;基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号。2.根据权利要求1所述的语音处理方法,其特征在于,基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号的步骤包括:针对低时域信号的每个采样点执行以下操作:基于与低采样率梅尔谱特征相应的幅度谱计算低时域信号的当前采样点的第一估计值;基于低采样率梅尔谱特征经由第一神经网络的第一编码器的运算来获得第一嵌入向量;基于第一嵌入向量、第一估计值和针对第一神经网络的第一解码器在前一时刻的采样点误差经由第一解码器的运算来获得低时域信号的当前采样点。3.根据权利要求1所述的语音处理方法,其特征在于,基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号的步骤包括:针对所述语音信号的每个采样点执行以下操作:基于与高采样率梅尔谱特征相应的幅度谱计算所述语音信号的当前采样点的第二估计值;基于高采样率梅尔谱特征经由第二神经网络的第二编码器的运算来获得第二嵌入向量;基于第二嵌入向量、高时域信号的当前采样点、第二估计值、针对高时域信号的前一时刻的采样点误差、针对第二神经网络的第二解码器在前一时刻的采样点误差和第二解码器在前一时刻输出的采样点经由第二解码器的运算来获得所述语音信号的当前采样点。4.根据权利要求1所述的语音处理方法,其特征在于,高采样率梅尔谱特征是通过对输入的文字执行梅尔谱预测得到的。5.一种声码器的训练方法,其特征在于,所述训练方法包括:获取样本集,其中,所述样本集包括高采样率时域信号、低采样率时域信号、低频域特征和高频域特征,其中,所述低采样率时域信号是对所述高采样率时域信号进行下采样获得的,低频域特征是所述低采样率时域信号的梅尔谱特征,高频域特征是所述高采样率时域信号的梅尔谱特征;基于低频域特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高频域特征和高时域信号利用声码器的第二神经网络来获得合成信号;利用低时域信号、所述低采样率时域信号、...

【专利技术属性】
技术研发人员:张旭张新李楠郑羲光张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1