【技术实现步骤摘要】
语音处理方法和装置以及声码器和声码器的训练方法
[0001]本公开涉及语音处理领域,尤其涉及一种用于语音合成的语音处理方法和语音处理装置以及声码器和声码器的训练方法。
技术介绍
[0002]声码器在使用深度学习进行语音合成方面有着广泛的应用。现有的语音合成流程一般为对输入的文字进行频域梅尔谱的预测,然后将梅尔谱转换为时域的采样点。通常,采用格里芬算法进行由梅尔谱到采样点的转换,但是这种算法可能导致语音质量较差,而采用深度学习方法转换出的语音质量较高。通常情况下,语音的有效采样率越高,合成出的语音质量就越高,听感就越好。但是高采样率音频的合成通常也伴随着网络参数量增大的问题,使得运行网络的成本增加。
技术实现思路
[0003]本公开提供一种用于语音合成的语音处理方法和语音处理装置以及声码器和声码器的训练方法,以至少解决上述提及的问题。
[0004]根据本公开实施例的第一方面,提供一种语音处理方法,所述语音处理方法可包括以下步骤:对高采样率梅尔谱特征进行下采样来获取低采样率梅尔谱特征;基于低采样率梅尔谱特 ...
【技术保护点】
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述语音处理方法包括:对高采样率梅尔谱特征进行下采样来获取低采样率梅尔谱特征;基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号。2.根据权利要求1所述的语音处理方法,其特征在于,基于低采样率梅尔谱特征利用声码器的第一神经网络来获得低时域信号的步骤包括:针对低时域信号的每个采样点执行以下操作:基于与低采样率梅尔谱特征相应的幅度谱计算低时域信号的当前采样点的第一估计值;基于低采样率梅尔谱特征经由第一神经网络的第一编码器的运算来获得第一嵌入向量;基于第一嵌入向量、第一估计值和针对第一神经网络的第一解码器在前一时刻的采样点误差经由第一解码器的运算来获得低时域信号的当前采样点。3.根据权利要求1所述的语音处理方法,其特征在于,基于高采样率梅尔谱特征和高时域信号利用声码器的第二神经网络来获得与高采样率梅尔谱特征相应的语音信号的步骤包括:针对所述语音信号的每个采样点执行以下操作:基于与高采样率梅尔谱特征相应的幅度谱计算所述语音信号的当前采样点的第二估计值;基于高采样率梅尔谱特征经由第二神经网络的第二编码器的运算来获得第二嵌入向量;基于第二嵌入向量、高时域信号的当前采样点、第二估计值、针对高时域信号的前一时刻的采样点误差、针对第二神经网络的第二解码器在前一时刻的采样点误差和第二解码器在前一时刻输出的采样点经由第二解码器的运算来获得所述语音信号的当前采样点。4.根据权利要求1所述的语音处理方法,其特征在于,高采样率梅尔谱特征是通过对输入的文字执行梅尔谱预测得到的。5.一种声码器的训练方法,其特征在于,所述训练方法包括:获取样本集,其中,所述样本集包括高采样率时域信号、低采样率时域信号、低频域特征和高频域特征,其中,所述低采样率时域信号是对所述高采样率时域信号进行下采样获得的,低频域特征是所述低采样率时域信号的梅尔谱特征,高频域特征是所述高采样率时域信号的梅尔谱特征;基于低频域特征利用声码器的第一神经网络来获得低时域信号;通过对低时域信号进行上采样来获得高时域信号;基于高频域特征和高时域信号利用声码器的第二神经网络来获得合成信号;利用低时域信号、所述低采样率时域信号、...
【专利技术属性】
技术研发人员:张旭,张新,李楠,郑羲光,张晨,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。