基于短时谱一致性的神经网络声码器训练方法技术

技术编号:28041975 阅读:34 留言:0更新日期:2021-04-09 23:25
本发明专利技术公开了一种基于短时谱一致性的神经网络声码器训练方法,包括:使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器;将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器;本发明专利技术提供的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。

【技术实现步骤摘要】
基于短时谱一致性的神经网络声码器训练方法
本专利技术涉及语音信号处理
,尤其涉及一种基于短时谱一致性的神经网络声码器训练方法及语音合成方法。
技术介绍
语音合成(speechsynthesis)旨在使机器像人类一样流畅自然地说话,它使许多语音交互应用受益,例如智能个人助理和机器人。当前,统计参数语音合成(statisticalparametricspeechsynthesis,SPSS)是其中一种主流的方法。统计参数语音合成利用声学模型来建模文本特征和声学特征之间的关系,并利用声码器(vocoder)在给定预测声学特征的情况下得到语音波形。声码器的性能会显著影响合成语音的质量。传统的声码器如STRAIGHT和WORLD被广泛应用到目前的SPSS系统中。然而,这些传统的声码器存在一些缺陷,例如谱细节和相位信息的丢失,会导致合成语音听感的下降。随着神经网络的发展,一些神经网络声码器逐渐被提出,如自回归的神经网络声码器、基于知识蒸馏的神经网络声码器、基于逆自回归流的神经网络声码器、基于神经网络声门模型和线性自回归的神经网络声码器以及无自本文档来自技高网...

【技术保护点】
1.一种基于短时谱一致性的神经网络声码器训练方法,其中,所述神经网络声码器包括幅度谱预测器和相位谱预测器,其特征在于,包括:/n使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器;/n将训练后的所述幅度谱预测器和所述相位谱预测器进行连接,通过所述自然声学特征、所述自然对数幅度谱、所述自然基频和所述自然波形训练连接后的所述幅度谱预测器和所述相位谱预测器;/n其中,通过对自然波形进行特征提取得到所述自然声学特征和所述自然基频,对所述自然波形进行短时傅里叶变换得到所述自然对数幅度谱,所述自然波形为用于模型训练的真实录音的语音波形。/n

【技术特征摘要】
1.一种基于短时谱一致性的神经网络声码器训练方法,其中,所述神经网络声码器包括幅度谱预测器和相位谱预测器,其特征在于,包括:
使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器;
将训练后的所述幅度谱预测器和所述相位谱预测器进行连接,通过所述自然声学特征、所述自然对数幅度谱、所述自然基频和所述自然波形训练连接后的所述幅度谱预测器和所述相位谱预测器;
其中,通过对自然波形进行特征提取得到所述自然声学特征和所述自然基频,对所述自然波形进行短时傅里叶变换得到所述自然对数幅度谱,所述自然波形为用于模型训练的真实录音的语音波形。


2.根据权利要求1所述的方法,其特征在于,所述使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器包括:
所述幅度谱预测器根据输入的所述自然声学特征得到第一预测对数幅度谱;
通过所述自然对数幅度谱和所述第一预测对数幅度谱计算得到幅度谱预测器损失函数,其中,所述幅度谱预测器损失函数为所述第一预测对数幅度谱与所述自然对数幅度谱的均方误差;
以所述自然对数幅度谱作参考,通过所述幅度谱预测器损失函数对所述幅度谱预测器进行训练。


3.根据权利要求1所述的方法,其特征在于,所述使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器包括:
将所述自然基频输入到所述相位谱预测器的源模块中,输出正弦激励信号;
将所述正弦激励信号和所述自然对数幅度谱输入到所述相位谱预测器的滤波模块,输出第一样本波形;
以所述自然波形作参考,根据所述第一样本波形并通过相位谱预测器损失函数对所述相位谱预测器进行训练;
其中:所述相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和;所述幅度谱损失为所述自然波形和所述样本波形中提取的幅度谱之间的均方误差;所述波形损失为所述自然波形和所述样本波形在其对应的时域的均方误差;所述负相关系数损失为所述自然波形和所述样本波形的负相关系数。


4.根据权利要求1所述的方法,其特征在于,所述通过所述自然声学特征、所述自然对数幅度谱、所述自然基频和所述自然波形训练连接后的所述幅度谱预测器和所述相位谱预测器包括:
所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱;
所述相位谱预测器根据输入的...

【专利技术属性】
技术研发人员:艾杨凌震华
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1