语音增强模型的训练方法和装置以及语音增强方法和装置制造方法及图纸

技术编号:32498591 阅读:19 留言:0更新日期:2022-03-02 10:06
本公开提供一种语音增强模型的训练方法和装置以及语音增强方法和装置。所述训练方法可包括以下步骤:获取包括干净语音信号和带噪语音信号的训练样本;将带噪语音信号的信息输入特征提取网络,得到与带噪语音信号对应的特征;将特征输入降噪网络,得到由降噪网络预测的预测信息;将特征输入变速变调判定网络,得到由变速变调判定网络预测的带噪语音信号的变速变调估计值;基于带噪语音信号的信息、预测信息、变速变调估计值和干净语音信号的信息来调整特征提取网络、降噪网络和变速变调判定网络的参数,以训练语音增强模型。以训练语音增强模型。以训练语音增强模型。

【技术实现步骤摘要】
语音增强模型的训练方法和装置以及语音增强方法和装置


[0001]本公开涉及人工智能和语音处理领域,尤其涉及一种用于对输入语音进行语音增强的语音增强模型的训练方法和装置以及语音增强方法和装置。

技术介绍

[0002]随着深度学习技术的快速发展,近年来基于神经网络的语音增强技术也在不断进步。通过大规模的数据训练,当前神经网络能够很好地从带噪语音信号中提取出干净语音信号。
[0003]短视频已经成为当今社会人们获取信息和休闲娱乐的主要方式。在短视频的内容制作过程中,为了提升内容的多样性和可玩性,内容制作者经常会对声音进行变速变调处理。然而,相关技术对经变速变调处理的声音的增强效果并不理想,因此,亟需一种鲁棒地增强变速变调声音的方案。

技术实现思路

[0004]本公开提供一种用于对输入语音进行语音增强的语音增强模型的训练方法和装置以及语音增强方法和装置、电子设备及存储介质,以至少解决基于神经网络的语音增强技术对变速变调音频进行语音增强的鲁棒性问题。
[0005]根据本公开实施例的第一方面,提供一种语音增强模型的训练方法,所述语音增强模型包括特征提取网络和降噪网络,所述训练方法可包括以下步骤:获取训练样本,其中,所述训练样本包括干净语音信号和带噪语音信号,所述干净语音信号是未进行变速变调处理的无噪声语音信号,所述带噪语音信号是通过对所述干净语音信号进行变速变调处理和噪声混合处理得到的;将所述带噪语音信号的信息输入所述特征提取网络,得到与所述带噪语音信号对应的特征;将所述特征输入所述降噪网络,得到由所述降噪网络预测的预测信息,其中,所述预测信息用于生成所述带噪语音信号的增强语音信号;将所述特征输入变速变调判定网络,得到由所述变速变调判定网络预测的所述带噪语音信号的变速变调估计值;基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数,以训练所述语音增强模型。
[0006]可选地,基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数,以训练所述语音增强模型,可包括:根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息,计算第一损失函数;根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值,计算第二损失函数;通过根据所述第一损失函数和所述第二损失函数来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数。
[0007]可选地,所述带噪语音信号的信息可包括所述带噪语音信号的幅度谱,所述预测
信息可包括用于获得增强语音信号的掩蔽矩阵,其中,根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息,计算第一损失函数,可包括:将所述用于获得增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘,得到所述增强语音信号的幅度谱;根据所述增强语音信号的幅度谱和所述干净语音信号的幅度谱,计算所述第一损失函数。
[0008]可选地,根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值,计算第二损失函数,可包括:基于所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值来计算第一误差函数;基于所述变速变调估计值中的变调估计值和所述变速变调实际值中的变调实际值来计算第二误差函数;基于所述第一误差函数和所述第二误差函数来计算所述第二损失函数。
[0009]可选地,根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值,计算第二损失函数,可包括:将所述变速变调估计值和所述变速变调实际值调整为预设范围内的数值;基于调整后的变速变调估计值与调整后的变速变调实际值之间的误差来计算第二损失函数。
[0010]可选地,将所述变速变调估计值和所述变速变调实际值调整为预设范围内的数值,可包括:获取在对所述干净语音信号进行变速变调处理时的最大变快倍速、最大变慢倍速、最大升调倍速和最大降调倍速;基于所述最大变快倍速、所述最大变慢倍速和预设的变速值调整策略,将所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值调整为预设范围内的数值;基于所述最大升调倍速、所述最大降调倍速和预设的变调调整策略,将所述变速变调估计值中的变调估计值和所述变速变调实际值中的变调实际值调整为预设范围内的数值。
[0011]可选地,根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值,计算第二损失函数,可包括:使用针对语音帧的变速变调估计值和变速变调实际值来计算第二损失函数。
[0012]可选地,所述带噪语音信号的信息可包括所述带噪语音信号的频域信息,所述预测信息可包括用于获得增强语音信号的频域信息;或者,所述带噪语音信号的信息可包括所述带噪语音信号的时域信息,所述预测信息可包括用于获得增强语音信号的时域信息。
[0013]根据本公开实施例的第二方面,提供一种语音增强方法,可包括:获取输入语音;将所述输入语音输入至语音增强模型,得到与所述输入语音对应的增强语音,其中,所述语音增强模型基于如上所述的训练方法被获得。
[0014]根据本公开实施例的第三方面,提供一种语音增强模型的训练装置,所述语音增强模型包括特征提取网络和降噪网络,所述训练装置可包括:获取模块,被配置为获取训练样本,其中,所述训练样本包括干净语音信号和带噪语音信号,所述干净语音信号是未进行变速变调处理的无噪声语音信号,所述带噪语音信号是通过对所述干净语音信号进行变速变调处理和噪声混合处理得到的;特征提取模块,被配置为将所述带噪语音信号的信息输入所述特征提取网络,得到与所述带噪语音信号对应的特征;降噪模块,被配置为将所述特征输入所述降噪网络,得到由所述降噪网络预测的预测信息,其中,所述预测信息用于生成所述带噪语音信号的增强语音信号;变速变调判定模块,被配置为将所述特征输入变速变调判定网络,得到由所述变速变调判定网络预测的所述带噪语音信号的变速变调估计值;训练模块,被配置为基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和
所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数,以训练所述语音增强模型。
[0015]可选地,训练模块可被配置为:根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息,计算第一损失函数;根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值,计算第二损失函数;通过根据所述第一损失函数和所述第二损失函数来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数。
[0016]可选地,所述带噪语音信号的信息可包括所述带噪语音信号的幅度谱,所述预测信息可包括用于获得增强语音信号的掩蔽矩阵,其中,训练模块可被配置为:将所述用于获得增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘,得到所述增强语音信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强模型的训练方法,其特征在于,所述语音增强模型包括特征提取网络和降噪网络,其中,所述训练方法包括:获取训练样本,其中,所述训练样本包括干净语音信号和带噪语音信号,所述干净语音信号是未进行变速变调处理的无噪声语音信号,所述带噪语音信号是通过对所述干净语音信号进行变速变调处理和噪声混合处理得到的;将所述带噪语音信号的信息输入所述特征提取网络,得到与所述带噪语音信号对应的特征;将所述特征输入所述降噪网络,得到由所述降噪网络预测的预测信息,其中,所述预测信息用于生成所述带噪语音信号的增强语音信号;将所述特征输入变速变调判定网络,得到由所述变速变调判定网络预测的所述带噪语音信号的变速变调估计值;基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数,以训练所述语音增强模型。2.根据权利要求1所述的训练方法,其特征在于,基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数,以训练所述语音增强模型,包括:根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息,计算第一损失函数;根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值,计算第二损失函数;通过根据所述第一损失函数和所述第二损失函数来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数。3.根据权利要求2所述的训练方法,其特征在于,所述带噪语音信号的信息包括所述带噪语音信号的幅度谱,所述预测信息包括用于获得增强语音信号的掩蔽矩阵,所述根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息,计算第一损失函数,包括:将所述用于获得增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘,得到所述增强语音信号的幅度谱;根据所述增强语音信号的幅度谱和所述干净语音信号的幅度谱,计算所述第一损失函数。4.根据权利要求2所述的训练方法,其特征在于,根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值,计算第二损失函数,包括:基于所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值来计算第一误差函数;基于所述变速变调估计值中的变调估计值...

【专利技术属性】
技术研发人员:陈联武张晨郑羲光任新蕾张旭
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1