语音处理模型的训练方法和装置以及语音处理方法和装置制造方法及图纸

技术编号:29045280 阅读:11 留言:0更新日期:2021-06-26 05:59
本公开关于一种语音处理模型的训练方法和装置以及语音处理方法和装置,语音处理模型包括语音增强网络和掩膜比预测网络,训练方法包括:获取音频样本数据,包括干净语音信号和含噪语音信号;对含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列;将第一语音帧序列输入语音增强网络,得到与第一语音帧序列对应的掩膜比;将所述掩膜比输入掩膜比预测网络,得到与第二语音帧序列对应的掩膜比,第二语音帧序列包括未被抽取的帧;将与第一/第二语音帧序列对应的掩膜比融合,得到完整掩膜比;根据完整掩膜比和含噪语音信号的幅度谱,确定增强语音信号的幅度谱,根据由增强语音信号的幅度谱与干净语音信号的幅度谱确定的损失函数执行训练。失函数执行训练。失函数执行训练。

【技术实现步骤摘要】
语音处理模型的训练方法和装置以及语音处理方法和装置


[0001]本公开涉及音频
,更具体地说,涉及一种语音处理模型的训练方法和装置以及语音处理方法和装置。

技术介绍

[0002]近几年,基于深度神经网络的语音增强方法已经取得了非凡的发展,它的增强能力要大大超出传统的基于信号处理的语音增强方法,但所带来的代价是计算量的增加。尤其是将其部署到手机等移动端上时,由于部分手机的计算能力有限,不能承载如此大的计算量,无法应用于对语音信号的实时处理的场景,这成为阻碍其落地的一个重要因素。

技术实现思路

[0003]本公开提供一种语音处理模型的训练方法和装置以及语音处理方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
[0004]根据本公开实施例的第一方面,提供一种语音处理模型的训练方法,所述语音处理模型包括语音增强网络和掩膜比预测网络,所述训练方法包括:获取音频样本数据,其中,所述每个音频样本数据包括干净语音信号和含噪语音信号,所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的;对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列;将第一语音帧序列输入所述语音增强网络,得到估计的与第一语音帧序列对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络,得到估计的与第二语音帧序列对应的掩膜比,其中,第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧;将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合,得到估计的完整掩膜比;根据所述估计的完整掩膜比和所述含噪语音信号的幅度谱,确定估计的增强语音信号的幅度谱,并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数;通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数,对所述语音处理模型进行训练。
[0005]可选地,所述对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列,可包括:每预定帧数从所述含噪语音信号的幅度谱抽取一帧;根据帧索引顺序,将抽取的帧重新组合成为第一语音帧序列。
[0006]可选地,所述每预定帧数从所述含噪语音信号的幅度谱抽取一帧,可包括:根据帧索引顺序,将所述含噪语音信号的幅度谱划分为多个帧组,其中,每个帧组包括所述预定帧数的帧;抽取所述多个帧组中的每个帧组的第一帧。
[0007]可选地,所述预定帧数可为2,第一语音帧序列可包括奇数帧,第二语音帧序列可包括偶数帧。
[0008]可选地,所述将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序
列对应的掩膜比融合,得到估计的完整掩膜比,可包括:根据第一语音帧序列和第二语音帧序列中的每一帧的帧索引顺序,交叉融合所述估计的与第一语音帧序列对应的掩膜比和所述估计的与第一语音帧序列对应的掩膜比中的每一帧掩膜比。
[0009]可选地,所述根据所述估计的完整掩膜比和所述含噪语音信号的幅度谱,确定估计的增强语音信号的幅度谱,可包括:将所述估计的完整掩膜比与所述含噪语音信号的幅度谱执行点乘,获得估计的增强语音信号的幅度谱。
[0010]可选地,所述根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数,可包括:计算所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱之间的均方误差,作为所述损失函数。
[0011]根据本公开实施例的第二方面,提供一种语音处理方法,所述语音处理方法基于包括语音增强网络和掩膜比预测网络的语音处理模型执行,所述语音处理方法包括:获取待处理语音信号的当前语音帧;在所述待处理语音信号的当前语音帧属于第一语音帧的情况下,在第一模式下对当前语音帧执行处理,或者在所述待处理语音信号的当前语音帧属于第二语音帧的情况下,在第二模式下对当前语音帧执行处理,其中,第一语音帧包括通过对从所述待处理语音信号进行跳帧确定的帧,第二语音帧包括所述待处理语音信号中非第一语音帧的帧;输出处理后的当前语音帧;其中,所述在第一模式下对当前语音帧执行处理,包括:将当前语音帧的幅度谱输入所述语音增强网络,得到估计的与当前语音帧对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘,再与当前语音帧的相位谱结合,得到处理后的当前语音帧;其中,所述在第二模式下对当前语音帧执行处理,包括:将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入所述掩膜比预测网络,得到估计的与当前语音帧相应的掩膜比;将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘,再与当前语音帧的相位谱结合,得到处理后的当前语音帧。
[0012]可选地,可每预定帧数从所述待处理语音信号确定一帧作为第一语音帧。
[0013]可选地,所述语音处理方法还可包括:根据帧索引,确定所述待处理语音信号的当前语音帧属于第一语音帧还是属于第二语音帧。
[0014]可选地,所述预定帧数可为2,第一语音帧可包括奇数帧,第二语音帧可包括偶数帧。
[0015]可选地,所述语音处理模型可使用根据本公开的语音处理模型的训练方法训练得到的。
[0016]根据本公开实施例的第三方面,提供一种语音处理模型的训练装置,所述语音处理模型包括语音增强网络和掩膜比预测网络,所述训练装置包括:获取单元,被配置为:获取音频样本数据,其中,所述每个音频样本数据包括干净语音信号和含噪语音信号,所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的;抽帧单元,被配置为:对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列;第一估计单元,被配置为:将第一语音帧序列输入所述语音增强网络,得到估计的与第一语音帧序列对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;第二估计单元,被配置为:将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络,得到估计的与第二语音帧序列对应的掩膜比,其中,第二语音帧序列包括所述含噪语音信号
的幅度谱中未被抽取的帧;融合单元,被配置为:将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合,得到估计的掩膜比;计算单元,被配置为:根据所述估计的掩膜比和所述含噪语音信号的幅度谱,确定估计的增强语音信号的幅度谱,并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数;训练单元,被配置为:通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数,对所述语音处理模型进行训练。
[0017]可选地,抽帧单元可被配置为:每预定帧数从所述含噪语音信号的幅度谱抽取一帧。
[0018]可选地,抽帧单元可被配置为:根据帧索引顺序,将所述含噪语音信号的幅度谱划分为多个帧组,其中,每个帧组包括所述预定帧数的帧;抽取所述多个帧组中的每个帧组的第一帧。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理模型的训练方法,其特征在于,所述语音处理模型包括语音增强网络和掩膜比预测网络,所述训练方法包括:获取音频样本数据,其中,所述每个音频样本数据包括干净语音信号和含噪语音信号,所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的;对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列;将第一语音帧序列输入所述语音增强网络,得到估计的与第一语音帧序列对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络,得到估计的与第二语音帧序列对应的掩膜比,其中,第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧;将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合,得到估计的完整掩膜比;根据所述估计的完整掩膜比和所述含噪语音信号的幅度谱,确定估计的增强语音信号的幅度谱,并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数;通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数,对所述语音处理模型进行训练。2.如权利要求1所述的训练方法,其特征在于,所述对所述含噪语音信号的幅度谱执行跳帧抽取,得到第一语音帧序列,包括:每预定帧数从所述含噪语音信号的幅度谱抽取一帧;根据帧索引顺序,将抽取的帧重新组合成为第一语音帧序列。3.如权利要求2所述的训练方法,其特征在于,所述每预定帧数从所述含噪语音信号的幅度谱抽取一帧,包括:根据帧索引顺序,将所述含噪语音信号的幅度谱划分为多个帧组,其中,每个帧组包括所述预定帧数的帧;抽取所述多个帧组中的每个帧组的第一帧。4.如权利要求2所述的训练方法,其特征在于,所述预定帧数为2,第一语音帧序列包括奇数帧,第二语音帧序列包括偶数帧。5.一种语音处理方法,其特征在于,所述语音处理方法基于包括语音增强网络和掩膜比预测网络的语音处理模型执行,所述语音处理方法包括:获取待处理语音信号的当前语音帧;在所述待处理语音信号的当前语音帧属于第一语音帧的情况下,在第一模式下对当前语音帧执行处理,或者在所述待处理语音信号的当前语音帧属于第二语音帧的情况下,在第二模式下对当前语音帧执行处理,其中,第一语音帧包括通过对从所述待处理语音信号进行跳帧确定的帧,第二语音帧包括所述待处理语音信号中非第一语音帧的帧;输出处理后的当前语音帧;其中,所述在第一模式下对当前语音帧执行处理,包括:将当前语音帧的幅度谱输入所述语音增强网络,得到估计的与当前语音帧对应的掩膜比,其中,掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值;
将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘,再与当前语音帧的相位谱结合,得到处理后的当前语音帧;其中,所述在第二模式下对当前语音帧执行处理,包括:将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入所述掩膜比预测网络,得到估计的与当前语音帧相应的掩膜比;将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘,再与当前语音帧的相位谱结合,得到处理后的当前语音帧。6.一种语音处理模型的训练装置,其特征在于,所述语音处理模型包括语音增强网络和掩膜比预测网络,所述训练装置包括:获取单元,被配置为:获取音频样本数据,其中,所述每个...

【专利技术属性】
技术研发人员:任新蕾郑羲光李楠张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1