语音增强模型的训练方法和装置及语音增强方法和装置制造方法及图纸

技术编号:29761566 阅读:31 留言:0更新日期:2021-08-20 21:15
本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置,语音增强模型包括噪声掩膜比预测网络和噪声类型判别网络,训练方法包括:获取含噪语音样本,含噪语音样本由说话人语音样本与至少一种场景噪声数据混合而成;将至少一种场景噪声数据中的参考场景噪声数据输入噪声类型判别网络,得到参考场景噪声数据的噪声类型特征,参考场景噪声数据为期望去除的场景噪声数据;将含噪语音样本的幅度谱和噪声类型特征输入噪声掩膜比预测网络,得到参考场景噪声数据的估计的噪声掩膜比;基于估计的噪声掩膜比和噪声类型特征,计算损失函数;通过计算出的损失函数调整噪声掩膜比预测网络和噪声类型判别网络的参数,对语音增强模型进行训练。

【技术实现步骤摘要】
语音增强模型的训练方法和装置及语音增强方法和装置
本公开涉及音频
,更具体地说,涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。
技术介绍
嘈杂的环境会影响人们在语音沟通中的效果,在当前的主流通讯软件中,通常采用不同语音增强算法实现对通话过程中含噪音频进行处理,传统方法可以实现对稳态噪声的处理,优点是运算复杂度低,深度学习方法通常用来去除瞬态噪声,效果较传统方法要好,但是运算复杂度高。然而,普通的语音增强算法会去除场景中的全部噪声只保留人声,但是在不同场景下,人们需要去除的噪声类型是不同的,因此,普通的语音增强算法无法实现针对特定场景下的语音增强。
技术实现思路
本公开提供一种语音增强模型的训练方法和装置及语音增强方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。根据本公开实施例的第一方面,提供一种语音增强模型的训练方法,所述语音增强模型包括噪声掩膜比预测网络和噪声类型判别网络,所述训练方法包括:获取含噪语音样本,其中,所述含噪语音样本由说话人语音样本与至少一种场景噪声数据混合而成;本文档来自技高网...

【技术保护点】
1.一种语音增强模型的训练方法,其特征在于,所述语音增强模型包括噪声掩膜比预测网络和噪声类型判别网络,所述训练方法包括:/n获取含噪语音样本,其中,所述含噪语音样本由说话人语音样本与至少一种场景噪声数据混合而成;/n将所述至少一种场景噪声数据中的参考场景噪声数据输入所述噪声类型判别网络,得到所述参考场景噪声数据的噪声类型特征,其中,所述参考场景噪声数据为所述至少一种场景噪声数据之中的期望去除的场景噪声数据,所述语音增强模型用于获得从所述含噪语音样本去除所述参考场景噪声数据之后得到的估计的语音增强信号;/n将所述含噪语音样本的幅度谱和所述噪声类型特征输入所述噪声掩膜比预测网络,得到所述参考场景噪...

【技术特征摘要】
1.一种语音增强模型的训练方法,其特征在于,所述语音增强模型包括噪声掩膜比预测网络和噪声类型判别网络,所述训练方法包括:
获取含噪语音样本,其中,所述含噪语音样本由说话人语音样本与至少一种场景噪声数据混合而成;
将所述至少一种场景噪声数据中的参考场景噪声数据输入所述噪声类型判别网络,得到所述参考场景噪声数据的噪声类型特征,其中,所述参考场景噪声数据为所述至少一种场景噪声数据之中的期望去除的场景噪声数据,所述语音增强模型用于获得从所述含噪语音样本去除所述参考场景噪声数据之后得到的估计的语音增强信号;
将所述含噪语音样本的幅度谱和所述噪声类型特征输入所述噪声掩膜比预测网络,得到所述参考场景噪声数据的估计的噪声掩膜比,其中,所述噪声掩膜比表示所述参考场景噪声数据的幅度谱与所述含噪语音样本的幅度谱的比值;
基于所述参考场景噪声数据的估计的噪声掩膜比和所述参考场景噪声数据的噪声类型特征,计算损失函数;
通过计算出的损失函数调整所述噪声掩膜比预测网络和所述噪声类型判别网络的参数,对所述语音增强模型进行训练。


2.如权利要求1所述的训练方法,其特征在于,所述将所述含噪语音样本的幅度谱和所述噪声类型特征输入所述噪声掩膜比预测网络,得到所述参考场景噪声数据的估计的噪声掩膜比,包括:
将所述含噪语音样本的幅度谱和所述噪声类型特征进行串联;
将串联后的特征输入所述噪声掩膜比预测网络,得到所述参考场景噪声数据的估计的噪声掩膜比。


3.如权利要求1所述的训练方法,其特征在于,所述将所述含噪语音样本的幅度谱和所述噪声类型特征输入所述噪声掩膜比预测网络,得到所述参考场景噪声数据的估计的噪声掩膜比,包括:
将所述含噪语音样本的幅度谱输入所述噪声掩膜比预测网络中的一部分网络,得到所述含噪语音样本的幅度谱的局部特征;
将所述局部特征与所述噪声类型特征进行串联;
将串联后的特征输入所述噪声掩膜比预测网络中的另一部分,得到所述参考场景噪声数据的估计的噪声掩膜比。


4.如权利要求2或3所述的训练方法,其特征在于,所述噪声掩膜比预测网络为包括卷积神经网络和循环神经网络的卷积循环神经网络。


5.一种语音增强方法,其特征在于,所述语音增强方法基于包括噪声掩膜比预测网络和噪声类型判别网络的语音增强模型执行,所述语音增强方法包括:
获取待增强的含噪语音信号以及参考场景噪声数据,其中,所述待增强的含噪语音信号包括说话人语音信号以及至少一种场景噪声数据,所述参考场景噪声数据为所述至少一种场景噪声数据之中的期望去除的场景噪声数据;
将所述参考场景噪声数据输入所述噪声类型判别网络,得到所述参考场景噪声数据的噪声类型特征;
将所述待增强的含噪语音信号的幅度谱和所述噪声类型特征输入所述噪声掩膜比预测网络,得到所述参考场景噪声数据的估计的噪声掩膜比,其中,所述噪声掩膜比表示所述参考场景噪声数据的幅度谱与所述含噪语音信号的幅度谱的比值;
基于所述参考场景噪声数据的估计的噪声掩膜比和所述待增强的含噪语音信号,得到估计的语音增强信号,其中,所述估计的语音增强信号为从待增强的含噪语音信号去除所述参考场景噪声数据之后得到的估计的语音增强信号。


6.一种语音...

【专利技术属性】
技术研发人员:张新郑羲光张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1