System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 回声消除、模型训练方法、装置、电子设备及存储介质制造方法及图纸_技高网

回声消除、模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40707096 阅读:3 留言:0更新日期:2024-03-22 11:07
本发明专利技术涉及人工智能技术领域,公开了一种回声消除、模型训练方法、装置、电子设备及存储介质,该非线性回声消除模型训练方法通过训练样本对包括有非线性回声消除模型和语音端点检测模型的多任务模型进行训练,根据预测语音标签概率数据、预测近端频谱信号以及真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数,并通过多个损失函数更新多任务模型的参数,将训练后的多任务模型中的非线性回声消除模型确定为训练后的非线性回声消除模型,以完成对非线性回声消除模型的训练,通过使用语音端点检测模型作为辅助任务,能对非语音帧减少回声抑制效果,对语音帧正常进行回声抑制,有效提升识别效果和模型稳定性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种回声消除、模型训练方法、装置、电子设备及存储介质


技术介绍

1、声学回声消除(acoutic echo cancellation,aec)旨在利用远端信号等参考信号,消除麦克风语音中的回声。回声消除算法的最佳目标是做到回声完全消除,同时目标语音不出现失真现象。

2、在实际系统中,常用的自适应滤波器,例如卡尔曼滤波器(kalman filter,kf)、最小均方滤波(least mean square,lms)以及多延迟块频域自适应滤波器(multidelayblock frequency domain adaptive filter,(mdf))等,对于回声的消除能力有限,特别是在延迟出现抖动、扬声器和录音设备存在非线性的场景,为此通常还需要级联一个非线性残余回声抑制模块。

3、随着深度学习的发展,深度神经网络展现出了强大的非线性拟合能力,深度学习被应用在越来越多的场景中,将其作为aec后滤波模块来消除残余回声也得到越来越多的关注。但是在提高回声抑制量的同时,深度神经网络学习可能会趋于消除目标语音,出现过度抑制的现象。为避免过度抑制,相关技术中,往往通过增加惩罚过度抑制的损失函数训练神经网络来促使神经网络学习趋于避免消除目标语音。但由于深度神经网络并没有学习到什么时候应该抑制或者不抑制,导致模型性能存在不稳定的风险。


技术实现思路

1、本专利技术实施例提供一种回声消除、模型训练方法、装置、电子设备及存储介质,以解决相关技术中由于深度神经网络并没有学习到什么时候应该抑制或者不抑制,导致模型性能存在不稳定的风险的技术问题。

2、本专利技术实施例提供了一种非线性回声消除模型训练方法,所述方法包括:获取训练样本,所述训练样本包括样本麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号;将所述样本麦克风频谱信号、所述样本线性滤波输出频谱信号和所述样本线性回声频谱信号输入多任务模型,所述多任务模型包括非线性回声消除模型和语音端点检测模型,得到所述非线性回声消除模型输出的预测近端频谱信号,以及得到所述语音端点检测模型输出的预测语音标签概率数据;根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数;基于多个损失函数更新所述多任务模型的参数,得到训练后的多任务模型;将训练后的多任务模型中的非线性回声消除模型确定为训练后的非线性回声消除模型,以完成对所述非线性回声消除模型的训练。

3、于本专利技术一实施例中,所述根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数包括:

4、根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签确定语音标签损失函数;根据所述预测语音标签概率数据、预设权重因子、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定辅助估计损失函数;根据所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定估计近端干净信号损失函数;其中,所述多个损失函数至少包括所述语音标签损失函数、所述辅助估计损失函数和所述估计近端干净信号损失函数。

5、于本专利技术一实施例中,根据所述预测语音标签概率数据、预设权重因子、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定辅助估计损失函数,包括:对所述预测语音标签概率数据进行离散随机变量的重参数化,得到重参数化结果,基于所述重参数化结果和预设权重因子确定语音标签权重;基于样本麦克风频谱信号频数、样本麦克风频谱信号帧数、所述语音标签权重、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定所述辅助估计损失函数。

6、于本专利技术一实施例中,根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签确定语音标签损失函数,包括:根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签之间的交叉熵损失确定所述语音标签损失函数。

7、于本专利技术一实施例中,所述方法还包括:根据所述语音标签损失函数、第一预设损失平衡参数与所述辅助估计损失函数、第二预设损失平衡参数与所述估计近端干净信号损失函数确定所述多个损失函数。

8、于本专利技术一实施例中,获取训练样本之前,所述方法还包括:获取样本麦克风信号和样本远端信号,所述样本麦克风信号至少包括样本近端语音信号和样本声学回声信号;将所述样本麦克风信号和所述样本远端信号进行频域转换,得到样本麦克风频谱信号和样本远端频谱信号;将所述样本麦克风频谱信号和所述样本远端频谱信号进行线性滤波,得到样本线性滤波输出频谱信号和样本线性回声频谱信号;将所述样本麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号作为所述训练样本。

9、本专利技术实施例还提供了一种回声消除方法,所述方法包括:获取远端信号和麦克风信号;将所述远端信号和麦克风信号进行频域转换,得到麦克风频谱信号和远端频谱信号;通过预设线性滤波器对样本麦克风频谱信号和所述远端频谱信号进行线性滤波,得到线性滤波输出频谱信号和线性回声频谱信号;将所述麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号输入训练后的非线性回声消除模型以对所述麦克风信号进行回声信号消除,其中,所述训练后的非线性回声消除模型通过如上述任一项实施例所述的非线性回声消除模型训练方法训练得到。

10、本专利技术实施例还提供了一种非线性回声消除模型训练装置,所述装置包括:样本获取模块,用于获取训练样本,所述训练样本包括样本麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号;模型训练模块,用于将所述样本麦克风频谱信号、所述样本线性滤波输出频谱信号和所述样本线性回声频谱信号输入多任务模型,所述多任务模型包括非线性回声消除模型和语音端点检测模型,得到所述非线性回声消除模型输出的预测近端频谱信号,以及得到所述语音端点检测模型输出的预测语音标签概率数据;根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数;基于多个损失函数更新所述多任务模型的参数,得到训练后的多任务模型;模型确定模块,用于将训练后的多任务模型中的非线性回声消除模型确定为训练后的非线性回声消除模型,以完成对所述非线性回声消除模型的训练。

11、本专利技术实施例还提供了一种回声消除装置,所述装置包括:信号获取模块,用于获取远端信号和麦克风信号;频域转换模块,用于将所述远端信号和麦克风信号进行频域转换,得到麦克风频谱信号和远端频谱信号;预设线性滤波器,用于对样本麦克风频谱信号和所述远端频谱信号进行线性滤波,得到线性滤波输出频谱信号和线性回声频谱信号;非线性回声消除模块,用于将所述麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号输入本文档来自技高网...

【技术保护点】

1.一种非线性回声消除模型训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的非线性回声消除模型训练方法,其特征在于,所述根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数包括:

3.如权利要求2所述的非线性回声消除模型训练方法,其特征在于,根据所述预测语音标签概率数据、预设权重因子、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定辅助估计损失函数,包括:

4.如权利要求2所述的非线性回声消除模型训练方法,其特征在于,根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签确定语音标签损失函数,包括:

5.如权利要求2所述的非线性回声消除模型训练方法,其特征在于,所述方法还包括:

6.如权利要求1-5任一项所述的非线性回声消除模型训练方法,其特征在于,获取训练样本之前,所述方法还包括:

7.一种回声消除方法,其特征在于,所述方法包括:

8.一种非线性回声消除模型训练装置,其特征在于,所述装置包括:

9.一种回声消除装置,其特征在于,所述装置包括:

10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种非线性回声消除模型训练方法,其特征在于,所述方法包括:

2.如权利要求1所述的非线性回声消除模型训练方法,其特征在于,所述根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数包括:

3.如权利要求2所述的非线性回声消除模型训练方法,其特征在于,根据所述预测语音标签概率数据、预设权重因子、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定辅助估计损失函数,包括:

4.如权利要求2所述的非线性回声消除模型训练方法,其特征在于,根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签确定语音标签损失函数,包括:

5.如权利要求2所述的非线性回...

【专利技术属性】
技术研发人员:卢县董璘魏子凯
申请(专利权)人:恒玄科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1