用于远场通话的噪声估计方法及系统技术方案

技术编号:25712102 阅读:32 留言:0更新日期:2020-09-23 02:58
本发明专利技术实施例提供一种用于远场通话的噪声估计和语音降噪方法。该方法包括:通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及带噪训练语音集合内各带噪训练语音的基准噪声频谱;基于设备的性能,选择噪声频谱估计模型的类型;提取各带噪训练语音的语音特征,将语音特征作为噪声频谱估计模型的输入;将语音特征进行特征处理后,对噪声频谱估计模型进行深度学习训练,直至噪声频谱估计模型输出的估计噪声频谱向基准噪声频谱收敛,以用于估计远场通话的噪声。本发明专利技术实施例还提供一种用于远场通话的噪声估计和语音降噪系统。本发明专利技术实施例将深度学习和信号处理相结合,显著提升通话质量,如语音清晰度、可懂度等。

【技术实现步骤摘要】
用于远场通话的噪声估计方法及系统
本专利技术涉及语音降噪领域,尤其涉及一种用于远场通话的噪声估计方法及系统和用于远场通话的语音降噪方法及系统。
技术介绍
为了提高耳机、手机、会议设备的通话效果,通常会进行通话降噪。例如:单麦克风方案(常见于耳机/手机):通过噪声频谱估计,求得后验/先验信噪比,随后进行谱减、维纳、统计模型等方法求得降噪结果。麦克风阵列方案(常见于耳机/手机/会议系统):1、求得DOA(directionofarrival,波达方向)后,利用得到的角度信息进行特定方向的波束形成语音增强,如FB(fixedbeamforming,固定波束形成)、GSC(generalizedsidelobecancellation,广义旁瓣抑制器)等;2、不需要直接的DOA角度信息,利用BSS(blindsourceseparation,盲源分离)、MWF(multichannelwienerfilter,多通道维纳滤波)、MVDR(minimumvariancedistortionlessresponse,最小方差无失真响应)等多通道信号处理。<本文档来自技高网...

【技术保护点】
1.一种用于远场通话的噪声估计方法,包括:/n通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;/n基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;/n提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、M...

【技术特征摘要】
1.一种用于远场通话的噪声估计方法,包括:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合。


2.一种用于远场通话的语音降噪方法,包括:
通过多个场景的纯噪声集合对纯净语音集合进行加噪处理,得到带噪训练语音集合以及所述带噪训练语音集合内各带噪训练语音的基准噪声频谱,其中,所述纯净语音集合包括:由近场纯净语音卷积冲激响应生成的远场纯净语音;
基于设备的性能,选择噪声频谱估计模型的类型,其中,所述噪声频谱估计模型的类型包括:深度神经网络、卷积神经网络、长短时记忆神经网络、前馈序列神经网络、递归神经网络中之一或至少两种的组合;
提取所述各带噪训练语音的语音特征,将所述语音特征作为所述噪声频谱估计模型的输入,其中,所述语音特征至少包括:FFT频点/子带、梅尔域/Bark域、Fbank、MFCC、LPC、基音一种或至少两种的组合;
将所述语音特征进行特征处理后,对所述噪声频谱估计模型进行深度学习训练,直至所述噪声频谱估计模型输出的估计噪声频谱向所述基准噪声频谱收敛,以用于估计远场通话的噪声,其中,所述特征处理至少包括:前后拼帧、均值归一化、方差归一化一种或至少两种的组合;
接收用户输入的多通道带噪对话语音,提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型,确定所述多通道带噪对话语音的噪声频谱;
将所述多通道带噪对话语音以及所述多通道带噪对话语音的噪声频谱输入至多通道降噪模块,获得降噪对话语音。


3.根据权利要求2所述的方法,其中,所述提取所述多通道带噪对话语音中每个通道的语音特征输入至所述噪声频谱估计模型包括:
所述噪声频谱估计模型输出所述多通道带噪对话语音中各个通道的噪声频谱;
基于预设规则从所述各个通道的噪声频谱中选取有效噪声频谱,其中,所述预设规则包括最大值max()、最小值min()、平均值avg(),其中,基于所述最小值min()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的语音失真度,优于所述最大值max()、所述平均值avg();
基于所述最大值max()选取的有效噪声频谱输入至多通道降噪模块获得的降噪对话语音的噪声抑制程度,优于所述最小值min()、所述平均值avg()。


4.根据权利要求2所述的方法,其中,在所述获得降噪对话语音之后,所述方法还包括:
基于所述降噪对话语音以及所述多通道带噪对话语音确定各个通道的后验信噪比;
选取所述后验信噪比最大的通道对应的掩蔽值,确定为后处理掩蔽值;
基于所述后处理掩蔽值对所述降噪对话语音进行二次降噪,以确保降噪效果和语音失真的平衡。


5.根据权利要求2所述的方法,其中,在所述接收用户输入的多通道带噪对话语音之后,所述方法还包括:
对所述多通道带噪对话语音进行回声消除、去混响、盲源分离、波束形成处理,用于提高所述多通道带噪对话语音...

【专利技术属性】
技术研发人员:周晨
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1