一种基于空间特征的语音增强方法、装置及电子设备制造方法及图纸

技术编号:31848306 阅读:16 留言:0更新日期:2022-01-12 13:30
本发明专利技术公开了一种基于空间特征的语音增强方法、装置及电子设备,该方法包括:对双通道带噪语音进行傅里叶变换得到双通道复数谱;基于波束形成得到双通道复数谱的第一单通道复数谱以及第二单通道复数谱;计算第一单通道复数谱的对数功率谱;基于第一单通道复数谱的能量与第二单通道复数谱的能量计算方向能量比,并取对数得到对数方向能量比;将对数功率谱和对数方向能量比作为特征输入预训练语音增强神经网络,得到掩蔽值;将掩蔽值增加到第一单通道复数谱上,并对掩蔽处理后的第一单通道复数谱进行傅里叶逆变换得到增强后的语音。本发明专利技术实施例提供的方案,能够在有效降低噪声的同时较好的避免语音失真。时较好的避免语音失真。时较好的避免语音失真。

【技术实现步骤摘要】
一种基于空间特征的语音增强方法、装置及电子设备


[0001]本专利技术涉及语音增强
,特别涉及一种基于空间特征的语音增强方法、装置及电子设备。

技术介绍

[0002]语音增强在语音信号处理领域中一直扮演着重要角色,传统的语音增强方法主要是先通过估计噪声的谱信息,再将噪声从原始语音谱中减去,但是,突变噪声和随机噪声会使谱信息的估计变得困难,同时传统方法还需要预先对信号做独立性假设和特征分布的高斯性假设,而这些假设相当于对语音增强做了边界限制,导致降噪效果有限。
[0003]基于此,基于深度学习的神经网络被广泛应用于语音增强领域,使得上述问题得到极大改善;但是,在传统的单麦克风采集的情况下,神经网络的输入特征只包括频谱特征,因此,这样的网络在面对和语音类似的噪声时,降噪效果极其有限。

技术实现思路

[0004]为了解决现有量化方法精度不足、量化效率较低的问题,本专利技术实施例提供了一种神经网络的量化方法、装置及电子设备。所述技术方案如下:第一方面,提供了一种基于空间特征的语音增强方法,该方法包括:对双通道带噪语音进行傅里叶变换得到所述双通道带噪语音在频域表示的双通道复数谱;基于波束形成得到所述双通道复数谱在目标语音角度方向的第一单通道复数谱以及所述双通道复数谱在与所述目标语音角度相差预定角度方向的第二单通道复数谱;计算所述第一单通道复数谱的对数功率谱;基于所述第一单通道复数谱的能量与所述第二单通道复数谱的能量计算方向能量比,并对计算得到的方向能量比取对数得到对数方向能量比;将所述对数功率谱和对数方向能量比作为特征输入预训练语音增强神经网络,得到掩蔽值;将所述掩蔽值增加到所述第一单通道复数谱上,并对掩蔽处理后的第一单通道复数谱进行傅里叶逆变换得到增强后的语音。
[0005]可选的,通过以下步骤得到所述预训练语音增强神经网络:获取训练样本,所述训练样本包括样本双通道带噪语音以及用于与噪声组合进而构成所述样本双通道带噪语音的干净语音;对所述样本双通道带噪语音进行傅里叶变换得到所述样本双通道带噪语音在频域表示的样本双通道复数谱;基于波束形成得到所述样本双通道复数谱在目标语音角度方向的第一样本单通道复数谱以及所述样本双通道复数谱在与所述目标语音角度相差预定角度方向的第二样本单通道复数谱;
计算所述第一样本单通道复数谱的样本对数功率谱;基于所述第一样本单通道复数谱的能量与所述第二样本单通道复数谱的能量计算样本方向能量比,并对计算得到的样本方向能量比取对数得到样本对数方向能量比;将所述样本对数功率谱和样本对数方向能量比作为特征输入初始语音增强神经网络,得到样本掩蔽值;将所述样本掩蔽值增加到所述第一样本单通道复数谱上,并对掩蔽处理后的第一样本单通道复数谱进行傅里叶逆变换得到增强后的样本语音;计算增强后的样本语音与所述干净语音的均方误差得到第一损失值,计算增强后的样本语音与所述干净语音之间的尺度不变失真比得到第二损失值,并利用所述第一损失值和第二损失值计算最终损失值;在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所述样本对数功率谱和样本对数方向能量比输入初始语音增强神经网络,得到样本掩蔽值的步骤;在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为所述预训练语音增强神经网络。
[0006]可选的,计算所述第一单通道复数谱的对数功率谱的步骤,包括:通过以下表达式,计算所述第一单通道复数谱的对数功率谱:其中,表示滤波器,表示双通道带噪语音的频域表示;滤波器的求取表达式为:滤波器的求取表达式为:其中, 表示目标语音角度,与互为转置,为固定滤波器系数,与互为转置,表示目标语音角度方向同性噪声场的归一化相关矩阵,表示目标语音角度方向的导向矢量,表示散射噪声的增益控制系数。
[0007]可选的,基于所述第一单通道复数谱的能量与所述第二单通道复数谱的能量计算方向能量比的步骤,包括:通过以下表达式,基于所述第一单通道复数谱的能量与所述第二单通道复数谱的能量计算方向能量比: 其中,分母对应的滤波器的计算表达式为:其中,分母对应的滤波器的计算表达式为:
其中,分别取与目标语音角度相差90度和180度,表示方向角度方向的导向矢量,是Cholesky分解,表示散射噪声的增益控制系数。
[0008]第二方面,提供了一种基于空间特征的语音增强装置,该装置包括:傅里叶变换模块,用于对双通道带噪语音进行傅里叶变换得到所述双通道带噪语音在频域表示的双通道复数谱;波束形成模块,用于基于波束形成得到所述双通道复数谱在目标语音角度方向的第一单通道复数谱以及所述双通道复数谱在与所述目标语音角度相差预定角度方向的第二单通道复数谱;特征提取模块,用于计算所述第一单通道复数谱的对数功率谱;基于所述第一单通道复数谱的能量与所述第二单通道复数谱的能量计算方向能量比,并对计算得到的方向能量比取对数得到对数方向能量比;掩蔽值预测模块,用于将所述对数功率谱和对数方向能量比作为特征输入预训练语音增强神经网络,得到掩蔽值;语音增强模块,用于将所述掩蔽值增加到所述第一单通道复数谱上,并对掩蔽处理后的第一单通道复数谱进行傅里叶逆变换得到增强后的语音。
[0009]可选的,还包括神经网络训练模块,用于获取训练样本,所述训练样本包括样本双通道带噪语音以及用于与噪声组合进而构成所述样本双通道带噪语音的干净语音;对所述样本双通道带噪语音进行傅里叶变换得到所述样本双通道带噪语音在频域表示的样本双通道复数谱;基于波束形成得到所述样本双通道复数谱在目标语音角度方向的第一样本单通道复数谱以及所述样本双通道复数谱在与所述目标语音角度相差预定角度方向的第二样本单通道复数谱;计算所述第一样本单通道复数谱的样本对数功率谱;基于所述第一样本单通道复数谱的能量与所述第二样本单通道复数谱的能量计算样本方向能量比,并对计算得到的样本方向能量比取对数得到样本对数方向能量比;将所述样本对数功率谱和样本对数方向能量比作为特征输入初始语音增强神经网络,得到样本掩蔽值;将所述样本掩蔽值增加到所述第一样本单通道复数谱上,并对掩蔽处理后的第一样本单通道复数谱进行傅里叶逆变换得到增强后的样本语音;计算增强后的样本语音与所述干净语音的均方误差得到第一损失值,计算增强后的样本语音与所述干净语音之间的尺度不变失真比得到第二损失值,并利用所述第一损失值和第二损失值计算最终损失值;在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所述样本对数功率谱和样本对数方向能量比输入初始语音增强神经网络,得到样本掩蔽值的步骤;在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为所述预训练语音增强神经网络。
[0010]可选的,特征提取模块,具体用于通过以下表达式,计算所述第一单通道复数谱的对数功率谱:其中,表示滤波器,表示双通道带噪语音的频域表示;滤波器的求取表达式为:滤波器的求取表达式为:其中, 表示目标语音角度,与互为转置,为固定滤波器系数,与互为转置,表示目标语音角度方向同性噪声场的归一化相关矩阵,表示目标语音角度方向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于空间特征的语音增强方法,其特征在于,所述方法包括:对双通道带噪语音进行傅里叶变换得到所述双通道带噪语音在频域表示的双通道复数谱;基于波束形成得到所述双通道复数谱在目标语音角度方向的第一单通道复数谱以及所述双通道复数谱在与所述目标语音角度相差预定角度方向的第二单通道复数谱;计算所述第一单通道复数谱的对数功率谱;基于所述第一单通道复数谱的能量与所述第二单通道复数谱的能量计算方向能量比,并对计算得到的方向能量比取对数得到对数方向能量比;将所述对数功率谱和对数方向能量比作为特征输入预训练语音增强神经网络,得到掩蔽值;将所述掩蔽值增加到所述第一单通道复数谱上,并对掩蔽处理后的第一单通道复数谱进行傅里叶逆变换得到增强后的语音。2.如权利要求1所述的方法,其特征在于,通过以下步骤得到所述预训练语音增强神经网络:获取训练样本,所述训练样本包括样本双通道带噪语音以及用于与噪声组合进而构成所述样本双通道带噪语音的干净语音;对所述样本双通道带噪语音进行傅里叶变换得到所述样本双通道带噪语音在频域表示的样本双通道复数谱;基于波束形成得到所述样本双通道复数谱在目标语音角度方向的第一样本单通道复数谱以及所述样本双通道复数谱在与所述目标语音角度相差预定角度方向的第二样本单通道复数谱;计算所述第一样本单通道复数谱的样本对数功率谱;基于所述第一样本单通道复数谱的能量与所述第二样本单通道复数谱的能量计算样本方向能量比,并对计算得到的样本方向能量比取对数得到样本对数方向能量比;将所述样本对数功率谱和样本对数方向能量比作为特征输入初始语音增强神经网络,得到样本掩蔽值;将所述样本掩蔽值增加到所述第一样本单通道复数谱上,并对掩蔽处理后的第一样本单通道复数谱进行傅里叶逆变换得到增强后的样本语音;计算增强后的样本语音与所述干净语音的均方误差得到第一损失值,计算增强后的样本语音与所述干净语音之间的尺度不变失真比得到第二损失值,并利用所述第一损失值和第二损失值计算最终损失值;在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所述样本对数功率谱和样本对数方向能量比输入初始语音增强神经网络,得到样本掩蔽值的步骤;在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为所述预训练语音增强神经网络。3.如权利要求1所述的方法,其特征在于,计算所述第一单通道复数谱的对数功率谱的步骤,包括:通过以下表达式,计算所述第一单通道复数谱的对数功率谱:
其中,表示滤波器,表示双通道带噪语音的频域表示;滤波器的求取表达式为:滤波器的求取表达式为:其中, 表示目标语音角度,与互为转置,为固定滤波器系数,与互为转置,表示目标语音角度方向同性噪声场的归一化相关矩阵,表示目标语音角度方向的导向矢量,表示散射噪声的增益控制系数。4.如权利要求3所述的方法,其特征在于,基于所述第一单通道复数谱的能量与所述第二单通道复数谱的能量计算方向能量比的步骤,包括:通过以下表达式,基于所述第一单通道复数谱的能量与所述第二单通道复数谱的能量计算方向能量比: 其中,分母对应的滤波器的计算表达式为:其中,分母对应的滤波器的计算表达式为:其中,分别取与目标语音角度相差90度和180度,表示方向角度方向的导向矢量,是Cholesky分解,表示散射噪声的增益控制系数。5.一种基于空间特征的语音增强装置,其特征在于,所述装置包括:傅里叶变换模块,用于对双通道带噪语音进行傅里叶变换得到所述双通道带噪语音在频域表示...

【专利技术属性】
技术研发人员:苏家雨王博欧阳鹏
申请(专利权)人:北京清微智能信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1