一种语音降噪方法技术

技术编号:20428582 阅读:23 留言:0更新日期:2019-02-23 09:43
本发明专利技术公开了一种语音降噪方法,结合传统的信号处理方法和神经网络模型,二者取长补短,先使用传统的信号处理方法对音频信号进行处理,能够滤除一部分均匀的环境噪声,如白噪声,使得后续的神经网络模型能够主要处理其他噪声,如汽车鸣笛,其他人声音等,同时,本方法对带噪语音样本执行VAD操作,去掉了非必要的信号,能够一定程度训练和降噪的效果,解决了传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本的问题。

【技术实现步骤摘要】
一种语音降噪方法
本专利技术涉及音频处理领域,特别涉及一种语音降噪方法。
技术介绍
现实生活中,语音信号一般都带有噪声,在进一步处理信号前,往往要对信号进行降噪,随着信噪比的减小,降噪方法处理的效果也随之变差,也经常使得语音丢字或者波形失真。如何在低信噪比情况下,达到不错的降噪效果,是一个值得探究的问题。现在的语音降噪一般分为,传统信号处理方式:如最小均方算法、谱减法、维纳滤波法;以及神经网络方式,使用深度学习网络直接在时域处理,使用带噪声语音以及干净语音样本训练降噪模型,使用模型对输入语音进行降噪处理。上述两种语音降噪分别的缺陷如下:传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本。
技术实现思路
本专利技术的目的在于:提供了一种语音降噪方法,解决了传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本的问题。本专利技术采用的技术方案如下:一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;E、将步骤D中预定格式的带噪语音信号切片成固定长度;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;进一步的,所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。进一步的,所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。基于神经网络的深度降噪模型设计如图所示。共包含编码网络和解码网络。在编码网络,采用全卷积网络实现信号卷积处理,采用Pooling层实现信号缩放。在解码网络,采用反Pooling层和卷积层,实现信号的解码,其中反Pooling层用到解码网络中对应层的Pooling信息,最终输出增强或去噪语音。进一步的,所述基于神经网络模型的深度降噪模型的训练包括以下步骤:G1、采集带噪语音样本,将带噪语音样本依次执行步骤A、B、C后得到干净语音样本,根据带噪样本的VAD结果剪裁对应的干净语音样本;G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片;G3、将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,采用随机梯度下降法训练神经网络,得到基于神经网络模型的深度降噪模型。进一步的,本方法用于个人或有限数量的用户时,步骤G1中的带噪语音样本采用对应用户的带噪语音样本。进一步的,本方法用于个人或有限数量的用户时,步骤G1对应用户的干净语音样本,通过合成得到带噪语音样本。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.本专利技术一种语音降噪方法,本方法对带噪信号先进行降噪预处理,能够滤除一部分均匀的环境噪声,如白噪声,使得后续的神经网络模型能够主要处理其他噪声,如汽车鸣笛,其他人声音等。2.本专利技术一种语音降噪方法,本方法对带噪语音样本执行VAD操作,去掉了非必要的信号,能够缩短音频降噪处理的时间。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是本专利技术的流程图;图2是本专利技术所采用的深度卷积降噪网络的示意图;具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。下面结合图1、图2对本专利技术作详细说明。实施例1一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;E、将步骤D中预定格式的带噪语音信号切片成固定长度;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;实施例2本实施例与实施例1的区别在于所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。进一步的,所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。进一步的,所述基于神经网络模型的深度降噪模型的训练包括以下步骤:G1、采集带噪语音样本,将带噪语音样本依次执行步骤A、B、C后得到干净语音样本,根据带噪样本的VAD结果剪裁对应的干净语音样本;G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片;G3、将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,训练神经网络得到基于神经网络模型的深度降噪模型。实施例3本实施例与实施2的区别在于本方法用于个人或有限数量的用户时,步骤G1中的带噪语音样本采用对应用户的带噪语音样本。进一步的,本方法用于个人或有限数量的用户时,步骤G1对应用户的干净语音样本,通过合成得到带噪语音样本。实施例4一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;该格式采用16000Hz,16位量化,单通道的脉冲编码调制;E、将步骤D中预定格式的带噪语音信号切片成固定长度,如1s;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;进一步的,所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时本文档来自技高网...

【技术保护点】
1.一种语音降噪方法,包括基于神经网络模型的深度降噪模型,其特征在于:还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;E、将步骤D中预定格式的带噪语音信号切片成固定长度;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号。

【技术特征摘要】
1.一种语音降噪方法,包括基于神经网络模型的深度降噪模型,其特征在于:还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;E、将步骤D中预定格式的带噪语音信号切片成固定长度;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号。2.根据权利要求1所述的一种语音降噪方法,其特征在于:所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;A5、对...

【专利技术属性】
技术研发人员:郝小龙韩斌樊强彭启伟薛依铭王学广贾政张铁勋崔漾
申请(专利权)人:南瑞集团有限公司南京南瑞信息通信科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1