适用不同噪音环境的语音降噪方法和系统、设备、介质技术方案

技术编号:35670881 阅读:18 留言:0更新日期:2022-11-23 14:05
本发明专利技术提供了一种适用不同噪音环境的语音降噪方法,包括如下:步骤S1:对带噪语音信号进行预处理;步骤S2:使用语音端点检测技术对预处理过的语音信号进行端点检测,根据语音信号的短时能量和过零率,确定语音信号的有效起点和终点;步骤S3:检测到语音信号的有效起点和终点后,剪裁语音信号;步骤S4:将裁剪后的语音信号转换为预定格式的带噪语音信号;步骤S5:将预定格式的带噪语音信号进行分帧,切片成固定长度;步骤S6:将每帧带噪语音信号作为深度降噪模型的输入,通过深度降噪模型去噪解码计算,得到去噪语音信号。本发明专利技术还提供了一种适用不同噪音环境的语音降噪系统、设备和介质。本发明专利技术通过自学习能够兼容不同噪音环境下的语音降噪处理。的语音降噪处理。的语音降噪处理。

【技术实现步骤摘要】
适用不同噪音环境的语音降噪方法和系统、设备、介质


[0001]本专利技术涉及语音降噪
,具体地,涉及一种适用不同噪音环境的语音降噪方法和系统、设备、介质。

技术介绍

[0002]目前,基于深度学习AI语音降噪方式有如下缺点,性能的决定因素来自于训练集的大小、训练集的代表性。训练集会覆盖生活中的一些噪音,但如果AI语音降噪类的产品使用场景发生了变化,会导致降噪收敛慢或无法有效抑制环境中的噪音。
[0003]经过检索,专利文献CN111524530A公开了一种基于膨胀因果卷积的语音降噪方法,包括构建网络训练的音频训练集;基于膨胀因果卷积,构建语音降噪网络模型并训练网络模型;使用训练后的模型进行降噪。该现有技术利用膨胀因果卷积来处理音频时序信息,将感受范围增大。但是不足之处在于仍然无法解决当使用场景发生变化时,无法适应新场景的降噪要求。
[0004]因此,亟需研发设计一种能够兼容不同噪音环境下的语音降噪方法和系统。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种适用不同噪音环境的语音降噪方法和系统、设备、介质,能够适应不同新场景的降噪要求。
[0006]根据本专利技术提供的一种适用不同噪音环境的语音降噪方法,包括如下步骤:
[0007]步骤S1:对带噪语音信号进行预处理;
[0008]步骤S2:使用语音端点检测技术对预处理过的语音信号进行端点检测,根据语音信号的短时能量和过零率,确定语音信号的有效起点和终点;
[0009]步骤S3:检测到语音信号的有效起点和终点后,剪裁语音信号;
[0010]步骤S4:将裁剪后的语音信号转换为预定格式的带噪语音信号;
[0011]步骤S5:将预定格式的带噪语音信号进行分帧,切片成固定长度;
[0012]步骤S6:将每帧带噪语音信号作为深度降噪模型的输入,通过深度降噪模型去噪解码计算,得到去噪语音信号。
[0013]优选地,步骤S1中对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧。
[0014]优选地,对每一帧语音信号进行快速傅里叶变换,将时域信号转换到频域信号,使用频域信号处理方法对每一帧频域信号进去噪处理。
[0015]优选地,将去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧,对预处理后的语音帧进行合成,得到预处理过的语音信号。
[0016]优选地,针对深度降噪模型的训练包括,采集带噪语音样本,将带噪语音样本依次执行步骤S1

S3后得到去噪语音样本,根据带噪语音样本的结果剪裁对应的去噪语音样本。
[0017]优选地,针对深度降噪模型的训练还包括,将去噪语音样本和带噪语音样本都执
行步骤S4

S5得到去噪语音样本切片和带噪语音样本切片。
[0018]优选地,将带噪语音样本切片作为输入,将对应去噪语音样本切片作为输出,采用随机梯度下降法训练神经网络,得到深度降噪模型。
[0019]根据本专利技术提供的一种适用不同噪音环境的语音降噪系统,包括:
[0020]模块M1:对带噪语音信号进行预处理;
[0021]模块M2:使用语音端点检测技术对预处理过的语音信号进行端点检测,根据语音信号的短时能量和过零率,确定语音信号的有效起点和终点;
[0022]模块M3:检测到语音信号的有效起点和终点后,剪裁语音信号;
[0023]模块M4:将裁剪后的语音信号转换为预定格式的带噪语音信号;
[0024]模块M5:将预定格式的带噪语音信号进行分帧,切片成固定长度;
[0025]模块M6:将每帧带噪语音信号作为深度降噪模型的输入,通过深度降噪模型去噪解码计算,得到去噪语音信号。
[0026]根据本专利技术提供的一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时实现上述的方法的步骤。
[0027]根据本专利技术提供的一种适用不同噪音环境的语音降噪设备,包括上述的适用不同噪音环境的语音降噪系统或上述的存储有计算机程序的计算机可读存储介质。
[0028]与现有技术相比,本专利技术具有如下的有益效果:
[0029]1、本专利技术提出一种兼容不同噪音环境下的语音降噪方法,使用场景发生变化时,把新场景的噪音自学习到神经网络里,从而可以适应新场景的降噪要求。
[0030]2、本专利技术尤其适用于船舶、机场等不规律强噪音通话的设备上,以适应不同噪音下,通过降噪能够保持清晰通话。
[0031]3、本专利技术通过通用降噪模型能够进行解码计算,最终输出去噪语音。
[0032]4、本专利技术在自动去噪效果不理想的情况下,能够人为选择送到自训练降噪模型做解码计算,以得到最好的降噪效果。
附图说明
[0033]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:
[0034]图1为本专利技术中适用不同噪音环境的语音降噪系统的整体框架图。
具体实施方式
[0035]下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。
[0036]如图1所示,本专利技术中自训练降噪模型的建立,体现在用户录制一定时长的噪音,训练一个独立的噪音模型。通用降噪模型的建立,为了适应不同噪声环境的应用环境,采集大量不同环境的噪音来训练通用降噪模型。降噪模型的建模方法包括但不限于DNN(深度神经网络)、CNN(卷积神经网络)。语音降噪,从录音设备录取带噪音的人声后,送到通用降噪
模型去做解码计算,最终输出去噪语音,如果去噪效果不理想,可以人为选择送到自训练降噪模型去做解码计算,以得到最好的降噪效果。
[0037]本专利技术提供了一种适用不同噪音环境的语音降噪方法,包括如下步骤:
[0038]步骤S1:对带噪语音信号进行预处理。
[0039]步骤S1.1:对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧。
[0040]步骤S1.2:对每一帧语音信号进行快速傅里叶变换,将时域信号转换到频域信号。
[0041]步骤S1.3:使用频域信号处理方法对每一帧频域信号进去噪处理。
[0042]步骤S1.4:将去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧。
[0043]步骤S1.5:对预处理后的语音帧进行合成,得到预处理过的语音信号。
[0044]步骤S2:使用语音端点检测技术对预处理过的语音信号进行端点检测,根据语音信号的短时能量和过零率,确定语音信号的有效起点和终点;
[0045]步骤S3:检测到语音信号的有效起点和终点后,剪裁语音信号;
[0046]步骤S4:将裁剪后的语音信号转换本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用不同噪音环境的语音降噪方法,其特征在于,包括如下步骤:步骤S1:对带噪语音信号进行预处理;步骤S2:使用语音端点检测技术对预处理过的语音信号进行端点检测,根据语音信号的短时能量和过零率,确定语音信号的有效起点和终点;步骤S3:检测到语音信号的有效起点和终点后,剪裁语音信号;步骤S4:将裁剪后的语音信号转换为预定格式的带噪语音信号;步骤S5:将预定格式的带噪语音信号进行分帧,切片成固定长度;步骤S6:将每帧带噪语音信号作为深度降噪模型的输入,通过深度降噪模型去噪解码计算,得到去噪语音信号。2.根据权利要求1所述的适用不同噪音环境的语音降噪方法,其特征在于,所述步骤S1中对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧。3.根据权利要求2所述的适用不同噪音环境的语音降噪方法,其特征在于,对每一帧语音信号进行快速傅里叶变换,将时域信号转换到频域信号,使用频域信号处理方法对每一帧频域信号进去噪处理。4.根据权利要求3所述的适用不同噪音环境的语音降噪方法,其特征在于,将去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧,对预处理后的语音帧进行合成,得到预处理过的语音信号。5.根据权利要求1所述的适用不同噪音环境的语音降噪方法,其特征在于,针对深度降噪模型的训练包括,采集带噪语音样本,将带噪语音样本依次执行步骤S1

S3后得到去噪语音样本,根据带...

【专利技术属性】
技术研发人员:朱建强
申请(专利权)人:上海华镇电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1