一种语音去噪方法和装置制造方法及图纸

技术编号:15748562 阅读:80 留言:0更新日期:2017-07-03 08:24
本申请提供了一种语音去噪方法和装置,其中,该方法包括:对待去噪语音信号进行FFT,得到多个频段的幅值和相位;根据所述多个频段中各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子;将各个频段的幅值乘以对应的噪声抑制因子,得到各个频段去噪后的幅值;相位采用FFT得到的相位,幅值采用去噪后的幅值,进行IFFT得到去噪后的语音信号。利用本申请实施方案,不仅可以保证语音去噪效果可以满足要求,且计算量比较小,计算速度较快,因此可以满足实时去噪的要求。

【技术实现步骤摘要】
一种语音去噪方法和装置
本申请属于语音处理
,尤其涉及一种语音去噪方法和装置。
技术介绍
在发送语音消息时,背景噪音是不可避免,有效去除噪声可以提升语音的质量。且随着智能终端的使用越来越普及,语音聊天等也变得越来越普遍,因此语音去噪也就变得越来越重要。鉴于语音去噪在语音聊天中有着重要的作用,可以降低环境噪音,提升语音质量,语音去噪的方法也有很多,例如:谱减法、LMS(自适应滤波器)、维纳滤波法、最小均方误差法等等。然而,上述这些去噪方法都存在计算量较大的问题,因为计算量比较大必然会导致实时去噪时cpu占用率比较高,智能终端的性能难以满足实时去噪的要求。针对如何在保证去噪效果的同时,降低对CPU的占用,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种语音去噪方法和装置,可以实现在保证语音精度的同时,提高去噪速度和效率,以满足实时去噪的要求。本申请提供一种语音去噪方法和装置是这样实现的:一种语音去噪方法,所述方法包括:对待去噪语音信号进行FFT,得到多个频段的幅值和相位;根据所述多个频段中各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子;将各个频段的幅值乘以对应的噪声抑制因子,得到各个频段去噪后的幅值;相位采用FFT得到的相位,幅值采用去噪后的幅值,进行IFFT得到去噪后的语音信号。一种语音去噪装置,所述装置包括:FFT模块,用于对待去噪语音信号进行FFT,得到多个频段的幅值和相位;计算模块,用于根据所述多个频段中各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子;确定模块,用于将各个频段的幅值乘以对应的噪声抑制因子,得到各个频段去噪后的幅值;IFFT模块,用于相位采用FFT得到的相位,幅值采用去噪后的幅值,进行IFFT得到去噪后的语音信号。本申请提供的语音去噪方法和装置,将对待去噪语音信号通过FFT变换至频域,以获取多个频段的幅值和相位,然后基于各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子,通过噪声抑制因子在频域进行语音去噪,然后再通过IFFT变换至时域,从而实现对语音信号的去噪处理。利用本申请实施方案,不仅可以保证语音去噪效果可以满足要求,且计算量比较小,计算速度较快,因此可以满足实时去噪的要求。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请提供的语音去噪方法一种实施例的方法流程图;图2是本申请提供的经验函数的曲线示意图;图3是本申请提供的语音去噪方法另一种实施例的方法流程图;图4是本申请提供的语音去噪装置一种实施例的模型结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图1是本申请所述一种语音去噪方法一个实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。具体的如图1所述,本申请一种实施例提供的一种语音去噪方法可以包括:S1:对待去噪语音信号进行FFT(FastFourierTransform,快速傅立叶变换),得到多个频段的幅值和相位;待去噪语音信号可以是实时通话时候的语音信号,例如:通过手机打电话时候双方的语音信号,或者是,聊天应用中传输的语音,或者是聊天应用中的对讲语音等等,这些都可以作为待去噪语音信号。因为,这些语音信号一般是人们在正常的生活环境中录制的语音,身边难免会存在噪声,这些噪声的存在都会影响语音的质量。一般待去噪语音信号都是时域的数据,为此,可以对其进行FFT(FastFourierTransform,快速傅立叶变换),以将时域的信号转换至频域,然后,在频域进行语音去噪,待去噪完成后,可以通过IFFT(InverseFastFourierTransform,快速傅里叶逆变换)再变换为时域,从而得到去噪后的语音信号。在本例中,主要是考虑到所谓的语音去噪主要是通过原始语音信号减去其中的噪声信号,从而获取去噪后的语音信号,如果到功率的层面考虑就是:其中,表示第i个频段去噪后的功率,Pi表示第i个频段带噪信号的功率,Ni表示第i个频段的噪声功率。对该公式进行调整可以得到:由此可见,去噪后的功率其实是带噪信号的功率乘以一个噪声抑制因子Ri后的结果,当Ri=0,表示输入信号全是噪声,去噪后功率为0,当Ri=1,表示输入信号不存在噪声,去噪后功率值不变。进一步的,基于功率是幅度的平方,将上述公式对应到信号的幅度上进行去噪就可以表示为:因此,如果需要在幅度层面进行语音去噪,就需要求取ri,然后根据幅值和相位还原出去噪后的信号。因此,需要对待去噪语音信号进行FFT,得到多个频段的幅值和相位。S2:根据所述多个频段中各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子;噪声抑制因子主要是与带噪功率和噪声功率相关的,因此,可以根据各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子,具体地,可以先设定一个初始抑制因子,然后,对这个初始抑制进行修正,从而得到较为准确的抑制因子,即,可以包括:步骤1:根据当前频段的带噪功率和噪声功率,计算当前频段的初始抑制因子;步骤2:对当前频段的初始抑制因子进行修正,得到当前频段修正后的抑制因子;步骤3:将当前频段修正后的抑制因子作为当前频段的噪声抑制因子。初始抑制因子就可以根据当前频段的带噪功率和噪声功率的确定,例如,可以按照以下公式计算初始抑制因子:其中,ri0表示第i个频段的初始抑制因子,其中,第i个频段为当前频段,Pi表示第i个频段的带噪功率,Ni表示第i个频段的噪声功率,Rbasen是根据当前频段的幅值从拟合经验曲线中查找出的量值。具体地,Rbasen=f(x)可以是一个基础值,该值与信号的幅度有关,该函数可以是通过实际采集的信号进行分析总结后得到的一个经验函数,在实际执行中,f(x)可以是一个如图2所示的拟合得到的一个分段函数,分段函数中表明了各个幅度范围所应该对应的Rbasen的值,在得到当前频段的幅度值之后,就可以到该分段函数中进行查找,以便确定该幅度值对应哪个幅度区间,以及该幅度区间对应的Rbasen值,从而通过幅度确定出Rbasen,例如,在图2中,纵轴表示Rbasen,横轴表示信号幅度,横轴的刻度单位为3500,即,本文档来自技高网
...
一种语音去噪方法和装置

【技术保护点】
一种语音去噪方法,其特征在于,所述方法包括:对待去噪语音信号进行快速傅里叶变换FFT,得到多个频段的幅值和相位;根据所述多个频段中各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子;将各个频段的幅值乘以对应的噪声抑制因子,得到各个频段去噪后的幅值;相位采用FFT得到的相位,幅值采用去噪后的幅值,进行快速傅里叶逆变换IFFT得到去噪后的语音信号。

【技术特征摘要】
1.一种语音去噪方法,其特征在于,所述方法包括:对待去噪语音信号进行快速傅里叶变换FFT,得到多个频段的幅值和相位;根据所述多个频段中各个频段的带噪功率和噪声功率,计算得到各个频段的噪声抑制因子;将各个频段的幅值乘以对应的噪声抑制因子,得到各个频段去噪后的幅值;相位采用FFT得到的相位,幅值采用去噪后的幅值,进行快速傅里叶逆变换IFFT得到去噪后的语音信号。2.根据权利要求1所述的方法,其特征在于,根据所述多个频段中各个频段的带噪功率和噪声功率计算得到各个频段的噪声抑制因子,包括:根据当前频段的带噪功率和噪声功率,计算当前频段的初始抑制因子;对所述当前频段的初始抑制因子进行修正,得到当前频段修正后的抑制因子;将当前频段修正后的抑制因子作为当前频段的噪声抑制因子。3.根据权利要求2所述的方法,其特征在于,根据当前频段的带噪功率和噪声功率,按照以下公式,计算当前频段的初始抑制因子:其中,ri0表示第i个频段的初始抑制因子,其中,第i个频段为当前频段,Rbasen是根据当前频段的幅值从拟合经验曲线中查找出的量值,Pi表示第i个频段的带噪功率,Ni表示第i个频段的噪声功率。4.根据权利要求2所述的方法,其特征在于,对所述当前频段初始抑制因子进行修正,得到当前频段修正后的抑制因子,包括:将所述当前频段的初始抑制因子与所述当前频段的相邻频段的初始抑制因子做平滑处理;将平滑处理后的初始抑制因子作为当前频段修正后的抑制因子。5.根据权利要求4所述的方法,其特征在于,按照以下公式,将所述当前频段的初始抑制因子与所述当前频段的相邻频段的初始抑制因子做平滑处理:其中,ri1表示当前频段平滑处理后的初始抑制因子,ωj表示第j个频段的权重值,表示第j个频段的初始抑制因子。6.根据权利要求4所述的方法,其特征在于,将平滑处理后的初始抑制因子作为当前频段修正后的抑制因子,包括:获取所述多个频段中各个频段初始抑制因子的最大值和最小值;根据所述最大值和最小值,对平滑处理后的初始抑制因子进行修正,得到当前频段修正后的抑制因子。7.根据权利要求6所述的方法,其特征在于,根据所述最大值和最小值,按照以下公式对平滑处理后的初始抑制因子进行修正,得到当前频段修正后的抑制因子:ri2=α·ri1+(1-α)·rmin其中,α表示第一加权系数,α=f(rmin,rmax),f为第一加权系数的计算公式,rmin表示所述最小值,rmax表示所述最大值。8.根据权利要求6所述的方法,其特征在于,在对平滑处理后的初始抑制因子进行修正,得到当前频段修正后的抑制因子之后,所述方法还包括:将当前频段修正后的抑制因子与所述待去噪语音信号的前一帧语音信号与所述当前频段相同频段的修正后的抑制因子做加权,得到加权后的抑制因子;相应的,将修正后的抑制因子作为噪声抑制因子,包括:将加权后的抑制因子作为当前频段的噪声抑制因子。9.根据权利要求8所述的方法,其特征在于,按照以下公式将当前频段修正后的抑制因子与所述待去噪语音信号的前一帧语音信号与所述当前频段相同频段的修正后的抑制因子做加权,得到加权后的抑制因子:其中,表示所述待去噪语音信号的前一帧语音信号与所述当前频段相同频段的修正后的抑制因子,ri表示所述加权后的抑制因子,ri2表示所述当前频段修正后的抑制因子,β表示第二加权系数。10.一种语音去噪装置,其特征在于,所述装置包括:FFT模块,...

【专利技术属性】
技术研发人员:杜志军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1