本发明专利技术公开了一种基于子空间特征活性循环网络的噪声抑制方法,属于音频降噪技术领域,方法包括:采集音频数据,将音频数据的频率进行降采样至16kHz,并以时域长度10ms进行分帧处理,每帧取前后两帧各48个采样点数据,组成每帧包含有256个采样点的时域数据;对多帧时域数据进行短时傅里叶变换,得到多帧频域数据;将每帧频域数据按频率划至16个频域子空间,并提取各频域子空间的多个特征参数;构建活性循环增益估计网络模型;将各特征参数输入至活性循环增益估计网络模型,得到16个增益掩码;利用各增益掩码对频域数据的幅值进行增益处理;构建锐化滤波函数,对增益处理后的频域幅值进行锐化滤波处理,完成降噪;将降噪处理后的频域信号重建为时域信号。后的频域信号重建为时域信号。后的频域信号重建为时域信号。
【技术实现步骤摘要】
一种基于子空间特征活性循环网络的噪声抑制方法
[0001]本专利技术属于音频降噪
,具体涉及一种基于子空间特征活性循环网络的噪声抑制方法。
技术介绍
[0002]当前云端计算逐渐普及,云电脑/云桌面相关产品具有便捷、低成本、信息安全以及网络速率快等优势。客服沟通等场景对云电脑的音频品质要求较高,但是,由于云电脑音频通道相较于本地电脑需要经过虚拟机进行收发,音频数据需要通过虚拟声卡、服务端、网络、客户端以及终端外设等软硬件,链路长且外设种类多,由此造成接收方接收的音频数据易出现电流声、高频毛刺等突变、非平稳噪声,严重影响音频质量。
[0003]传统的降噪算法一般包含线性滤波器、谱减法以及分位数噪声估计法,其核心在于利用信号处理、统计估计噪声谱之后消除噪声得到干净音频。这种方法对于稳态噪声有较好的消除效果,但对音频数据中的突变噪声进行去噪时去噪效果差,且计算复杂度高。
技术实现思路
[0004]本专利技术实施例的目的是提供一种基于子空间特征活性循环网络的噪声抑制方法,能够解决现有方法在对音频数据中突变噪声进行去除时,去噪效果差,且计算复杂度高的技术问题。
[0005]为了解决上述技术问题,本专利技术是这样实现的:
[0006]本专利技术实施例提供了一种基于子空间特征活性循环网络的噪声抑制方法,包括:
[0007]S101:采集音频数据,将音频数据的频率进行降采样至16kHz,并以时域长度10ms进行分帧处理,每帧取前后两帧各48个采样点数据,组成每帧包含有256个采样点的时域数据;
[0008]S102:对多帧时域数据进行短时傅里叶变换,得到多帧频域数据;
[0009]S103:将每帧频域数据按频率划至16个频域子空间,并提取各频域子空间的多个特征参数;
[0010]S104:构建活性循环增益估计网络模型;
[0011]S105:将各特征参数输入至活性循环增益估计网络模型,得到16个增益掩码;
[0012]S106:利用各增益掩码对频域数据的幅值进行增益处理;
[0013]S107:构建锐化滤波函数,对增益处理后的频域幅值进行锐化滤波处理,完成降噪;
[0014]S108:将降噪处理后的频域信号重建为时域信号。
[0015]在本专利技术实施例中,通过将采集的音频数据进行降采样,减少采样点数据,降低运算时间,将降采样得到的多帧时域数据转换为多帧频域数据,并将每帧频域数据划分为16个频域子空间简化多特征的提取流程,进而降低计算复杂度,之后将提取的特征参数输入至构建的活性循环增益估计网络得到对应频域数据的16个增益掩码,利用增益掩码将对应
频域数据的幅值进行分类放大处理,对突变噪声进行抑制,并利用锐化滤波函数进一步去除噪声残留,在降低去噪计算复杂度且满足音频数据实时处理的同时,提高噪声去除效果。
附图说明
[0016]图1是本专利技术实施例提供的一种基于子空间特征活性循环网络的噪声抑制方法的流程示意图。
[0017]图2是本专利技术实施例提供的一种活性循环增益估计网络模型的结构示意图。
[0018]图3是本专利技术实施例提供的一种活性循环单元的结构示意图。
[0019]图4是本专利技术实施例提供的一种重建时域信号的结构示意图。
[0020]本专利技术目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
[0021]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]下面结合附图,通过具体的实施例及其应用场景对本专利技术实施例提供基于子空间特征活性循环网络的噪声抑制方法进行详细地说明。
[0023]参照图1,示出了本专利技术实施例提供的一种基于子空间特征活性循环网络的噪声抑制方法的流程示意图。
[0024]本专利技术实施例提供的一种基于子空间特征活性循环网络的噪声抑制方法,包括:
[0025]S101:采集音频数据,将音频数据的频率进行降采样至16kHz,并以时域长度10ms进行分帧处理,每帧取前后两帧各48个采样点数据,组成每帧包含有256个采样点的时域数据。
[0026]其中,由于音频数据在实时通话过程中,需要尽量降低音频数据降噪时间,采用降采样可以减小采样点的数据量,以提高计算速度,降低整体降噪时长。
[0027]S102:对多帧时域数据进行短时傅里叶变换,得到多帧频域数据。
[0028]可以理解的是,时域信号虽然可以直观的观测到信号的形状,但是不能用有限的参数对时域信号进行准确的描述,通过短时傅里叶变换,可以将复杂的时域信号问题转换为简单的频域信号的叠加,可以更加精确的了解采集到的音频数据的构造,进而对音频数据中的噪声信号进行去除。
[0029]在一种可能的实施方式中,S102具体包括:
[0030]S1021:通过矩形窗函数对每帧时域数据进行加窗处理。
[0031]其中,矩形窗函数在短时傅里叶变换中应用最广,也最简单。当窗口内数据长度为信号周期的整倍数时,一般采用矩形窗函数。
[0032]S1022:将加窗后的时域数据进行短时傅里叶变换,得到多帧频域数据。
[0033]可以理解的是,通过降采样得到的时域数据后续要进行傅里叶变换,转变为频域信号,但是短时傅里叶变换需要用到所有的采样点数据,当采样点数据无限长或者相当长的情况下,时频转换不可行也没有实际意义,因此,通过矩形窗函数将得到的时域数据进行
加窗处理,取时域数据中有限的时间片段进行分析。
[0034]S103:将每帧频域数据按频率划至16个频域子空间,并提取各频域子空间的多个特征参数。
[0035]需要说明的是,各个划分方式的频率选取是根据人耳的掩蔽效应进行取值的。
[0036]表1频域子空间划分方式
[0037]临界频带中心(Hz)截至频率带宽(Hz)
ꢀꢀ
20 15020018021004002003200600200430080020054001000200650012002007250017005008290024007009340031007001040004000900114800490090012580060001100137000770013001485009500180015105001200025001613500155003500
[0038]参照表1,示出了16个频域子空间的划分方式。
[0039]由表1可以看出,划分方式是按频率将每帧频域数据划分至不同的频域子空间中,每个频域子空间都有不同的截止频率,且带宽不完全相同,每个频域子空间都有各自的频率中心。
[0040]其中,16个频域子本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于子空间特征活性循环网络的噪声抑制方法,其特征在于,包括:S101:采集音频数据,将所述音频数据的频率进行降采样至16kHz,并以时域长度10ms进行分帧处理,每帧取前后两帧各48个采样点数据,组成每帧包含有256个采样点的时域数据;S102:对多帧所述时域数据进行短时傅里叶变换,得到多帧频域数据;S103:将每帧所述频域数据按频率划至16个频域子空间,并提取各所述频域子空间的多个特征参数;S104:构建活性循环增益估计网络模型;S105:将各所述特征参数输入至所述活性循环增益估计网络模型,得到16个增益掩码;S106:利用各所述增益掩码对所述频域数据的幅值进行增益处理;S107:构建锐化滤波函数,对增益处理后的频域幅值进行锐化滤波处理,完成降噪;S108:将降噪处理后的频域信号重建为时域信号。2.根据权利要求1所述的噪声抑制方法,其特征在于,所述S102具体包括:S1021:通过矩形窗函数对每帧所述时域数据进行加窗处理;S1022:将加窗后的时域数据进行短时傅里叶变换,得到多帧所述频域数据。3.根据权利要求1所述的噪声抑制方法,其特征在于,16个所述频域子空间中,第一频域子空间对应的截止频率的范围为20至200Hz,第二频域子空间对应的截止频率的范围为200至400Hz,第三频域子空间对应的截止频率的范围为400至600Hz,第四频域子空间对应的截止频率的范围为600至800Hz,第五频域子空间对应的截止频率的范围为800至1000Hz,第六频域子空间对应的截止频率的范围为1000至1200Hz,第七频域子空间对应的截止频率的范围为1200至1700Hz,第八频域子空间对应的截止频率的范围为1700至2400Hz,第九频域子空间对应的截止频率的范围为2400至3100Hz,第十频域子空间对应的截止频率的范围为3100至4000Hz,第十一频域子空间对应的截止频率的范围为4000至4900Hz,第十二频域子空间对应的截止频率的范围为4900至6000Hz,第十三频域子空间对应的截止频率的范围为6000至7700Hz,第十四频域子空间对应的截止频率的范围为7700至9500Hz,第十五频域子空间对应的截止频率的范围为9500至12000Hz,第十六频域子空间对应的截止频率的范围为12000至15500Hz。4.根据权利要求3所述的噪声抑制方法,其特征在于,所述特征参数包括:每个所述频域子空间幅值的第一分量特征参数、所述第一频域子空间至所述第六频域子空间幅值的均值特征参数和方差均值特征参数、全频带幅值的平坦度特征参数、全频带幅值与粉红噪声之间的相似度特征参数和全频带幅值与粉红噪声之间的相似度特征参数。5.根据权利要求4所述的噪声抑制方法,其特征在于,所述特征参数的总数为2...
【专利技术属性】
技术研发人员:蔡宇轩,陈曦,林佳钦,游德光,张天阳,焦妍,朱磊,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。