一种基于双神经网络模型的语音降噪方法技术

技术编号:36189899 阅读:45 留言:0更新日期:2022-12-31 21:02
本发明专利技术公开了一种基于双神经网络模型的语音降噪方法。本发明专利技术根据嵌入式系统所能提供的资源确定系统的总计算量和总参数量,对接收到的语音数字信号进行分帧和FFT变换,将每帧的FFT谱作为两个神经网络模型的输入,两个神经网络模型分别使用卷积结构的多层网络和RNN结构的多层网络,利用两个神经网络模型的输出和预设的分频带混合参数计算得到每个频带的总语音保留系数,分频带混合参数与该帧的FFT谱对应的频带值相乘,得到处理后每帧FFT谱,逆快速傅里叶变换和去帧后成为时域输出。本发明专利技术使用的模型参数量与计算量较小,适合低内存低算力的嵌入式设备使用。本发明专利技术针对不同用户的需求,不需要重新训练修改模型,节省了时间与成本。成本。成本。

【技术实现步骤摘要】
一种基于双神经网络模型的语音降噪方法


[0001]本专利技术属于信号处理
,具体涉及一种基于双神经网络模型的语音降噪方法。

技术介绍

[0002]声音经传音器转换成电信号,再通过ADC(模拟数字转换器)转换成数字信号。对数字信号进行处理后发送给接收方。处理后的数字信号通过DAC(数字模拟转换器)转换成电信号就可以用扬声器转换成声音播出。
[0003]语音信息是人们沟通的常用对象,是一种特殊的声音。由于语音信号在传播的过程中受到环境噪声的干扰,需要对包含语音信号的声音信号进行降噪处理。在经典方法有对语音信号进行固定滤波器滤波,使用维纳滤波等自适应滤波等。在深度学习发展后,也出现了使用神经网络降噪的方法,并取得较好的效果。如果Spleeter能够实现语音与背景音的分离,参考“Hennequin R,Khlif A,Voituret F,etal.Spleeter:a fast andefficient music source separation tool with pre

trained models[J].The Journalof Open Source Software,2020,5(50):2154.”。专利CN109841226B采用一个卷积与LSTM 结合的模型结构实现了基于神经网络的降噪。
[0004]大模型参数多,计算量大,降噪性能令人满意。但是在极低功耗的应用场景下,设备的存储空间与计算能力通常受限。神经网络的参数需要存在设备的存储空间中,因此神经网络的参数个数与计算量不能大。大模型无法在嵌入式设备中使用。小模型必然带来语音降噪性能的下降。在实践中,语音的降噪深度与语音的保真度存在矛盾。语音的降噪深度越深,对语音本身的损伤越大。通常需要对语音降噪深度与语音的保真度进行折中。
[0005]不同嵌入式设备可以提供不同的最大参数数量与最大计算力。为了达到最佳的降噪效果,需要算法能够充分利用到设备提供的最大参数数量与最大计算力。使用一个单一模型时,很容易在参数数量达到最大值时没有利用到最大算力或者在利用到最大算力时参数数量没有达到最大参数数量。调整一个单一模型令模型的参数数量达到最大参数数量的同时利用到最大算力是相对困难的。因此通常使用一个单一模型达不到利用好设备存储与计算资源的最佳效果。另外单一模型如需要调节降噪深度与保真度的折中通常需要重新训练修改模型,增加了时间与成本。

技术实现思路

[0006]本专利技术的目的就是针对现有在极低功耗的应用场景下的小模型的神经网络降噪方法无法兼顾降噪深度与高保真度,单一模型达不到利用好设备存储与计算资源的最佳效果的不足,提供一种基于双神经网络模型的语音降噪方法。
[0007]本专利技术方法具体是:
[0008]步骤(1)根据嵌入式系统所能提供的资源确定系统的总计算量和总参数量;
[0009]步骤(2)对接收到的语音数字信号进行分帧,每帧长度为L。
[0010]步骤(3)对每帧的数据进行快速傅里叶变换,得到每帧FFT谱FFT(l),l=0,1,,L

1。
[0011]步骤(4)将每帧的FFT谱作为两个神经网络模型M1和M2的输入,两个神经网络模型的输出为两个语音保留系数MASK1和MASK2。
[0012]第一神经网络模型M1使用卷积结构的多层网络,模型基于卷积神经网络和全连接层串行构建,包含多个卷积层和一个全连接层,每个卷积层后都连接批归一化层和非线性激活层,第i个卷积层的有C
i
个大小为n
×
n的卷积核,n为自然数;第一神经网络模型M1 的计算量小于系统的总计算量的80﹪;
[0013]第二神经网络模型M2使用RNN结构的多层网络,模型基于RNN神经网络和全连接层串行构建,包含多个RNN层和一个全连接层,每个RNN层后都连接批归一化层和非线性激活层,第j个RNN层的有H
j
个的隐藏节点数;第二神经网络模型M2的参数量小于系统的总参数量的80﹪;
[0014]步骤(5)计算每帧FFT谱的每个频带的总语音保留系数MASK(k),k表示第k个频带, k=0,1,,K

1,K为总频带数量,
[0015]MASK(k)=A(k)
·
MASK1(k)+(1

A(k))
·
MASK2(k),A(k)为设置的分频带混合参数, 0≤A(k)≤1,MASK1(k)为第一神经网络模型第k个频带输出的语音保留系数,MASK2(k) 为第二神经网络模型第k个频带输出的语音保留系数。
[0016]进一步,所述的分频带混合参数A(k)为预设数,用于降噪深度与保真度的折中:希望提高降噪深度时,增大A(k)的值,希望提高语音保真度时,减少A(k)的值;当A(k)=0 时,第k个频带只使用模型M1的降噪输出,降噪深度达到最大,保真度最低;当A(k)=1 时,第k频带只使用模型M2的降噪输出,降噪深度达到最小,保真度达到最大。
[0017]步骤(6)将每帧的每个频带的总语音保留系数MASK(k)与该帧的FFT谱对应的频带值相乘,得到处理后每帧FFT谱
[0018]步骤(7)将处理后每帧FFT谱FFT

(l)进行逆快速傅里叶变换,去帧后成为时域输出。
[0019]进一步,提前训练一组包括P个卷积结构的多层网络模型,分别记为M1_X
p
,X
p
表示第p个模型的计算量,p=1,2,,P;提前训练一组包括Q个RNN结构的多层网络模型,分别记为M2_Y
q
,Y
q
表示第q个模型的参数量,q=1,2,,Q;当系统要求的总计算量与总参数量确定后,取所有X
p
中小于系统要求的总计算量80﹪的最大值对应的模型作为本次使用的第一神经网络模型M1,取所有Y
q
中小于系统要求的总参数量80﹪的最大值对应的模型作为本次使用的第二神经网络模型M2,M1与M2即为同时满足系统的总计算量和总参数量要求的最优模型组合。
[0020]本专利技术方法中的分帧、去帧、FFT、IFFT均采用语音处理领域的通用技术。
[0021]与通用神经网络降噪大模型相比,本方法提出的方法使用的模型参数量与计算量都较小,适合低内存低算力的嵌入式设备使用。与单模型的小神经网络相比,本方法使用两个各有特点的模型,分别调整模型参数量与模型计算量,减少了模型设计与训练难度。可配置的分频带混合参数充分利用了基于卷积的网络的输出通常降噪深度大,对语音的高频损
伤也大;基于RNN的网络的输出通常降噪深度较小,对语音的保真度高,对语音的高频损伤也小的特点,结合了两种模型的输出,在保留低频高降深度的同时提高了高频的保真度。使用本专利的方法还可适应不同用户的使用偏好,令用户方便调节降噪深度与保真度的折中。不同用户由于使用场景与用户偏好不同,调节分频带混合参数的数值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双神经网络模型的语音降噪方法,其特征在于:步骤(1)根据嵌入式系统所能提供的资源确定系统的总计算量和总参数量;步骤(2)对接收到的语音数字信号进行分帧,每帧长度为L;步骤(3)对每帧的数据进行快速傅里叶变换,得到每帧FFT谱FFT(l),l=0,1,,L

1;步骤(4)将每帧的FFT谱作为两个神经网络模型M1和M2的输入,两个神经网络模型的输出为两个语音保留系数MASK1和MASK2;第一神经网络模型M1使用卷积结构的多层网络,模型基于卷积神经网络和全连接层串行构建,包含多个卷积层和一个全连接层,每个卷积层后都连接批归一化层和非线性激活层,第i个卷积层的有C
i
个大小为n
×
n的卷积核,n为自然数;第一神经网络模型M1的计算量小于系统的总计算量的80﹪;第二神经网络模型M2使用RNN结构的多层网络,模型基于RNN神经网络和全连接层串行构建,包含多个RNN层和一个全连接层,每个RNN层后都连接批归一化层和非线性激活层,第j个RNN层的有H
j
个的隐藏节点数;第二神经网络模型M2的参数量小于系统的总参数量的80﹪;步骤(5)计算每帧FFT谱的每个频带的总语音保留系数MASK(k),k表示第k个频带,k=0,1,,K

1,K为总频带数量,MASK(k)=A(k)
·
MASK1(k)+(1

A(k))
·
MASK2(k),A(k)为设置的分频带混合参数,0≤A(k)≤1,MASK1(k)为第一神经网络模型第k个频带输出的语...

【专利技术属性】
技术研发人员:梁骏叶丰钟宇清陈谢沈旭东宋蕴杨常星
申请(专利权)人:杭州国芯科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1