System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于改进卷积循环网络的单通道语音增强方法技术_技高网

一种基于改进卷积循环网络的单通道语音增强方法技术

技术编号:43841034 阅读:20 留言:0更新日期:2024-12-31 18:36
本发明专利技术提供了一种基于改进卷积循环网络的单通道语音增强方法,包括:步骤1:下载模型训练和测试所用的数据集,通过采用VoiceBank+DEMAND数据集对数据集的语音进行预处理,并通过短时傅里叶变换(STFT)提取语音信号的幅度谱;步骤2:将幅度谱输入到编码器中,从幅度谱中提取高维特征;步骤3:使用Channel‑S4D block作为模型的递归模块,Channel‑S4D block输出的结果会输入到解码器中,被恢复到原始的维度;步骤4:构造联合损失函数;步骤5:重建和评估增强语音信号。本发明专利技术基于对角化状态空间模型构造的Channel‑S4D模块高效地处理语音序列,捕捉通道级别的语音关键信息,更好地建模语音信号的时间依赖关系,在降低模型的参数量和计算量的同时,提高了模型对复杂噪声环境的适应性。

【技术实现步骤摘要】

本专利技术涉及一种基于改进卷积循环网络的单通道语音增强方法,具体涉及一种新型的、高效的、轻量级的卷积递归网络(crnv2)用于单通道语音增强,属于语音增强。


技术介绍

1、在现代社会中,清晰的语音是有效沟通的基础。然而,背景噪声和混响等不利因素经常损害语音信号的可理解性和质量,影响我们日常的语音通信质量。因此,研究解决噪声干扰的语音增强(se)技术至关重要。语音增强技术旨在提高语音信号的质量和清晰度,使其更易于理解和识别。近年来,随着深度学习技术的发展,基于深度学习的语音增强方法逐渐成为研究的热点。深度学习通过大规模数据的训练,能够自动学习语音信号中的特征和模式,从而使模型能够更准确地分析和重建受损的语音信号。深度学习的一些常见模型如卷积神经网络(convolutional neural network,cnn)、递归神经网络(recurrent neuralnetwork,rnn)在语音增强领域展现了显著的效果。其中,卷积递归网络(convolutionalrecurrent network,crn),它整合了cnn和rnn的优势,已被证明在语音增强方面非常有效,并且衍生自crn的一些模型如dccrn、frcrn等也在语音增强领域展现出了很强的竞争力。

2、然而,这些模型通常参数量较大,训练所需的时间较长,这些特点限制了模型在实际中的应用场景。例如,在需要即时响应的实时语音识别等领域,长时间的训练以及模型的高计算复杂度可能会导致系统无法满足用户的即时需求。此外,在资源受限的环境下,如移动设备或嵌入式系统中,这些模型的存储和计算需求可能超出设备的承载能力。


技术实现思路

1、本专利技术目的在于针对上述现有技术的缺陷和不足,提出了一种基于改进卷积循环网络的单通道语音增强方法,通过改进经典的卷积递归网络(crn),在降低模型的参数量和计算量的同时,确保其降噪性能优于传统crn模型,本专利技术提出了一种新型的轻量化卷积递归网络crnv2,通过对模型结构和损失函数的优化,实现了更高效的语音增强效果。

2、本专利技术为解决其技术问题所采用的技术方案是:一种基于改进卷积循环网络的单通道语音增强方法,所述该方法包括如下步骤:

3、步骤1:下载模型训练和测试所用的数据集,通过采用voicebank+demand数据集对数据集的语音进行预处理,并通过短时傅里叶变换(stft)提取语音信号的幅度谱;

4、步骤2:将幅度谱输入到编码器中,从幅度谱中提取高维特征;

5、步骤3:使用channel-s4d block作为模型的递归模块,针对语音信号的时序依赖性进行有效建模,channel-s4d block输出的结果会输入到解码器中,被恢复到原始的维度;

6、步骤4:构造联合损失函数,为了在时域和频域对增强语音与干净语音之间的差异进行联合约束,采用了时域加权信号失真比(weighted-sdr)损失和频域均方误差(mse)损失的联合损失函数,首先,计算增强语音和干净语音在时域上的加权信号失真比(weighted-sdr)损失,其次,计算增强语音和干净语音在频域上的均方误差(mse)损失,将上述两种损失加权求和,二者的约束力通过权值超参数动态调整,构成最终的联合损失函数,然后,通过反向传播算法,利用该联合损失函数的约束对模型参数进行更新,从而优化模型;

7、步骤5:重建和评估增强语音信号,基于训练好的模型得到增强后的语音信号幅度谱,结合原信号的相位,通过短时傅里叶逆变换(istft)重建为时域的增强后语音信号,对重建后的增强语音信号进行评估,主要使用宽带语音感知质量(wb-pesq)和短时客观可懂度(stoi)指标来衡量增强语音的质量和可懂度,并在测试阶段根据这些指标的结果选出最优的模型,以确保最终模型在实际应用中能够提供最佳的语音增强效果。

8、进一步地,所述步骤1具体包括:

9、步骤1-1:在所使用的voicebank-demand数据集中,含噪声的部分源自demand数据集,而清晰的语音部分则取自voicebank,其音频文件的采样频率为48khz,为了构建用于训练的混合语音数据,选取了10种不同类型的噪声——其中包括两种人造合成噪声和8种直接来自demand数据集,混合语音是按照四个信噪比级别(分别为15db、10db、5db、0db)进行合成的,当构建测试集时,则选取了demand中剩余的5种噪声,并结合voicebank中的两位讲话者的录音,依据与训练集不同的信噪比水平(分别为17.5db、12.5db、7.5db、2.5db)创建输入数据;

10、步骤1-2:将数据集中的语音信号重采样为16khz,语音长度统一为3s,具体来说,对长度大于3s的语音进行截断,长度小于3s的语音在末尾补零;

11、步骤1-3:通过短时傅里叶变换,提取语音信号的幅度谱特征,具体来说,我们设置窗长为25ms,帧移为6.25ms,fft点数为400,以确保可以高效捕捉到信号的频谱特征。

12、进一步地,所述步骤2具体包括:

13、步骤2-1:编码器由6层卷积层组成,每一层的输出维度依次是16、32、64、128、256、256,均采用了二维卷积,其中卷积核的大小设置为3×2,步长选用了(2,1)配置,而填充(padding)则为(0,1),编码器的每一层采用配有batchnorm2d正则化的elu激活函数,以优化训练过程并提高模型泛化能力;

14、步骤2-2:每一个二维卷积层后配有batchnorm2d正则化用于归一化;

15、步骤2-3:归一化后采用elu激活函数进行非线性激活。

16、进一步地,所述步骤3具体包括:

17、步骤3-1:引入专门设计的channel-s4d block,它通过整合残差连接、高效通道注意力层(eca layer)、对角化状态空间模型层、门控线性单元、一维卷积层、dropout以及通道归一化层来增强模型处理长序列时的稳定性,eca layer主要根据特征的重要性进行加权,从而增强模型对关键信息的捕捉能力,使用通道归一化替代传统的层归一化方法,使模型在处理不同通道的特征时能够更有效地进行归一化,从而提升训练稳定性和模型性能,有助于模型更好地提高各通道特征的敏感性,从而提升语音增强效果和模型的适应性,通过引入channel-s4d模块,模型在处理长序列信号时表现出更高的稳定性和性能,提升了语音增强的整体效果以及模型并行处理和建模长期时间依赖方面的性能;

18、步骤3-2:解码器模块由6层反卷积层构成,每一层与对应的编码器卷积层的输出通过跳跃连接(skip connection)进行信息流的增强,从而获得多层次多尺度的特征,卷积层每层的输入维度依次为512、512、256、128、64、32,卷积核大小与步长的设置都和编码器相同,解码器每一层同样配有batchnorm2d正则化,激活函数方面,前5层采用elu激活函数,最后一层的本文档来自技高网...

【技术保护点】

1.一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述该方法包括如下步骤:

2.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤1具体包括:

3.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤2具体包括:

4.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤3具体包括:

5.根据权利要求4所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤3-1具体包括:

6.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤4具体包括:

7.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤5具体包括:

【技术特征摘要】

1.一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述该方法包括如下步骤:

2.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤1具体包括:

3.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增强方法,其特征在于,所述步骤2具体包括:

4.根据权利要求1所述的一种基于改进卷积循环网络的单通道语音增...

【专利技术属性】
技术研发人员:孙林慧朱郑董志荣李平安叶蕾
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1