当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于改进CRN的单通道语音增强方法技术

技术编号:37386502 阅读:19 留言:0更新日期:2023-04-27 07:26
本发明专利技术公开了一种基于改进卷积循环网络(Convolutional recurrentnetworks,CRN)的单通道语音增强方法,该方法增加了尺度不变的信号失真比(SI

【技术实现步骤摘要】
一种基于改进CRN的单通道语音增强方法


[0001]本专利技术属于语音增强
,具体涉及一种基于改进卷积循环网络(Convolutional recurrent networks,CRN)的单通道语音增强方法。

技术介绍

[0002]语音增强技术广泛应用于通话、助听、语音识别等领域,背景噪声通常会严重降低这些语音通信应用的性能。单通道语音增强的目标是消除背景噪声干扰,从带噪语音信号中重构干净语音,提高语音信号质量。传统语音增强方法如维纳滤波、谱减法和基于子空间的方法,通常在不包含语音的信号段取带噪信号的均值作为估计的噪声谱结果,然而在面对非平稳噪声或低信噪比环境时估计结果的置信度就会严重退化。而且传统方法的语音增强客观评价指标大都只注重于语音感知质量(PESQ)和短时客观可懂度(STOI),对下游任务如语音识别而言,反而破坏了语音信号中蕴含的信息,导致语音识别系统识别率降低。
[0003]近年来,以数据驱动的深度神经网络(DNN)方法在处理大多数非平稳噪声情况方面显示出了优越性。基于DNN的语音增强框架从学习目标上来说可分为基于频谱掩蔽(Spectral Mask)的方法和基于频谱映射(Spectral Mapping)的方法。
[0004]基于频谱掩蔽(Spectral Mask)的方法假设信号能量稀疏和不相交,通过对时频单元估计来预测时频掩蔽(T

F Mask),如基于信噪比的理想二值掩蔽(IBM)和基于信噪能量比的理想比值掩蔽(IRM),计算时频掩蔽和带噪语音语谱图的哈达玛乘积得到增强语音,但是IBM信噪比离散化假设过于简化,IRM则未考虑语音信号相位信息。基于频谱映射(Spectral Mapping)的方法学习噪声谱特征(如对数功率谱(LPS)、对数幅度谱(LSA)、梅尔谱)和干净谱特征之间的映射关系,分离问题就成为了一个回归问题,最后波形重建得到增强后的语音。但频谱映射(Spectral Mapping)方法未充分利用语音信号的时序信息。依赖于卷积神经网络(CNN),通过共享权值可以在减少训练参数的同时获得比全连接的DNN更好的性能,但是卷积网络也受限于局部信号特征。循环神经网络(RNN)将语音作为时序数据进行建模,基于序列的方式处理长期上下文,但通常需要人工特征;RNN利用循环结构可以学习到长时相关,但是对长时带噪语音中的语音成分关注程度不够,而且其网络规模大,面临梯度消失和梯度爆炸问题。
[0005]维纳滤波(WinnerFilter)作为经典方法,适用面广。该方法通过训练一个滤波器,使得带噪信号经过滤波器生成的增强信号和干净信号之间均方误差最小。但是其不适用于非平稳噪声情况且需要未来全部语音帧情况,实际应用中很难满足条件。
[0006]长短期记忆网络(LSTM)能够学习到语音信号长时相关信息,但对长时带噪语音中的语音成分关注程度不够。将每个输入帧视为平坦特征向量,无法充分利用幅度图中的时频结构信息。而且网络规模大,面临梯度消失和梯度爆炸问题。
[0007]卷积循环网络(CRN)的编码器从信号局部时频信息中提取高维特征,解码器重建目标语音。由循环结构进一步对长期时间依赖性进行建模。CRN不需要未来语音帧信息,能够基于当前语音帧实时增强语音。然而CRN的目标函数是基于均方误差的理想比值掩蔽损
失,仍然局限于时频域,模型结构优势未充分发挥。采用LSTM作为RNN层也给模型训练带来了困难。
[0008]综上所述,提出一种增加尺度不变的信号失真比(SI

SDR)损失L
SI

SDR
联合优化以解决CRN方法损失函数单一的问题,使用门控循环单元(GRU)搭建RNN模块以解决LSTM模型训练参数量大、训练困难,从带噪语音生成感知质量高、信噪比高的增强语音信号的基于改进CRN的单通道语音增强方法。

技术实现思路

[0009]为了解决上述技术问题,本专利技术提出了一种基于改进CRN的单通道语音增强方法,该方法增加了尺度不变的信号失真比(SI

SDR)损失L
SI

SDR
联合优化以解决CRN方法损失函数单一的问题,使用门控循环单元(GRU)搭建RNN模块解决了LSTM模型训练参数量大、训练困难的问题,能够从带噪语音生成感知质量高、信噪比高的增强语音信号。
[0010]为了达到上述技术目的,本专利技术是通过以下技术方案实现的:一种基于改进CRN的单通道语音增强方法,包括以下步骤:
[0011]S1:下载VoiceBank

DEMAND数据集;
[0012]S2:对语音信号逐帧应用窗函数来计算短时傅里叶变换(STFT),变换后得到幅度谱特征;
[0013]S3:将特征输入卷积编码器,进行下采样,从输入语谱图中提取高维特征;
[0014]S4:使用门控循环单元GRU搭建RNN模块,GRU输出结果重新展回符合解码器输入要求的维度,进行序列建模;
[0015]S5:计算增强语音信号相对干净语音的损失,反向传播更新模型参数;
[0016]S6:将增强后的信号幅度谱和带噪信号的相位谱通过短时傅里叶逆变换(ISTFT)重建得到增强语音信号,再进行模型训练,训练200个Epoch,计算评价指标语音感知质量PESQ、短时客观可懂度STOI、尺度不变的信号失真比SI

SDR,计算并比较三种指标评分和,保存最优模型。
[0017]优选的,所述S1中VoiceBank

DEMAND数据集,噪声来自于DEMAND数据集,干净语音来自于VoiceBank,音频采样率为48kHz,用于训练输入的混合语音使用了10种噪声(2种人工合成,8种来自DEMAND),根据4种不同的信噪比设置(15,10,5,0dB)合成;测试集输入则由DEMAND剩下的5种噪声类型和VoiceBank的2个说话人,根据不同于训练集的信噪比(17.5,12.5,7.5,2.5dB)合成;训练集和测试集分clean和noisy两个文件夹,分别为干净语音和一一对应的带噪语音,训练集共28个说话人,测试集共2个说话人,每个说话人约400条语句。
[0018]优选的,所述S1中使用音频处理命令ffmpeg将语音数据集批量采样率重采样为16kHz。
[0019]优选的,所述S2中带噪语音信号y(n)为:
[0020]y(n)=s
(n)
+d
(n)
(1)
[0021]s(n)表示干净语音,d
(n)
表示噪声信号;
[0022]短时傅里叶变换(STFT)表示为:
[0023]y
l
(m)=s
l
(m)+d
l
(m)(2)
[0024]l表示帧长,m表示频率窗口索引;变换后的幅度谱特征的特征维度为161维。
Stopping)停止训练;并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进CRN的单通道语音增强方法,其特征在于,包括以下步骤:S1:下载VoiceBank

DEMAND数据集;S2:对语音信号逐帧应用窗函数来计算短时傅里叶变换,变换后得到幅度谱特征;S3:将特征输入卷积编码器,进行下采样,从输入语谱图中提取高维特征;S4:使用门控循环单元GRU搭建RNN模块,GRU输出结果重新展回符合解码器输入要求的维度,进行序列建模;S5:计算增强语音信号相对干净语音的损失,反向传播更新模型参数;S6:将增强后的信号幅度谱和带噪信号的相位谱通过短时傅里叶逆变换重建得到增强语音信号,再进行模型训练,训练200个Epoch,计算评价指标语音感知质量PESQ、短时客观可懂度STOI、尺度不变的信号失真比SI

SDR,计算并比较三种指标评分和,保存最优模型。2.根据权利要求1所述基于改进CRN的单通道语音增强方法,其特征在于,所述S1中VoiceBank

DEMAND数据集,噪声来自于DEMAND数据集,干净语音来自于VoiceBank,音频采样率为48kHz,用于训练输入的混合语音使用了10种噪声,其中2种人工合成,8种来自DEMAND,设置不同的信噪比合成;测试集输入则由DEMAND剩下的5种噪声类型和VoiceBank的2个说话人,根据不同于训练集的信噪比合成;训练集和测试集分clean和noisy两个文件夹,分别为干净语音和一一对应的带噪语音,训练集共28个说话人,测试集共2个说话人,每个说话人约400条语句。3.根据权利要求2所述基于改进CRN的单通道语音增强方法,其特征在于,所述S1中使用音频处理命令ffmpeg将语音数据集批量采样率重采样为16kHz。4.根据权利要求2所述基于改进CRN的单通道语音增强方法,其特征在于,所述S2中带噪语音信号y(n)为:y(n)=s
(n)
+d
(n)
(1)s
(n)
表示干净语音,d
(n)
表示噪声信号;短时傅里叶变换表示为:y
l
(m)=s
l
(m)+d
l
(m)(2)l表示帧长,m表示频率窗口索引;变换后的幅度谱特征的特征维度为161维。5.根据权利要求1所述基于改进CRN的单通道语音增强方法,其特征在于,所述S3中编码器由5层卷积层构成,每层输入输出维度分别为(1,16)、(16,32)、(32,64)、(64,128)、(128,256),使用二维卷积,卷积核大小为3
×
2,步长为(2,1),填充padding为(0,1),正则化采用BatchNorm2d,激活函数为ELU,相对ReLU避免出现梯度消失且收敛更快。6.根据权利要求1所述基于改进CRN的单通道语音增强方法,其特征在于,所述S4...

【专利技术属性】
技术研发人员:吕泽均朱智慧刘蕊
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1