【技术实现步骤摘要】
一种基于改进CRN的单通道语音增强方法
[0001]本专利技术属于语音增强
,具体涉及一种基于改进卷积循环网络(Convolutional recurrent networks,CRN)的单通道语音增强方法。
技术介绍
[0002]语音增强技术广泛应用于通话、助听、语音识别等领域,背景噪声通常会严重降低这些语音通信应用的性能。单通道语音增强的目标是消除背景噪声干扰,从带噪语音信号中重构干净语音,提高语音信号质量。传统语音增强方法如维纳滤波、谱减法和基于子空间的方法,通常在不包含语音的信号段取带噪信号的均值作为估计的噪声谱结果,然而在面对非平稳噪声或低信噪比环境时估计结果的置信度就会严重退化。而且传统方法的语音增强客观评价指标大都只注重于语音感知质量(PESQ)和短时客观可懂度(STOI),对下游任务如语音识别而言,反而破坏了语音信号中蕴含的信息,导致语音识别系统识别率降低。
[0003]近年来,以数据驱动的深度神经网络(DNN)方法在处理大多数非平稳噪声情况方面显示出了优越性。基于DNN的语音增强框架从学习目标上来说可分为基于频谱掩蔽(Spectral Mask)的方法和基于频谱映射(Spectral Mapping)的方法。
[0004]基于频谱掩蔽(Spectral Mask)的方法假设信号能量稀疏和不相交,通过对时频单元估计来预测时频掩蔽(T
‑
F Mask),如基于信噪比的理想二值掩蔽(IBM)和基于信噪能量比的理想比值掩蔽(IRM),计算时频掩蔽和带噪语音语谱图的哈达 ...
【技术保护点】
【技术特征摘要】
1.基于改进CRN的单通道语音增强方法,其特征在于,包括以下步骤:S1:下载VoiceBank
‑
DEMAND数据集;S2:对语音信号逐帧应用窗函数来计算短时傅里叶变换,变换后得到幅度谱特征;S3:将特征输入卷积编码器,进行下采样,从输入语谱图中提取高维特征;S4:使用门控循环单元GRU搭建RNN模块,GRU输出结果重新展回符合解码器输入要求的维度,进行序列建模;S5:计算增强语音信号相对干净语音的损失,反向传播更新模型参数;S6:将增强后的信号幅度谱和带噪信号的相位谱通过短时傅里叶逆变换重建得到增强语音信号,再进行模型训练,训练200个Epoch,计算评价指标语音感知质量PESQ、短时客观可懂度STOI、尺度不变的信号失真比SI
‑
SDR,计算并比较三种指标评分和,保存最优模型。2.根据权利要求1所述基于改进CRN的单通道语音增强方法,其特征在于,所述S1中VoiceBank
‑
DEMAND数据集,噪声来自于DEMAND数据集,干净语音来自于VoiceBank,音频采样率为48kHz,用于训练输入的混合语音使用了10种噪声,其中2种人工合成,8种来自DEMAND,设置不同的信噪比合成;测试集输入则由DEMAND剩下的5种噪声类型和VoiceBank的2个说话人,根据不同于训练集的信噪比合成;训练集和测试集分clean和noisy两个文件夹,分别为干净语音和一一对应的带噪语音,训练集共28个说话人,测试集共2个说话人,每个说话人约400条语句。3.根据权利要求2所述基于改进CRN的单通道语音增强方法,其特征在于,所述S1中使用音频处理命令ffmpeg将语音数据集批量采样率重采样为16kHz。4.根据权利要求2所述基于改进CRN的单通道语音增强方法,其特征在于,所述S2中带噪语音信号y(n)为:y(n)=s
(n)
+d
(n)
(1)s
(n)
表示干净语音,d
(n)
表示噪声信号;短时傅里叶变换表示为:y
l
(m)=s
l
(m)+d
l
(m)(2)l表示帧长,m表示频率窗口索引;变换后的幅度谱特征的特征维度为161维。5.根据权利要求1所述基于改进CRN的单通道语音增强方法,其特征在于,所述S3中编码器由5层卷积层构成,每层输入输出维度分别为(1,16)、(16,32)、(32,64)、(64,128)、(128,256),使用二维卷积,卷积核大小为3
×
2,步长为(2,1),填充padding为(0,1),正则化采用BatchNorm2d,激活函数为ELU,相对ReLU避免出现梯度消失且收敛更快。6.根据权利要求1所述基于改进CRN的单通道语音增强方法,其特征在于,所述S4...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。