当前位置: 首页 > 专利查询>南京大学专利>正文

基于卷积循环网络和WPE算法的语音增强混合处理方法技术

技术编号:35807886 阅读:22 留言:0更新日期:2022-12-03 13:26
本发明专利技术公开了一种基于卷积循环网络和WPE算法的语音增强混合处理方法。该方法的步骤为:(1)使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;(2)对模拟含噪混响语音和对应的清晰语音分别做短时傅里叶变换得到两者的短时傅里叶谱;(3)使用短时傅里叶谱训练DPCARN

【技术实现步骤摘要】
基于卷积循环网络和WPE算法的语音增强混合处理方法


[0001]本专利技术属于语音增强的领域,主要针对低信噪比、非稳态噪声、强混响情景下的语音增强任务。

技术介绍

[0002]在人类日常生活环境中采集语音过程往往存在以下干扰——背景噪声、混响声:背景噪声来源于说话人环境中的干扰声源,对于声能量随时间变化幅度较小的背景噪声,如空调机、洗衣机发出的声音等,它们被称为稳态噪声。而如音乐播放器的歌声、街道上突然响起的喇叭声等声能量随时间变化较为剧烈的噪声,则称为非稳态噪声。在语音信号处理中常用信噪比来衡量任意时刻目标语音与噪声能量的比值,而噪声是否稳态、信噪比高或低往往就对应着不同的噪声抑制策略。混响来源于声源辐射的声波经环境中物体表面,如墙面、天花板等,反射后再次被传声器接收,常用混响时间(声压级下降60dB所需时间)来衡量环境的混响程度。在语音中保留早期混响对人的听感是有益的,而晚期混响则可能会造成音质的损失,因此构建出有效消除晚期混响的模型是十分必要的。上述干扰都可能会造成语音的失真,严重影响语音的清晰度、可懂性,给听者带来不良好的听感体验,也会给进一步的语音处理,如自动语音识别、情感分析等,带来更大的困难,而这些技术在目前的人工智能领域都有重要的应用,与人们的日常生活日益密切。因此提取含噪混响语音中清晰语音成分的语音增强技术是研究者们的重要课题。
[0003]谱减法可以用来实现噪声抑制。该方法基于最小均方误差(Minimum Mean

Squared Error,MMSE)估计噪声功率谱(GERKMANN T,HENDRIKS R C.Unbiased MMSE

Based Noise Power Estimation With Low Complexity and Low Tracking Delay[J].IEEE Transactions on Audio Speech&Language Processing,2012,20(4):1383

1393),随后将含噪语音功率谱减去噪声功率谱得到增强语音的功率谱,再结合含噪语音短时傅里叶谱的相位信息得到增强语音短时傅里叶谱,再经逆傅里叶变换得到增强语音信号。谱减法在许多场景下取得了良好的噪声抑制效果,但由于其假设的噪声和语音模型的限制,该算法在处理某些低信噪比、非稳态噪声场景语音的效果较差,容易导致语音的失真。
[0004]WPE算法被用于语音的去混响(NAKATANI T,YOSHIOKA T,KINOSHITA K,et al.Speech Dereverberation Based on Variance

Normalized Delayed Linear Prediction[J].IEEE Transactions on Audio Speech&Language Processing,2010,18(7):1717

1731)。它对语音短时傅里叶谱建立时帧的自回归模型,通过迭代的方式估计逆滤波器系数和早期混响的功率谱,进而求得清晰语音的短时傅里叶谱。WPE算法在语音去混响上取得了优越的效果,但算法的迭代特性使其难以运用在短延时的实时处理当中。
[0005]近几年来,多种基于深度学习的模型被运用到语音增强领域。卷积循环网络在复杂环境语音噪声抑制上取得了突破(ZHAO H,ZARAR S,TASHEV I,et al.Convolutional

Recurrent Neural Networks for Speech Enhancement[C]//ICASSP2018

2018IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP)
.2018),卷积网络提取了语音短时傅里叶谱的二维局部特征,而循环网络则建立起短时傅里叶谱帧与帧之间的联系,最近提出的双通道循环网络又进一步建立起了每一帧中各个频点的联系,这有利于分析语音中的谐波成分(LUO Y,CHEN Z,YOSHIOKA T.Dual

Path RNN:Efficient Long Sequence Modeling for Time

Domain Single

Channel Speech Separation[C]//ICASSP 2020

2020IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).2020)。注意机制的引入又更好地过滤了噪声的特征信息(ZHOU L,GAO Y,WANG Z,et al.Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network for Speech Enhancement[J].arXiv preprint arXiv:2104.05267,2021)。
[0006]然而,在实际应用中,语音采集环境复杂多变,噪声的类型多种多样,传统基于规则的算法很难将所有情况统一至一个数学模型下,而数据驱动的深度神经网络运用多种噪声和混响环境下的语音进行训练,能适应低信噪比、非稳态噪声等复杂语音环境,达到良好的处理效果,而将传统算法融入深度神经网络框架有利于增强模型的鲁棒性。

技术实现思路

[0007]传统基于规则的方法在对低信噪比、非稳态噪声、强混响环境下的语音进行增强时往往难以去除噪声成分,甚至会造成严重的语音失真。本专利技术提出基于卷积循环神经网络和WPE去混响算法的混合语音增强方法,能对受干扰较为严重的语音进行增强,得到清晰语音成分。
[0008]本专利技术采用的技术方案为:
[0009]基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,该方法包括以下步骤:
[0010]步骤1,使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;
[0011]步骤2,对模拟含噪混响语音数据和对应的清晰语音数据分别做短时傅里叶变换得到两者的短时傅里叶谱;
[0012]步骤3,构建DPCARN

WPE模型,该模型结构由深度神经网络结构和WPE去混响算法结构组成;使用步骤2得到的短时傅里叶谱训练所述DPCARN

WPE模型权重;
[0013]步骤4,对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;
[0014]步骤5,将步骤4获得的短时傅里叶谱输入步骤3完成训练的DPCARN

WPE模型,输出增强语音的短时傅里叶谱;
[0015]步骤6,对增强语音的短时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,该方法包括以下步骤:步骤1,使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;步骤2,对模拟含噪混响语音数据和对应的清晰语音数据分别做短时傅里叶变换得到两者的短时傅里叶谱;步骤3,构建DPCARN

WPE模型,该模型结构由深度神经网络结构和WPE去混响算法结构组成;使用步骤2得到的短时傅里叶谱训练所述DPCARN

WPE模型权重;步骤4,对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;步骤5,将步骤4获得的短时傅里叶谱输入步骤3完成训练的DPCARN

WPE模型,输出增强语音的短时傅里叶谱;步骤6,对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。2.根据权利要求1所述的基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,所述步骤3中,深度神经网络结构的输入数据首先经过由二维卷积层组成的编码器,随后经过双通道长短期记忆网络块,接着在经过由二维逆卷积层组成的解码器,得到噪声抑制后的语音短时傅里叶谱作为输出,且在编码器和解码器之间还有注意机制结构进行数据的整合。3.根据权利要求2所述的基于卷积循环网络和WPE算法的语音增强混合处理方法,其特征在于,所述步骤3中,WPE去混响算法结构的输入为所述深度神经网络结构的输出,即仅含混响的语音短时傅里叶谱;其输出为增强后语音的短时傅里叶谱。4.根据权利要求3所述的基于卷积循环网络...

【专利技术属性】
技术研发人员:侯仲舒卢晶
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1