【技术实现步骤摘要】
一种基于卷积和循环融合网络的语音增强方法
[0001]本专利技术涉及语音信号降噪领域,尤其涉及一种基于卷积和循环融合网络的语音增强方法。
技术介绍
[0002]语音增强算法主要分为无监督语音增强和有监督语音增强两个部分,其中有监督语音增强有基于隐马尔可夫模型、非负矩阵分解和浅层神经网络等算法,目前主流采用基于深层神经网络来进行有监督语音增强。基于深层神经网络的语音增强可以分为时域增强和频域增强两种,其中,时域语音增强也被称为端到端的语音增强算法,而频域语音增强可以分为基于时频掩蔽和基于特征映射。基于时频掩蔽的学习目标一般有理想二值掩蔽、理想比值掩蔽等,基于特征映射的学习目标一般有对数幅度谱和梅尔谱等。
[0003]深层神经网络种类繁多,从一开始的卷积神经网络到LSTM模型,近些年也有很多学者开始将注意力机制、残差连接等结构引入模型,实现网络结构的优化。但是语音增强领域仍然有许多探索点需要继续进行研究。
技术实现思路
[0004]技术问题:本专利技术针对现有技术存在的问题,基于神经网络强大的拟合能力,提 ...
【技术保护点】
【技术特征摘要】
1.一种基于卷积和循环融合网络的语音增强方法,其特征在于,该方法包括以下步骤:步骤1,将待训练的单通道语音信号与各种加性噪声按
‑
5、0、5、10dB四种不同的信噪比混合,生成含噪语音,与纯净语音一起组成训练数据集;步骤2,对步骤1得到的训练数据集中的含噪语音、纯净语音,分别通过分帧、加窗、短时傅里叶变换和对数运算,生成对应的对数幅度谱,将含噪语音的对数幅度谱在帧维度上拼接,得到含噪语音对数幅度谱图,并计算纯净语音和含噪语音的理想比值掩膜,将理想比值掩膜在帧维度上拼接,得到理想比值掩膜矩阵;步骤3,将步骤2中的含噪语音对数幅度谱图、理想比值掩膜矩阵分别作为卷积和循环融合网络的输入特征、训练标签,通过反向传播算法更新网络参数来实现卷积和循环融合网络的训练;步骤4,将待测试的单通道语音信号与各种加性噪声按任意信噪比混合,生成测试的含噪语音,经过分帧、加窗、短时傅里叶变换和对数运算,生成测试含噪语音的幅度谱和测试含噪语音的相位谱,将幅度谱进行对数运算并在帧维度上拼接,得到测试含噪语音的对数幅度谱图;步骤5,将步骤4中得到测试含噪语音的对数幅度谱图作为卷积和循环融合网络的输入特征,得到增强语音的理想比值掩膜矩阵的估计值,结合测试含噪语音的幅度谱,计算增强语音的幅度谱,根据步骤4得到的测试含噪语音的相位谱,得到增强语音的频谱,通过短时傅里叶逆变换和重叠相加法得到时域波形,从而实现语音增强。2.根据权利要求1所述的基于卷积和循环融合网络的语音增强方法,其特征在于:所述的卷积和循环融合网络是由基...
【专利技术属性】
技术研发人员:程云苓,周琳,邓宇汐,王启瑞,曹焱翔,庄程浩,王天仪,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。