当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于综合特征集的深度学习语音增强方法技术

技术编号:18765501 阅读:230 留言:0更新日期:2018-08-25 11:27
一种基于综合特征集的深度学习语音增强方法:对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;利用训练集对DBN的权重和偏置参数进行预训练和微调;利用训练好的DBN权重和偏置参数提取DBN声学特征;从训练集和测试集中提取互补特征集声学特征;从DBN声学特征和互补特征集的特征中选取所需特征;从五种特征汇总成的总向量中提取综合特征集声学特征;进行语音增强。本发明专利技术的综合特征集声学特征用于语音增强模型噪声抑制后,信噪比语音评价指标得到了较大提升,所以在极低信噪比条件下本发明专利技术表现出了非常好的优势。

【技术实现步骤摘要】
一种基于综合特征集的深度学习语音增强方法
本专利技术涉及一种语音增强方法。特别是涉及一种基于综合特征集的深度学习语音增强方法。
技术介绍
1、语音增强的原理当原始的纯净语音信号经过传输到达接收端时,可能会受到环境噪声或者通信信道噪声的影响,纯净的语音信号与噪声混合,得到的混合信号称之为带噪信号,从带噪信号中恢复原始的纯净信号,这一过程被称为语音增强,语音增强的目标就是要提高这些受损语音的质量以及可懂度,减轻听觉上的疲劳。声学噪声对于纯净语音信号的影响有可能是加性的,也有可能是卷积性的,所以依据带噪信号产生的原因,语音增强的研究可分为两个方向,即加性噪声消除和卷积噪声消除。根据信号处理相关理论可知,信号时域卷积相当于频域相乘,进而取对数运算,转换成信号的相加,从而卷积噪声的消除又转换为加性噪声的消除,因此,寻找有效的加性噪声消除方法成为研究的焦点。2、基于深度学习的语音增强方法取得了较好的效果,该方法主要由声学特征提取、模型构建和目标估计三部分组成,如附图1所示,其中模型构建部分主要利用深度神经网络监督模型,目标标签估计选用理想比率掩码,由AMS、RASTA-PLP、MFCC、GF四个本文档来自技高网...

【技术保护点】
1.一种基于综合特征集的深度学习语音增强方法,其特征在于,包括如下步骤:1)对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;2)利用训练集对DBN的权重和偏置参数进行预训练和微调;3)利用训练好的DBN权重和偏置参数提取DBN声学特征;4)从训练集和测试集中提取互补特征集声学特征,即根据AMS、RASTA‑PLP、梅尔倒谱系数、GF四个特征提取方法,分别提取分帧、加窗后的训练集、测试集语音数据的四个特征,并将所述的四个特征汇总得到互补特征集;5)利用GroupLasso模型从DBN声学特征和互补特征集的特征中选取所需特征;6)从五...

【技术特征摘要】
1.一种基于综合特征集的深度学习语音增强方法,其特征在于,包括如下步骤:1)对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;2)利用训练集对DBN的权重和偏置参数进行预训练和微调;3)利用训练好的DBN权重和偏置参数提取DBN声学特征;4)从训练集和测试集中提取互补特征集声学特征,即根据AMS、RASTA-PLP、梅尔倒谱系数、GF四个特征提取方法,分别提取分帧、加窗后的训练集、测试集语音数据的四个特征,并将所述的四个特征汇总得到互补特征集;5)利用GroupLasso模型从DBN声学特征和互补特征集的特征中选取所需特征;6)从五种特征汇总成的总向量中提取综合特征集声学特征,即根据步骤5)得到的多个拟合参数值,对AMS、RASTA-PLP、MFCC、GF、DBN五种特征进行保留或舍弃,重新组合分别得到训练集的综合特征集声学特征和测试集的综合特征集声学特征;7)进行语音增强。2.根据权利要求1所述的一种基于综合特征集的深度学习语音增强方法,其特征在于,步骤1)中所述的原始数据集是由720条TIMIT语料库纯净语音和NOISEX92噪声库中的噪声混合得到。3.根据权利要求1所述的一种基于综合特征集的深度学习语音增强方法,其特征在于,步骤1)包括:从TIMIT语料库和NOISEX92噪声库分别随机选取120条语句,以-2dB信噪比混合得到测试集,从TIMIT语料库和NOISEX92噪声库剩余语句中随机选取600条语句,以-2dB信噪比混合得到训练集,将所述的训练集和测试集分别进行分帧、加窗。4.根据权利要求1所述的一种基于综合特征集的深度学习语音增强方法,其特征在于,步骤2)包括:将分帧、加窗后的训练集语音数据分别作为DBN的输入层数据和输出层数据,所述输入层数据经过隐藏层,最后到达输出层并输出估计结果,所述的估计结果与所述的输出层数据之间有误差,计算所述的误差值,并将该误差值从输出层向隐藏层反向传播,直至传播到输入层,在反向传播过程中,根据误差值调整DBN的权重和偏置参数的值,重复迭代,直至收敛,得到最终训练好的DBN权重和偏置参数。5.根据权利要求1所述的一种基于综合特...

【专利技术属性】
技术研发人员:张涛任相赢刘阳
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1