一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法技术

技术编号:17563569 阅读:43 留言:0更新日期:2018-03-28 13:37
本发明专利技术提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法,首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR‑GFCC);其次,跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值;然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出,对构建的7层神经网络进行训练;最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。本发明专利技术充分利用了人耳的工作机理,提出了模拟人耳听觉生理模型的语音特征参数,不仅可以保留更多的语音信息,而且提取过程简单可行。

A speech enhancement method based on multiresolution auditory cepstrum coefficient and deep convolution neural network

The invention provides a method of speech enhancement and multi-resolution cepstral coefficients based on convolutional neural network, first constructed a new characteristic parameter to distinguish between speech and noise of multi resolution auditory cepstral coefficients (MR GFCC); secondly, tracking noise changes has been constructed based on soft masking (IRM) and the ideal value of two masking (IBM) adaptive masking threshold; then the extracted feature parameters and the new one or two order derivative and adaptive masking threshold as the depth of the convolutional neural network (DCNN) of the input and output of the 7 layer neural network training construction; finally, the noisy speech is enhanced by using adaptive masking threshold DCNN estimation. The invention makes full use of the working mechanism of human ear, and puts forward a speech characteristic parameter simulating human ear auditory physiological model, which not only can retain more voice information, but also has simple and feasible extraction process.

【技术实现步骤摘要】
一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
本专利技术属于语音信号处理
,涉及到一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法。
技术介绍
语音增强技术是指当语音信号被各种各样的噪声(包括语音)干扰,甚至淹没后,从噪声背景中提取出尽可能纯净的语音信号,增强有用的语音信号,抑制、降低噪声干扰的技术。由于干扰的随机性,因而从带噪语音提取完全纯净语音信号几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音的可懂度,这是一种客观度量。这两个目的往往不能兼得。当前,语音增强已发展成为语音信号数字处理的一个重要分支。它在语音通信、语音编码、语音识别和数字助听器等诸多领域中得到了广泛应用。传统的语音增强方法有谱减法、维纳滤波法、最小均方误差法(MMSE)、基于统计模型和基于小波变换等方法,其在平稳噪声环境下有较好的性能,但对非平稳噪声处理效果不理想。随着计算听觉场景分析(CASA)出现,基于人耳听觉模型的方法被应用到语音增强当中。该方法根据估计的理想二值掩蔽值,利用人耳的本文档来自技高网...
一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法

【技术保护点】
一种基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,包括以下步骤:步骤一,将含噪语音通过64通道的gammatone滤波器进行滤波,对每一个频率通道的输出做加窗分帧处理,得到其时频域表示形式;步骤二,提取每个时频单元的特征参数。(1)帧长为20ms,帧移为10ms,求每个时频单元的能量,记作CG1;然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度‑响度感知特性;最后经过DCT到倒谱域,同时取前36维系数,得到CG1的倒谱系数,记作CG1‑GFCC;(2)将帧长改为200ms,重复步(1)特征提取过程,得到CG2‑GFCC;(3)使用一个长为11帧,宽为11子带的...

【技术特征摘要】
1.一种基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,包括以下步骤:步骤一,将含噪语音通过64通道的gammatone滤波器进行滤波,对每一个频率通道的输出做加窗分帧处理,得到其时频域表示形式;步骤二,提取每个时频单元的特征参数。(1)帧长为20ms,帧移为10ms,求每个时频单元的能量,记作CG1;然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度-响度感知特性;最后经过DCT到倒谱域,同时取前36维系数,得到CG1的倒谱系数,记作CG1-GFCC;(2)将帧长改为200ms,重复步(1)特征提取过程,得到CG2-GFCC;(3)使用一个长为11帧,宽为11子带的方形窗对CG1进行平滑,记作CG3,重复(1)中特征提取过程,得到CG3-GFCC;(4)使用一个长为23帧,宽为23子带的方形窗对CG1进行平滑,记作CG4,重复(1)中特征提取过程,得到CG4-GFCC;(5)将CG1-GFCC、CG2-GFCC、CG3-GFCC和CG4-GFCC合并得到36*4维的特征向量,得到多分辨率倒谱系数(MR-GFCC);(6)MR-GFCC参数做一阶和二阶差分参数得到△MR-GFCC和△△MR-GFCC,MR-GFCC、△MR-GFCC和△△MR-GFCC相结合作为最后的语音特征参数;步骤三,计算DCNN训练的目标首先分别计算出IBM和IRM,然后通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数,最后将二者结合起来计算出自适应的掩蔽阈值;步骤四,构建深度卷积神经网络模型(DCNN),构建了一个7层的深度卷积神经网络学习输入和输出之间的非线性关系;步骤五,将提取的特征参数和计算的自适应混合掩蔽阈值分别作为DCNN的输入和输出,对构建的7层深度卷积神经网络进行训练,得到网络的权值和偏置;步骤六,按步骤二的方法提取测试的含噪语音的特征参数,输入到步骤五已经训练好的深度卷积神经网络中,输出一个自适应的掩蔽阈值;步骤七,利用含噪语音和估计出的自适应的掩蔽阈值去合成增强后的语音。2.如权利要求1所述的基于多分辨率和深度卷积神经网络的语音增强方法,其特征在于,步骤三中自适应掩蔽阈值作为DCNN的训练目标,其公式为:z(i,fc)=α*IBM(i,fc)+(1-α)*IRM(i,fc)(15)(1)首先计算理想二值掩蔽(IBM),公式如下:其中Es(i,fc)和En(i,fc)分别代表第i帧中心频率为fc的纯净语音和噪声的能量,lc是阈值,t表示帧数,fc表示中心频率,IBM(i,fc)表示第i帧中心频率...

【专利技术属性】
技术研发人员:李如玮刘亚楠李涛孙晓月
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1