基于SCNN和TCNN联合估计的多目标语音增强方法技术

技术编号:23471746 阅读:33 留言:0更新日期:2020-03-06 13:24
本发明专利技术提出了基于SCNN和TCNN联合估计的多目标语音增强方法。基于SCNN和TCNN提出了新的堆叠和时序卷积神经网络(STCNN),将对数功率谱(LPS)作为主要特征并输入到SCNN来提取高级抽象特征。其次,提出了一种更符合人耳听觉特性的幂函数压缩梅尔倒谱系数(PC‑MFCC)。时间卷积神经网络(TCNN)将堆叠卷积神经网络提取的高层次抽象特征和PC‑MFCC作为输入,进行序列建模并对干净的LPS,PC‑MFCC和理想比例掩蔽(IRM)进行联合估计。最后,在增强阶段,由于不同的语音特征在合成语音过程中具有互补性。提出了一种基于IRM的后处理方法,通过语音存在信息自适应地调节估计的LPS和IRM的权重来合成增强语音。

Multi-target speech enhancement based on joint estimation of SCNN and TCNN

【技术实现步骤摘要】
基于SCNN和TCNN联合估计的多目标语音增强方法
:本专利技术属于语音信号处理
,涉及到语音识别和移动语音通信中的语音增强,这一关键的语音信号处理技术。
技术介绍
:语音增强的目的是去除含噪语音中的背景噪声,提高含噪语音的质量和可懂度。单通道语音增强技术广泛应用于语音信号处理的许多领域,包括移动语音通信、语音识别和数字助听器等。但目前,这些领域中的语音增强系统在实际声学环境中的性能并不总是令人满意的。传统语音增强技术,如谱减法、维纳滤波、最小均方误差、统计模型和小波变换这些无监督语音增强方法,在过去几十年中得到了广泛的研究。随着深度学习技术的出现,基于深度学习的语音增强方法在信号处理领域得到了广泛的应用。在基于深度学习的语音增强算法中,语音特征参数提取,深度神经网络模型构建,训练目标设置和合成增强语音的后处理过程是基于深度学习的语音增强算法的核心内容。语音特征参数的提取直接影响着神经网络获得信息的质量,若特征参数可以从各个方面模拟人耳的听觉特性,则深度神经网络可以获得更多的有用信息,从而产生更好的语音增强效果。同时,深度神经网络模型直接决定了一个语音增强系统的降噪性能,因为这个神经网络结构通常在基于深度学习的语音增强模型中作为含噪语音特征到干净语音特征的映射器,不同的神经网络模型的构建方式直接影响着语音增强模型的降噪效果。此外,不同的训练目标从不同的角度训练神经网络的参数,多目标学习过程中,不同目标也存在着相互约束的关系。后处理过程通过以不同的权重选择不同的训练目标合成增强语音,可以避免由训练目标直接合成增强语音所造成的过高估计或过低估计的现象,进而改善增强语音的质量。在噪声环境下,一些语音增强算法对语音可懂度的提高程度仍十分有限。首先,大多数语音增强算法通常采用单一目标学习的方式,即深度神经网络的输入和输出都是单一的语音特征,这很使神经网络不能获得丰富的有用信息,从而使得深度神经网络的训练不能达到最好的效果。此外,一些深度神经网络模型并不适合处理语音增强这类时序建模任务,导致一些基于深度学习的语音增强模型并不能达到一个最优的降噪性能。其次,由于缺少合理的后处理过程,常常使得网络估计的语音特征参数不能被充分利用,进而导致增强语音的失真。本专利技术提出了一种基于堆叠卷积神经网络(SCNN)和时序卷积神经网络(temporalconvolutionalneuralnetwork,TCNN)联合估计的多目标语音增强技术。该技术首先构建了一个堆叠时序卷积神经网络(stackedandtemporalconvolutionalneuralnetwork,STCNN),然后利用SCNN提取对数功率谱(log-powerspectra,LPS)的高级抽象特征。同时,在梅尔倒谱系数(Mel-frequencycepstralcoefficient,MFCC)的基础上,将对数压缩替换为幂函数压缩,提出了一种基于幂函数压缩的梅尔倒谱系数(powerfunctioncompressionMel-frequencycepstralcoefficient,PC-MFCC)。然后将SCNN的输出与PC-MFCC作为TCNN的输入进行时序建模,并分别预测干净的LPS,PC-MFCC和理想比值掩蔽(idealratiomask,IRM)。最后,采用基于IRM的后处理过程根据语音存在信息调节LPS和IRM的权重,并合成增强语音。
技术实现思路
:本专利技术的目的是针对目前的语音增强算法在非平稳噪声下语音增强性能不理想的问题,提出了一种全新的多目标语音增强算法。首先,构造了一个基于堆叠和时序卷积的深度神经网络模型(STCNN)。然后,提取LPS特征输入到SCNN中,利用SCNN在二维平面上的局部连接特性提取高层次抽象信息。此外,在MFCC的基础上将对数压缩替换为幂函数压缩,得到了一种新的语音特征参数PC-MFCC,使其更符合人耳听觉特性。将PC-MFCC和SCNN的输出一起输入到TCNN中进行时序建模,并分别预测干净的LPS,PC-MFCC和IRM。最后,提出了一种基于IRM的后处理过程,将估计的LPS和IRM根据语音存在信息联合重建语音。从而减少因网络的误估计而造成的增强语音的失真情况。基于堆叠卷积神经网络(stackedconvolutionalneuralnetwork,SCNN)和时序卷积神经网络(TCNN)联合估计的多目标语音增强方法的实现步骤如下:步骤一,将含噪语音的采样频率设置为16kHz,并对其进行分帧加窗,得到其时频域表示形式(时频单元);(1)帧长为20ms,帧移为10ms,求每个时频单元的能量;(2)对每个时频单元的能量进行离散傅里叶变换,得到每帧的频谱;(3)计算每个时频单元的频谱能量;步骤二,提取每个时频单元的LPS特征参数。对频谱能量取对数,得到对数能量谱(LPS)。步骤三,提取每个时频单元的PC-MFCC特征参数(1)将每帧的频谱能量通过梅尔滤波器进行滤波,得到每帧对应的梅尔域能量;(2)将梅尔域能量进行幂函数压缩,并计算离散余弦运算(DiscreteCosineTransform,DCT),得到基于幂函数压缩的梅尔倒谱系数(PC-MFCC)。步骤四,计算理想比率掩蔽(IRM)步骤五,构建互补特征集将步骤二和步骤三提取的含噪LPS和PC-MFCC作为本方法的互补特征集。步骤六,构建互补目标集将步骤二,步骤三和步骤四提取的干净的LPS,PC-MFC和IRM作为本方法的互补目标集。步骤七,构建了一个基于堆叠卷积和时序卷积的STCNN网络模型,该模型由3层堆叠卷积层,3个堆叠在一起的膨胀块组成。其中每个膨胀块由6个膨胀率指数增加的残余块叠加而成,膨胀率被设置为1、2、4、8、16和32。(1)将含噪的LPS输入到SCNN中,利用SCNN在二维平面上的局部连接特性提取高层次抽象信息。(2)将SCNN的输出与PC-MFCC作为TCNN的输入,并预测干净的LPS,PC-MFCC和IRM。步骤八,将通过步骤五提取的含噪互补特征集作为输入,通过步骤六提取的干净互补目标集作为训练目标,训练STCNN模型,得到网络的权值和偏置。步骤九,按步骤二和步骤三的方法提取测试的含噪语音的LPS和PC-MFCC特征参数,输入到步骤五中已经训练好的STCNN神经网络中,输出预测的LPS,PC-MFCC和IRM。步骤十,提出一个基于IRM的后处理过程,由于在合成语音过程中,LPS在低信噪比条件下表现良好,IRM在高信噪比条件下表现良好。利用IRM衡量时频单元信噪比的高低,将估计的LPS和IRM根据语音存在信息也就是信噪比的高低联合重建语音,形成最后的增强语音。本专利技术从增强语音的特征、网络模型和后处理等方面对增强语音的性能进行了改进。首先,该技术计算了两种互补特征LPS和PC-MFFC作为神经网络的输入。对于LPS特征,将含噪语音信号分帧加窗,进行离散傅里叶变换并计算频谱能量,最本文档来自技高网
...

【技术保护点】
1.基于SCNN和TCNN联合估计的多目标语音增强方法,其特征在于,包括以下步骤:/n步骤一,对输入的信号进行加窗分帧处理,得到输入信号的时频表示形式;/n(1)首先对输入的信号进行时频分解;/n首先,原始语音信号y(p)通过方程(1)中的预处理,将信号分帧,并利用汉明窗对每帧进行平滑处理得到y

【技术特征摘要】
1.基于SCNN和TCNN联合估计的多目标语音增强方法,其特征在于,包括以下步骤:
步骤一,对输入的信号进行加窗分帧处理,得到输入信号的时频表示形式;
(1)首先对输入的信号进行时频分解;
首先,原始语音信号y(p)通过方程(1)中的预处理,将信号分帧,并利用汉明窗对每帧进行平滑处理得到yt(n);



其中yt(n)为第t帧语音信号的第n个样点,L为帧长,p为窗长;w(n)为汉明窗,它的表达式为:



(2)离散傅里叶变换
对每帧信号yt(n)进行离散傅里叶变换,得到每帧信号的频谱Y(t,f);如公式(3)所示:
Y(t,f)=DFT[yt(n)](3)
式中f表示频域中的第f个频点,0≤f≤L/2+1;
(3)计算谱线能量
频域中的每一帧语音信号谱线的能量E(t,f)表示为:
E(t,f)=[Y(t,f)]2(4)
步骤二,对输入信号的时频单元进行LPS特征参数提取
对每一帧的频谱能量做对数运算,得到LPS特征参数:
zLPS(t,f)=logE(t,f)(5)
步骤三,对输入信号的时频单元进行PC-MFCC特征参数提取
(1)计算通过Mel滤波器的能量
每一帧谱线能量通过Mel滤波器的能量S(t,r)定义为:



其中N表示DFT点数,Hr(f)表示第r个Mel滤波器,R表示Mel滤波器的个数,R=20;
(2)对Mel能量进行幂函数压缩
为了使所提取的特征更加符合人类听觉特性,采用幂函数对Mel滤波器能量进行压缩,得到Sp(t,r):
Sp(t,r)=[S(t,r)]α(7)
其中a=1/15
(3)去相关操作
最后利用DCT变换去除不同维度之间的相关性,并提取1维动态能量特征进而得到改进的21维的PC-MFCC:



其中m代表第m维PC-MFCC特征参数,M代表PC-MFCC特征总的维数,M=21;
步骤四,计算理想比值掩蔽IRM
理想比值掩蔽IRM是一个比值的时频掩蔽矩阵,通过纯净语音能量和噪声能量计算得到,其定义为:



其中,x(t,f)和n(t,f)分别代表干净语音能量和噪声能量,zIRM(t,f)为IRM;
步骤五,构建互补特征集
互补特征集由含噪LPS和PC-MFCC组成;
步骤六,构建互补目标集
互补目标集由干净的LPS,PC-MFCC和IRM组成;
步骤七,构建深度神经网络STCNN模型;STCNN模型的结构由3部分组成:SCNN层、TCNN层和前馈层;
(...

【专利技术属性】
技术研发人员:李如玮孙晓月李涛赵丰年
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1