相位敏感的门控多尺度空洞卷积网络语音增强方法与系统技术方案

技术编号:27219668 阅读:21 留言:0更新日期:2021-02-04 11:38
本发明专利技术提供了一种相位敏感的门控多尺度空洞卷积网络语音增强方法,利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号。本发明专利技术还提供了一种相位敏感的门控多尺度空洞卷积网络语音增强系统。本发明专利技术的有益效果是:提高了语音增强的效果,保证了增强语音具备良好的语音可懂度,较好的避免了语音失真问题。语音失真问题。语音失真问题。

【技术实现步骤摘要】
相位敏感的门控多尺度空洞卷积网络语音增强方法与系统


[0001]本专利技术涉及语音增强方法,尤其涉及一种相位敏感的门控多尺度空洞卷积网络语音增强方法与系统。

技术介绍

[0002]早期的听觉实验研究表明,当信噪比高于6dB时,相位失真对语音质量和可懂度的影响很小,因此目前大多数单通道语音增强方法主要还是在语音信号的幅度域进行降噪处理,并直接利用带噪相位进行语音信号的重构。但是,当我们的语音产品面对的声学场景更加恶劣时,例如信噪比低于0dB,或者局部时间内噪声信号完全淹没语音信号的情况等,如果只对语音信号的幅度进行增强,并不能保证增强语音具备良好的语音可懂度,甚至还会出现一些声音颤抖、嗡嗡声等语音失真问题。

技术实现思路

[0003]为了解决现有技术中的问题,本专利技术提供了一种相位敏感的门控多尺度空洞卷积网络语音增强方法与系统。
[0004]本专利技术提供了一种相位敏感的门控多尺度空洞卷积网络语音增强方法,利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号。
[0005]作为本专利技术的进一步改进,首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的复数谱,分离实虚部,并只取有效值部分,便得到了两组输入特征:实部特征和虚部特征。
[0006]作为本专利技术的进一步改进,随后将两组输入特征送入门控多尺度空洞卷积网络模型。
[0007]作为本专利技术的进一步改进,所述门控多尺度空洞卷积网络模型的处理流程包括:首先,由门控编码模块进行门控编码操作,来获取高纬度非线性的特征表示形式,紧接着利用多尺度特征分析模块分别对编码的实部特征和虚部特征表示进行时序特征分析,并由门控解码模块分别进行门控解码操作,得到增强后的实虚部频谱。
[0008]作为本专利技术的进一步改进,将增强后的实虚部频谱进行反傅里叶变换,再重叠相加,最终得到增强语音信号。
[0009]作为本专利技术的进一步改进,所述门控编码模块由至少两个门控线性编码单元堆叠而成,每个门控线性编码单元采用1
×
3的卷积核,以步长为1
ꢀ×
2的方式进行二维卷积操作。
[0010]作为本专利技术的进一步改进,每个门控线性编码单元的输出都进行指数线性激活,来进行特征的非线性变换。
[0011]作为本专利技术的进一步改进,所述多尺度特征分析模块的输入包括两组特征:(1)原始的带噪语音的实或虚部谱;(2)所述门控编码模块输出的实或虚部特征。
[0012]作为本专利技术的进一步改进,所述多尺度特征分析模块由至少两个多尺度分析单元堆叠而成,每个多尺度分析单元将两组特征张量进行拼接操作,拼接之前需要对两组张量进行重塑操作,使其变成一个三维的张量,形状为[句子数,句子长度,322]。接下来,将拼接的特征张量进行子带分解,这里一共分成8个子带,前7个子带的张量形状为[句子数,句子长度,40],最后一个子带的形状为[句子数,句子长度,42],将当前子带的输入和其邻近的子带卷积输出相拼接,然后再进行一维的空洞卷积操作,在每个子带卷积之后,采用指数线性激活,经过多个多尺度分析单元之后,利用一层1024维的全连接层对多尺度分析后的特征进行拓展,并将输出的特征张量再重塑成4维的张量形式[句子数,句子长度,4,256],紧接着,将两组重塑后的特征张量分别送进门控解码模块进行解码操作。
[0013]本专利技术还提供了一种相位敏感的门控多尺度空洞卷积网络语音增强系统,包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。
[0014]本专利技术的有益效果是:通过上述方案,提高了语音增强的效果,保证了增强语音具备良好的语音可懂度,较好的避免了语音失真问题。
附图说明
[0015]图1是本专利技术一种相位敏感的门控多尺度空洞卷积网络语音增强方法的处理流程框图。
[0016]图2是本专利技术一种相位敏感的门控多尺度空洞卷积网络语音增强方法的门控多尺度空洞卷积网络结构图。
[0017]图3是本专利技术一种相位敏感的门控多尺度空洞卷积网络语音增强方法的门控线性编码及解码单元的结构图。
[0018]图4是本专利技术一种相位敏感的门控多尺度空洞卷积网络语音增强方法的多尺度分析单元结构图。
具体实施方式
[0019]下面结合附图说明及具体实施方式对本专利技术作进一步说明。
[0020]一种相位敏感的门控多尺度空洞卷积网络语音增强方法,旨在利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号。整个算法的处理流程如图1所示,虚线部分为本专利技术所设计的门控多尺度空洞卷积网络结构,是整个算法的核心模块,它通过门控编码、多尺度特征分析和门控解码三个模块实现对带噪语音实虚部频谱的降噪处理。
[0021]如图1所示,带噪语音信号首先进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的复数谱,分离实虚部,并只取有效值部分,便得到了两组输入特征:实部特征和虚部特征。随后将两组特征送入门控多尺度空洞卷积网络模型,首先进行门控编码操作,来获取高纬度非线性的特征表示形式,紧接着利用多尺度特征分析模块分别对编码的特征表示进行时序特征分析,并分别进行解码,得到增强后的实虚部频谱。下面将分别对门控多尺度空洞卷积网络的各个模块进行详细的介绍。
[0022]门控多尺度空洞卷积网络的详细结构如图2所示,由门控编码、多尺度特征分析和门控解码三个部分构成。输入的带噪语音的实虚部特征 X
real
(n,k)和X
imag
(n,k)会首先进入到门控编码部分进行特征变换,门控线性编码单元的结构如图3中的(a)所示,输入的实虚部特征的张量形状为[句子数,句子长度,161,2],由于采用16K的采样率,语音帧长为20ms,重叠10ms,因此第三维的161为实部或虚部的每一帧所对应的特征长度,第四维的2代表了实部和虚部,共计两个维度。这里一共堆叠了5个门控线性编码单元,每个编码单元采用1
×
3的卷积核,以步长为1
×
2的方式进行二维卷积操作,通道数量分别为16,32,64,128,256,也就依次得到了5个线性编码单元的输出张量:[句子数,句子长度,80,16]、[句子数,句子长度,39,32]、[句子数,句子长度,19,64]、[句子数,句子长度,9, 128]和[句子数,句子长度,4,256]。为了实现特征之间的注意力控制,采用了Sigmoid激活函数将每个编码单元中一侧的卷积输出进行非线性激活,使其变成[0,1]内的概率值,然后以一种门控注意力的方式,点乘在另一侧的卷积输出特征上。此外,每个门控线性编码单元的输出都会进行下式(1) 中的指数线性激活,来进行特征的非线性变换。
[0023][002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种相位敏感的门控多尺度空洞卷积网络语音增强方法,其特征在于:利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号。2.根据权利要求1所述的相位敏感的门控多尺度空洞卷积网络语音增强方法,其特征在于:首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的复数谱,分离实虚部,并只取有效值部分,便得到了两组输入特征:实部特征和虚部特征。3.根据权利要求2所述的相位敏感的门控多尺度空洞卷积网络语音增强方法,其特征在于:随后将两组输入特征送入门控多尺度空洞卷积网络模型。4.根据权利要求3所述的相位敏感的门控多尺度空洞卷积网络语音增强方法,其特征在于:所述门控多尺度空洞卷积网络模型的处理流程包括:首先,由门控编码模块进行门控编码操作,来获取高纬度非线性的特征表示形式,紧接着利用多尺度特征分析模块分别对编码的实部特征和虚部特征表示进行时序特征分析,并由门控解码模块分别进行门控解码操作,得到增强后的实虚部频谱。5.根据权利要求4所述的相位敏感的门控多尺度空洞卷积网络语音增强方法,其特征在于:将增强后的实虚部频谱进行反傅里叶变换,再重叠相加,最终得到增强语音信号。6.根据权利要求4所述的相位敏感的门控多尺度空洞卷积网络语音增强方法,其特征在于:所述门控编码模块由至少两个门控线性编码单元堆叠而成,每个门控线性编码单元采用1
×
3的卷积核,以步长为1
×
2的方式进行...

【专利技术属性】
技术研发人员:刘明周彦兵唐飞周小明赵学华
申请(专利权)人:深圳信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利