一种基于多阶段注意力网络的语音增强方法技术

技术编号:36359126 阅读:50 留言:0更新日期:2023-01-14 18:16
一种基于多阶段注意力网络的语音增强方法,包括如下步骤:S1.构建语音样本数据集,对其进行预处理,得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵;S2.构建基于全局上下文感知和局部注意力的语音增强模型,所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器;S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理,S22.编码器输出矩阵X输入增强网络进行数据处理,S23.输入到解码器当中,得到解码器输出矩阵,重构出增强语音。本发明专利技术能够在语音特征建模阶段兼顾全局上下文信息和局部细节特征,有效提升模型的语音增强性能,改善语音质量及提高可懂度。质量及提高可懂度。质量及提高可懂度。

【技术实现步骤摘要】
一种基于多阶段注意力网络的语音增强方法


[0001]本专利技术属于语音信号前端处理
,具体涉及一种基于多阶段注意力网络的语音增强方法。

技术介绍

[0002]语音增强作为一种前端信号处理技术,能够将带噪语音中的噪声消除,提取纯净语音,该技术在语音识别,人工耳蜗和通信等领域具有广泛应用前景。
[0003]近年来,得益于人工智能技术的快速发展,相比于依赖假设的传统语音增强方法,基于深度学习的有监督语音增强方法能够更好解决低信噪比条件中非平稳噪声的降噪问题。在基于深度学习的增强中,通过构建深度神经网络提取样本语音数据特征,自动学习数据中含噪语音和纯净语音之间的非线性映射关系,避免传统方法的固有缺陷,取得更好的降噪效果。
[0004]而目前的基于深度学习的语音增强中,循环神经网络(RNN)作为一种具有记忆功能并适合处理和预测时间序列的神经网络,常被应用于对音频序列数据建模。但由于RNN本身计算的特性,其输出只受当前帧和上一帧输出的影响,对于距离较远的信息无法关注。而语音作为一种时间序列,当前时刻的信息与序列中其他时刻的信息是相关的,即上下文信息对于语音建模非常重要。而Transformer网络(一种神经网络模型)由于其自身的多头自注意力机制,在对序列建模时会将当前帧的信息和所有帧的信息进行加权计算,从而捕捉数据的长时依赖特性,对于语音的全局上下文信息建模更有帮助。此外,只在单个阶段对语音序列全局信息建模时,会容易忽略其中的局部细节信息,使得模型提取特征不完整,进而可能导致模型性能下降。
专利技术内容
[0005]针对现有技术存在的不足,本专利技术提供一种基于全局上下文感知和局部注意力的语音增强方法,该方法旨在:(1)构建一种双路并行Transformer结构,该结构包含两个支路模块,两个支路模块以并联的方式连接到一起处理输入数据,达到降低不同支路模块输出性能的差异的目的;同时支路模块都是有Transformer网络组成,通过Transformer擅长捕捉序列信息中长时依赖特性的特性,使模型具备全局上下文感知的能力。(2)进一步的,为避免语音中的局部信息被忽略,通过加入通道注意力和空间注意力模块,利用卷积神经网络中擅长捕捉数据局部特征的能力,对语音的局部细节信息进行建模,捕捉重要的音节、音素等特征信息。
[0006]本专利技术所述基于多阶段注意力网络的语音增强方法,包括如下步骤:S1.构建语音样本数据集,对其进行预处理,得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵;S2.构建基于全局上下文感知和局部注意力的语音增强模型,所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器;所述增强网络由两个
相互连接的模块构成,包括与编码器连接的全局上下文感知模块和与解码器连接的局部注意力模块;其中所述全局上下文感知模块由多个双路并行转换模块组成,所述局部注意力模块由通道注意力模块和空间注意力模块组成;S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理,得到编码器输出矩阵X:X=f
encoder
(E)其中,,表示X为维度大小为[C,N,I]的三维矩阵,C表示编码器的输出卷积通道数,I表示输出矩阵X最后一维的维数,f
encoder
()表示编码器的特征映射;S22. 编码器输出矩阵X输入增强网络进行数据处理,具体为:S221. 四个双路并行转换模块分别为两个块内转换模块(Trasnformer)和两个块间转换模块,编码器输出矩阵X直接输入块内转换模块,同时并转换维度为 [C,I,N]后再输入到块间转换模块;所述转换模块中的对输入的矩阵X进行加权计算,得到注意力加权后的自注意力矩阵,其计算方式如下:其中,Q,K,V是由编码器输出矩阵X分别经过线性变换得到的三个矩阵,其维度与X相同,下标i表示第i个线性变换矩阵,head表示自注意力矩阵,Attention()表示自注意力计算函数,T表示矩阵转置操作, softmax()表示激活函数,d表示键向量K的维度大小;Q表示查询向量,K表示键向量,V表示值向量,Q=X*W
Q
, K=X*W
K
,V=X*W
V
,其中,W
Q
表示查询向量Q的线性变换权重矩阵,W
K
表示键向量K的线性变换权重矩阵,W
V
表示值向量V的线性变换权重矩阵,输出矩阵X分别乘以各个权重矩阵,得到Q,K,V,各个权重矩阵都来源于深度神经网络线性层中的参数;在计算得到每一个自注意力矩阵head
i
后,进行拼接操作和线性变换,形成多头自注意力函数,过程如下:其中,Multihead()表示多头自注意力函数,Concat()表示矩阵拼接操作, W
H
表示线性变换操作,上标H表示注意力的个数;通过将编码器输出矩阵X输入到双路并行转换模块中处理,通过双路径并行处理的结构,并结合多头自注意力机制,去处理矩阵中全局上下文信息;经过全局上下文感知转换模块的多头自注意力加权处理后得到一个加权矩阵X
T
,X
T =f
TFM
(X)其中, 加权矩阵,表示X
T
为维度大小为[C,N,I]的三维矩阵,f
TFM
()表示转换模块的特征映射,即表示经过全部多个双路并行转换模块(Trasnformer)的加权过
程;S222.将加权矩阵X
T
输入通道注意力模块中,通过平均池化和最大池化操作分别生成最大池化输出矩阵和平均池化输出矩阵,将二者输入到通道注意力模块中的同一卷积层中进行处理,再将两个对应的输出相加后送入到sigmoid函数中,得到通道注意力矩阵;其中,M
C
表示通道注意力矩阵,Conv()表示卷积层操作;然后将 X
T
与通道注意力矩阵M
C
相乘再与其本身相加,得到通道注意力模块输出矩阵X
C
,表示如下: X
C =f
CAM
(X
T
,M
C
)= X
T

M
C

X
T
空心圆中心加点的符号

为哈达玛积的符号,表示相同维度的矩阵各元素对应相乘,

表示残差连接;其中, ,表示X
C
为维度大小为[C,N,I]的三维矩阵,f
CAM
()表示通道注意力模块的特征映射;S223. 将加权矩阵X
T
同时输入所述空间注意力模块,对加权矩阵X
T
进行基于全局最大池化和全局平均池化的操作,分别产生全局最大池化矩阵和全局平均池化矩阵,再将二者拼接并送入卷积层进行特征融合,最终得到空间注意力函数Ms,其中,M
S
表示空间注意力,Concat()表示矩阵拼接操作, Conv()表示卷积层操作,sigmoid表示sigmoi本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多阶段注意力网络的语音增强方法,其特征在于,包括如下步骤:S1.构建语音样本数据集,对其进行预处理,得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵;S2.构建基于全局上下文感知和局部注意力的语音增强模型,所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器;所述增强网络由两个相互连接的模块构成,包括与编码器连接的全局上下文感知模块和与解码器连接的局部注意力模块;其中所述全局上下文感知模块由多个双路并行转换模块组成,所述局部注意力模块由通道注意力模块和空间注意力模块组成;S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理,得到编码器输出矩阵X:X=f
encoder
(E)其中,,表示X为维度大小为[C,N,I]的三维矩阵,C表示编码器的输出卷积通道数,I表示输出矩阵X最后一维的维数,f
encoder
()表示编码器的特征映射;S22. 编码器输出矩阵X输入增强网络进行数据处理,具体为:S221. 四个双路并行转换模块分别为两个块内转换模块和两个块间转换模块,编码器输出矩阵X直接输入块内转换模块,同时并转换维度为 [C,I,N]后再输入到块间转换模块;所述转换模块中的对输入的矩阵X进行加权计算,得到注意力加权后的自注意力矩阵,其计算方式如下:其中,Q,K,V是由编码器输出矩阵X分别经过线性变换得到的三个矩阵,其维度与X相同,下标i表示第i个线性变换矩阵,head表示自注意力矩阵,Attention()表示自注意力计算函数,T表示矩阵转置操作, softmax()表示激活函数,d表示键向量K的维度大小;Q表示查询向量,K表示键向量,V表示值向量,Q=X*W
Q
, K=X*W
K
,V=X*W
V
,其中,W
Q
表示查询向量Q的线性变换权重矩阵,W
K
表示键向量K的线性变换权重矩阵,W
V
表示值向量V的线性变换权重矩阵,输出矩阵X分别乘以各个权重矩阵,得到Q,K,V,各个权重矩阵都来源于深度神经网络线性层中的参数;在计算得到每一个自注意力矩阵head
i
后,进行拼接操作和线性变换,形成多头自注意力函数,过程如下:其中,Multihead()表示多头自注意力函数,Concat()表示矩阵拼接操作, W
H
表示线性变换操作,上标H表示注意力的个数;通过将编码器输出矩阵X输入到双路并行转换模块中处理,通过双路径并行处理的结构,并结合多头自注意力机制,去处理矩阵中全局上下文信息;
经过全局上下文感知转换模块的多头自注意力加权处理后得到一个加权矩阵X
T
,X
T =f
TFM
(X)其中, 加权矩阵,表示X
T
为维度大小为[C,N,I]的三维矩阵,f
TFM
()表示转换模块的特征映射,即表示经过全部多个双路并行Trasnformer模块的加权过程;S222.将加权矩阵X
T
输入通道注意力模块中,通过平均池化和最大池化操作分别生成最大池化输出矩阵和平均池化输出矩阵,将二者输入到通道注意力模块中的同一卷积层中进行处理,再将两个对应的输出相加后送入到sigmoid函数中,得到通道注意力矩阵;其中,M
C
表示通道注意力矩阵,Conv()表示卷积层操作;然后将 X
T
与通道注意力矩阵M
C
相乘再与其本身相加,得到通道注意力模块输出矩阵X
C
,表示如下: X
C =f
CAM
(X
T
,M
C
)= X

【专利技术属性】
技术研发人员:刘鹏曾帆
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1