一种基于多阶段注意力网络的语音增强方法技术

技术编号：36359126 阅读：50 留言：0更新日期：2023-01-14 18:16

一种基于多阶段注意力网络的语音增强方法，包括如下步骤：S1.构建语音样本数据集，对其进行预处理，得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵；S2.构建基于全局上下文感知和局部注意力的语音增强模型，所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器；S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理，S22.编码器输出矩阵X输入增强网络进行数据处理，S23.输入到解码器当中，得到解码器输出矩阵，重构出增强语音。本发明专利技术能够在语音特征建模阶段兼顾全局上下文信息和局部细节特征，有效提升模型的语音增强性能，改善语音质量及提高可懂度。质量及提高可懂度。质量及提高可懂度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多阶段注意力网络的语音增强方法

[0001]本专利技术属于语音信号前端处理
，具体涉及一种基于多阶段注意力网络的语音增强方法。

技术介绍

[0002]语音增强作为一种前端信号处理技术，能够将带噪语音中的噪声消除，提取纯净语音，该技术在语音识别，人工耳蜗和通信等领域具有广泛应用前景。
[0003]近年来，得益于人工智能技术的快速发展，相比于依赖假设的传统语音增强方法，基于深度学习的有监督语音增强方法能够更好解决低信噪比条件中非平稳噪声的降噪问题。在基于深度学习的增强中，通过构建深度神经网络提取样本语音数据特征，自动学习数据中含噪语音和纯净语音之间的非线性映射关系，避免传统方法的固有缺陷，取得更好的降噪效果。
[0004]而目前的基于深度学习的语音增强中，循环神经网络（RNN）作为一种具有记忆功能并适合处理和预测时间序列的神经网络，常被应用于对音频序列数据建模。但由于RNN本身计算的特性，其输出只受当前帧和上一帧输出的影响，对于距离较远的信息无法关注。而语音作为一种时间序列，当前时刻的信息与序列中其他时刻的信息是相关的，即上下文信息对于语音建模非常重要。而Transformer网络（一种神经网络模型）由于其自身的多头自注意力机制，在对序列建模时会将当前帧的信息和所有帧的信息进行加权计算，从而捕捉数据的长时依赖特性，对于语音的全局上下文信息建模更有帮助。此外，只在单个阶段对语音序列全局信息建模时，会容易忽略其中的局部细节信息，使得模型提取特征不完整，进而可能导致模型性能下降。
专利技术...

【技术保护点】

【技术特征摘要】
1.一种基于多阶段注意力网络的语音增强方法，其特征在于,包括如下步骤：S1.构建语音样本数据集，对其进行预处理，得到以三维矩阵形式表示语音样本数据的输入语音三维矩阵；S2.构建基于全局上下文感知和局部注意力的语音增强模型，所述语音增强模型包括编码器、与编码器连接的增强网络和与增强网络连接的解码器；所述增强网络由两个相互连接的模块构成，包括与编码器连接的全局上下文感知模块和与解码器连接的局部注意力模块；其中所述全局上下文感知模块由多个双路并行转换模块组成，所述局部注意力模块由通道注意力模块和空间注意力模块组成；S21.把步骤S1得到的输入语音三维矩阵E送入编码器进行编码处理，得到编码器输出矩阵X：X=f
encoder
(E)其中，，表示X为维度大小为[C，N，I]的三维矩阵，C表示编码器的输出卷积通道数，I表示输出矩阵X最后一维的维数，f
encoder
()表示编码器的特征映射；S22. 编码器输出矩阵X输入增强网络进行数据处理，具体为：S221. 四个双路并行转换模块分别为两个块内转换模块和两个块间转换模块，编码器输出矩阵X直接输入块内转换模块，同时并转换维度为 [C,I,N]后再输入到块间转换模块；所述转换模块中的对输入的矩阵X进行加权计算，得到注意力加权后的自注意力矩阵，其计算方式如下：其中，Q,K,V是由编码器输出矩阵X分别经过线性变换得到的三个矩阵，其维度与X相同,下标i表示第i个线性变换矩阵，head表示自注意力矩阵，Attention()表示自注意力计算函数，T表示矩阵转置操作， softmax()表示激活函数，d表示键向量K的维度大小；Q表示查询向量，K表示键向量，V表示值向量，Q=X*W
Q
, K=X*W
K
,V=X*W
V
,其中，W
Q
表示查询向量Q的线性变换权重矩阵，W
K
表示键向量K的线性变换权重矩阵，W
V
表示值向量V的线性变换权重矩阵，输出矩阵X分别乘以各个权重矩阵，得到Q,K,V，各个权重矩阵都来源于深度神经网络线性层中的参数；在计算得到每一个自注意力矩阵head
i
后，进行拼接操作和线性变换，形成多头自注意力函数，过程如下：其中，Multihead（）表示多头自注意力函数，Concat（）表示矩阵拼接操作， W
H
表示线性变换操作，上标H表示注意力的个数；通过将编码器输出矩阵X输入到双路并行转换模块中处理，通过双路径并行处理的结构，并结合多头自注意力机制，去处理矩阵中全局上下文信息；
经过全局上下文感知转换模块的多头自注意力加权处理后得到一个加权矩阵X
T
，X
T =f
TFM
(X)其中，加权矩阵，表示X
T
为维度大小为[C，N，I]的三维矩阵，f
TFM
()表示转换模块的特征映射，即表示经过全部多个双路并行Trasnformer模块的加权过程；S222.将加权矩阵X
T
输入通道注意力模块中，通过平均池化和最大池化操作分别生成最大池化输出矩阵和平均池化输出矩阵，将二者输入到通道注意力模块中的同一卷积层中进行处理，再将两个对应的输出相加后送入到sigmoid函数中，得到通道注意力矩阵；其中，M
C
表示通道注意力矩阵，Conv（）表示卷积层操作；然后将 X
T
与通道注意力矩阵M
C
相乘再与其本身相加，得到通道注意力模块输出矩阵X
C
，表示如下： X
C =f
CAM
(X
T
,M
C
)= X

【专利技术属性】
技术研发人员：刘鹏，曾帆，
申请(专利权)人：成都启英泰伦科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人