当前位置: 首页 > 专利查询>苏州大学专利>正文

一种全局多头注意力语音增强方法技术

技术编号:37706253 阅读:12 留言:0更新日期:2023-06-01 23:55
本发明专利技术公开了一种全局多头注意力语音增强方法,涉及生成对抗网络领域,包括将含噪音频信号输入至生成器编码器卷积得到卷积特征图谱;将卷积特征图谱输入至全局多头注意力层得到全局多头注意力特征图谱;将全局多头注意力特征图谱输入至生成器编码器得到卷积

【技术实现步骤摘要】
一种全局多头注意力语音增强方法


[0001]本专利技术涉及生成对抗网络领域,更具体地说,涉及一种全局多头注意力语音增强方法。

技术介绍

[0002]近年来,基于生成对抗网络(GANs)的语音增强方法被提出,通过直接向网络中输入波形来实现端到端语音增强。然而,现有的语音增强GAN完全依赖于卷积操作,这可能会掩盖序列输入的时间依赖性。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种全局多头注意力语音增强方法,以解决
技术介绍
中提到的问题。
[0004]为了达到上述目的,本专利技术采取以下技术方案:一种全局多头注意力语音增强方法,包括如下步骤:步骤一:获取含噪音频信号;步骤二:将含噪音频信号输入至生成器编码器经过若干层卷积后得到卷积特征图谱;步骤三:将步骤二得到的卷积特征图谱输入至全局多头注意力层,得到全局多头注意力特征图谱;步骤四:将步骤三得到的全局多头注意力特征图谱输入至生成器编码器,经过若干层卷积后得到卷积

全局多头注意力

卷积特征图谱;步骤五:将步骤四得到的卷积

全局多头注意力

卷积特征图谱与从高斯分布中采样的随机噪声z叠加,然后输入至生成器解码器,经过若干层反卷积后,得到反卷积特征图谱;步骤六:将步骤五得到的反卷积特征图谱输入至全局多头注意力层,得到解码

全局多头注意力特征图谱;步骤七:将步骤六得到的解码

全局多头注意力特征图谱输入至生成器解码器,经过若干层反卷积后,得到增强后的音频信号。
[0005]进一步的,步骤三包括第一前置步骤:获取卷积特征图谱的查询矩阵、键矩阵和值矩阵其中N=1、2,N表示头的数量。
[0006]进一步的,步骤三还包括第二前置步骤:计算全局多头注意力的权重矩阵:其中N=1、2,表示头的数量,Softmax表示归一化指数函数;T表示向量或矩阵的转置。
[0007]进一步的,步骤三中计算全局多头注意力特征图谱的公式如下:其中Cat为卷积神经网络中的concate函数,表
示特征融合;表示一维卷积。
[0008]进一步的:进一步的:进一步的:其中:表示的权重矩阵;表示的权重矩阵;表示的权重矩阵;是步骤二中输出的卷积特征图谱;downsample表示下采样。
[0009]进一步的,步骤六包括第一前置步骤:获取反卷积特征图谱的查询矩阵、键矩阵和值矩阵,其中N=1、2,N表示头的数量。
[0010]进一步的,步骤六还包括第二前置步骤:计算全局多头注意力的权重矩阵:其中N=1、2,表示头的数量,Softmax表示归一化指数函数;T表示向量或矩阵的转置。
[0011]进一步的,步骤六中计算全局多头注意力特征图谱的公式如下:其中Cat为卷积神经网络中的concate函数,表示特征融合;表示一维卷积。
[0012][0012][0012]其中:表示的权重矩阵;表示的权重矩阵;表示的权重矩阵;在为步骤五中输出的反卷积特征图谱;downsample表示下采样。
[0013]本专利技术相对于现有技术的优点在于,与传统的SASEGAN(自注意力语音增强生成对抗网络)相比,本专利技术提出的基于原始音频信号输入的全局多头注意力语音增强生成对抗网络(GMASEGAN),网络参数更多,训练过程中收敛速度更快。在主观评价方面,本专利技术提出的GMASEGAN较传统的SEGAN(语音增强生成对抗网络)和SASEGAN(自注意力语音增强生成对抗网络)分别提高了8.81%和5.78%。在客观评价方面,本专利技术GMASEGAN绝对值在PESQ、CSIG、CBAK、COVL、SSNR和STOI上分别比SASEGAN获得0.07、0.06、0.09、0.07、0.63和0.26的收益。另外,本专利技术提出的GMASEGAN(注意力头数N=4)还可以衰减干净语音中的背景噪声,随着头部数量的增加,本专利技术GMASEGAN的语音增强效果还可能得到进一步改善。更重要的是,本专利技术所提出的全局多头注意层可以用于其他以卷积层为骨干的语音增强网络,以实现时间依赖性。
附图说明
[0014]图1是全局多头注意力层处理步骤的示意图;图2是生成器的网络结构和网络中全局多头注意力层的计算过程示意图;图3是鉴别器的网络结构示意图。
具体实施方式
[0015]下面结合附图对本专利技术的具体实施方式作描述。
[0016]首先对全局多头注意层进行介绍:全局多头注意层是由非局部自注意层改编而来的。这里,以两个注意力头为例。全局多头注意层的处理步骤如图1所示,图1为全局多头注意力层处理步骤的图示(注意力头数N=2)。以两个向量为例,T表示向量的转置。为了将注意力系数保持在0

1的范围内,在之后添加了一个softmax层。
[0017]给定一维卷积层输出的特征图,其中T表示时间维度的长度,C表示通道数。A被分成T个向量,即,其中表示每个时间点的通道特征向量。
[0018]查询向量q、关键向量k和值向量v通过以下方式获得:其中,,and表示由个滤波器的1
×
1卷积层执行的权重矩阵。注意力系数α通过以下变换获得:其中表示向量或矩阵的转置。为了保证注意力系数在0

1的范围内,这里采用了softmax层。注意力特征b通过以下变换获得:1的范围内,这里采用了softmax层。注意力特征b通过以下变换获得:其中Cat(

)表示根据特定维度将多个矩阵连接在一起。表示 1
×
1卷积层的输出,其通道与A相同。
[0019]以两个向量为例,T表示向量的转置。为了将注意力系数保持在0

1的范围内,在之后添加了一个softmax层。
[0020]接下来对本专利技术网络架构及方法做介绍:如图2所示为生成器的网络结构和网络中全局多头注意力层的计算过程。上半部分展示了生成器的网络结构和每一层的输出形状。下半部分显示了在解码器的倒数第三个卷积层之后添加全局多头注意力层后,数据如何在全局多头注意力层中计算,在图中竖直方向对应的编码器位置处也设置有相同的该全局多头注意力层。
[0021]生成器接收噪声损坏的音频信号输入(),是一个全卷积编码器

解码器架构。
[0022]上半部分展示了生成器的网络结构和每一层的输出形状。下半部分显示了在解码器的倒数第三个卷积层之后添加全局多头注意力层后,数据如何在全局多头注意力层中计算。
[0023]采用参数整流线性单元作为生成器的激活函数。 卷积层和激活层组合成一个卷积块(ConvBlk),它是生成器编码器的基本单元。生成器编码器由11个ConvBlks组成,其中卷积层的滤波器数量递增,步长为2。编码器的输出是一个8
×
1024的特征图。潜在代码是从高斯分布中随机采样的。z被堆叠在上并呈现给生成器解码器。
[0024]生成器解码器镜像生成器编码器架构,通过反卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全局多头注意力语音增强方法,其特征在于,包括如下步骤:步骤一:获取含噪音频信号;步骤二:将含噪音频信号输入至生成器编码器经过若干层卷积后得到卷积特征图谱;步骤三:将步骤二得到的卷积特征图谱输入至全局多头注意力层,得到全局多头注意力特征图谱;步骤四:将步骤三得到的全局多头注意力特征图谱输入至生成器编码器,经过若干层卷积后得到卷积

全局多头注意力

卷积特征图谱;步骤五:将步骤四得到的卷积

全局多头注意力

卷积特征图谱与从高斯分布中采样的随机噪声z叠加,然后输入至生成器解码器,经过若干层反卷积后,得到反卷积特征图谱;步骤六:将步骤五得到的反卷积特征图谱输入至全局多头注意力层,得到解码

全局多头注意力特征图谱;步骤七:将步骤六得到的解码

全局多头注意力特征图谱输入至生成器解码器,经过若干层反卷积后,得到增强后的音频信号。2.根据权利要求1所述全局多头注意力语音增强方法,其特征在于,步骤三包括第一前置步骤:获取卷积特征图谱的查询矩阵、键矩阵和值矩阵,其中N=1、2,N表示头的数量。3.根据权利要求2所述全局多头注意力语音增强方法,其特征在于,步骤三还包括第二前置步骤:计算全局多头注意力的权重矩阵:其中N=1、2,表示头的数量,Softmax表示归一化指数函数;T表示向量或矩阵的转置。4.根据权利要求3所...

【专利技术属性】
技术研发人员:楚明航王靖马瑶瑶黄玉玲杨梦涛范智玮徐超吴迪
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1