可分离循环注意力的语音增强方法及装置制造方法及图纸

技术编号:32222618 阅读:15 留言:0更新日期:2022-02-09 17:27
本发明专利技术涉及一种可分离循环注意力的语音增强方法,包括步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块;步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。本发明专利技术计算量小,能够有效保证语音降噪效果。音降噪效果。音降噪效果。

【技术实现步骤摘要】
可分离循环注意力的语音增强方法及装置


[0001]本专利技术涉及一种可分离循环注意力的语音增强方法及装置。

技术介绍

[0002]语音识别前端降噪、音像制作领域人声提取、语音合成领域声音提纯等均涉及对语音信号降噪增强,现有语音降噪主要包括以下方式:
[0003]1.SEGAN:以UNet为基础结构进行降噪,采用对抗生成技术使得生成声音接近人声。该方法的缺点是模型结构简单,对复杂噪声处理不干净,容易模式坍塌。
[0004]2.WAVENET:以WaveNet为基础结构进行降噪,该方法的缺点是模型庞大,训练复杂,速度极慢(每1分钟语音需要10分钟处理时间),相位不对齐,难区分人声和有谐波的音乐噪声。
[0005]3.TasNet:以TCN为基础结构进行降噪,采用空洞卷积获得感受野的提升。该方法的缺点是没有确保空间的完备性,模型的频率分辨率差,对语音和噪声同时发声段的噪声去除不干净。
[0006]4.T-GSA:以transformer为基础结构进行降噪,采用高斯函数对感受野进行局部性约束。缺点是计算复杂度巨大,随着语音长度的变长处理时间呈O(N2)增长。
[0007]5.PHASEN:此方式是与本专利技术最相关的降噪方法。以TSB为基础结构进行降噪,采用频率变换块进行谐波增强。该方法虽然计算量较小,并能保证较好的降噪效果,但是缺点是只有固定的感受野,只能建模固定的谐波相关性,而实际上有时候我们需要看得较远才能确定当前音是语音还是噪音,需要通盘考虑上下前后关系才能确定当前谐波是真谐波还是伪谐波,因此,语音降噪效果还不十分理想。

技术实现思路

[0008]本专利技术的专利技术目的在于提供一种可分离循环注意力的语音增强方法及装置,计算量小,能够有效保证语音降噪效果。
[0009]基于同一专利技术构思,本专利技术具有三个独立的技术方案:
[0010]1、一种可分离循环注意力的语音增强方法,包括:
[0011]步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
[0012]步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;
[0013]步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
[0014]进一步地,步骤2中,每级极坐标注意力模块用于执行如下步骤:
[0015]步骤2.1:利用幅度注意力模块对输入的幅度流信号进行处理,将调节后的幅度流信号输入到相位它调节模块;
[0016]步骤2.2:利用相位自调节模块对输入的相位流信号进行处理,将处理后得到的自调节相位流信号输入到相位它调节模块;
[0017]步骤2.3:利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节,输出调节后的相位流信号;
[0018]步骤2.4:输出所述调节后的幅度流信号和调节后的相位流信号。
[0019]进一步地,所述相位自调节模块由一层或多层二维卷积构成;
[0020]所述相位它调节模块包含一个或多个幅度感知相位变换,每个幅度感知相位变换利用幅度流信号对相位流信号进行调节,变换公式如下:
[0021]P
o
=Conv(A
o
)o P
i
[0022]式中,Conv表示卷积,o表示点乘,P
i
表示幅度流输出作为相位它调节输入,P
o
表示相位流输出,A
o
表示幅度流输出作为相位它调节输入。
[0023]进一步地,所述步骤2.1包括如下步骤:
[0024]步骤2.1.1:将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块,得到第一置换变换信号和第一循环信号;
[0025]步骤2.1.2:将第一置换变换信号输入至第二通道置换变换模块,输出第二置换变换信号;将第一置换变换信号、第一循环信号相乘后输入至所述第二时频可分离循环网模块,输出第二循环信号;
[0026]步骤2.1.3:将第二置换变换信号、第二循环信号拼接后输入至独立同分布卷积模块,输出所述调节后的幅度流信号。
[0027]进一步地,所述时频可分离循环网模块采用以下循环方式中的一种:单用时间循环、单用频率循环、先时间循环再频率循环、先频率循环再时间循环、时间和频率并行循环;
[0028]所述循环包括前向循环、后向循环、双向循环中的一种。
[0029]进一步地,所述独立同分布卷积模块由分布归一化层、二维卷积层、GELU层构成。
[0030]进一步地,所述前置网络单元包括短时傅里叶变换模块、幅度卷积模块和相位卷积模块,
[0031]所述短时傅里叶变换模块用于将语音信号变换成短时傅里叶系数;
[0032]所述幅度卷积模块用于对所述短时傅里叶变换模块输出的信号进行幅度卷积,输出第一幅度流信号;
[0033]所述相位卷积模块用于对所述短时傅里叶变换模块输出的信号进行相位卷积,输出第一相位流信号。
[0034]进一步地,所述后置网络单元包括幅度掩膜生成器、相位掩膜生成器、傅里叶系数生成器和逆短时傅里叶变换模块,
[0035]所述幅度掩膜生成器用于将第二幅度流信号生成单通道幅度信号;
[0036]所述相位掩膜生成器用于将第二相位流信号生成双通道相位信号;
[0037]所述傅里叶系数生成器用于根据所述单通道幅度信号和双通道相位信号生成傅里叶系数;
[0038]所述逆短时傅里叶变换模块用于根据所述生成的傅里叶系数,输出增强后的语音信号。
[0039]2、一种可分离循环注意力的语音增强方法,包括:
[0040]步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号;
[0041]步骤2:将所述第一幅度流信号输入注意力网络单元进行降噪,输出第二幅度流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块;或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;
[0042]步骤3:将所述第二幅度流信号,通过后置网络单元进行逆傅里叶变换,输出增强后的语音信号。
[0043]3、一种可分离循环注意力的语音增强装置,包括:
[0044]前置网络单元,用于对输入的语音信号进行傅里叶变换,输出第一幅度流信号和第一相位流信号;
[0045]注意力网络单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可分离循环注意力的语音增强方法,其特征在于,包括:步骤1:将语音信号输入至前置网络单元进行傅里叶变换,输出第一幅度流信号和第一相位流信号;步骤2:将所述第一幅度流信号和第一相位流信号输入注意力网络单元进行降噪,输出第二幅度流信号和第二相位流信号;所述注意力网络单元包括串联的多级极坐标注意力模块,每级极坐标注意力模块包括幅度注意力模块、相位自调节模块、相位它调节模块,其中所述幅度注意力模块进一步包括两个时频可分离循环网模块和一个独立同分布卷积模块;或者包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块;步骤3:将所述第二幅度流信号和第二相位流信号输入至后置网络单元进行逆傅里叶变换,输出增强后的语音信号。2.根据权利要求1所述的可分离循环注意力的语音增强方法,其特征在于:步骤2中,每级极坐标注意力模块用于执行如下步骤:步骤2.1:利用幅度注意力模块对输入的幅度流信号进行处理,将调节后的幅度流信号输入到相位它调节模块;步骤2.2:利用相位自调节模块对输入的相位流信号进行处理,将处理后得到的自调节相位流信号输入到相位它调节模块;步骤2.3:利用相位它调节模块基于所述调节后的幅度流信号对所述自调节相位流信号进行它调节,输出调节后的相位流信号;步骤2.4:输出所述调节后的幅度流信号和调节后的相位流信号。3.根据权利要求2所述的可分离循环注意力的语音增强方法,其特征在于:所述相位自调节模块由一层或多层二维卷积构成;所述相位它调节模块包含一个或多个幅度感知相位变换,每个幅度感知相位变换利用幅度流信号对相位流信号进行调节,变换公式如下:P
o
=Conv(A
o
)o P
i
式中,Conv表示卷积,o表示点乘,P
i
表示幅度流输出作为相位它调节输入,P
o
表示相位流输出,A
o
表示幅度流输出作为相位它调节输入。4.根据权利要求2所述的可分离循环注意力的语音增强方法,其特征在于,幅度注意力模块包括两个通道置换变换模块、两个时频可分离循环网模块和一个独立同分布卷积模块情况下,所述步骤2.1包括如下步骤:步骤2.1.1:将输入的幅度流信号分别输入至第一通道置换变换模块和第一时频可分离循环网模块,得到第一置换变换信号和第一循环信号;步骤2.1.2:将第一置换变换信号输入至第二通道置换变换模块,输出第二置换变换信号;将第一置换变换信号、第一循环信号相乘后输入至所述第二时频可分离循环网模块,输出第二循环信号;步骤2.1.3:将第二置换变换信号、第二循环信号拼接后输入至独立同分布卷积模块,输出所述调节后的幅度流信号。5.根据权利要求1所述的可分离循环...

【专利技术属性】
技术研发人员:柯登峰张劲松解焱陆
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1