利用生成神经网络的通用语音增强制造技术

技术编号：41404893 阅读：5 留言：0更新日期：2024-05-20 19:30

本公开涉及一种基于神经网络的语音增强系统，该系统包括用于生成增强音频信号的生成网络和用于生成用于生成网络的调节信息的调节网络。调节网络包括多个层，并被配置为接收音频信号作为输入；通过所述多个层传播音频信号；以及提供音频信号的一个或多个第一内部表示或其处理后版本作为调节信息，其中音频信号的所述一个或多个第一内部表示在调节网络的各层被提取。生成网络被配置为接收噪声矢量和调节信息作为输入，并基于噪声矢量和调节信息生成增强音频信号。本公开还涉及一种训练系统的方法。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及基于神经网络的音频信号语音增强技术，以及基于神经网络的语音增强系统的训练。特别是，本公开涉及如下这样的技术：除了能对音频信号去噪之外，还能从包含语音的含噪声频信号中去除各种伪影(artifact)，这些技术可能涉及生成模型或生成网络(或总体而言，生成技术)。

技术介绍

1、语音录音或语音流，特别是由非专业人员或使用低端设备制作的录音或语音流，都含有背景噪声，背景噪声会严重影响录音质量，最终妨碍人们理解语音内容。因此，人们有动机开发了语音去噪或增强算法，尝试在不危及语音自然度的前提下过滤掉噪声分量。在这种情况下(尤其当讲话者在房间内时)可能会出现的另一种伪影就是混响。因此，语音增强算法能够从简单的去噪转向解决背景噪声和混响两者将是有利的。此外，除了噪声和混响之外，语音录音或语音流还可能包含其他伪影，例如，可能包括削波、无声间隙、均衡、错误电平、和编解码器伪影。

2、因此，需要一种改进的(例如，通用的)能在单个步骤中消除任何或所有这些伪影的语音增强技术。

技术实现思路

1、鉴于此，本公开提供了用于语音增强的基于神经网络的系统、使用基于神经网络的系统处理音频信号以便语音增强的方法、训练基于神经网络的系统的方法、计算机程序、以及计算机可读存储介质，它们都具有各独立权利要求的特征。

2、本公开的一个方面涉及一种用于音频信号语音增强的基于神经网络的系统。例如，基于神经网络的系统可以由计算机实现。该系统可包括用于生成增强音频信号的生成网络和用于生成用于生成网络的

3、通过被如上所述的配置，包括处理随机矢量的生成网络以及处理音频信号并为生成网络生成调节信息的调节网络，本公开提出的系统通过不仅对语音信号进行去噪处理，而且消除语音信号中可能存在的各种伪影，包括削波、间隙、均衡、错误电平和编解码器伪影，能够增强语音。

4、在一些实施例中，调节信息的第一内部表示可与不同时间分辨率下音频信号的表示的层次结构有关。这样允许将不同粒度下音频信号的特性的相关信息传递给生成网络，以确保增强音频信号的自然效果。

5、在一些实施例中，调节信息的每个第一内部表示(或其处理后版本)都可与生成网络中的相应第二内部表示相组合。在这里和下文中，组合内部表示(例如，为了调节)可以包括加法、乘法和拼接等中的一种或多种。在一些实施例中，内部表示的组合可以使用加法和乘法。

6、在一些实施例中，调节网络可进一步配置为接收第一边信息(side information)作为输入。然后，调节网络对音频信号的处理可依赖于第一边信息。

7、第一边信息可为调节网络提供关于要被增强的音频信号的附加信息，从而使系统对不同类型的音频信号具有更强的适应性。

8、在一些实施例中，第一边信息可包括以下中的一者或多者的数字或文本描述：音频信号中存在的伪影的类型、音频信号中存在的噪声的电平、要对音频信号执行的增强操作、以及关于音频信号的特性的信息。例如，音频信号的特性可包括讲话者身份、语言信息、房间特性和麦克风特性中的一个或多个。

9、在一些实施例中，生成网络可进一步配置为接收第二边信息作为输入。然后，生成网络对噪声矢量的处理可依赖于第二边信息。

10、第二边信息可为生成网络提供关于要增强的音频信号的附加信息，从而使系统对不同类型的音频信号具有更强的适应性。

11、在一些实施例中，第二边信息可包括以下中的一者或多者的数字或文本描述：音频信号中存在的伪影的类型、音频信号中存在的噪声的电平、要对音频信号执行的增强操作、以及关于音频信号的特性的信息。例如，音频信号的特性可包括讲话者身份、语言信息、房间特性和麦克风特性中的一个或多个。

12、在一些实施例中，调节网络的多个层可包括一个或多个中间层。此外，音频信号的一个或多个第一内部表示可以从该一个或多个中间层中提取。

13、在一些实施例中，调节网络可以基于编码器-解码器结构。可选地，编码器-解码器结构可使用resnets。附加地或可替代地，编码器-解码器结构的编码器部分可包括一个或多个跳跃连接。

14、在一些实施例中，生成网络可以基于编码器-解码器结构。可选地，编码器-解码器结构可使用resnets。附加地或可替代地，编码器-解码器结构的编码器部分可包括一个或多个跳跃连接。例如，生成网络可以基于unet结构。可选地，unet结构可包括内层中的跳跃连接、内层中的残差连接(residual connection)、和递归神经网络中的一者或多者。

15、在一些实施例中，生成网络可以基于以下中的一者：基于扩散的模型、变分自编码器、自回归模型、以及生成对抗网络方案。

16、在一些实施例中，系统可在推断之前已使用数据对被训练，每一数据对包含一个干净音频信号和一个失真音频信号，该失真音频信号与该干净音频信号相对应或从该干净音频信号得出。这里，失真音频信号包括噪声和/或伪影。

17、在一些实施例中，数据对中的一个或多个数据对可包括相应干净音频信号和相应失真音频信号，失真音频信号已通过干净音频信号的编程变换和/或噪声添加被生成。例如，编程变换可引入与以下中的任一者或全部相关的伪影或失真：频带限制、编解码器伪影、信号失真、动态、均衡、录制噪声、混响/延时、频谱处理、合成噪声和传输伪影。

18、使用以这种方式生成的数据对允许训练系统来去除特定噪声和/或编程变换相对应的特定伪影。

19、在一些实施例中，调节网络可进一步配置为提供音频信号的一个或多个第三内部表示以用于训练。其中，音频信号的一个或多个第三内部表示可在调节网络的各层提取。此外，对于每个数据对，系统可在失真音频信号作为音频信号输入到调节网络时，基于干净音频信号与系统输出的比较被训练，以及在通过相应辅助神经网络对第三内部表示进行处理之后，进一步基于干净音频信号的表示或从干净音频信号得出的音频特征与第三内部表示的比较被训练。

20、在一些实施例中，比较可以基于相应的损失函数。这些损失函数可能与负对数似然、lp范数、最大均值差异、对抗损失和特征损失中的一者或多者有关。

21、在一些实施例中，音频特征可包括mel(梅尔)带频谱表示、响度、音高、谐度/周期性、语音活动检测、过零率、来自编码器的自监督特征、来自wave2vec模型的自监督特征和来自hubert模型的自监督特征中的至少一种。

22、在一些实施例中，对于从调节网络本文档来自技高网...

【技术保护点】

1.一种用于音频信号语音增强的基于神经网络的系统，所述系统包括用于生成增强音频信号的生成网络和用于生成用于生成网络的调节信息的调节网络，

2.根据权利要求1所述的系统，其中调节信息的第一内部表示与不同时间分辨率下音频信号的表示的层次结构有关。

3.根据权利要求1或2所述的系统，其中在生成网络中，调节信息的每个第一内部表示或其处理后版本与相应的第二内部表示相组合。

4.根据前述权利要求中任一项所述的系统，其中调节网络进一步配置为接收第一边信息作为输入，并且其中调节网络对音频信号的处理依赖于所述第一边信息。

5.根据权利要求4所述的系统，其中第一边信息包括以下中的一者或多者的数字描述：音频信号中存在的伪影的类型、音频信号中存在的噪声的电平、要对音频信号执行的增强操作、以及关于音频信号的特性的信息。

6.根据前述权利要求中任一项所述的系统，其中生成网络进一步配置为接收第二边信息作为输入，并且其中生成网络对噪声矢量的处理依赖于所述第二边信息。

7.根据权利要求6所述的系统，其中第二边信息包括以下中的一者或多者的数字描

8.根据前述权利要求中任一项所述的系统，其中调节网络的多个层包括一个或多个中间层。

9.根据权利要求8所述的系统，其中音频信号的一个或多个第一内部表示是从所述一个或多个中间层中提取的。

10.根据前述权利要求中任一项所述的系统，其中调节网络基于编码器-解码器结构，其中可选地，编码器-解码器结构使用ResNets，和/或编码器-解码器结构的编码器部分包括一个或多个跳跃连接。

11.根据前述权利要求中任一项所述的系统，其中生成网络基于以下中的一者：基于扩散的模型、变分自编码器、自回归模型、以及生成对抗网络方案。

12.根据前述权利要求中任一项所述的系统，其中生成网络基于编码器-解码器结构，其中可选地，编码器-解码器结构使用ResNets和/或编码器-解码器结构的编码器部分包括一个或多个跳跃连接。

13.根据前述权利要求中任一项所述的系统，其中该系统在推断之前已使用数据对被训练，每一数据对包含一个干净音频信号和一个失真音频信号，该失真音频信号与该干净音频信号相对应或从该干净音频信号得出，其中该失真音频信号包括噪声和/或伪影。

14.根据权利要求13所述的系统，其中，所述数据对中的一个或多个数据对包括相应干净音频信号和相应失真音频信号，该失真音频信号是通过干净音频信号的编程变换和/或噪声添加生成的。

15.根据权利要求13或14所述的系统，其中调节网络进一步配置为提供音频信号的一个或多个第三内部表示以用于训练，音频信号的所述一个或多个第三内部表示在调节网络的各层被提取；

16.根据权利要求15所述的系统，其中比较是基于相应损失函数的。

17.根据权利要求15或16所述的系统，其中音频特征包括mel带频谱表示、响度、音高、谐度/周期性、语音活动检测、过零率、来自编码器的自监督特征、来自wave2vec模型的自监督特征和来自HuBERT模型的自监督特征中的至少一种。

18.根据权利要求15至17中任一项所述的系统，其中对于从调节网络中提取的每一第三内部表示，存在一个相应的辅助神经网络。

19.根据权利要求15至18中任一项所述的系统，其中一个或多个辅助神经网络是基于混合密度网络的。

20.根据权利要求13至19中任一项所述的系统，其中调节网络和生成网络是联合训练的。

21.一种使用基于神经网络的系统处理音频信号以进行语音增强的方法，其中所述系统包括用于生成增强音频信号的生成网络和用于生成用于生成网络的调节信息的调节网络，该方法包括：

22.根据权利要求21所述的方法，其中调节信息的第一内部表示与不同时间分辨率下音频信号的表示的层次结构有关。

23.根据权利要求21或22所述的方法，还包括在所述生成网络中将调节信息的每个第一内部表示或其处理后版本与相应的第二内部表示相组合。

24.根据权利要求21至23中任一项所述的方法，还包括向调节网络输入第一边信息和/或向生成网络输入第二边信息。

25.一种训练根据权利要求1至12中任一项所述的基于神经网络的系统的方法，其中训练基于数据对进行，每一数据对包含一个干净音频信号和一个失真音频信号，该失真音频信号与该干净音频信号相对应或从该干净音频信号得出，其中该失真音频信号包括噪声和/或伪影。...

【技术特征摘要】
【国外来华专利技术】

1.一种用于音频信号语音增强的基于神经网络的系统，所述系统包括用于生成增强音频信号的生成网络和用于生成用于生成网络的调节信息的调节网络，

2.根据权利要求1所述的系统，其中调节信息的第一内部表示与不同时间分辨率下音频信号的表示的层次结构有关。

3.根据权利要求1或2所述的系统，其中在生成网络中，调节信息的每个第一内部表示或其处理后版本与相应的第二内部表示相组合。

7.根据权利要求6所述的系统，其中第二边信息包括以下中的一者或多者的数字描述：音频信号中存在的伪影的类型、音频信号中存在的噪声的电平、要对音频信号执行的增强操作、以及关于音频信号的特性的信息。

8.根据前述权利要求中任一项所述的系统，其中调节网络的多个层包括一个或多个中间层。

9.根据权利要求8所述的系统，其中音频信号的一个或多个第一内部表示是从所述一个或多个中间层中提取的。

10.根据前述权利要求中任一项所述的系统，其中调节网络基于编码器-解码器结构，其中可选地，编码器-解码器结构使用resnets，和/或编码器-解码器结构的编码器部分包括一个或多个跳跃连接。

11.根据前述权利要求中任一项所述的系统，其中生成网络基于以下中的一者：基于扩散的模型、变分自编码器、自回归模型、以及生成对抗网络方案。

12.根据前述权利要求中任一项所述的系统，其中生成网络基于编码器-解码器结构，其中可选地，编码器-解码器结构使用resnets和/或编码器-解码器结构的编码器部分包括一个或多个跳跃连接。

16.根据权利要求15所述的系统，其中比较是基于相应...

【专利技术属性】
技术研发人员：J·塞拉，S·帕斯夸尔，J·庞斯普吉，
申请(专利权)人：杜比国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人