音频降噪方法、降噪模型的训练方法及装置制造方法及图纸

技术编号：40934521 阅读：9 留言：0更新日期：2024-04-18 14:54

本申请涉及一种音频降噪方法、降噪模型的训练方法及装置，所述方法包括：获取用户的带噪音频；通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述带噪音频在时域上和频域上的信息；将所述带噪音频的所述时频信息，输入所述降噪模型中的自适应声纹模块，得到所述用户的声纹特征；将所述用户的声纹特征以及所述带噪音频的所述时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述带噪音频对应的降噪音频。采用本方法能够实现对包含非稳态噪声的带噪音频的有效降噪。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理，特别是涉及一种音频降噪方法、降噪模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

1、音频降噪一般是指当音频信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的音频信号，抑制、降低噪声干扰的技术。目前的音频降噪方法，多是采用传统数字信号处理，使用各种有效的频域转换和时域变换估计原始带噪音频中的噪声频谱，然后通过估计的噪声频谱从录制的信号中预测降噪后的音频信号。

2、然而，这种基于频域转换和时域变换的降噪方法通常假设噪声是稳态的，即噪声的统计特性在整个信号中是不变的，在该假设下，该降噪方法才有一定的降噪作用。在唱歌状态下，会出现伴奏外放的情况，周边的环境也比较复杂（比如在路边，有路人的声音；在家里k歌，也有家人朋友的交流声等。甚至，k歌场景下的伴奏，可能还有和声等人声存在），收音时会将伴奏，和环境声音全部收集，从而使后期处理人声变得更困难。

技术实现思路

1、基于此，有必要针对上述方法对后期人声的处理较为困难的技术问题，提供一种音频降噪方法、降噪模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种音频降噪方法。所述方法包括：

3、获取用户的带噪音频；

4、通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述带噪

5、将所述带噪音频的所述时频信息，输入所述降噪模型中的自适应声纹模块，得到所述用户的声纹特征；

6、将所述用户的声纹特征以及所述带噪音频的所述时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述带噪音频对应的降噪音频。

7、在其中一个实施例中，所述将所述带噪音频的所述时频信息，输入所述降噪模型中的自适应声纹模块，得到所述用户的声纹特征，包括：

8、通过所述自适应声纹模块，对所述带噪音频的所述时频信息进行声纹提取，得到所述用户的当前声纹特征，以及确定所述时频信息的干净程度值；

9、在预存有所述用户的历史声纹特征的情况下，基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征，确定所述用户的声纹特征。

10、在其中一个实施例中，所述基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征，确定所述用户的声纹特征，包括：

11、在所述干净程度值大于或等于阈值的情况下，基于所述当前声纹特征，对所述用户的历史声纹特征进行更新，得到所述用户的声纹特征；

12、在所述干净程度值小于所述阈值的情况下，将所述用户的历史声纹特征，确定为所述用户的声纹特征。

13、在其中一个实施例中，所述基于所述当前声纹特征，对所述用户的历史声纹特征进行更新，得到所述用户的声纹特征，包括：

14、获取针对所述用户的历史声纹特征预设的第一权重；

15、基于所述第一权重，确定所述当前声纹特征的第二权重；

16、根据所述第一权重和所述第二权重，对所述当前声纹特征和所述历史声纹特征进行融合处理，得到所述用户的声纹特征。

17、在其中一个实施例中，所述通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息之前，还包括：

18、对所述带噪音频进行子带分解处理，得到所述带噪音频的多个子带；

19、分别对各个子带进行时频变换处理，得到所述各个子带的音频特征；

20、所述通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息，包括：

21、通过所述降噪模型中的第一空洞卷积模块，分别对所述带噪音频的各个子带的音频特征进行信息提取处理，得到所述各个子带的时频信息。

22、在其中一个实施例中，所述用户的声纹特征包括所述各个子带对应的所述用户的声纹特征；

23、所述将所述用户的声纹特征以及所述带噪音频的所述时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述带噪音频对应的降噪音频，包括：

24、分别将每个子带对应的声纹特征及所述每个子带的时频信息，输入所述降噪模型中的第二空洞卷积模块，得到所述每个子带对应的降噪音频频谱；

25、对所述每个子带对应的降噪音频频谱进行时频变换的逆变换，得到所述每个子带的降噪音频片段；

26、对所述每个子带对应的降噪音频片段进行合成处理，得到所述带噪音频对应的降噪音频。

27、第二方面，本申请提供了一种降噪模型的训练方法。所述方法包括：

28、生成样本用户的样本带噪音频集，所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频，其中，所述样本带噪音频通过在干净音频的基础上，叠加不同信噪比的噪声音频和/或伴奏音频得到；

29、通过待训练降噪模型中的第一空洞卷积模块，对所述样本带噪音频进行信息提取处理，得到所述样本带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述样本带噪音频在时域上和频域上的信息；

30、将所述样本带噪音频的所述时频信息，输入所述待训练降噪模型中的自适应声纹模块，得到所述样本用户的声纹特征；

31、将所述样本用户的声纹特征以及所述样本带噪音频的所述时频信息，输入所述待训练降噪模型中的第二空洞卷积模块，得到所述样本带噪音频对应的预测降噪音频；

32、基于所述预测降噪音频与所述干净音频之间的差异信息，对所述待训练降噪模型进行训练，得到训练完成的降噪模型。

33、在其中一个实施例中，所述样本带噪音频集包括第一带噪音频集和第二带噪音频集；所述第一带噪音频集中的每个第一样本带噪音频包含目标干净音频和至少一种噪声；所述第二带噪音频集中的每个第二样本带噪音频包含目标干净音频、干扰干净音频和至少一种噪声；所述目标干净音频为所述样本用户的人声；

34、所述方法还包括：

35、基于所述第一带噪音频集，对所述待训练降噪模型中的第一空洞卷积模块进行训练，得到第一训练后降噪模型；

36、保持所述第一空洞卷积模块的参数不变，基于所述第二带噪音频集，对所述待训练降噪模型中的自适应声纹模块和第二空洞卷积网络进行训练，得到第二训练后降噪模型，作为训练完成的降噪模型。

37、第三方面，本申请还提供了一种音频降噪装置。所述装置包括：

38、音频获取模块，用于获取用户的带噪音频；

39、信息提取模块，用于通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息；所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络，所述时频信息包含所述本文档来自技高网...

【技术保护点】

1.一种音频降噪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述带噪音频的所述时频信息，输入所述降噪模型中的自适应声纹模块，得到所述用户的声纹特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征，确定所述用户的声纹特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述当前声纹特征，对所述用户的历史声纹特征进行更新，得到所述用户的声纹特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过降噪模型中的第一空洞卷积模块，对所述带噪音频进行信息提取处理，得到所述带噪音频的时频信息之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述用户的声纹特征包括所述各个子带对应的所述用户的声纹特征；

7.一种降噪模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述样本带噪音频集包括第一带噪音频集和第二带噪音频集；所述第一带噪音频集中的每个第

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的音频降噪方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的音频降噪方法的步骤。

...

【技术特征摘要】

1.一种音频降噪方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述当前声纹特征，对所述用户的历史声纹特征进行更新，得到所述用户的声纹特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述用户的声纹特征包括...

【专利技术属性】
技术研发人员：陈洲旋，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人