音频修复方法、装置、程序、介质和设备制造方法及图纸

技术编号：41364177 阅读：5 留言：0更新日期：2024-05-20 10:12

本公开提供一种音频修复方法、音频修复装置、计算机程序产品、计算机可读存储介质和电子设备。方法包括：将受损音频输入第一阶段模型，得到复数谱；将复数谱输入第二阶段模型，得到修复音频。其中，第一阶段模型包括：编码器，用于对复数谱进行下采样；解码器，用于对复数谱进行上采样。其中，第二阶段模型包括：全带模块，用于在全部频带上对复数谱进行建模；子带模块，用于在多个子频带上对复数谱进行建模。根据本公开，能够针对复杂多样的音频失真问题进行修复。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及音频处理，尤其涉及一种音频修复方法、音频修复装置、计算机程序产品、计算机可读存储介质和电子设备。

技术介绍

1、本领域中存在通过两阶段模型用于音频修复的技术方案。现有的两阶段模型的音频修复效果仍然不能满足要求，因为音频修复面临多种类型的噪声和失真，并且不同频带上的失真效果可能不一样，现有的两阶段模型难以覆盖如此多类型的音频质量问题。因此，本领域亟需一种能够针对复杂多样的音频失真问题进行修复的音频修复模型。。

技术实现思路

1、为此，本公开提供一种音频修复方法、音频修复装置、计算机程序产品、计算机可读存储介质和电子设备，其能够针对复杂多样的音频失真问题进行修复。

2、在一方面，本公开提供一种音频修复方法，包括：将受损音频输入第一阶段模型，得到复数谱；将复数谱输入第二阶段模型，得到修复音频。其中，第一阶段模型包括：编码器，用于对复数谱进行下采样；解码器，用于对复数谱进行上采样。其中，第二阶段模型包括：全带模块，用于在全部频带上对复数谱进行建模；子带模块，用于在多个子频带上对复数谱进行建模。

3、在本公开一特别实施例中，第一阶段模型还包括：短时傅里叶变换模块，用于通过短时傅里叶变换将受损音频转变成复数谱；时序建模模块，用于在时间维度上进一步提取复数谱的特征。

4、在本公开一特别实施例中，编码器包括多个堆叠的下采样模块，下采样模块包括：二维门控卷积模块，用于对复数谱进行门控卷积；时频卷积模块，用于对复数谱在时间维度和频率维度上进行卷积；轴向自注

5、在本公开一特别实施例中，第二阶段模型还包括：复数特征编码器，用于提取复数谱中的高维特征；复数特征解码器，用于将复数谱中的高维特征还原到低维。

6、在本公开一特别实施例中，在将受损音频输入第一阶段模型，得到复数谱之前，方法还包括：采用生成式对抗网络的训练方式训练第一阶段模型；在特定的音频修复任务上训练第二阶段模型；采用生成式对抗网络的训练方式训练级联后的第一阶段模型和第二阶段模型；对多个输入音频中对应的用于衡量修复效果的损失函数的值在训练结束后仍然高于阈值的输入音频进行仿真，生成多个仿真音频，并通过多个仿真音频训练级联后的第一阶段模型和第二阶段模型。

7、在本公开一特别实施例中，采用生成式对抗网络的训练方式训练第一阶段模型，包括：将第一阶段模型作为生成式对抗网络的生成器，将第一判别器作为生成式对抗网络的判别器，从而采用生成式对抗网络的训练方式训练第一阶段模型；其中，第一判别器包括多个第一子判别器，第一子判别器包括多个堆叠的二维卷积模块，二维卷积模块用于对输入音频的幅度谱进行卷积。

8、在本公开一特别实施例中，采用生成式对抗网络的训练方式训练第一阶段模型，包括：将第一阶段模型作为生成式对抗网络的生成器，将第二判别器作为生成式对抗网络的判别器，从而采用生成式对抗网络的训练方式训练第一阶段模型。其中，第二判别器包括多个第二子判别器，第二子判别器包括多个并联的子带判别器模块，不同的子带判别器模块用于对输入音频被划分成的不同频带的复数谱进行判别，子带判别器模块包括多个堆叠的二维卷积模块，二维卷积模块用于对复数谱进行卷积。

9、在另一方面，本公开提供一种音频修复装置，装置包括：第一阶段模块，用于将受损音频输入第一阶段模型，得到复数谱；第二阶段模块，用于将复数谱输入第二阶段模型，得到修复音频。其中，第一阶段模型包括：编码器，用于对受损音频转变成的复数谱进行下采样；解码器，用于对复数谱进行上采样。其中，第二阶段模型包括：全带模块，用于在全部频带上对复数谱进行建模；子带模块，用于在多个子频带上对复数谱进行建模。

10、在本公开一特别实施例中，第一阶段模型还包括：短时傅里叶变换模块，用于通过短时傅里叶变换将受损音频转变成复数谱；时序建模模块，用于在时间维度上进一步提取复数谱的特征。

11、在本公开一特别实施例中，编码器包括多个堆叠的下采样模块，下采样模块包括：二维门控卷积模块，用于对复数谱进行门控卷积；时频卷积模块，用于对复数谱在时间维度和频率维度上进行卷积；轴向自注意力模块，用于对复数谱进行注意力机制的计算。其中，解码器包括多个堆叠的上采样模块，上采样模块包括：二维门控转置卷积模块，用于对复数谱进行门控转置卷积；时频卷积模块，用于对复数谱在时间维度和频率维度上进行卷积；轴向自注意力模块，用于对复数谱进行注意力机制的计算。

12、在本公开一特别实施例中，第二阶段模型还包括：复数特征编码器，用于提取复数谱中的高维特征；复数特征解码器，用于将复数谱中的高维特征还原到低维。

13、在本公开一特别实施例中，装置被进一步配置成：采用生成式对抗网络的训练方式训练第一阶段模型；在特定的音频修复任务上训练第二阶段模型；采用生成式对抗网络的训练方式训练级联后的第一阶段模型和第二阶段模型；对多个输入音频中对应的用于衡量修复效果的损失函数的值在训练结束后仍然高于阈值的输入音频进行仿真，生成多个仿真音频，并通过多个仿真音频训练级联后的第一阶段模型和第二阶段模型。

14、在本公开一特别实施例中，装置被进一步配置成：将第一阶段模型作为生成式对抗网络的生成器，将第一判别器作为生成式对抗网络的判别器，从而采用生成式对抗网络的训练方式训练第一阶段模型。其中，第一判别器包括多个第一子判别器，第一子判别器包括多个堆叠的二维卷积模块，二维卷积模块用于对输入音频的幅度谱进行卷积。

15、在本公开一特别实施例中，装置被进一步配置成：将第一阶段模型作为生成式对抗网络的生成器，将第二判别器作为生成式对抗网络的判别器，从而采用生成式对抗网络的训练方式训练第一阶段模型。其中，第二判别器包括多个第二子判别器，第二子判别器包括多个并联的子带判别器模块，不同的子带判别器模块用于对输入音频被划分成的不同频带的复数谱进行判别，子带判别器模块包括多个堆叠的二维卷积模块，二维卷积模块用于对复数谱进行卷积。

16、在另一方面，本公开提供一种计算机程序产品，包括计算机程序，上述计算机程序被处理器执行时实现上述的音频修复方法。

17、在另一方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，当上述计算机程序在计算机中执行时，令上述计算机执行上述的音频修复方法。

18、在另一方面，本公开提供一种电子设备，包括存储器和处理器，上述存储器中存储有可执行代码，上述处理器执行上述可执行代码时，实现上述的音频修复方法。

19、根据本公开，通过在第一阶段模型中设置编码器和解码器，有利于提取受损音频中的高维特征，以便对各种音频失真问题进行修复。另外，通过在第二阶段模型中设置全带模块和子带模块，本文档来自技高网...

【技术保护点】

1.一种音频修复方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一阶段模型还包括：

3.根据权利要求2所述的方法，其特征在于，所述编码器包括多个堆叠的下采样模块，所述下采样模块包括：

4.根据权利要求1所述的方法，其特征在于，所述第二阶段模型还包括：

5.根据权利要求1所述的方法，其特征在于，在所述将受损音频输入第一阶段模型，得到复数谱之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述采用生成式对抗网络的训练方式训练所述第一阶段模型，包括：

7.根据权利要求5所述的方法，其特征在于，所述采用生成式对抗网络的训练方式训练所述第一阶段模型，包括：

8.一种音频修复装置，其特征在于，所述装置包括：

9.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的音频修复方法。

10.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1-7

11.一种电子设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的音频修复方法。

...

【技术特征摘要】

1.一种音频修复方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一阶段模型还包括：

3.根据权利要求2所述的方法，其特征在于，所述编码器包括多个堆叠的下采样模块，所述下采样模块包括：

4.根据权利要求1所述的方法，其特征在于，所述第二阶段模型还包括：

5.根据权利要求1所述的方法，其特征在于，在所述将受损音频输入第一阶段模型，得到复数谱之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述采用生成式对抗网络的训练方式训练所述第一阶段模型，包括：

7.根据权利要求5所...

【专利技术属性】
技术研发人员：夏咸军，刘铭帅，肖益剑，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人