一种音频数据处理方法、装置以及可读存储介质制造方法及图纸

技术编号：40770177 阅读：3 留言：0更新日期：2024-03-25 20:18

本申请公开了一种音频数据处理方法、装置以及可读存储介质，该方法包括：获取与原始音频数据相关联的目标音频数据帧和K个历史音频数据帧；基于获取到的目标音频数据帧的N个目标倒频谱系数，获取M个一阶时间导数和M个二阶时间导数；获取每个历史音频数据帧分别对应的N个历史倒频谱系数，基于获取到的K*N个历史倒频谱系数确定频谱动态特征；将N个目标倒频谱系数、M个一阶时间导数、M个二阶时间导数以及频谱动态特征输入至目标掩码估计模型，得到目标音频数据帧对应的目标掩码；目标掩码用于抑制原始音频数据中的噪声数据，以得到原始音频数据对应的增强音频数据。采用本申请，可以有效抑制音频数据中的噪声数据，且提升语音保真度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种音频数据处理方法、装置以及可读存储介质。

技术介绍

1、目前，在一些音视频采集业务场景(例如，音视频会议场景)下，需要对音频数据进行采集，然而，在采集到的这些音频数据中，极易存在对当前音频数据中的目标语音造成干扰的非平稳噪声(non-stationary noise)，以至于在当前采集到的音频数据中降低了目标语音的采集质量。

2、然而，在这些非平稳噪声中，还可能存在一种由多个说话人的交谈声组成的babble noise，这里的babble noise是一种极易对当前音频数据中的目标语音造成语音干扰的非平稳背景噪声。由于这种非平稳背景噪声的噪声数据的成分与该目标语音的语音数据的成分类似，容易在对并存有该非平稳背景噪声的目标语音进行语音增强处理时，将该目标语音中与该非平稳背景噪声具有相似语音成分的语音数据进行误消，从而会降低对音频数据进行噪声抑制后的语音保真度。

技术实现思路

1、本申请实施例提供了一种音频数据处理方法、装置以及可读存储介质，可以有效抑制音频数据中的噪声数据，且提升语音保真度。

2、本申请实施例一方面提供了一种音频数据处理方法，包括：

3、获取与原始音频数据相关联的目标音频数据帧和k个历史音频数据帧；目标音频数据帧和k个历史音频数据帧均为频谱帧，且k个历史音频数据帧中的每个历史音频数据帧均为目标音频数据帧之前的频谱帧，k为正整数；

4、在获取到目标音频数据帧的n个目标倒频谱系数时，基于n个目标

5、获取每个历史音频数据帧分别对应的n个历史倒频谱系数，基于获取到的k*n个历史倒频谱系数确定与目标音频数据帧相关联的频谱动态特征；

6、将n个目标倒频谱系数、m个一阶时间导数、m个二阶时间导数以及频谱动态特征输入至目标掩码估计模型，由目标掩码估计模型输出目标音频数据帧对应的目标掩码；目标掩码用于抑制原始音频数据中的噪声数据，以得到原始音频数据对应的增强音频数据。

7、本申请实施例一方面提供了一种音频数据处理方法，包括：

8、获取与样本音频数据相关联的目标样本音频数据帧和k个历史样本音频数据，且获取目标样本音频数据帧对应的样本掩码；目标样本音频数据帧和k个历史样本音频数据帧均为频谱帧，且k个历史样本音频数据帧中的每个历史样本音频数据帧均为目标样本音频数据帧之前的频谱帧，k为正整数；

9、在获取到目标样本音频数据帧的n个目标样本倒频谱系数时，基于n个目标样本倒频谱系数，获取与目标样本音频数据帧相关联的m个样本一阶时间导数和m个样本二阶时间导数；n为大于1的正整数，m为小于n的正整数；

10、获取每个历史样本音频数据帧分别对应的n个历史样本倒频谱系数，基于获取到的k*n个历史样本倒频谱系数确定与目标样本音频数据帧相关联的样本频谱动态特征；

11、将n个目标样本倒频谱系数、m个样本一阶时间导数、m个样本二阶时间导数以及样本频谱动态特征输入至初始掩码估计模型，由初始掩码估计模型输出目标样本音频数据帧对应的预测掩码；

12、基于预测掩码和样本掩码对初始掩码估计模型进行迭代训练，得到用于输出与原始音频数据相关联的目标音频数据帧所对应的目标掩码的目标掩码估计模型；目标掩码用于抑制原始音频数据中的噪声数据，以得到原始音频数据对应的增强音频数据。

13、本申请实施例一方面提供了一种音频数据处理装置，包括：

14、第一获取模块，用于获取与原始音频数据相关联的目标音频数据帧和k个历史音频数据帧；目标音频数据帧和k个历史音频数据帧均为频谱帧，且k个历史音频数据帧中的每个历史音频数据帧均为目标音频数据帧之前的频谱帧，k为正整数；

15、第二获取模块，用于在获取到目标音频数据帧的n个目标倒频谱系数时，基于n个目标倒频谱系数，获取与目标音频数据帧相关联的m个一阶时间导数和m个二阶时间导数；n为大于1的正整数，m为小于n的正整数；

16、第三获取模块，用于获取每个历史音频数据帧分别对应的n个历史倒频谱系数，基于获取到的k*n个历史倒频谱系数确定与目标音频数据帧相关联的频谱动态特征；

17、掩码估计模块，用于将n个目标倒频谱系数、m个一阶时间导数、m个二阶时间导数以及频谱动态特征输入至目标掩码估计模型，由目标掩码估计模型输出目标音频数据帧对应的目标掩码；目标掩码用于抑制原始音频数据中的噪声数据，以得到原始音频数据对应的增强音频数据。

18、其中，上述第一获取模块包括：

19、音频预处理单元，用于对原始音频数据进行分帧加窗预处理，得到h个音频数据段；h为大于1的正整数；

20、时频变换单元，用于分别对每个音频数据段进行时频变换，得到每个音频数据段分别对应的音频数据帧；

21、数据帧确定单元，用于在h个音频数据帧中确定目标音频数据帧以及目标音频数据帧之前的k个历史音频数据帧；k小于h。

22、其中，h个音频数据段包括音频数据段i，i为小于或等于h的正整数；

23、上述时频变换单元，具体用于对音频数据段i进行傅立叶变换，得到音频数据段i在频域中的直流分量频点和2s个频点；2s个频点包括与第一频点类型相关的s个频点和与第二频点类型相关的s个频点；s为正整数；在2s个频点中获取与第一频点类型相关的s个频点，基于与第一频点类型相关的s个频点和直流分量频点确定音频数据段i对应的音频数据帧。

24、其中，目标音频数据帧包含有s1个频点，s1个频点包括一个直流分量频点以及与频点类型相关的s2个频点，s1和s2均为正整数；

25、上述装置还包括：

26、频带映射模块，用于将s1个频点映射到n个声学频带上；s1大于或等于n；

27、倒谱处理模块，用于分别对每个声学频带进行倒谱处理，得到每个声学频带分别对应的目标倒频谱系数。

28、其中，n个声学频带包括声学频带j，j为小于或等于n的正整数；

29、上述倒谱处理模块包括：

30、能量获取单元，用于获取声学频带j的频带能量，对声学频带j的频带能量进行对数变换，得到声学频带j的对数频带能量；

31、余弦变换单元，用于对声学频带j的对数频带能量进行离散余弦变换，得到声学频带j对应的目标倒频谱系数。

32、其中，上述第二获取模块包括：

33、第一差分单元，用于对n个目标倒频谱系数进行差分运算，得到(n-1)个差分运算值，将(n-1)个差分运算值中的每个差分运算值作为对应目标倒频谱系数的一阶时间导数，在(n-1)个一阶时间导数中获取与目标音频数据帧相关联的m个一阶时间导数；

34、第二差分单元，用于对(n-1)个一阶时间导数进行二次差分运算，得到(n-2)个差分运算值，将(n-2)本文档来自技高网...

【技术保护点】

1.一种音频数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取与原始音频数据相关联的目标音频数据帧和K个历史音频数据帧，包括：

3.根据权利要求2所述的方法，其特征在于，所述H个音频数据段包括音频数据段i，i为小于或等于H的正整数；

4.根据权利要求1所述的方法，其特征在于，所述目标音频数据帧包含有S1个频点，所述S1个频点包括一个直流分量频点以及与频点类型相关的S2个频点，S1和S2均为正整数；所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述N个声学频带包括声学频带j，j为小于或等于N的正整数；

6.根据权利要求1所述的方法，其特征在于，所述基于所述N个目标倒频谱系数，获取与所述目标音频数据帧相关联的M个一阶时间导数和M个二阶时间导数，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述每个历史音频数据帧分别对应的N个历史倒频谱系数，基于获取到的K*N个历史倒频谱系数确定与所述目标音频数据帧相关联的频谱动态特征，包括：

8.根据权利要求

9.根据权利要求1所述的方法，其特征在于，所述目标掩码估计模型包括掩码估计网络层和掩码输出层；

10.根据权利要求9所述的方法，其特征在于，所述掩码估计网络层包括存在跳跃连接的第一掩码估计网络层、第二掩码估计网络层以及第三掩码估计网络层；

11.根据权利要求1所述的方法，其特征在于，还包括：

12.一种音频数据处理方法，其特征在于，包括：

13.一种音频数据处理装置，其特征在于，包括：

14.一种音频数据处理装置，其特征在于，包括：

15.一种计算机设备，其特征在于，包括：处理器和存储器；

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，该计算机指令适于由处理器读取并执行，以使具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。

...

【技术特征摘要】

1.一种音频数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取与原始音频数据相关联的目标音频数据帧和k个历史音频数据帧，包括：

3.根据权利要求2所述的方法，其特征在于，所述h个音频数据段包括音频数据段i，i为小于或等于h的正整数；

4.根据权利要求1所述的方法，其特征在于，所述目标音频数据帧包含有s1个频点，所述s1个频点包括一个直流分量频点以及与频点类型相关的s2个频点，s1和s2均为正整数；所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述n个声学频带包括声学频带j，j为小于或等于n的正整数；

6.根据权利要求1所述的方法，其特征在于，所述基于所述n个目标倒频谱系数，获取与所述目标音频数据帧相关联的m个一阶时间导数和m个二阶时间导数，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述每个历史音频数据帧分别对应的n个历史倒频谱系数，基于获取到的k*n个历史倒频谱系数确定与所述目标音频数据帧相关联的频谱动态特征，包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述第一历史倒频谱系数与所述第二历史倒频谱系数之间的频带差异值，...

【专利技术属性】
技术研发人员：黄代玉，鲍枫，李岳鹏，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人