音频处理方法、装置、设备及存储介质制造方法及图纸

技术编号：40356185 阅读：8 留言：0更新日期：2024-02-09 14:41

本发明专利技术提供了一种音频处理方法、装置、设备及存储介质，该方法包括：获取音频处理请求，并根据音频处理请求获取目标音频信号；对目标音频信号的当前播放场景进行音频采集，得到当前播放场景的场景音频信号，并对场景音频信号进行环境分析，得到当前播放场景的环境条件；对目标音频信号进行特征提取，得到对应的目标音频特征，并将目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；控制限幅器基于动态限制参数和环境条件对目标音频信号进行限制处理。本方法根据目标音频特征和环境条件预测出动态限制参数，使得限幅器能够根据实时情况进行自适应的限制处理。能够更加准确地控制音频信号的输出，提高处理质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频处理领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

技术介绍

1、在音频制作和音乐产业中，音频限制处理是一个常见的技术，旨在确保音频信号在播放时具有适当的音量和平衡。随着音频产业的发展，音乐和广播领域对于更高音量的需求不断增加，这促使了对音频动态范围的限制处理的需求。在音频限制处理中，通常会使用到限幅器，限幅器是一种动态范围处理器，用于限制音频信号的幅度，将其限制在预设的范围内。它通过监测音频信号的振幅，并根据设定的阈值进行调整，使得超过阈值的部分被削减，从而控制音频信号的最大幅度，然而，由于限幅器是一种静态处理器，它会简单地削减超过阈值的信号部分。这可能导致整个音频信号的动态范围被压缩，使得音频听起来较为平坦，缺乏细节和冲击力。

技术实现思路

1、本专利技术的主要目的在于解决现有的使用限幅器进行音频处理容易导致音频缺乏细节和冲击力的技术问题。

2、本专利技术第一方面提供了一种音频处理方法，所述音频处理方法包括：

3、获取音频处理请求，并根据所述音频处理请求获取目标音频信号；

4、对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件；

5、对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数；

6、控制所述限幅器基于所述动态

7、可选的，在本专利技术第一方面的第一种实现方式中，所述对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件包括：

8、对当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行特征提取，得到多种场景目标音频特征，其中，所述场景目标音频特征包括数值特征和图像特征；

9、将所述数值特征和图像特征输入预设的环境分类模型中，通过所述环境分类模型的注意力机制层分别计算所述数值特征和所述图像特征的注意力权重向量；

10、通过所述环境分类模型中的特征融合层根据所述权重向量对所述数值特征和所述图像特征进行加权融合，得到融合特征向量；

11、通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件。

12、可选的，在本专利技术第一方面的第二种实现方式中，所述通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件包括：

13、通过所述分类层将所述融合特征向量线性变换映射至高维特征空间，得到线性变换结果；

14、通过预设的激活函数对所述线性变换结果进行非线性变换，得到非线性变换结果；

15、通过所述分类层中的全连接层根据所述非线性变换结果计算所述场景音频信号的对应不同场景类别的概率；

16、将概率最高的场景类别作为所述场景音频信号的场景分类，得到所述当前播放场景的环境条件。

17、可选的，在本专利技术第一方面的第三种实现方式中，所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数包括：

18、对所述目标音频信号进行特征提取，得到所述目标音频信号的时频图谱特征；

19、将所述时频图谱特征输入所述限制参数预测模型中，其中所述限制参数预测模型包括循环层、注意力机制层和输出层；

20、通过所述循环层将所述时频图谱特征进行时间步划分，并生成所述时频图谱特征对应的第一隐藏状态和各时间步对应的第二隐藏状态；

21、根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态；

22、将所述第三隐藏状态输入至所述输出层，得到限幅器对应的动态限制参数。

23、可选的，在本专利技术第一方面的第四种实现方式中，所述根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态包括：

24、分别计算各时间步对应的第二隐藏状态与所述第一隐藏状态之间的相似度；

25、将所述相似度进行归一化处理，得到各时间步对应的注意力权重；

26、根据所述注意力权重对所述第二隐藏状态进行加权求和，得到注意力向量；

27、将所述注意力向量与所述第一隐藏状态进行融合处理，得到第三隐藏状态。

28、可选的，在本专利技术第一方面的第五种实现方式中，在所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数之前，还包括：

29、对获取历史音频信号以及所述历史音频信号对应的历史动态参数，并对所述历史音频信号进行数据预处理和特征提取，得到历史音频特征；

30、将所述历史音频特征输入预设的初始模型中，通过所述初始模型中的循环层、注意力机制层和输出层，得到限制参数预测结果；

31、根据所述限制参数预测结果和所述历史动态参数计算预设的损失函数值，并判断所述损失函数值是否小于预设损失阈值；

32、若否，则根据所述损失函数值对所述初始模型进行参数调整，并返回至将所述历史音频特征输入预设的初始模型中的步骤，直至所述损失函数值小于预设损失阈值；

33、若是，则将所述初始模型作为所述限制参数预测模型。

34、可选的，在本专利技术第一方面的第六种实现方式中，所述动态限制参数包括振幅阈值、压缩比、攻击时间、释放时间和输出增益；

35、所述控制所述限幅器基于所述动态限制参数和所述环境条件对所述目标音频信号进行限制处理，并在所述当前播放场景输出限制处理后的目标音频信号包括：

36、实时检测所述目标音频信号的动态范围是否大于所述动态限制参数中的振幅阈值；

37、若是，则根据所述环境条件确定所述目标音频信号的处理模式，并控制所述限幅器根据所述压缩比、攻击时间、释放时间和所述处理模式对所述目标音频信号进行压缩处理；

38、控制所述限幅器根据所述输出增益对所述压缩处理后的信号进行增益处理，并在所述当前播放场景输出增益处理后的目标音频信号。

39、本专利技术第二方面提供了一种音频处理装置，所述音频处理装置包括：

40、获取模块，用于获取音频处理请求，并根据所述音频处理请求获取目标音频信号；

4本文档来自技高网...

【技术保护点】

1.一种音频处理方法，其特征在于，所述音频处理方法包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述对所述目标音频信号的当前播放场景进行音频采集，得到所述当前播放场景的场景音频信号，并对所述场景音频信号进行环境分析，得到所述当前播放场景的环境条件包括：

3.根据权利要求2所述的音频处理方法，其特征在于，所述通过所述环境分类模型中的分类层根据所述融合特征向量计算所述场景音频信号的场景分类，得到所述当前播放场景的环境条件包括：

4.根据权利要求1所述的音频处理方法，其特征在于，所述对所述目标音频信号进行特征提取，得到对应的目标音频特征，并将所述目标音频特征输入预设的限制参数预测模型中，得到限幅器对应的动态限制参数包括：

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力权重，并根据所述注意力权重对第一隐藏状态和所述第二隐藏状态进行加权求和，得到第三隐藏状态包括：

6.根据权利要求5所述的音频处理方法，其特征在于，在所述对所述目标音频信号进行特征提取

7.根据权利要求1所述的音频处理方法，其特征在于，所述动态限制参数包括振幅阈值、压缩比、攻击时间、释放时间和输出增益；

8.一种音频处理装置，其特征在于，所述音频处理装置包括：

9.一种音频处理设备，其特征在于，所述音频处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述音频处理方法的步骤。

...

【技术特征摘要】

1.一种音频处理方法，其特征在于，所述音频处理方法包括：

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据所述第一隐藏状态和所述第二隐藏状态计算各时间步对应的注意力...

【专利技术属性】
技术研发人员：焦其金，张洋，张羽，
申请(专利权)人：深圳瑞利声学技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人