System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 立体声合成方法、模型构建方法、装置、设备及存储介质制造方法及图纸_技高网

立体声合成方法、模型构建方法、装置、设备及存储介质制造方法及图纸

技术编号:45057940 阅读:3 留言:0更新日期:2025-04-22 17:40
本公开提供一种立体声合成方法、模型构建方法、装置、设备及存储介质。音频处理模型包括声音事件定位与分类网络和声源分离网络。立体声合成方法包括:获取待处理的音频流;将所述待处理的音频流输入音频处理模型中,以由所述声音事件定位与分类网络对所述音频流进行声音事件分类和声源方位估计,得到至少一个声音事件的类别和方位,并由所述声源分离网络根据所述至少一个声音事件的类别和方位对所述混合音频进行分离处理,得到各个声音事件的音频信号,输出至少一个声音事件中的各个声音事件的方位和音频信号;根据至少一个声音事件中的各个声音事件的方位对至少一个声音事件分别对应的音频信号进行混音处理,合成立体声。

【技术实现步骤摘要】

本公开涉及音频处理,尤其涉及一种音频处理模型的构建方法、基于音频处理模型的立体声合成方法、装置、电子设备及计算机可读存储介质。


技术介绍

1、立体声合成是指通过计算机技术将音频信号转换为具有空间感的立体声音频信号的过程。立体声合成技术可以为听众提供更加真实、逼真的听觉体验,广泛应用于虚拟现实、游戏、电影等领域。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供了一种音频处理模型的构建方法、基于音频处理模型的立体声合成方法、装置、电子设备及计算机可读存储介质。

2、根据本公开实施例的第一方面,提供一种音频处理模型的构建方法,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述方法包括:

3、获取训练数据集,所述训练数据集中的训练样本包括至少两个声音事件分别对应的第一音频信号、第一类别和第一方位,以及由所述至少两个声音事件分别对应的第一音频信号混合得到的混合音频;

4、将所述训练数据集输入待训练的音频处理模型中,以由所述声音事件定位与分类网络根据所述混合音频进行声音事件分类和声源方位估计,得到至少一个声音事件的第二类别和第二方位,并由所述声源分离网络根据所述至少一个声音事件的第二类别和第二方位对所述混合音频进行分离处理,得到各个声音事件的第二音频信号,并以最小化所述第一音频信号和所述第二音频信号之间的误差、所述第一类别和所述第二类别之间的误差和所述第一方位和所述第二方位之间的误差为优化目标,对所述音频处理模型进行训练;

5、其中,所述音频处理模型用于基于输入的音频流,输出所述音频流包含的至少一个声音事件的方位和音频信号,以用于合成立体声。

6、本公开实施例中,一方面,采用了分步处理的方式,将音频处理任务拆分成多个步骤,由声音事件定位与分类网络获得声音事件的类别和方位,接着由声源分离网络对混合音频进行分离处理。每个步骤都相对简单且计算复杂度较低,这样一来,整个音频处理任务的计算复杂度就会大大降低。另一方面,声源分离网络在对混合音频进行分离处理时,参考了声音事件定位与分类网络获得的声音事件的类别和方位,可以使得声源分离网络准确且快速得分离出各个声音事件的音频信号,有助于降低处理延迟。综上,音频处理模型中的声音事件定位与分类网络和声源分离网络都是针对音频处理任务进行了优化和改进,经过训练使得其在处理声音事件定位、分类和分离的任务上具有较高的效率和性能,使得整个过程的计算复杂度较低,并且能够在较短的时间内完成处理。

7、根据本公开实施例的第二方面,提供一种基于音频处理模型的立体声合成方法,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述音频处理模型基于第一方面所述的方法构建得到;所述方法包括:

8、获取待处理的音频流;

9、将所述待处理的音频流输入音频处理模型中,以由所述声音事件定位与分类网络对所述音频流进行声音事件分类和声源方位估计,得到至少一个声音事件的类别和方位,并由所述声源分离网络根据所述至少一个声音事件的类别和方位对所述混合音频进行分离处理,得到各个声音事件的音频信号,输出至少一个声音事件中的各个声音事件的方位和音频信号;

10、根据至少一个声音事件中的各个声音事件的方位对至少一个声音事件分别对应的音频信号进行混音处理,合成立体声。

11、本公开实施例中,由于音频处理模型可以准确输出音频流包括的至少一个声音事件中的各个声音事件的方位和音频信号,以各个声音事件的方位作为参考,则通过简单的混音处理即可获取准确的立体声,在提高处理效率的同时保证立体声合成的准确性。

12、根据本公开实施例的第三方面,提供一种音频处理模型的构建装置,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述装置包括:

13、训练数据获取模块,用于获取训练数据集,所述训练数据集中的训练样本包括至少两个声音事件分别对应的第一音频信号、第一类别和第一方位,以及由所述至少两个声音事件分别对应的第一音频信号混合得到的混合音频;

14、模型训练模块,用于将所述训练数据集输入待训练的音频处理模型中,以由所述声音事件定位与分类网络根据所述混合音频进行声音事件分类和声源方位估计,得到至少一个声音事件的第二类别和第二方位,并由所述声源分离网络根据所述至少一个声音事件的第二类别和第二方位对所述混合音频进行分离处理,得到各个声音事件的第二音频信号,并以最小化所述第一音频信号和所述第二音频信号之间的误差、所述第一类别和所述第二类别之间的误差和所述第一方位和所述第二方位之间的误差为优化目标,对所述音频处理模型进行训练;其中,所述音频处理模型用于基于输入的音频流,输出所述音频流包含的至少一个声音事件的方位和音频信号,以用于合成立体声。

15、根据本公开实施例的第四方面,提供一种基于音频处理模型的立体声合成装置,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述音频处理模型基于第三方面所述的装置构建得到;所述装置包括:

16、音频流获取模块,用于获取待处理的音频流;

17、音频流处理模块,用于将所述待处理的音频流输入音频处理模型中,以由所述声音事件定位与分类网络对所述音频流进行声音事件分类和声源方位估计,得到至少一个声音事件的类别和方位,并由所述声源分离网络根据所述至少一个声音事件的类别和方位对所述混合音频流混合音频进行分离处理,得到各个声音事件的音频信号,输出至少一个声音事件中的各个声音事件的方位和音频信号;

18、立体声合成模块,用于根据至少一个声音事件中的各个声音事件的方位对至少一个声音事件分别对应的音频信号进行混音处理,合成立体声。

19、根据本公开实施例的第五方面,提供一种电子设备,包括:

20、处理器;

21、存储器,用于存储可由所述处理器执行的计算机程序;

22、其中,所述处理器执行所述程序时实现第一方面或第二方面所述方法的步骤。

23、根据本公开实施例的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面或第二方面所述方法的步骤。

24、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种音频处理模型的构建方法,其特征在于,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述声音事件定位与分类网络包括第一特征提取层、特征映射层、声音事件分类器和声源方位估计器;

3.根据权利要求2所述的方法,其特征在于,所述声音事件定位与分类网络还包括判断层和通道转换层;

4.根据权利要求2所述的方法,其特征在于,所述低维的第一音频特征包括所述混合音频的对数梅尔频谱;和/或

5.根据权利要求1所述的方法,其特征在于,所述声源分离网络包括第二特征提取层、拼接层和声源分离子网络;

6.根据权利要求5所述的方法,其特征在于,所述第二音频特征包括对所述混合音频进行短时傅里叶变换处理得到的特征。

7.根据权利要求5所述的方法,其特征在于,所述声源分离网络还包括转换层;

8.根据权利要求5所述的方法,其特征在于,所述声源分离网络还包括矩阵生成层;

9.根据权利要求5所述的方法,其特征在于,所述声源分离子网络包括U-Net神经网络;

10.根据权利要求1所述的方法,其特征在于,所述训练数据集包括第一训练数据集和第二训练数据集;

11.根据权利要求10所述的方法,其特征在于,所述训练数据集还包括第三训练数据集;

12.一种基于音频处理模型的立体声合成方法,其特征在于,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述音频处理模型基于权利要求1至11任意一项所述的方法构建得到;所述方法包括:

13.根据权利要求12所述的方法,其特征在于,所述声音事件定位与分类网络包括第一特征提取层、特征映射层、声音事件分类器和声源方位估计器;

14.根据权利要求13所述的方法,其特征在于,所述声音事件定位与分类网络还包括判断层和通道转换层;

15.根据权利要求12所述的方法,其特征在于,所述声源分离网络包括第二特征提取层、拼接层和声源分离子网络;

16.根据权利要求15所述的方法,其特征在于,所述声源分离网络还包括矩阵生成层;

17.根据权利要求15所述的方法,其特征在于,所述声源分离子网络包括U-Net神经网络;所述U-Net神经网络中的每一个神经网络层的输入数据至少包括所述至少一个声音事件分别对应的第二类别。

18.一种音频处理模型的构建装置,其特征在于,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述装置包括:

19.一种基于音频处理模型的立体声合成装置,其特征在于,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述音频处理模型基于权利要求18所述的装置构建得到;所述装置包括:

20.一种电子设备,其特征在于,包括:

21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1~17任一项所述方法的步骤。

...

【技术特征摘要】

1.一种音频处理模型的构建方法,其特征在于,所述音频处理模型包括声音事件定位与分类网络和声源分离网络;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述声音事件定位与分类网络包括第一特征提取层、特征映射层、声音事件分类器和声源方位估计器;

3.根据权利要求2所述的方法,其特征在于,所述声音事件定位与分类网络还包括判断层和通道转换层;

4.根据权利要求2所述的方法,其特征在于,所述低维的第一音频特征包括所述混合音频的对数梅尔频谱;和/或

5.根据权利要求1所述的方法,其特征在于,所述声源分离网络包括第二特征提取层、拼接层和声源分离子网络;

6.根据权利要求5所述的方法,其特征在于,所述第二音频特征包括对所述混合音频进行短时傅里叶变换处理得到的特征。

7.根据权利要求5所述的方法,其特征在于,所述声源分离网络还包括转换层;

8.根据权利要求5所述的方法,其特征在于,所述声源分离网络还包括矩阵生成层;

9.根据权利要求5所述的方法,其特征在于,所述声源分离子网络包括u-net神经网络;

10.根据权利要求1所述的方法,其特征在于,所述训练数据集包括第一训练数据集和第二训练数据集;

11.根据权利要求10所述的方法,其特征在于,所述训练数据集还包括第三训练数据集;

12.一种基于音频处理模型的立体声合成方法,其特征在于,所述音频处理模型包括声音事件定...

【专利技术属性】
技术研发人员:梁芸浩
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1