System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音频提取方法、装置、电子设备及存储介质制造方法及图纸_技高网

音频提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40947419 阅读:9 留言:0更新日期:2024-04-18 20:20
本公开实施例提供一种音频提取方法、装置、电子设备及存储介质。该方法包括:获取待处理混合音频,所述待处理混合音频中混合有与目标音频事件对应的目标音频;对所述待处理混合音频进行短时傅立叶变换处理,得到所述待处理混合音频的音频幅度谱特征;获取与所述目标音频事件对应的待处理图像;将所述待处理图像输入图像特征提取网络进行处理,获得所述待处理图像的图像特征;将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频。该方法能够准确地从混合音频中提取与目标对象类别对应的预测音频,提高了音频提取的准确性。

【技术实现步骤摘要】

本公开涉及计算机,具体而言,涉及一种音频提取方法、音频提取装置、电子设备以及计算机可读存储介质。


技术介绍

1、随着计算机技术的快速发展,音频作为信息传递的主要载体之一,在实际生产生活中的作用越来越重要。现实生活中,目标音频信号容易受到环境和背景音频的干扰,需要从混合音频中提取获得目标音频。

2、相关技术中的音频提取过程,主要集中在对“人”的声音进行处理,例如语音分离、语音增强和目标说话人分离等;这种音频提取过程在针对包括多种对象类别的混合音频进行音频提取时的准确性较差,且无法从中提取获得某种对象类别对应的目标音频。


技术实现思路

1、本公开实施例提供一种音频提取方法、音频提取装置、电子设备以及计算机可读存储介质,该方法将与目标音频事件对应的图像特征作为从混合音频提取的与目标音频事件对应的预测音频的驱动图像,使得音频分离模型能够更加准确地从混合音频中提取与目标音频事件对应的预测音频,提高了音频提取准确性。

2、本公开实施例提供一种音频提取模型的训练方法,该方法包括:获取待处理混合音频,所述待处理混合音频中混合有与目标音频事件对应的目标音频;对所述待处理混合音频进行短时傅立叶变换处理,得到所述待处理混合音频的音频幅度谱特征;获取与所述目标音频事件对应的待处理图像;将所述待处理图像输入图像特征提取网络进行处理,获得所述待处理图像的图像特征;将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频。

3、在本公开的一些示例性实施例中,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频,包括:将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频的音频幅度谱特征;对所述目标音频的音频幅度谱特征进行逆短时傅立叶变换处理,获得所述目标音频。

4、在本公开的一些示例性实施例中,所述音频分离模型包括多个融合模块,所述多个融合模块包括第一个融合模块、至少一个中间融合模块和最后一个融合模块;其中,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频的音频幅度谱特征,包括:将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入所述第一个融合模块进行处理,获得所述第一个融合模块的输出特征;将所述待处理图像的图像特征和各个所述中间融合模块的上一融合模块的输出特征输入所述中间融合模块进行处理,获得所述中间融合模块的输出特征;将所述待处理图像的图像特征和所述最后一个融合模块的上一融合模块的输出特征输入所述最后一个融合模块进行处理,获得所述目标音频的音频幅度谱特征。

5、在本公开的一些示例性实施例中,所述第一个融合模块包括第一特征线性调制层、多头自注意力层、卷积层和第二特征线性调制层;其中,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入所述第一个融合模块进行处理,获得所述第一个融合模块的输出特征,包括:通过所述第一特征线性调制层对所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征进行处理,获得第一中间特征;通过所述多头自注意力层和所述卷积层对所述第一中间特征进行处理,获得第二中间特征;通过所述第二特征线性调制层对所述第二中间特征和所述待处理图像的图像特征进行处理,获得所述第一个融合模块的输出特征。

6、在本公开的一些示例性实施例中,所述音频分离模型通过下述方式训练得到:获取与所述目标音频事件对应的多个第一训练音频、与其他音频事件对应的多个第二训练音频、以及与所述目标音频事件对应的多个训练图像;从所述多个第一训练音频中随机确定目标第一训练音频,从所述多个第二训练音频中随机确定至少一个目标训练第二音频,从所述多个训练图像中随机确定目标训练图像;将所述目标第一训练音频和所述至少一个目标第二训练音频进行混合处理,获得训练混合音频;对所述训练混合音频进行短时傅立叶变换处理,得到所述训练混合音频的音频幅度谱特征;将所述目标训练图像输入所述图像特征提取网络进行处理,获得所述目标训练图像的图像特征;将所述训练混合音频的音频幅度谱特征和所述目标训练图像的图像特征输入至待训练的音频分离网络进行处理,获得预测音频的音频幅度谱特征;对所述预测音频的音频幅度谱特征进行逆短时傅立叶变换处理,获得与所述目标音频事件对应的预测音频;根据所述目标第一训练音频和所述预测音频对所述待训练的音频分离模型进行训练,以获得所述音频分离模型。

7、在本公开的一些示例性实施例中,所述根据所述目标第一训练音频和所述预测音频对所述待训练的音频分离模型进行训练,以获得所述音频分离模型,包括:根据所述目标第一训练音频和所述预测音频确定第一损失;对所述目标第一训练音频进行短时傅立叶变换处理,得到所述目标第一训练音频的音频幅度谱特征;根据所述目标第一训练音频的音频幅度谱特征和所述预测音频的音频幅度谱特征确定第二损失;根据所述第一损失和所述第二损失调整所述待训练的音频分离模型的模型参数,以获得所述音频分离模型。

8、在本公开的一些示例性实施例中,所述将所述目标第一训练音频和所述至少一个目标第二训练音频进行混合处理,获得训练混合音频,包括:将所述目标第一训练音频和所述多个目标第二训练音频基于随机的信噪比进行混合处理,获得所述训练混合音频;其中,所述多个目标第二训练音频与至少两种其他音频事件对应。

9、本公开实施例提供一种音频提取装置,包括:获取模块,被配置为执行获取待处理混合音频,所述混合音频中混合有与目标音频事件对应的目标音频;处理模块,被配置为执行对所述待处理混合音频进行短时傅立叶变换处理,得到所述待处理混合音频的音频幅度谱特征;所述获取模块还被配置为执行获取与所述目标音频事件对应的待处理图像;所述处理模块还被配置为执行将所述待处理图像输入图像特征提取网络进行处理,获得所述待处理图像的图像特征;获得模块,被配置为执行将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频。

10、本公开实施例提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行可执行指令,以实现如上述任一音频提取方法。

11、本公开实施例提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一音频提取方法。

12、本公开实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述任一音频提取方法。

13、本公开实施例提供的音频提取方法,获取待处理混合音频,混合音频中混合有与目标音频事件对应的目标音频,获取与目标音频事件对应的待处理图像,对待处理混合音频进行短时傅立叶变换处理,得到待处理混合音频的音频幅度谱特征;将待处理图像输入图像特征提取网络进行处理,获得待处理图像的图像特征;将待处理混合音频的音频本文档来自技高网...

【技术保护点】

1.一种音频提取方法,其特征在于,包括:

2.根据权利要求1所述的音频提取方法,其特征在于,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频,包括:

3.根据权利要求2所述的音频提取方法,其特征在于,所述音频分离模型包括多个融合模块,所述多个融合模块包括第一个融合模块、至少一个中间融合模块和最后一个融合模块;

4.根据权利要求3所述的音频提取方法,其特征在于,所述第一个融合模块包括第一特征线性调制层、多头自注意力层、卷积层和第二特征线性调制层;

5.根据权利要求1所述的音频提取方法,其特征在于,所述音频分离模型通过下述方式训练得到:

6.根据权利要求5所述的音频提取方法,其特征在于,所述根据所述目标第一训练音频和所述预测音频对所述待训练的音频分离模型进行训练,以获得所述音频分离模型,包括:

7.根据权利要求5所述的音频提取方法,其特征在于,所述将所述目标第一训练音频和所述至少一个目标第二训练音频进行混合处理,获得训练混合音频,包括:

8.一种音频提取装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的音频提取方法。

...

【技术特征摘要】

1.一种音频提取方法,其特征在于,包括:

2.根据权利要求1所述的音频提取方法,其特征在于,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频,包括:

3.根据权利要求2所述的音频提取方法,其特征在于,所述音频分离模型包括多个融合模块,所述多个融合模块包括第一个融合模块、至少一个中间融合模块和最后一个融合模块;

4.根据权利要求3所述的音频提取方法,其特征在于,所述第一个融合模块包括第一特征线性调制层、多头自注意力层、卷积层和第二特征线性调制层;

5.根据权利要求1所述的音频提取方法,其特征在于,所述音频分离模型通过...

【专利技术属性】
技术研发人员:王洋邓峰张富峥
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1