音频信号分离方法、装置、存储介质和电子设备制造方法及图纸

技术编号:31847816 阅读:52 留言:0更新日期:2022-01-12 13:29
本公开涉及一种音频信号分离方法、装置、存储介质和电子设备,其中方法包括:获取原始音频信号,其包括目标音频信号和背景音频信号;对原始音频信号进行短时傅里叶变换处理得到原始音频信号的频谱;将原始音频信号输入预设分离模型以得到目标音频信号对应的第一掩膜,基于第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱;基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱;将第一目标频谱输入语音增强模型以得到目标音频信号对应的第二掩膜,基于第二掩膜和第一目标频谱,确定目标音频信号对应的第二目标频谱;对第二目标频谱进行短时傅里叶逆变换处理得到目标音频信号。理得到目标音频信号。理得到目标音频信号。

【技术实现步骤摘要】
音频信号分离方法、装置、存储介质和电子设备


[0001]本公开实施例涉及音频信号处理
,尤其涉及一种音频信号分离方法、音频信号分离装置,以及实现音频信号分离方法的计算机可读存储介质和电子设备。

技术介绍

[0002]音乐课堂教学在教育领域发挥很大的作用,但是课堂上的音乐信号常常伴随着人声以及背景音乐如伴奏和噪声等,而音乐课堂常常需要提取出例如人声以更方便的教学,因此如何将人声从音乐信号中分离出来成为一个需要解决的问题。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种音频信号分离方法、音频信号分离装置,以及实现音频信号分离方法的计算机可读存储介质和电子设备。
[0004]第一方面,本公开实施例提供了一种音频信号分离方法,包括:获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
[0005]在一个实施例中,所述语音增强模型是带有注意力机制的语音增强模型;所述将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,包括:提取所述第一目标频谱的特征信息;基于所述注意力机制提取所述特征信息中的目标特征信息;基于所述特征信息和所述目标特征信息确定第二掩膜。
[0006]在一个实施例中,所述对所述原始音频信号进行短时傅里叶变换处理之前,所述方法包括:对所述原始音频信号添加具有不同预设信噪比的噪音信号,得到混和音频信号;将所述混和音频信号作为新的原始音频信号,返回所述对所述原始音频信号进行
短时傅里叶变换处理的步骤。
[0007]在一个实施例中,所述对所述原始音频信号进行短时傅里叶变换处理,包括:对所述原始音频信号进行预处理,得到预处理音频信号;其中,所述预处理包括分帧处理和加窗函数处理;对所述预处理音频信号进行短时傅里叶变换处理。
[0008]在一个实施例中,所述基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱,包括:对所述第一掩膜和所述原始音频信号的频谱中的幅值谱做哈达玛积处理,得到所述目标音频信号对应的幅值谱。
[0009]在一个实施例中,所述基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱,包括:对所述第二掩膜和所述第一目标频谱进行点乘处理,得到所述目标音频信号对应的第二目标频谱。
[0010]在一个实施例中,所述预设分离模型包括GRU(Gated Recurrent Unit)神经网络模型。
[0011]第二方面,本公开实施例提供了一种音频信号分离装置,包括:获取模块,用于获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;变换模块,用于对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;第一处理模块,用于将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;第二处理模块,用于基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;增强处理模块,用于将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;反变换模块,用于对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。
[0012]第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述音频信号分离方法的步骤。
[0013]第四方面,本公开实施例提供一种电子设备,包括:处理器;以及存储器,用于存储计算机程序;其中,所述处理器配置为经由执行所述计算机程序来执行上述任一实施例所述音频信号分离方法的步骤。
[0014]本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例中,获取待分离的原始音频信号,所述原始音频信号包括目标音频
信号和背景音频信号;对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。这样,通过短时傅里叶变换处理得到原始音频信号的频谱即相位谱和幅值谱,通过预设分离模型得到目标音频信号对应的第一掩膜,然后基于该第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱,再基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱,即通过上述处理使得在语音增强模型处理时,输入语音增强模型的信号包括了目标音频信号对应的第一目标频谱即幅值谱和相位谱,使得语音增强阶段考虑了相位信息,从而使得对原始音频信号如音乐信号的分离准确性提高,音频信号分离的效果较好。
附图说明
[0015]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0016]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本公开实施例音频信号分离方法流程图;图2为本公开另一实施例音频信号分离方法流程图;图3为本公开实施例音频信号分离装置示意图;图4为本公开实施例实现音频信号分离方法的电子设备示意图。
具体实施方式
[0018]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频信号分离方法,其特征在于,包括:获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。2.根据权利要求1所述的音频信号分离方法,其特征在于,所述语音增强模型是带有注意力机制的语音增强模型;所述将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,包括:提取所述第一目标频谱的特征信息;基于所述注意力机制提取所述特征信息中的目标特征信息;基于所述特征信息和所述目标特征信息确定第二掩膜。3.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述对所述原始音频信号进行短时傅里叶变换处理之前,所述方法包括:对所述原始音频信号添加具有不同预设信噪比的噪音信号,得到混和音频信号;将所述混和音频信号作为新的原始音频信号,返回所述对所述原始音频信号进行短时傅里叶变换处理的步骤。4.根据权利要求3所述的音频信号分离方法,其特征在于,所述对所述原始音频信号进行短时傅里叶变换处理,包括:对所述原始音频信号进行预处理,得到预处理音频信号;其中,所述预处理包括分帧处理和加窗函数处理;对所述预处理音频信号进行短时傅里叶变换处理。5.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述基于所述第一掩膜和所述原始音频信号的频谱中的幅...

【专利技术属性】
技术研发人员:智鹏鹏陈昌滨
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1