一种音频信号处理方法、装置、终端及存储介质制造方法及图纸

技术编号:23788357 阅读:59 留言:0更新日期:2020-04-15 01:13
本公开是关于一种音频信号处理方法,所述方法包括:由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号;对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;对于所述至少两个声源中的每个声源,将所述频域估计信号在频域上划分为多个频域估计分量,其中,每个频域估计分量对应一个频域子带并且包含多个频点数据;在每个频域子带内,确定所述频域子带所包含的每个频点的加权系数,并根据所述加权系数更新每个频点的分离矩阵;基于更新后的所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。本公开实施例还公开了一种音频信号处理装置、终端及存储介质。

An audio signal processing method, device, terminal and storage medium

【技术实现步骤摘要】
一种音频信号处理方法、装置、终端及存储介质
本公开涉及通信
,尤其涉及一种音频信号处理方法、装置、终端及存储介质。
技术介绍
相关技术中,智能产品设备拾音多采用麦克风阵列,应用麦克风波束形成技术提高语音信号处理质量,以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感,性能影响较大,另外麦克风个数增多了也会导致产品成本升高。因此,目前越来越多的智能产品设备只配置两个麦克风;两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强,而如何使得基于盲源分离技术分离后信号的语音质量更高是目前的迫切需要解决的问题。
技术实现思路
本公开提供一种音频信号处理方法、装置、终端及存储介质。根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号;对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;对于所述至少两个声源中的每个声源,将所述频域估计信号在频域上划分为多个频域估计分量,其中,每个频域估计分量对应一个频域子带并且包含多个频点数据;在每个频域子带内,确定所述频域子带所包含的每个频点的加权系数,并根据所述加权系数更新每个频点的分离矩阵;基于更新后的所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。上述方案中,所述在每个频域子带内,确定所述频域子带所包含的每个频点的加权系数,并根据所述加权系数更新每个频点的分离矩阵,包括:对于每个声源,将第n个所述频域估计分量的所述加权系数、所述频域估计信号及第x-1个备选矩阵进行梯度迭代,得到第x个备选矩阵;其中,第1个备选矩阵为已知的单位矩阵;其中,所述x为大于或等于2的正整数;所述n为小于N的正整数,所述N为所述频域子带的个数;当所述第x个备选矩阵满足迭代停止条件时,基于所述第x个备选矩阵,获得第n个所述频域估计分量中每个频点更新后的分离矩阵。上述方案中,所述方法还包括:基于第n个所述频域估计分量中包括的各频点对应的所述频点数据的平方和,获得所述第n个所述频域估计分量的加权系数。上述方案中,所述基于更新后的所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号,包括:基于第1个所述更新后的分离矩阵至第N个所述更新后的分离矩阵,对一个所述频点数据对应的第m帧所述原始带噪信号进行分离,获得一个所述频点数据对应的第m帧所述原始带噪信号中不同所述声源的音频信号;其中,所述m为小于M的正整数,所述M为所述原始带噪信号的帧数;组合各所述频点数据对应的第m帧所述原始带噪信号中第y个所述声源的音频信号,得到第y个所述声源的所述第m帧音频信号;其中,所述y为小于或等于Y的正整数,所述Y为声源的个数。上述方案中,所述方法还包括:按照时间先后顺序,组合第y个所述声源的第1帧音频信号至第M帧音频信号,得到M帧所述原始带噪信号包含的第y个所述声源的音频信号。上述方案中,在进行所述梯度迭代时,按照从所述频域估计信号所在频域子带的频率从高到低依次进行。上述方案中,任意两个相邻频域子带在频域存在部分频率重叠。根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:获取模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号;转换模块,用于对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;划分模块,用于对于所述至少两个声源中的每个声源,将所述频域估计信号在频域上划分为多个频域估计分量,其中,每个频域估计分量对应一个频域子带并且包含多个频点数据;第一处理模块,用于在每个频域子带内,确定所述频域子带所包含的每个频点的加权系数,并根据所述加权系数更新每个频点的分离矩阵;第二处理模块,用于基于更新后的所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。上述方案中,所述第一处理模块,用于对于每个声源,将第n个所述频域估计分量的所述加权系数、所述频域估计信号及第x-1个备选矩阵进行梯度迭代,得到第x个备选矩阵;其中,第1个备选矩阵为已知的单位矩阵;其中,所述x为大于或等于2的正整数;所述n为小于N的正整数,所述N为所述频域子带的个数;当所述第x个备选矩阵满足迭代停止条件时,基于所述第x个备选矩阵,获得第n个所述频域估计分量中每个频点更新后的分离矩阵。上述方案中,所述第一处理模块,还用于基于第n个所述频域估计分量中包括的各频点对应的所述频点数据的平方和,获得所述第n个所述频域估计分量的加权系数。上述方案中,所述第二处理模块,用于基于第1个所述更新后的分离矩阵至第N个所述更新后的分离矩阵,对一个所述频点数据对应的第m帧所述原始带噪信号进行分离,获得一个所述频点数据对应的第m帧所述原始带噪信号中不同所述声源的音频信号;其中,所述m为小于M的正整数,所述M为所述原始带噪信号的帧数;组合各所述频点数据对应的第m帧所述原始带噪信号中第y个所述声源的音频信号,得到第y个所述声源的所述第m帧音频信号;其中,所述y为小于或等于Y的正整数,所述Y为声源的个数。上述方案中,所述第二处理模块,还用于按照时间先后顺序,组合第y个所述声源的第1帧音频信号至第M帧音频信号,得到M帧所述原始带噪信号包含的第y个所述声源的音频信号。上述方案中,所述第一处理模块在进行所述梯度迭代时,按照从所述频域估计信号所在频域子带的频率从高到低依次进行。上述方案中,其中,任意两个相邻频域子带在频域存在部分频率重叠。根据本公开实施例的第三方面,提供一种终端,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:用于执行所述可执行指令时,实现本公开任一实施例所述的音频信号处理方法。根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述可读存储介质存储有可执行程序,其中,所述可执行程序被处理器执行时实现本公开任一实施例所述的音频信号处理方法。本公开的实施例提供的技术方案可以包括以下有益效果:本公开实施例中,通过获取至少两个麦克风在时域上的多帧原始带噪信号;并在时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号转换为至少两个声源各自的频域估计信号;并对所述至少两个声源中的每个声源,将所述频域估计信号划分为不同频域子带内的至少两个频域估计分量,从而基于所述频域估计分量的加权系数以及频域估计信号,获得更新后的分离矩阵。如此,本公开实施例获得更新后的分离矩阵,是基于不同频域子带的频域估计分量的加权系数确定的,相对于现有技术中,基于整个频带的所有频域估计信号存在相同的依赖性来获得分本文档来自技高网...

【技术保护点】
1.一种音频信号处理方法,其特征在于,所述方法包括:/n由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号;/n对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;/n对于所述至少两个声源中的每个声源,将所述频域估计信号在频域上划分为多个频域估计分量,其中,每个频域估计分量对应一个频域子带并且包含多个频点数据;/n在每个频域子带内,确定所述频域子带所包含的每个频点的加权系数,并根据所述加权系数更新每个频点的分离矩阵;/n基于更新后的所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。/n

【技术特征摘要】
1.一种音频信号处理方法,其特征在于,所述方法包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号;
对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;
对于所述至少两个声源中的每个声源,将所述频域估计信号在频域上划分为多个频域估计分量,其中,每个频域估计分量对应一个频域子带并且包含多个频点数据;
在每个频域子带内,确定所述频域子带所包含的每个频点的加权系数,并根据所述加权系数更新每个频点的分离矩阵;
基于更新后的所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。


2.根据权利要求1所述的方法,其特征在于,所述在每个频域子带内,确定所述频域子带所包含的每个频点的加权系数,并根据所述加权系数更新每个频点的分离矩阵,包括:
对于每个声源,将第n个所述频域估计分量的所述加权系数、所述频域估计信号及第x-1个备选矩阵进行梯度迭代,得到第x个备选矩阵;其中,第1个备选矩阵为已知的单位矩阵;其中,所述x为大于或等于2的正整数;所述n为小于N的正整数,所述N为所述频域子带的个数;
当所述第x个备选矩阵满足迭代停止条件时,基于所述第x个备选矩阵,获得第n个所述频域估计分量中每个频点更新后的分离矩阵。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于第n个所述频域估计分量中包括的各频点对应的所述频点数据的平方和,获得所述第n个所述频域估计分量的加权系数。


4.根据权利要求2所述的方法,其特征在于,所述基于更新后的所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号,包括:
基于第1个所述更新后的分离矩阵至第N个所述更新后的分离矩阵,对一个频点数据对应的第m帧所述原始带噪信号进行分离,获得一个频点数据对应的第m帧所述原始带噪信号中不同所述声源的音频信号;其中,所述m为小于M的正整数,所述M为所述原始带噪信号的帧数;
组合各所述频点数据对应的第m帧所述原始带噪信号中第y个所述声源的音频信号,得到第y个所述声源的所述第m帧音频信号;其中,所述y为小于或等于Y的正整数,所述Y为声源的个数。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
按照时间先后顺序,组合第y个所述声源的第1帧音频信号至第M帧音频信号,得到M帧所述原始带噪信号包含的第y个所述声源的音频信号。


6.根据权利要求2所述的方法,其特征在于,其中,在进行所述梯度迭代时,按照从所述频域估计信号所在频域子带的频率从高到低依次进行。


7.根据权利要求1至6任一项所述的方法,其特征在于,其中,任意两个相邻频域子带在频域存在部分频率重叠。


8.一种音频信号处理装置,其特征在于,所述装置包括:
获取模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各...

【专利技术属性】
技术研发人员:侯海宁
申请(专利权)人:北京小米智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1