一种音频信号处理方法、装置、终端及存储介质制造方法及图纸

技术编号：23788357 阅读：59 留言：0更新日期：2020-04-15 01:13

本公开是关于一种音频信号处理方法，所述方法包括：由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号；对于时域上的每一帧，根据所述至少两个麦克风各自的所述原始带噪信号，获取所述至少两个声源各自的频域估计信号；对于所述至少两个声源中的每个声源，将所述频域估计信号在频域上划分为多个频域估计分量，其中，每个频域估计分量对应一个频域子带并且包含多个频点数据；在每个频域子带内，确定所述频域子带所包含的每个频点的加权系数，并根据所述加权系数更新每个频点的分离矩阵；基于更新后的所述分离矩阵及所述原始带噪信号，获得至少两个声源各自发出的音频信号。本公开实施例还公开了一种音频信号处理装置、终端及存储介质。

An audio signal processing method, device, terminal and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种音频信号处理方法、装置、终端及存储介质
本公开涉及通信
，尤其涉及一种音频信号处理方法、装置、终端及存储介质。
技术介绍
相关技术中，智能产品设备拾音多采用麦克风阵列，应用麦克风波束形成技术提高语音信号处理质量，以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感，性能影响较大，另外麦克风个数增多了也会导致产品成本升高。因此，目前越来越多的智能产品设备只配置两个麦克风；两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强，而如何使得基于盲源分离技术分离后信号的语音质量更高是目前的迫切需要解决的问题。
技术实现思路
本公开提供一种音频信号处理方法、装置、终端及存储介质。根据本公开实施例的第一方面，提供一种音频信号处理方法，包括：由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号；对于时域上的每一帧，根据所述至少两个麦克风各自的所述原始带噪信号，获取所述至少两个声源各自的频域估计信号；对于所述至少两个声源中的每个声源，将所述频域估计信号在频域上划分为多个频域估计分量，其中，每个频域估计分量对应一个频域子带并且包含多个频点数据；在每个频域子带内，确定所述频域子带所包含的每个频点的加权系数，并根据所述加权系数更新每个频点的分离矩阵；基于更新后的所述分离矩阵及所述原始带噪信号，获得至少两个声源各自发出的音频信号。上述方案中，...

【技术保护点】
1.一种音频信号处理方法，其特征在于，所述方法包括：/n由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号；/n对于时域上的每一帧，根据所述至少两个麦克风各自的所述原始带噪信号，获取所述至少两个声源各自的频域估计信号；/n对于所述至少两个声源中的每个声源，将所述频域估计信号在频域上划分为多个频域估计分量，其中，每个频域估计分量对应一个频域子带并且包含多个频点数据；/n在每个频域子带内，确定所述频域子带所包含的每个频点的加权系数，并根据所述加权系数更新每个频点的分离矩阵；/n基于更新后的所述分离矩阵及所述原始带噪信号，获得至少两个声源各自发出的音频信号。/n

【技术特征摘要】
1.一种音频信号处理方法，其特征在于，所述方法包括：
由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号；
对于时域上的每一帧，根据所述至少两个麦克风各自的所述原始带噪信号，获取所述至少两个声源各自的频域估计信号；
对于所述至少两个声源中的每个声源，将所述频域估计信号在频域上划分为多个频域估计分量，其中，每个频域估计分量对应一个频域子带并且包含多个频点数据；
在每个频域子带内，确定所述频域子带所包含的每个频点的加权系数，并根据所述加权系数更新每个频点的分离矩阵；
基于更新后的所述分离矩阵及所述原始带噪信号，获得至少两个声源各自发出的音频信号。

2.根据权利要求1所述的方法，其特征在于，所述在每个频域子带内，确定所述频域子带所包含的每个频点的加权系数，并根据所述加权系数更新每个频点的分离矩阵，包括：
对于每个声源，将第n个所述频域估计分量的所述加权系数、所述频域估计信号及第x-1个备选矩阵进行梯度迭代，得到第x个备选矩阵；其中，第1个备选矩阵为已知的单位矩阵；其中，所述x为大于或等于2的正整数；所述n为小于N的正整数，所述N为所述频域子带的个数；
当所述第x个备选矩阵满足迭代停止条件时，基于所述第x个备选矩阵，获得第n个所述频域估计分量中每个频点更新后的分离矩阵。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
基于第n个所述频域估计分量中包括的各频点对应的所述频点数据的平方和，获得所述第n个所述频域估计分量的加权系数。

4.根据权利要求2所述的方法，其特征在于，所述基于更新后的所述分离矩阵及所述原始带噪信号，获得至少两个声源各自发出的音频信号，包括：
基于第1个所述更新后的分离矩阵至第N个所述更新后的分离矩阵，对一个频点数据对应的第m帧所述原始带噪信号进行分离，获得一个频点数据对应的第m帧所述原始带噪信号中不同所述声源的音频信号；其中，所述m为小于M的正整数，所述M为所述原始带噪信号的帧数；
组合各所述频点数据对应的第m帧所述原始带噪信号中第y个所述声源的音频信号，得到第y个所述声源的所述第m帧音频信号；其中，所述y为小于或等于Y的正整数，所述Y为声源的个数。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
按照时间先后顺序，组合第y个所述声源的第1帧音频信号至第M帧音频信号，得到M帧所述原始带噪信号包含的第y个所述声源的音频信号。

6.根据权利要求2所述的方法，其特征在于，其中，在进行所述梯度迭代时，按照从所述频域估计信号所在频域子带的频率从高到低依次进行。

7.根据权利要求1至6任一项所述的方法，其特征在于，其中，任意两个相邻频域子带在频域存在部分频率重叠。

8.一种音频信号处理装置，其特征在于，所述装置包括：
获取模块，用于由至少两个麦克风获取至少两个声源各自发出的音频信号，以获得所述至少两个麦克风各...

【专利技术属性】
技术研发人员：侯海宁，
申请(专利权)人：北京小米智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人