音频信号的噪声估计方法、装置及存储介质制造方法及图纸

技术编号:22566735 阅读:39 留言:0更新日期:2019-11-16 12:45
本公开涉及一种音频信号的噪声估计方法、装置及存储介质。所述方法包括:针对多个预设采样点,确定传感器阵列在每一预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;确定传感器阵列在每一预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。这样,利用SRP特征的变化实现噪声的识别,提升噪声识别的准确性,并能更准确地实现对多通道语音的噪声识别,且鲁棒性高。

Noise estimation method, device and storage medium of audio signal

The invention relates to a noise estimation method, a device and a storage medium of an audio signal. The method includes: for a plurality of preset sampling points, determining the noise controllable response power SRP value of the sensor array at each preset sampling point in a preset noise sampling period, so as to obtain a noise SRP multidimensional vector including a plurality of noise SRP values corresponding to a plurality of preset sampling points respectively; determining the current frame of the audio signal of the sensor array at each preset sampling point Frame SRP value to obtain the current frame SRP multi-dimensional vector including a plurality of current frame SRP values corresponding to a plurality of preset sampling points respectively; according to the current frame SRP multi-dimensional vector and the noise SRP multi-dimensional vector, determine whether the audio signal collected by the microphone array in the current frame is a noise signal. In this way, the change of SRP features can be used to realize noise recognition, improve the accuracy of noise recognition, and achieve more accurate noise recognition of multi-channel speech, with high robustness.

【技术实现步骤摘要】
音频信号的噪声估计方法、装置及存储介质
本公开涉及语音识别领域,尤其涉及音频信号的噪声估计方法、装置及存储介质。
技术介绍
随着物联网及AI技术的发展,语音识别作为人机交互的一大部分,其重要性日益提升。目前智能设备的拾音功能一般利用传声器阵列实现,并利用波束形成技术提高音频信号的处理质量,在语音识别技术中,噪声估计是十分重要的,它是噪声抑制和干扰抑制的基础。目前,噪声估计技术一般在对单传声器采集的单通道音频信号进行处理时才较为准确,而在对实际场景中的多传声器采集的多通道音频信号进行处理时存在困难。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种音频信号的噪声估计方法、装置及存储介质。根据本公开实施例的第一方面,提供一种音频信号的噪声估计方法,应用于包含多个传声器的传声器阵列,所述方法包括:针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。可选地,所述根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号,包括:确定所述当前帧SRP多维向量与所述噪声SRP多维向量之间的相关系数;根据所述相关系数,确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号的概率值;根据所述概率值,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。可选地,所述确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,包括:根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;根据所述时延差和当前帧的频域信号,确定每一所述预设采样点对应的当前帧SRP值。可选地,所述确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,包括:根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;根据所述时延差和所述预设噪声采样时段内的多个帧的频域信号,确定所述预设噪声采样时段内的多个帧的平均SRP值,作为每一所述预设采样点在所述预设噪声采样时段内的噪声SRP值。可选地,在所述确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号的步骤之后,所述方法还包括:根据所述当前帧SRP多维向量更新所述噪声SRP多维向量。可选地,所述根据所述当前帧SRP多维向量更新所述噪声SRP多维向量,包括:若确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号,则根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量;若确定所述传声器阵列在所述当前帧所采集的音频信号为非噪声信号,则根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,其中,所述第二预设系数不同于所述第一预设系数。可选地,所述根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量,包括:按照如下公式(1)更新所述噪声SRP多维向量:SRP_noise(t+1)=(1-γ1)*SRP_noise(t)+γ1*SRP_cur(1)其中,γ1为所述第一预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。可选地,所述根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,包括:按照如下公式(2)更新所述噪声SRP多维向量:SRP_noise(t+1)=(1-γ2)*SRP_noise(t)+γ2*SRP_cur(2)其中,γ2为所述第二预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。根据本公开实施例的第二方面,提供一种音频信号的噪声估计装置,应用于包含多个传声器的传声器阵列,所述装置包括:第一确定模块,被配置为针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;第二确定模块,被配置为确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;第三确定模块,被配置为根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。可选地,所述第三确定模块包括:第一确定子模块,被配置为确定所述当前帧SRP多维向量与所述噪声SRP多维向量之间的相关系数;第二确定子模块,被配置为根据所述相关系数,确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号的概率值;第三确定子模块,被配置为根据所述概率值,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。可选地,所述第二确定模块包括:第一计算子模块,被配置为根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;第四确定子模块,被配置为根据所述时延差和当前帧的频域信号,确定每一所述预设采样点对应的当前帧SRP值。可选地,所述第一确定模块,包括:第二计算子模块,被配置为根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;第五确定子模块,被配置为根据所述时延差和所述预设噪声采样时段内的多个帧的频域信号,确定所述预设噪声采样时段内的多个帧的平均SRP值,作为每一所述预设采样点在所述预设噪声采样时段内的噪声SRP值。可选地,所述装置还包括:更新模块,被配置为在所述第三确定模块确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号之后,根据所述当前帧SRP多维向量更新所述噪声SRP多维向量。可选地,所述更新模块包括:第一更新子模块,被配置为若确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号,则根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维本文档来自技高网...

【技术保护点】
1.一种音频信号的噪声估计方法,应用于包含多个传声器的传声器阵列,其特征在于,所述方法包括:/n针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;/n确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;/n根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。/n

【技术特征摘要】
1.一种音频信号的噪声估计方法,应用于包含多个传声器的传声器阵列,其特征在于,所述方法包括:
针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。


2.根据权利要求1所述的方法,其特征在于,所述根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号,包括:
确定所述当前帧SRP多维向量与所述噪声SRP多维向量之间的相关系数;
根据所述相关系数,确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号的概率值;
根据所述概率值,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。


3.根据权利要求1所述的方法,其特征在于,所述确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,包括:
根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
根据所述时延差和当前帧的频域信号,确定每一所述预设采样点对应的当前帧SRP值。


4.根据权利要求1所述的方法,其特征在于,所述确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,包括:
根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
根据所述时延差和所述预设噪声采样时段内的多个帧的频域信号,确定所述预设噪声采样时段内的多个帧的平均SRP值,作为每一所述预设采样点在所述预设噪声采样时段内的噪声SRP值。


5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号的步骤之后,所述方法还包括:
根据所述当前帧SRP多维向量更新所述噪声SRP多维向量。


6.根据权利要求5所述的方法,其特征在于,所述根据所述当前帧SRP多维向量更新所述噪声SRP多维向量,包括:
若确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号,则根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量;
若确定所述传声器阵列在所述当前帧所采集的音频信号为非噪声信号,则根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维...

【专利技术属性】
技术研发人员:龙韬臣侯海宁
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1