一种降噪方法、电子设备及存储介质技术

技术编号:35902470 阅读:14 留言:0更新日期:2022-12-10 10:39
本申请实施例提供一种降噪方法、电子设备及存储介质,其中方法包括:获取采集的音频信号;对音频信号进行预处理;将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;根据所述组合掩蔽,确定说话人的声源定位结果。本申请实施例能够基于组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行提升,本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种降噪方法、电子设备及存储介质


[0001]本申请实施例涉及音频
,具体涉及一种降噪方法、电子设备及存储介质。

技术介绍

[0002]音视频会议、语音通话等音频交互场景下需要进行说话人定位,说话人定位是指对通过麦克风阵列等音频设备接收到的音频信号确定声源位置,从而确定出当前说话人的位置。
[0003]然而,音频设备接收到的音频信号中可能存在说话人的音频和噪音,因此在进行说话人定位时,如何有效的抑制噪音,从而提高说话人定位算法的鲁棒性,成为了本领域技术人员亟需解决的技术问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种降噪方法、电子设备及存储介质,以有效的抑制噪音,提高说话人定位算法的鲁棒性。
[0005]为实现上述目的,本申请实施例提供如下技术方案。
[0006]第一方面,本申请实施例提供一种降噪方法,包括:
[0007]获取采集的音频信号;
[0008]对音频信号进行预处理;
[0009]将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;
[0010]根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;
[0011]根据所述组合掩蔽,确定说话人的声源定位结果。
[0012]第二方面,本申请实施例提供电子设备,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述第一方面所述的降噪方法。
[0013]第三方面,本申请实施例提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时,实现如上述第一方面所述的降噪方法。
[0014]第四方面,本申请实施例提供一种计算机程序,该计算机程序被执行时实现如上述第一方面所述的降噪方法。
[0015]本申请实施例提供的降噪方法,可在获取采集的音频信号后,对音频信号进行预处理,然后将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;从而,根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;进而,将所述组合掩蔽应用于声源定位算法法中,确定出说话人的声源定位结果。由于在基于所述组合掩蔽,确定说话人的声源定位结果的过程中,本申请实施例能够基于所述组合掩蔽,将噪声方向的音频信号的加权进行降低,将说话人方向的音频信号的加权进行
提升,从而得出准确性更高的说话人的声源定位结果,因此本申请实施例可提升说话人定位算法的鲁棒性,提升说话定位算法的准确性。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0017]图1A为线性阵列的波束形成示例图。
[0018]图1B为环形阵列的波束形成示例图。
[0019]图2A为音频的频谱示例图。
[0020]图2B为噪声方向的波束形成示例图。
[0021]图2C为说话人方向的波束形成示例图。
[0022]图2D为TF

Mask的示例图。
[0023]图2E为TF

Mask的另一示例图。
[0024]图3A为本申请实施例提供的降噪方法的流程图。
[0025]图3B为本申请实施例实现声源定位的示例图。
[0026]图4A为传统声源定位算法在低信噪比情况下的定位结果示例图。
[0027]图4B为本申请实施例提供的方案在低信噪比情况下的定位结果示例图。
[0028]图5为本申请实施例提供的降噪装置的框图。
[0029]图6为电子设备的框图。
具体实施方式
[0030]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]音视频会议等音频交互场景中,准确的进行说话人定位能够更好地支持音频拾音算法和视频导播功能。目前通常是基于音频到达麦克风阵列上的不同麦克风的时间/相位差,来进行说话人定位,因此说话人定位方案通常是建立在声学环境良好的情况下(比如安静场景)。然而,实际的音频交互场景更偏向于含有噪音的复杂场景,因此在含有噪音的复杂场景下,说话人定位方案的鲁棒性有待提升。
[0032]对于音视频会议等音频交互场景而言,在进行说话人定位时,如何对噪音进行有效的抑制,对于说话人定位算法的鲁棒性收敛具有重要意义。也就是说,鲁棒性可收敛为如何在不同噪声类型下准确的进行说话人定位。
[0033]需要说明的是,在进行说话人定位时,可通过音频采集阵列(例如麦克风阵列)采集音频信号,音频采集阵列可以是线性阵列或者环形阵列。线性阵列和环形阵列均可以具有多个方向的波束形成(Beam forming),该多个方向的波束形成可以为M个方向的波束形成,包括方向一的波束形成、方向二的波束形成至方向M的波束形成。
[0034]针对线性阵列,作为一个示例,图1A示例性的示出了线性阵列的波束形成示例图,具体的,图1A示例性的示出了线性阵列在方向一、方向二至方向M的波束形成,可进行参照。针对环形阵列,图1B示例性的示出了环形阵列的波束形成示例图,具体的,图1B示例性的示出了环形阵列在方向一、方向二至方向M的波束形成(Beam forming),可进行参照。
[0035]另外需要说明的是,噪音源和说话人声源一般不在同一个方向,并且噪音源的能量较强时,会出现低信噪比的情况和声源定位处理结果(例如说话定位算法的处理结果)指向噪音源的情况,从而导致说话定位算法的准确性较低。
[0036]基于此,本申请实施例提供改进的降噪方案,以对噪音进行有效的抑制,提高说话人定位算法的鲁棒性,提升说话人定位算法的准确性。
[0037]为便于理解,以一段低信噪比的真实录音为例,在低信噪比情况下,麦克风阵列的每一个音频被噪音覆盖,经过STFT(Short

Time Fourier Transform,短时傅里叶变换)之后的频谱(每一帧为10毫秒,大概1000帧)可如图2A所示,图2A为音频的频谱示例图。图2A所示的音频频谱在经过不同方向的波束形成处理之后(例如经过方向一、方向二和方向M的波束形成处理之后),噪声方向的波束形成输出可以如图2B所示,说话人方向的波束形成输出可以如图2C所示。
[0038]进一步的,图2B所示的噪声方向的波束形成示例所对应的TF

Mask可以如图2D所示,图2D可以视为是TF
‑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种降噪方法,其中,包括:获取采集的音频信号;对音频信号进行预处理;将音频信号经过多个方向的波束形成处理,并确定音频信号在不同方向的波束形成区域对应的掩蔽;根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽;根据所述组合掩蔽,确定说话人的声源定位结果。2.根据权利要求1所述的方法,其中,针对每一帧音频信号的每一个频带,不同方向的波束形成区域分别对应有一个掩蔽;所述根据所述不同方向的波束形成区域对应的掩蔽,确定组合掩蔽包括:针对每一帧音频信号的每一个频带,将不同方向的波束形成区域对应的掩蔽组成为组合掩蔽。3.根据权利要求1所述的方法,其中,所述根据所述组合掩蔽,确定说话人的声源定位结果包括:将所述组合掩蔽应用于声源定位算法,以基于所述组合掩蔽,降低噪声方向的音频信号的加权,提升说话人方向的音频信号的加权,得出说话人的声源定位结果。4.根据权利要求3所述的方法,其中,所述将所述组合掩蔽应用于声源定位算法包括:在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大。5.根据权利要求4所述的方法,其中,所述在进行第n帧音频信号的声源定位时,基于第n帧音频信号在所处频带上的组合掩蔽,选择一个方向的波束形成区域对应的掩蔽,以使得多个采集的第n帧音频信号之间的广义互相关函数最大包括:根据如下公式确定多个采集的第n帧音频信号之间最大的广义互相关函数:其...

【专利技术属性】
技术研发人员:熊飞飞谢维黄伟隆冯津伟
申请(专利权)人:钉钉中国信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1