声源定位方法、装置、存储介质及电子设备制造方法及图纸

技术编号：39186459 阅读：9 留言：0更新日期：2023-10-27 08:33

本申请公开了一种声源定位方法、装置、存储介质及电子设备，其中，该声源定位方法采用获取当前音频帧，并将当前音频帧转换为对应的当前频域信号；对当前频域信号进行盲源分离，得到各通道的当前分离信号；分别对各通道的当前分离信号进行预处理，以确定目标语音通道；获取目标语音通道中各频点的语音方向估计值；对各频点的语音方向估计值进行综合处理，生成当前音频帧中目标语音的方向估计值。本方案可以提高对语音的声源定位准确性。以提高对语音的声源定位准确性。以提高对语音的声源定位准确性。

全部详细技术资料下载

【技术实现步骤摘要】
声源定位方法、装置、存储介质及电子设备

[0001]本申请涉及音频处理
，具体涉及一种声源定位方法、装置、存储介质及电子设备。

技术介绍

[0002]随着社会进步和科技发展，语音逐渐成为了一种便捷的人机交互方式，越来越多的家庭拥有了具有语音交互功能的智能设备。
[0003]但在智能家居场景中，往往同时存在多个声源，智能设备接收到的语音信号通常会受到噪声、混响等环境因素的影响，导致智能设备出现对语音的声源定位不准确及语音识别结果不理想的问题，严重影响用户体验。

技术实现思路

[0004]本申请实施例提供了一种声源定位方法、装置、存储介质及电子设备，可以提高对语音的声源定位准确性。
[0005]第一方面，本申请实施例提供了一种声源定位方法，包括：获取当前音频帧，并将所述当前音频帧转换为对应的当前频域信号；对所述当前频域信号进行盲源分离，得到各通道的当前分离信号；分别对各通道的当前分离信号进行预处理，以确定目标语音通道；获取所述目标语音通道中各频点的语音方向估计值；对各频点的语音方向估计值进行综合处理，生成所述当前音频帧中目标语音的方向估计值。
[0006]在本申请实施例提供的声源定位方法中，所述对所述当前频域信号进行盲源分离，得到各通道的当前分离信号，包括：获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵；利用所述加权协方差矩阵对所述历史分离矩阵进行更新，得到所述当前音频帧的当前分离矩阵；利用所述当前分离矩阵对所述当前频域信号进行解混合处理，得到各通道的当前分离信号。r/>[0007]在本申请实施例提供的声源定位方法中，所述获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵，包括：获取上一音频帧的历史分离矩阵；利用所述历史分离矩阵对所述当前频域信号进行解混合处理，得到各通道的初始分离信号；基于所述初始分离信号计算各通道的加权协方差矩阵。
[0008]在本申请实施例提供的声源定位方法中，所述基于所述初始分离信号计算各通道的加权协方差矩阵，包括；
获取所述当前频域信号的协方差矩阵；根据所述初始分离信号计算各通道的加权系数；根据所述加权系数对所述协方差矩阵进行平滑处理，得到各通道的加权协方差矩阵。
[0009]在本申请实施例提供的声源定位方法中，在所述利用所述加权协方差矩阵对所述历史分离矩阵进行更新，得到所述当前音频帧的当前分离矩阵之后，所述利用所述当前分离矩阵对所述当前频域信号进行解混合处理，得到各通道的当前分离信号之前，还包括：对所述当前分离矩阵进行幅度校正。
[0010]在本申请实施例提供的声源定位方法中，所述获取所述目标语音通道中各频点的语音方向估计值，包括：将所述目标语音通道中各频点的当前分离矩阵转换为角度谱函数；根据所述角度谱函数确定所述目标语音通道中各频点的语音方向估计值。
[0011]在本申请实施例提供的声源定位方法中，所述根据所述角度谱函数确定所述目标语音通道中各频点的语音方向估计值，包括：获取所述目标语音通道中各频点的角度谱函数的最大值；确定所述最大值对应的方位角和俯仰角；将所述方位角和所述俯仰角进行组合，得到所述目标语音通道中各频点的语音方向估计值。
[0012]第二方面，本申请实施例提供了一种声源定位装置，包括：转换单元，用于获取当前音频帧，并将所述当前音频帧转换为对应的当前频域信号；分离单元，用于对所述当前频域信号进行盲源分离，得到各通道的当前分离信号；识别单元，用于分别对各通道的当前分离信号进行预处理，以确定目标语音通道；预估单元，用于获取所述目标语音通道中各频点的语音方向估计值；定位单元，用于对各频点的语音方向估计值进行综合处理，生成所述当前音频帧中目标语音的方向估计值。
[0013]第三方面，本申请提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述任一项所述的声源定位方法。
[0014]第四方面，本申请提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述任一项所述的声源定位方法。
[0015]综上所述，本申请实施例提供的声源定位方法采用获取当前音频帧，并将所述当前音频帧转换为对应的当前频域信号；对所述当前频域信号进行盲源分离，得到各通道的当前分离信号；分别对各通道的当前分离信号进行预处理，以确定目标语音通道；获取所述目标语音通道中各频点的语音方向估计值；对各频点的语音方向估计值进行综合处理，生成所述当前音频帧中目标语音的方向估计值。本方案可以通过将当前音频帧转换为对应的当前频域信号，然后对当前频域信号进行盲源分离，以确定目标语音通道，之后再基于该目标语音通道获取目标语音的方向估计值，排除了环境因素对目标语音的影响，进而提高对语音的声源定位准确性。
附图说明
[0016]为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的声源定位方法的流程示意图。
[0018]图2是本申请实施例提供的声源定位装置的结构示意图。
[0019]图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0020]这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0021]需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
[0022]应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。
[0023]在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。
[0024]在本申请的描述中，需要说明的是，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种声源定位方法，其特征在于，包括：获取当前音频帧，并将所述当前音频帧转换为对应的当前频域信号；对所述当前频域信号进行盲源分离，得到各通道的当前分离信号；分别对各通道的当前分离信号进行预处理，以确定目标语音通道；获取所述目标语音通道中各频点的语音方向估计值；对各频点的语音方向估计值进行综合处理，生成所述当前音频帧中目标语音的方向估计值。2.如权利要求1所述的声源定位方法，其特征在于，所述对所述当前频域信号进行盲源分离，得到各通道的当前分离信号，包括：获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵；利用所述加权协方差矩阵对所述历史分离矩阵进行更新，得到所述当前音频帧的当前分离矩阵；利用所述当前分离矩阵对所述当前频域信号进行解混合处理，得到各通道的当前分离信号。3.如权利要求2所述的声源定位方法，其特征在于，所述获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵，包括：获取上一音频帧的历史分离矩阵；利用所述历史分离矩阵对所述当前频域信号进行解混合处理，得到各通道的初始分离信号；基于所述初始分离信号计算各通道的加权协方差矩阵。4.如权利要求3所述的声源定位方法，其特征在于，所述基于所述初始分离信号计算各通道的加权协方差矩阵，包括;获取所述当前频域信号的协方差矩阵；根据所述初始分离信号计算各通道的加权系数；根据所述加权系数对所述协方差矩阵进行平滑处理，得到各通道的加权协方差矩阵。5.如权利要求2所述的声源定位方法，其特征在于，在所述利用所述加权协方差矩阵对所述历史分离矩阵进行更新，得到所述当前音频帧的当前分离矩阵之后，所述利用所述当前分离矩阵对所述当前频域信号进行解混合...

【专利技术属性】
技术研发人员：鲁勇，李逸洋，张新科，崔潇潇，
申请(专利权)人：北京探境科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人