人声定位方法及电子设备和存储介质技术

技术编号：36687332 阅读：11 留言：0更新日期：2023-02-27 19:51

本发明专利技术公开一种人声定位方法及电子设备和存储介质，其中方法包括：将获取的音频信号转换为语谱图信号，对所述语谱图信号进行分离；通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号，并判断所述语谱图信号中每个方向上人声信号的存在概率，确定人声信号存在概率最大的方向并输出人声信号存在概率最大的方向的掩码信号；至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息。本发明专利技术实施例通过利用神经网络来输出概率最大的方向的掩码信号，根据概率最大的方向的掩码信号估计人声信号的方位信息，当外部噪声较大时，声源定位结果也能够准确地指向目标人声源，进一步提高了目标人声定位的精准度。了目标人声定位的精准度。了目标人声定位的精准度。

全部详细技术资料下载

【技术实现步骤摘要】
人声定位方法及电子设备和存储介质

[0001]本专利技术属于声源定位
，尤其涉及一种人声定位方法及电子设备和存储介质。

技术介绍

[0002]现有技术中，主要的人声定位方法有波束选择算法、通道间相位差IPD(Inter
‑
channel Phase Difference)算法、广义互相关算法GCC(Generalized Cross Correlation)、多信号分类MUSIC(Multiple Signal Classification)等经典声源定位估计方法。常用的波束选择算法为代表的经典声源定位方法:
①
.对麦克风接收到的语音做傅里叶变换，得到原始语音的语谱图信号；
②
.将原始语音的语谱图信号，通过固定波束形成算法，投影到多个备选方向上，输出多通道的语音语谱图信号，其中每个通道对应一个备选方向；
③
.分别计算各个方向语谱图的能量，将能量最大的语谱图的信号对应的方向，作为人声方向输出。
[0003]现有的传统算法在判断信号是否为人声时，通常仅以能量作为判断依据。当存在较大的外部噪声时，噪声能量往往占据主导地位，此时的声源定位结果非常容易错误地指向噪声源而非目标人声源。同时，由于波束成形算法算力、内存需求较大、且在同一方向附近的区分度小，不能支持过多的备选区域，导致精度较低。传统的算法中人声方向定位的精度不高时会使用IPD、GCC或MUSIC等算法，通过相位来辅助估计人声方位。但是IPD和GCC算法同样精度有限，而MUSIC算力

【技术保护点】

【技术特征摘要】
1.一种人声定位方法，包括：将获取的音频信号转换为语谱图信号，对所述语谱图信号进行分离；通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号频点，并逐帧判断所述语谱图信号中每个方向上人声信号的存在概率，确定人声信号存在概率最大的方向并输出人声信号存在概率最大的方向的掩码信号；至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息。2.根据权利要求1所述的方法，其中，所述通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号频点，并判断所述语谱图信号中每个方向上人声信号的存在概率包括：利用神经网络对所述每个方向对应音频通道上的频点进行分类，将归类为非人声信号的频点能量置零；再通过语音存在概率判断所述每个音频通道上每个频点的人声语音存在概率并输出人声信号存在概率最大的方向的掩码信号，其中，所述每个音频通道上每个频点的人声语音存在概率之和最大的为人声定位的范围。3.根据权利要求1所述的方法，其中，所述至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息包括：利用压缩感知的单帧声源定位算法计算所述人声语音存在概率最大的对应通道上的每一帧信号的精细方位谱；通过语音激活检测对所述人声信号的方位信息进行平滑处理。4.根据权利要求3所述的方法，其中，所述通过语音激活检测对所述人声信号的方位信息进行平滑处理包括：基于所述语音激活检测判断当前帧是否为人声帧、人声停顿帧以及人声截止后的静音帧，并根据不同类型帧的方位信息加入对应的平滑处...

【专利技术属性】
技术研发人员：刘贝易，毛盼盼，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人