一种基于线性麦克风阵列的声源定位方法及装置制造方法及图纸

技术编号:27358244 阅读:24 留言:0更新日期:2021-02-19 13:39
本发明专利技术公开了一种基于线性麦克风阵列的声源定位方法及装置,所述方法包括:采用GCC

【技术实现步骤摘要】
一种基于线性麦克风阵列的声源定位方法及装置


[0001]本专利技术涉及声源定位
,尤其是涉及一种基于线性麦克风阵列的声源定位方法及装置。

技术介绍

[0002]声源定位技术主要用于测定声源方位方面,目前在智能音箱、智能机器人、视频会议等领域均有着重要的应用。其中在视频会议场景中,要求对说话人进行特写,目前通常使用阵列算法来提升音质效果,如比较常用的MVDR和DS等波束形成算法,但都非常依赖DOA的精度和时效性。
[0003]现有技术中利用麦克风阵列进行声源定位的估计方法可大致分成三类:基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于时延估计的声源定位技术。但考虑到计算复杂度及实时性,目前主要使用基于时延估计的方法进行声源定位,该方法基本思路为先估计时间差,然后根据时间差计算声源方位信息。
[0004]但是,在对现有技术的研究与实践的过程中,本专利技术的专利技术人发现,现有的声源定位方法存在如下缺陷,例如基于最大输出功率的可控波束形成技术的计算复杂度很高,定位效率低且成本高;基于高分辨率谱图估计技术则需要达成噪声和语音信号完全不相关的前提要求,且计算复杂度高;而基于时延估计的声源定位技术则在多声源场景中定位效果不佳,且抗噪和抗混响效果较差。因此,亟需能够克服至少上述一种缺陷的声源定位方法。

技术实现思路

[0005]本专利技术实施例所要解决的技术问题在于,提供一种基于线性麦克风阵列的声源定位方法及装置,能够优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定位效果不佳的问题。
[0006]为解决上述问题,本专利技术的一个实施例提供了一种基于线性麦克风阵列的声源定位方法,至少包括如下步骤:
[0007]采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;
[0008]将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;
[0009]在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
[0010]作为优选方案,所述若干组麦克风组合均为均匀分布的线性阵列,每组麦克风组合由任意两个麦克风组成,每个麦克风之间的间距均相同。
[0011]作为优选方案,所述采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息,具体为:
[0012]对每组麦克风组合中的两个麦克风进行声源信号采集,通过计算得到两个麦克风
的声源信号的广义互相关函数,计算出两个声源信号之间的时间差;
[0013]在所述广义互相关函数中选取高度前三的峰值位置,并换算为对应的实际角度,组成每帧每组麦克风组合的声源角度信息集合。
[0014]作为优选方案,所述计算得到两个麦克风的声源信号的广义互相关函数,具体为:
[0015]分别对两个麦克风的声源信号对应的两路时域数据进行加窗分帧处理和短时傅里叶变换;
[0016]转到频域后计算得到所述两路时域数据的互相关函数;
[0017]采用加权函数凸显所述互相关函数的峰值后进行傅里叶变换,得到广义互相关函数。
[0018]作为优选方案,所述根据预设的统计算法计算出初步声源角度,具体为:
[0019]将0
°
至180
°
均匀分为18个区间,对预设的时间窗内的声源角度信息放入对应区间进行统计;
[0020]计算每个区间的统计的声源角度信息个数,选取个数最多的区间并计算其对应的置信度;
[0021]判断该区间对应的置信度是否满足预设第一阈值;
[0022]若是,则对该区间的各个声源角度进行平均值统计,以统计得出的平均值作为初步声源角度;
[0023]若否,则以前一个时间窗内输出的初步声源角度作为当前时间窗内的初步声源角度。
[0024]作为优选方案,所述在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果,具体为:
[0025]采集并判断当前场景是否存在超过预设能量阈值的噪声,若是,则进行噪声信息过滤;
[0026]利用VAD算法模块计算当前场景的VAD信息,在根据所述VAD信息判断当前帧为噪声时,采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出当前帧每组麦克风组合的声源角度信息;
[0027]将所述当前帧每组麦克风组合的声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法选取出峰值高度最大的中心位置,以该中心位置对应的角度作为噪声角度;
[0028]根据所述初步声源角度和噪声角度进行声源角度的二次判断,得到最终的声源定位结果。
[0029]作为优选方案,所述根据所述初步声源角度和噪声角度进行声源角度的二次判断,具体为:
[0030]判断所述初步声源角度与所述噪声角度是否处于同一区间时;若否,则以所述初步声源角度作为最终声源角度;
[0031]若是,则选取声源角度信息个数第二多的区间并计算其对应的置信度;
[0032]判断该区间对应的置信度是否满足预设第二阈值;
[0033]若是,则对所述声源角度信息个数第二多的区间的各个声源角度进行平均值统计,以统计得出的平均值作为最终声源角度;
[0034]若否,则以声源角度信息个数最多的区间对应的所述初步声源角度作为最终声源角度。
[0035]本专利技术的一个实施例提供了一种基于线性麦克风阵列的声源定位装置,包括:
[0036]声源角度计算模块,用于采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;
[0037]声源角度统计模块,用于将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;
[0038]噪声过滤模块,用于在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。
[0039]本专利技术的一个实施例提供了一种基于线性麦克风阵列的声源定位的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于线性麦克风阵列的声源定位方法。
[0040]本专利技术的一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于线性麦克风阵列的声源定位方法。
[0041]实施本专利技术实施例,具有如下有益效果:
[0042]本专利技术实施例提供的一种基于线性麦克风阵列的声源定位方法及装置,所述方法包括:采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将所述声源角度信息统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于线性麦克风阵列的声源定位方法,其特征在于,至少包括如下步骤:采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。2.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述若干组麦克风组合均为均匀分布的线性阵列,每组麦克风组合由任意两个麦克风组成,每个麦克风之间的间距均相同。3.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息,具体为:对每组麦克风组合中的两个麦克风进行声源信号采集,通过计算得到两个麦克风的声源信号的广义互相关函数,计算出两个声源信号之间的时间差;在所述广义互相关函数中选取高度前三的峰值位置,并换算为对应的实际角度,组成每帧每组麦克风组合的声源角度信息集合。4.根据权利要求3所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述计算得到两个麦克风的声源信号的广义互相关函数,具体为:分别对两个麦克风的声源信号对应的两路时域数据进行加窗分帧处理和短时傅里叶变换;转到频域后计算得到所述两路时域数据的互相关函数;采用加权函数凸显所述互相关函数的峰值后进行傅里叶变换,得到广义互相关函数。5.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述根据预设的统计算法计算出初步声源角度,具体为:将0
°
至180
°
均匀分为18个区间,对预设的时间窗内的声源角度信息放入对应区间进行统计;计算每个区间的统计的声源角度信息个数,选取个数最多的区间并计算其对应的置信度;判断该区间对应的置信度是否满足预设第一阈值;若是,则对该区间的各个声源角度进行平均值统计,以统计得出的平均值作为初步声源角度;若否,则以前一个时间窗内输出的初步声源角度作为当前时间窗内的初步声源角度。6.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声...

【专利技术属性】
技术研发人员:陈浩磊毕永建
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1