【技术实现步骤摘要】
一种基于线性麦克风阵列的声源定位方法及装置
[0001]本专利技术涉及声源定位
,尤其是涉及一种基于线性麦克风阵列的声源定位方法及装置。
技术介绍
[0002]声源定位技术主要用于测定声源方位方面,目前在智能音箱、智能机器人、视频会议等领域均有着重要的应用。其中在视频会议场景中,要求对说话人进行特写,目前通常使用阵列算法来提升音质效果,如比较常用的MVDR和DS等波束形成算法,但都非常依赖DOA的精度和时效性。
[0003]现有技术中利用麦克风阵列进行声源定位的估计方法可大致分成三类:基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于时延估计的声源定位技术。但考虑到计算复杂度及实时性,目前主要使用基于时延估计的方法进行声源定位,该方法基本思路为先估计时间差,然后根据时间差计算声源方位信息。
[0004]但是,在对现有技术的研究与实践的过程中,本专利技术的专利技术人发现,现有的声源定位方法存在如下缺陷,例如基于最大输出功率的可控波束形成技术的计算复杂度很高,定位效率低且成本高;基于高分辨率谱图估计技术则需要达成噪声和语音信号完全不相关的前提要求,且计算复杂度高;而基于时延估计的声源定位技术则在多声源场景中定位效果不佳,且抗噪和抗混响效果较差。因此,亟需能够克服至少上述一种缺陷的声源定位方法。
技术实现思路
[0005]本专利技术实施例所要解决的技术问题在于,提供一种基于线性麦克风阵列的声源定位方法及装置,能够优化在实际的视频会议场景中由于噪声和混响的存在而导致声源定 ...
【技术保护点】
【技术特征摘要】
1.一种基于线性麦克风阵列的声源定位方法,其特征在于,至少包括如下步骤:采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息;将所述声源角度信息统一放置于预设的时间窗内进行统计,根据预设的统计算法计算出初步声源角度;在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声信息过滤,过滤后得到最终的声源定位结果。2.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述若干组麦克风组合均为均匀分布的线性阵列,每组麦克风组合由任意两个麦克风组成,每个麦克风之间的间距均相同。3.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述采用GCC-PHAT方法对若干组麦克风组合分别进行声源角度计算,得出每帧每组麦克风组合的声源角度信息,具体为:对每组麦克风组合中的两个麦克风进行声源信号采集,通过计算得到两个麦克风的声源信号的广义互相关函数,计算出两个声源信号之间的时间差;在所述广义互相关函数中选取高度前三的峰值位置,并换算为对应的实际角度,组成每帧每组麦克风组合的声源角度信息集合。4.根据权利要求3所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述计算得到两个麦克风的声源信号的广义互相关函数,具体为:分别对两个麦克风的声源信号对应的两路时域数据进行加窗分帧处理和短时傅里叶变换;转到频域后计算得到所述两路时域数据的互相关函数;采用加权函数凸显所述互相关函数的峰值后进行傅里叶变换,得到广义互相关函数。5.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述根据预设的统计算法计算出初步声源角度,具体为:将0
°
至180
°
均匀分为18个区间,对预设的时间窗内的声源角度信息放入对应区间进行统计;计算每个区间的统计的声源角度信息个数,选取个数最多的区间并计算其对应的置信度;判断该区间对应的置信度是否满足预设第一阈值;若是,则对该区间的各个声源角度进行平均值统计,以统计得出的平均值作为初步声源角度;若否,则以前一个时间窗内输出的初步声源角度作为当前时间窗内的初步声源角度。6.根据权利要求1所述的基于线性麦克风阵列的声源定位方法,其特征在于,所述在判断当前场景需要过滤噪声信息后,对所述初步声源角度进行噪声...
【专利技术属性】
技术研发人员:陈浩磊,毕永建,
申请(专利权)人:厦门亿联网络技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。