当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于声传递函数的声源定位方法技术

技术编号:16310644 阅读:52 留言:0更新日期:2017-09-29 04:14
本发明专利技术公开了一种基于声传递函数的声源定位方法。本方法为:1)为每一声源设置一波段;采用麦克风阵列接收各方位的声源的记录信号;2)对于每个方位的声源,根据该声源到麦克风阵列中各麦克风的传递函数估计所述记录信号中各频点的信噪比,然后将信噪比二值化,生成对应声源的频域二值掩模;3)对于每个方位的声源,根据该声源的频域二值掩模滤除所述记录信号中信噪比小于设定阈值H的频点,然后使用该声源到麦克风阵列中各麦克风的传递函数对记录信号做频域逆滤波;4)计算逆滤波结果的通道间相似性,然后根据通道间相似性的计算结果估计声源位置定位目标声源。本发明专利技术提高了定位方法的鲁棒性。

A method of sound source localization based on acoustic transfer function

The invention discloses a method for locating a sound source based on an acoustic transfer function. The method is as follows: 1) set up a band for each sound source; recording audio signal source based on microphone array receiving range; 2) for each sound source range, according to the sound source to the transfer function of the microphone array in the estimation of the record of the frequency in the signal SNR. Then the value of more than two signal-to-noise, generate the corresponding sound source frequency value of two mask; 3) for each range of sound source, the sound source frequency according to the value of two frequency mask filters the recorded signal SNR is less than the threshold of H, and then use the transfer function of the sound source to the microphone the microphone array in the column of recording signal frequency domain inverse filter; 4) to calculate the inverse filtering results of channel similarity, then according to the similarity between the calculation results of channel estimate the location of the sound source positioning target sound source. The invention improves the robustness of the positioning method.

【技术实现步骤摘要】

本专利技术属于信号处理
,涉及麦克风阵列和声源定位,具体涉及一种基于声传递函数的声源定位方法
技术介绍
声源定位在许多领域有重要的应用,比如自动语音识别、机器人以及计算听觉场景分析等。对人而言,即使在复杂环境中,听者依然能顺利定位目标声源,其主要利用的定位线索有双耳时间差(InterauralTimeDifference,ITD)和双耳强度差(InterauralLevelDifference,ILD)。研究人员将上述定位线索应用于麦克风阵列的声源的定位问题中,提出了许多声源定位方法。一些定位方法仅利用时间定位线索。这类方法首先估计由声源发出的信号到达各麦克风的时间差,即到达时间差(TimeDifferenceOfArrival,TDOA),之后将TDOA信息映射到空间位置。TDOA可通过GCC(generalizedcross-correlation)、GCC-PHAT(generalizedcross-correlationphasedtransform)、SRP(steeredresponsepower)以及SRP-PHAT-(steeredresponsepowerphasedtransform)等方法计算得到。TDOA与空间位置的映射关系则由麦克风阵列的位置、形状等因素决定。也有一些研究人员使用时间线索以及强度线索共同定位声源,Raspaud等人建立了通道间时间差和强度差与声源位置之间的参数模型,根据估计得到的时间差和强度差确定目标声源的位置。传递函数刻画了包含了时间差、强度差等定位线索,因此一些研究人员试图利用传递函数实现声源定位。Keyrouz等人提出了一种基于双麦克风的声源定位方法,其基本思想为当且仅当使用与声源方位对应的传递函数对记录信号做逆滤波时两个通道的逆滤波结果相同,即匹配滤波。该方法首先使用状态空间求逆法(state-spaceinversionmethod)计算所有可能声源位置的传递函数的逆,逐个使用传递函数的逆对记录信号做滤波操作,计算逆滤波结果的通道间相似性,最终将声源定位至使相关系数最大的传递函数对应的空间位置。由于传递函数的逆的计算量过大且可能存在误差,MacDonal将反卷积过程变换为卷积过程,提出新的基于传递函数的声源定位算法。当只有两个麦克风时,对于每一个候选的声源位置,该方法将每个麦克风的记录信号与另一个麦克风的传递函数卷积,之后计算卷积结果间的相关性,使相关性达到最大的传递函数对应的空间位置即为定位输出结果。当麦克风个数较多时,该方法还需要将麦克风成对分组。声源定位任务的一个主要挑战是如何在噪声干扰下定位目标声源,即如何提高定位方法的鲁棒性。麦克风阵列接收到的声音信号通常可看作由经传递函数滤波的声源信号与噪声干扰共同组成,即麦克风阵列接收信号的信噪比由声源、噪声以及传递函数共同决定,且传递函数仅与声源位置有关,因此可将传递函数作为信噪比的先验知识引入到声源定位任务中,而现有的基于传递函数的声源定位方法并未考虑到这一点。
技术实现思路
本专利技术提出了一种基于声传递函数的声源定位方法,在已知所有可能声源位置到麦克风的传递函数时,该方法可以根据声传递函数获取相应麦克风记录信号信噪比的先验信息并将该先验信息用于声源定位。本专利技术所提的基于传递函数的声源定位方法的基本思想是,使用声传递函数对麦克风记录信号做逆滤波,根据逆滤波结果的通道间相似性即可定位目标声源。当考虑噪声干扰时,记录信号不同频率处的信噪比由声源和噪声的频谱分布以及传递函数共同决定。若声源和噪声固定,记录信号的信噪比则正比于传递函数的幅度。由于,传递函数可能存在极小值点,即在某些频率处的幅度远小于其平均值,可以推测记录信号在这些频率点上的信噪比较差。因此,在已知所有可能声源位置的传递函数的基础上,可根据传递函数的频谱模式估计记录信号中信噪比很低的频点并将该频点在定位之前滤除,提高声源定位方法的鲁棒性。本专利技术的主要创新之处在于其能根据传递函数的频谱模式估计记录信号中信噪比较差的频段并将其滤除,从而提高了定位的鲁棒性。本专利技术提出的基于传递函数的声源定位方法的基本框架如图1所示,其中主要包括以下几个部分:计算频域二值掩模对于每个声源方位,根据声源到所有麦克风的传递函数估计记录信号中信噪比较低的频点,并使用0-1二值向量对每个频点进行表示,得到每个声源的频域二值掩模,其中,‘1’表示该频点的信噪比较高;‘0’表示该频点的信噪比较差;逆滤波依次使用各个待选声源位置的传递函数对记录信号做逆滤波,逆滤波过程中需要根据与声源位置对应传递函数的频域二值掩模滤除信噪比较差的频点,逆滤波在频域进行;通道间相似性计算使用皮尔逊相关系数计算逆滤波结果的通道间相似性;决策器根据通道间相似性的计算结果估计声源位置,其基本思路是将声源定位至使通道间相似性最大的传递函数所对应的空间位置。与现有技术相比,本专利技术的积极效果为:根据传递函数提取记录信号信噪比的先验信息并将该先验信息用于声源定位,提高了定位方法的鲁棒性。附图说明图1是基于传递函数的声源定位方法的基本框图;图2是实验所用球模型以及麦克风分布示意图;图3是声源为白噪声时本文所提方法与基线在不同声源方位下的定位指向图;其中,实线为本专利技术方法,虚线为SRP-PHAT方法;(a)声源水平角为60°,(b)声源水平角为180°,(c)声源水平角为300°;图4是声源为语音时本文所提方法与基线在不同声源方位下的定位指向图;其中,实线为本专利技术方法,虚线为SRP-PHAT方法;(a)声源水平角为60°,(b)声源水平角为180°,(c)声源水平角为300°;图5是声源为音乐时本文所提方法与基线在不同声源方位下的定位指向图;其中,实线为本专利技术方法,虚线为SRP-PHAT方法;(a)声源水平角为60°,(b)声源水平角为180°,(c)声源水平角为300°;图6是本专利技术所提方法与基线在不同信噪比下的平均定位偏差;(a)声源为白噪声,(b)声源为语音,(c)声源为音乐。具体实施方式下面参照本专利技术的附图,更详细地描述本专利技术的具体实施方法。1.频域二值掩模计算假设声源位于Ps处,麦克风阵列由M个麦克风组成,麦克风m(1≤m≤M)的空间位置为Pm,Ps到Pm的传递函数已知并表示为麦克风m记录的信号Rm可表示为:其中,Nm表示麦克风m的记录信号中包含的噪声,k表示频率。记录信号Rm的信噪比可表示为由公式(2)可知,记录信号的信噪比由声源、噪声以及传递函数共同决定。若不考虑声源与噪声信号的频谱分布,记录信号的信噪比则正比于传递函数的幅度。由于散射体的特性,传递函数可能在某些频率处出现零点或较小值,导致记录信号在对应频率处的信噪比较低。对于每个声源位置,可根据传递函数的幅频曲线估计记录信号在各频率处的信噪比情况,并使用0-1二值向量标识出信噪比较低的频点,即频域二值掩模(spectralbinarymasker,BSM)。声源位置Ps对应的频域二值掩模的具体计算步骤如下:a)对每个麦克风的传递函数做最大值归一化,得到归一化传递函数b)搜索M个归一化传递函数在每个频点处的幅度最小值并组成向量Vc)使用设定阈值T将向量V二值化,即可得到2.逆滤波逆滤波实现了系统输出到输入的映射,其关键是找出系统的冲激响应本文档来自技高网
...
一种基于声传递函数的声源定位方法

【技术保护点】
一种基于声传递函数的声源定位方法,其步骤为:1)为每一声源设置一波段;采用麦克风阵列接收各方位的声源的记录信号;2)对于每个方位的声源,根据该声源到麦克风阵列中各麦克风的传递函数估计所述记录信号中各频点的信噪比,然后将信噪比二值化,生成对应声源的频域二值掩模;3)对于每个方位的声源,根据该声源的频域二值掩模滤除所述记录信号中信噪比小于设定阈值H的频点,然后使用该声源到麦克风阵列中各麦克风的传递函数对记录信号做频域逆滤波;4)计算逆滤波结果的通道间相似性,然后根据通道间相似性的计算结果估计声源位置定位目标声源。

【技术特征摘要】
1.一种基于声传递函数的声源定位方法,其步骤为:1)为每一声源设置一波段;采用麦克风阵列接收各方位的声源的记录信号;2)对于每个方位的声源,根据该声源到麦克风阵列中各麦克风的传递函数估计所述记录信号中各频点的信噪比,然后将信噪比二值化,生成对应声源的频域二值掩模;3)对于每个方位的声源,根据该声源的频域二值掩模滤除所述记录信号中信噪比小于设定阈值H的频点,然后使用该声源到麦克风阵列中各麦克风的传递函数对记录信号做频域逆滤波;4)计算逆滤波结果的通道间相似性,然后根据通道间相似性的计算结果估计声源位置定位目标声源。2.如权利要求1所述的方法,其特征在于,生成所述频域二值掩模的方法为:对于一声源Ps,将该声源Ps到各麦克风的传递函数做最...

【专利技术属性】
技术研发人员:曲天书吴玺宏宋涛
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1