多源环境下的语音精确定位方法技术

技术编号:19855140 阅读:10 留言:0更新日期:2018-12-22 11:13
本发明专利技术涉及一种多源环境下的语音精确定位方法,属于语音处理领域。该方法首先对环境的语音传递函数进行测试,然后给定一个精度,根据实际环境需要导出一个精确定位的条件,并采用极大极小的频率响应函数向量设计,以及调整或增加麦克风位置和个数的方法满足条件,于是建立语音定位的优化问题,并发展实时算法对优化问题进行求解,从而实现在给定定位精度范围内的精确定位。本发明专利技术对于任意选取源位置和噪声位置,均可验证定位误差满足精度要求,实现精确定位,并且能够实时实现。

【技术实现步骤摘要】
多源环境下的语音精确定位方法
本专利技术属于语音信号处理领域,涉及多源环境下的语音精确定位方法。
技术介绍
多源环境是非常普遍的一种语音环境,单源环境只是它的一个特殊情形,在多源环境下的语音定位非常重要。在一些会议环境里,经常需要对主声源进行定位。麦克风阵列在语音信号处理中有着非常广泛的应用,包括了监控,视频会议,免持设备,人机交互系统等。语音定位是麦克风阵列的一个比较实用的功能。语音定位方法一般分为两类。一类是基于TDOA的方法,即通过估计不同麦克风接收到的信号的时间差,得出语音信号的入射方向。这类方法非常多,如常用的GCC方法。这类方法适用于反射不是很强的远场模型,对于反射很强的环境,回音的影响非常大,定位会出现严重偏差。第二类是不考虑TDOA的方法,一般采用基于导向波束形成(SPR)的方法,及基于某个位置或方向建立相对应的波束形成问题,从而输出一个与能量相关的定位函数导向该位置或方向。这类方法的使用比较广泛。但由于环境的复杂性和语音信号的宽频性,这类方法的稳定性还非常差。整体而言,目前的语音定位方法的难点在于稳定性或鲁棒性方面。往往只能在某些情形能够实现正确定位,在另一些情形的定位出现严重偏差,这是语音定位方法的瓶颈问题。主要原因是语音环境的复杂性。一方面是语音是一种宽频信号,具有多样性的特点,不同的语音信号的定位效果也会有差异,因此同时考虑所有可能的语音信号的定位问题是非常难的。另一方面是环境的复杂性,有无反射,反射的强度不同,有无障碍物等都会影响到语音的传播过程。这些原因导致了目前方法的非常高的不稳定性。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种多源环境下的语音精确定位方法。首先,通过语音环境的测试并运用优化方法确定实际环境下的语音信号传递函数,从而求出真实的传递函数。接着,给出多源环境下语音定位的条件,从而为实现给定精度下的精确定位奠定理论基础,并通过一个特定的波束形成设计方法求解频率响应函数向量。然后,通过调整或增加麦克风的位置和个数的方法,求出在什么情形下才能满足条件,从而实现精确定位。最后,把语音定位建立成一个优化问题,并给出一个快速方法实现实时定位功能。为达到上述目的,本专利技术提供如下技术方案:多源环境下的语音精确定位方法,该方法包括以下步骤:S1:采用麦克风阵列系统实现语音定位;S2:对环境的语音传递函数进行测试;S3:根据实际环境需要导出一个精确定位的条件,并采用极大极小的频率响应函数向量设计和调整和麦克风的方法满足条件;S4:把语音定位建立为一个优化问题,并发展实时算法对优化问题进行求解,从而实现在给定定位精度下的精确定位。进一步,在所述步骤S1中,麦克风的位置与声源的位置不重叠,常摆放在声源的上方。进一步,所述步骤S2具体为:声源所处的环境为近场模型和远场模型,远场模型考虑的是声源的方向信息,近场模型考虑的是声源的位置信息;本方法考虑的是位置信息,并不局限于近场模型或远场模型;当声源的环境已经给定,语音的传递函数就确定下来,它表示为T(r,q,f)(1)其中r是声源的位置,q是麦克风的位置,f是信号的频率.该函数是一个复函数,表示声音从源位置r出发至目标位置q的关于频率f的变化,那么,语音信号的传递函数公式为Y(q,f)=X(r,f)T(r,q,f),i=1,…,N(2)其中,X(r,f)是源信号的傅立叶变换,Y(q,f)是接收信号的傅立叶变换;传递函数T(r,q,f)的确定,可以通过实时测试得到;在位置r上播放很多组语音和噪声信号Xk(r,f),k=1,…,m并在位置q上录取接收到的信号Yk(r,f),k=1,…,m,然后把复函数T(r,q,f)分解为u(f)+jv(f);根据具体的语音具体的语音信号特点,选定一些频率的集合;对于每一个频率f,建立以下优化问题该问题是一个二次规划问题,求解非常容易。一般来说,不需要对每一个频率都求解这个优化问题,只需要对感兴趣的频率求解这个优化问题;对每一个声源的可能位置和每个麦克风接收位置做测试求解后,即可求出传递函数。进一步,在步骤S3中,所述根据实际环境需要导出一个精确定位的条件具体为:对于语音定位,不会对所有声源包括噪声进行定位,只需要对着主声源进行定位,主声源的强度需要比其它声源的强度大,才能确定是主声源,否则该环境视为噪声环境;给定P个声源Xk(rk,f),k=1,…,P,其中rk表示第k个声源的位置;把主声源记为X1,其他P-1声源Xk,k=2,…,P是干扰性声源,视为噪声;根据主声源的要求,有以下约定其中M≥1,频率只需要在人声所在的某个频率范围;M的取值根据实际应用的要求而定,M越大,对环境的要求就越严格,实现就越容易;M越小,应用的范围就越广,相应的实现成本也越高。进一步,在步骤S3中,所述采用极大极小的频率响应函数向量设计以及调整或增加麦克风的方法满足条件具体为:对于N个元素的麦克风阵列,麦克风的位置记为qi,i=1,…,N;则第i个麦克风的接收信号为其中Yik为第i个麦克风接收到的关于第k个声源的部分,即Yik(rk,f)=Xk(rk,f)T(rk,qi,f),i=1,…,N(6)对于每个麦克风,后面接一个滤波器,当加上滤波器后,相应的滤波器频率响应函数为Hi(f),i=1,…,N,通过滤波器后合成一个输出信号记G(r,f)为输出响应函数如下其中T(r,f)=[T(r,q1,f),…,T(r,qN,f)]T,H(f)=[H1(f),…,HN(f)]T;那么,首先,对于任一给定的可行位置需要定义一个通带区域和一个阻带区域必须包括必须与分离,中间有一个过渡带;基于提高定位精度的考虑,直接取为这一个点,是所有与的距离大于等于定位误差的区域,即接着,定义一个理想的响应函数Gd(r,f)如下:其中,rc是一个参考位置点,它可以任意选取,但一般取麦克风阵列的中心时,效果相对好;取一个感兴趣的频率的集合I,对于任一f∈I,建立如下优化问题其中,通过求解该问题得出的最优解记为对于任一给定的可行位置就有一个相对应于的优化问题(13),它的性能值为引入以下条件:条件1:对于任意的相应的性能值都满足进一步,所述步骤S4具体为:当条件1得以满足,并且至少存在一个频率满足|X1(r1,f)|>0时,定位的精度就得以保证;对于一个给定的频率响应函数向量H(f)麦克风系统就输出一个函数(9);为把定位信息加进去,需要根据位置的信息加上相应的频率响应函数向量;则对于每一个位置求解问题(13)得出频率响应函数向量求出以下输出函数选取目标函数如下于是建立优化问题如下该问题的最优解记为即求解的声源位置估计值;对于任何的声源位置rk,k=1,…,P,通过求解优化问题(19)得出估计值,定位误差记为定义阻带的补集如下那么主声源的位置必定满足即主声源的位置r1肯定不会在问题(19)的最优解的阻带里;令其中S是整个可行位置的区域,的定义为那么由(10)和(11)可得出由(22)求出对于任意的r1∈S,定位误差满足即求出来的位置估计值与真正声源位置的误差不会超过ε。本专利技术的有益效果在于:本专利技术对于任意选取源位置,也可以类似验证定位误差非常小,本案例采用任意选取随机位置进行测试,均实现精确定位,并且实现的非常快速。附图说明为了使本专利技术的目的、技术方案和本文档来自技高网...

【技术保护点】
1.多源环境下的语音精确定位方法,其特征在于:该方法包括以下步骤:S1:采用麦克风阵列系统实现语音定位;S2:对环境的语音传递函数进行测试;S3:根据实际环境导出一个精确定位的条件,并采用极大极小的频率响应函数向量设计和调整和增加麦克风的方法满足条件;S4:建立语音定位的优化问题,并发展实时算法对优化问题进行求解,实现在给定定位精度下的精确定位。

【技术特征摘要】
1.多源环境下的语音精确定位方法,其特征在于:该方法包括以下步骤:S1:采用麦克风阵列系统实现语音定位;S2:对环境的语音传递函数进行测试;S3:根据实际环境导出一个精确定位的条件,并采用极大极小的频率响应函数向量设计和调整和增加麦克风的方法满足条件;S4:建立语音定位的优化问题,并发展实时算法对优化问题进行求解,实现在给定定位精度下的精确定位。2.根据权利要求1所述的多源环境下的语音精确定位方法,其特征在于:在所述步骤S1中,麦克风的位置与声源的位置不重叠,摆放在声源的上方。3.根据权利要求1所述的多源环境下的语音精确定位方法,其特征在于:所述步骤S2具体为:声源所处的环境为近场模型和远场模型,远场模型考虑的是声源的方向信息,近场模型考虑的是声源的位置信息;本方法考虑的是位置信息,不局限于近场模型或远场模型;当声源的环境已经给定,语音的传递函数就确定下来,它表示为T(r,q,f)(1)其中r是声源的位置,q是麦克风的位置,f是信号的频率.该函数是一个复函数,表示声音从源位置r出发至目标位置q的关于频率f的变化,则有Y(q,f)=X(r,f)T(r,q,f),i=1,…,N(2)其中,X(r,f)是源信号的傅立叶变换,Y(q,f)是接收信号的傅立叶变换;对于传递函数T(r,q,f)的确定,通过实时测试得到;在位置r上播放很多组语音信号Xk(r,f),k=1,…,m,并在位置q录取接收到的信号Yk(r,f),k=1,…,m,然后把复函数T(r,q,f)分解为u(f)+jv(f);根据信号特点,选定一些频率集合,对于每一个频率f,考虑以下优化问题对该问题实时求出最优解;不需要对每一个频率都求解这个优化问题,只需要对感兴趣的频率求解这个优化问题;对每一个声源的可能位置和每个麦克风接收位置做测试求解后,所得最优解组成传递函数。4.根据权利要求1所述的多源环境下的语音精确定位方法,其特征在于:在步骤S3中,所述根据实际环境导出一个精确定位的条件具体为:对于语音定位,不会对所有声源包括噪声进行定位,只需要对着主声源进行定位,主声源的强度需要比其它声源的强度大,才能确定是主声源,否则该环境视为噪声环境;给定P个声源Xk(rk,f),k=1,…,P,其中rk表示第k个声源的位置;把主声源记为X1,其他P-1声源Xk,k=2,…,P是干扰性声源,视为噪声;根据主声源的要求,有以下约定其中M≥1,频率只需要在人声所在的某个频率范围里面;M的取...

【专利技术属性】
技术研发人员:冯志国
申请(专利权)人:广东海洋大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1