声源定位方法和装置制造方法及图纸

技术编号:3922696 阅读:185 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种声源定位方法和装置,方法包括:采集声源时域信号;将所述时域信号转换为频域信号;根据所述频域信号确定频率的空间功率谱;根据所述空间功率谱确定频率的空间功率概率。装置包括:采集单元,用于采集声源时域信号;转换单元,用于将所述时域信号转换为频域信号;功率确定单元,用于根据所述频域信号确定频率的空间功率谱;概率确定单元,用于根据所述空间功率谱确定频率的空间功率概率分布;定位单元,用于根据空间概率分布确定概率最大的空间位置。本发明专利技术运用空间功率概率分布确定声源,可以提高声源阵列在噪声、混响等环境下的定位准确性。

【技术实现步骤摘要】

本专利技术涉及多媒体通信领域的音频处理技术,特别涉及一种声源定位方法。
技术介绍
声源定位技术指的是估计除声源所在的位置。声源定位技术有着广泛的应用,例如在视频会议系统中,可采样声源定位技术估计出说话人所在的位置,然后控制摄像机镜头指向说话人所在的位置,实行声控切换功能。声源定位技术也可以应用到监控、语音增强等领域。 下面对现有的SRP(steered response power)以及SRP-PHAT(phasetrans form)声源定位技术进行介绍。 如图3所示,lps对应声源,l1和l2对应两个麦克风,如麦克风。从声源lps到两个麦克风l1和l2的时延分别用TOF(lps,l1)和TOF(lps,l1)表示。两个麦克风之间收到的信号分别为x1(t)和x2(t),则x1(t+TOF(lps,l1))∝x2(t+TOF(lps,l2)),其中 fs是采样频率,c是声速。 同时,对应的两个麦克风信号之间的时延τ有如下的定义,当τ=TOF(lps,l1)-TOF(lps,l2)时,x1(t)和x2(t)的时域互相关函数g(x1,x2)具有最大值,g(x1,x2)=∫Rx1(t)·x2(t+τ)dε。 对于任一麦克风对q,它们的位置对应(laq,lbq),声源lps到达麦克风对q的理论到达时延差(TDOA,Time-difference of arrival)为 SRP方法通过估计空间上的功率谱分布,找出功率最大的空间位置,该位置即为声源的位置。SRP最基本的公式如下 其中,在l位置的声源被各个麦克风拾取后,在时间上对齐并累加的和信号为 由于受到不同声源之间的信号幅度、以及不同频率成分大小的影响,采用上面方法的效果并不好。因此现有公开文献中对该基本方法进行了改进,改进的方法是将各个声源采集的时域信号变换到频域,然后将各个频谱的幅度进行归一化,这样可以消除各个频谱幅度大小不一致的影响,该改进的算法在现有文献中称之为SRP-PHAT法,下面对该方法进行描述。 对采集到的t时刻开始的2NF个时域信号X(t)进行FFT变换,得到 则公式(1)可以变换为 对公式(2)各个频率成分的幅度进行归一化,则得到SRP-PHAT法的计算公式 上述SRP和SRP-PHAT法实际上都是在声源阵列周围的空间中放置多个预定点,然后计算各个预定点的功率值或修正的功率值,其最大值处所在位置即为声源所在位置。 但是在实际应用环境中,声源定位的准确性受到环境噪声、干扰声、混响等因素的影响较大,SRP和SRP-PHAT法均无法有效克服。
技术实现思路
本专利技术的目的是提供一种更加稳健的声源定位方法和装置,用以克服现有技术中的声源定位的准确性易受到环境噪声等因素干扰的影响。 本专利技术一个实施例提供一种声源定位方法,包括采集声源时域信号;将所述时域信号转换为频域信号;根据所述频域信号确定频率的空间功率谱;根据所述空间功率谱确定频率的空间功率概率;根据空间概率分布确定概率最大的空间位置,作为声源位置。 本专利技术的另一个实施例提供一种生源定位装置,包括采集单元,用于采集声源时域信号;转换单元,用于将所述时域信号转换为频域信号;功率确定单元,用于根据所述频域信号确定频率的空间功率谱;概率确定单元,用于根据所述空间功率谱确定频率的空间功率概率分布;定位单元,用于根据空间概率分布确定概率最大的空间位置。 本专利技术的实施例运用空间功率概率分布确定声源,可以提高声源阵列在噪声、混响等环境下的定位准确性。 附图说明 图1是本专利技术的声源定位方法的流程图; 图2是本专利技术的声源定位装置的结构示意图; 图3是现有声源定位方法的说明图。 具体实施例方式 为使本专利技术的目的、技术方案和优点更加清晰易懂,下面结合附图,对本专利技术做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。 实施例一 本实施例提供一种生源定位方法。如图1所示,该方法包括 步骤101采集声源时域信号; 在该步骤中,可以通过多个麦克风采集声源的时域信号x1,x2,…,xNm。 步骤102将所述时域信号转换为频域信号; 在该步骤中,将多个麦克风采集的时域信号为x1,x2,…,XNm转换为频域信号为X1,X2,…,XNm。时域信号到频域信号的变换方法通常傅里叶变换(FFT),也可以采用其他常用变换,例如余弦变换(DCT)。 步骤103根据所述频域信号确定频率的空间功率谱; 在该步骤中,根据下式确定频率的空间功率谱, 步骤104根据所述空间功率谱确定频率的空间功率概率分布; 在该步骤中,先确定单个频率的空间功率概率分布,然后再确定多个频率的空间功率概率分布。对于某个频率来说,其功率在空间上呈一定的分布,不同的频率分布差别较大,很显然不同分布的频率对定位的贡献是不一样。可以根据下面的公式确定单个频率的空间功率概率分布, 其中, 表示第k个频率l位置上出现声源的概率。 将各单个频率的空间功率概率分布求和得到多个概率的空间功率分布。或者,将各单个频率的空间功率概率分布加权求和得到多个频率的空间功率分布,各单个频率的空间功率概率分布的权重随频率受噪音干扰影响的程度增大而减小。具体可以根据下面的公式计算多个频率的空间功率概率分布, 其中,wk是各单个频率的空间功率概率分布的权重,随单个频率的信号幅值增大而增大。 步骤105根据空间概率分布确定概率最大的空间位置。 在该步骤中,可以根据下面的公式按当前帧确定概率最大的空间位置, 或者,根据下面的公式按多帧确定概率最大的空间位置, 其中, 是当前帧的频率的空间功率概率分布, 是前一帧的频率的空间功率概率分布, 是前T帧的频率的空间功率概率分布,α1为前一帧的衰减系数,αT是前T帧的衰减系数。 本专利技术实施例依据某个频率在某个空间位置呈现尖锐的概率分布,则在该位置出现音源的概率较大,反之则出现的概率较小的现象,对现有的声源定位方法进行改进,从而减小了环境噪声、干扰声、混响等因素对定位准确性的影响,提高了定位的准确性。 实施例二 本实施例提供一种声源定位装置。如图2所示,该装置200包括 采集单元201,用于采集声源时域信号; 转换单元202,用于将所述时域信号转换为频域信号; 功率确定单元203,用于根据所述频域信号的确定频率的空间功率谱; 概率确定单元204,用于根据所述空间功率谱确定频率的空间功率概率分布; 定位单元205,用于根据空间概率分布确定概率最大的空间位置。 采集单元201,如多个麦克风,采集声源的时域信号x1,x2,…,xNm。转换单元202,如逻辑电路,将多个麦克风采集的时域信号为x1,x2,…,xNm转换为频域信号为X1,X2,…,XNm。时域信号到频域信号的变换方法通常傅里叶变换(FFT),也可以采用其他常用变换(请举例)。功率确定单元203根据下面公式将频域信号X1,X2,…,XNm确定频率的空间功率谱概率确定单元204包括单频率概率确定模块214和多频率概率确本文档来自技高网
...

【技术保护点】
一种声源定位方法,其特征在于,该方法包括:采集声源时域信号;将所述时域信号转换为频域信号;根据所述频域信号确定频率的空间功率谱;根据所述空间功率谱确定频率的空间功率概率分布;根据空间概率分布确定概率最大的空间位置,以概率最大的空间位置作为声源位置。

【技术特征摘要】

【专利技术属性】
技术研发人员:詹五洲王东琦
申请(专利权)人:华为终端有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1