语音声源测向装置制造方法及图纸

技术编号:15217931 阅读:142 留言:0更新日期:2017-04-26 01:07
一种语音声源测向装置(10),包括:传声器阵列(11),声音预处理模块,声源测向模块(14)和声源信息输出模块(15),其中,所述传声器阵列(11)采集目标环境下的声音信号;所述声音预处理模块对由所述传声器阵列(11)采集的声音信号进行预处理,形成数字化的声音信号数据;所述声源测向模块(14)对所述数字化的声音信号数据进行处理,得到语音声源的声源方向;所述声源信息输出模块(15)输出由所述声源测向模块(14)处理得到的各个语音声源的声源方向数据。该装置可以将多个声源问题转化为单声源方向估计问题,不仅简化了运算量还提高了分辨率。

Speech sound source direction finding device

A sound source direction finding device (10), including: microphone array (11), voice processing module, sound source direction finding module (14) and source information output module (15), wherein, the microphone array (11) sound signal acquisition target environment; the voice processing module of by the microphone array (11) of the sound signal acquisition pretreatment, the formation of sound signal of digital data; the direction of the source module (14) of the sound signal of digital data processing, get the direction of the sound source sound source; the sound source information output from the output module (15) the direction of the source module (14) the direction of the sound source data processing of each sound source of. The device can be a sound source problem into the estimation problem of single sound source direction, not only simplifies the computation but also improve the resolution.

【技术实现步骤摘要】

本技术声源定位技术,更具体而言,涉及一种测量语音声源方向的装置。
技术介绍
波达方向(directionofarrival,DOA)估计是阵列信号处理的重要技术,在雷达、声纳、语音等领域中都有着重要的应用。尤其对可用于语音交互的智能硬件而言,更需要稳健的DOA估计来确定说话人的方向,进而才能利用波束形成技术对说话人的语音进行增强等处理。目前语音声源的DOA估计主要利用的是时延估计两步法。第一步先计算传声器对之间的相关函数,相关函数的极值点对应的时间就是声波到达两个传声器之间的延迟。在计算传声器间的相关函数时,在不同的频带上根据加权值的不同又可以分为多种方法,如SCOT、PHAT、Eckart和ML等方法;第二步根据计算出的传声器对之间的时间延迟,可以利用最小二乘法直接获得声源的方向。这种时延估计两步法的优点是计算量小、实时性好、硬件成本低,但是缺点在于,仅针对单个声源的估计较好,针对多个声源时,性能严重下降。也可以通过对代价函数进行搜索的方法获得声源的方向,如SRP-PHAT算法,该算法具有较好的稳健性,即使在有混响的条件下也能得到较好的结果。但是该方法分辨率较差,当两个声源的角度相近时该算法无法区分,因此在传声器个数较少的情况下也更容易受到周围噪声干扰,角度估计偏差变大。还可以通过基于自空间技术的声源定位方法,利用求解麦克风信号之间的相关矩阵来确定声源。其中以MUSIC最具代表性。当有多个声源时,MUSIC算法虽然可以提高分辨率,但它需要对自相关矩阵进行特征值分解,运算复杂度增加。
技术实现思路
根据本技术的实施例的一方面,提供了一种语音声源测向方法,其包括:基于传声器阵列采集的声音信号获得每个时频片的波束图,对波束图的极值点进行聚类以获得语音声源的方向,其中,通过假定在每个时频片只有一个语音声源信号起主要作用,来对每个时频片获得一个波束图。根据本技术实施例的语音声源测向方法,可选地,获得波束图包括:将由传声器阵列采集的声音信号s(t)=[s1(t),s2(t),...,sp(t)]T在时域上分段,并对每段声音信号数据分别进行快速傅里叶变换,得到频率域表达式S[n,f]=[S1(n,f),S2(n,f),...,SP(n,f)]T,fL≤f≤fH,其中,sp(t)为第p个传声器接收到的信号,1≤p≤Np,Np为传声器阵列中传声器的个数,t为采样时刻点,Sp(n,f)为第p个传声器在频率f处的值,n为快拍数,fL为选取的最低频率值,fH为选取的最高频率值;对于经快速傅立叶变换的每段声音信号数据,计算传声器阵列在各个频率的自相关矩阵其中,N是计算自相关矩阵所用的快拍总数,f为频率;利用传声器在各个频率的自相关矩阵获得与由时间段及频率区间限定的时频片对应的空间波束图J(θ,f)=A(θ,f)Rss(f)A(θ,f)H,其中,0≤θ≤2π,为传声器阵列的导向矢量,τp(θ)=(xpcosθ+ypsinθ)/c,(xp,yp)为第p个传声器的坐标,c为声速。根据本技术实施例的语音声源测向方法,可选地,通过搜索空间波束图J(θ,f)的极大值来获得时频片内起主要作用的语音信号的角度其中,k=1,2,...,K,K为在频率f的时频片的个数。根据本技术实施例的语音声源测向方法,可选地,对语音信号角度θ(k,f)进行聚类以确定语音声源相对于传声器阵列的入射角度。根据本技术实施例的语音声源测向方法,可选地,采用K-MEANS算法、K-MEDOIDS算法、CLARANS算法中的一种进行聚类。根据本技术实施例的语音声源测向方法,可选地,聚类的个数是语音声源的个数,每个类的均值是声源相对传声器阵列的入射角度。根据本技术实施例的语音声源测向方法,可选地,传声器阵列是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。根据本技术实施例的语音声源测向方法,可选地,传声器阵列为均匀线阵,第p个传声器的时间延迟为τp(θ)=(p-1)dsinθ/c,其中,d是以直线形均匀排列的传声器之间的间距。根据本技术实施例的语音声源测向方法,可选地,传声器阵列为均匀圆阵,第p个传声器的时间延迟为其中,r为传声器均匀排列所形成的圆形的半径。根据本技术实施例的语音声源测向方法,可选地,该语音声源测向方法,包括:将由传声器阵列采集的语音数据在时域分成多段后,分别进行快速傅立叶变换得到频域数据;计算每段语音数据在各个频率的自相关矩阵;根据自相关矩阵得到各段语音数据在各个频率的空间波束图,获得在空间波束图的极大值处的语音信号角度;对所得到的各段各频率的语音信号角度进行聚类;根据类的个数和类的均值,得到语音声源个数及语音声源方向。根据本技术实施例的另一方面,提供了一种语音声源测向装置,其包括:传声器阵列,声音预处理模块,声源测向模块和声源信息输出模块,其中,传声器阵列采集目标环境下的声音信号;声音预处理模块对由传声器阵列采集的声音信号进行预处理,形成数字化的声音信号数据;声源测向模块对数字化的声音信号数据进行处理,得到语音声源的声源方向;声源信息输出模块输出由声源测向模块处理得到的各个语音声源的声源方向数据,其中,声源测向模块进一步包括:时频转换单元,空间波束图生成单元,语音信号角度计算单元,聚类处理单元,时频转换单元将数字化的声音数据在时域上分成多段,并且对于每一段的声音数据分别进行快速傅立叶变换得到各自的频域信号;空间波束图生成单元基于频域信号计算每个时间段内传声器阵列在各个中心频率的自相关矩阵,并利用该自相关矩阵获得每个时频片的空间波束图,时频片是由时间段及中心频率限定的;语音信号角度计算单元通过搜索空间波束图的极大值来获得在对应时频片内起主要作用的语音信号相对于传声器阵列的入射角度;聚类处理单元对各个时频片的入射角进行聚类,得到语音声源的个数和语音声源的方向。根据本技术实施例的语音声源测向装置,可选地,声音预处理模块包括:模拟滤波放大电路,模拟数字转换器,其中,模拟滤波放大电路对采集的模拟声音信号进行滤波以及增益放大处理;模数转换器将经过滤波和增益变换处理的信号转换为数字信号。根据本技术实施例的语音声源测向装置,可选地,传声器阵列是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。根据本技术实施例的语音声源测向装置,可选地,时频转换单元将由传声器阵列采集的声音信号s(t)=[s1(t),s2(t),...,sp(t)]T在时域上分段,并对每段声音信号数据分别进行快速傅里叶变换,得到频率域表达式S[n,f]=[S1(n,f),S2(n,f),...,SP(n,f)]T,fL≤f≤fH,其中,sp(t)为第p个传声器接收到的信号,1≤p≤Np,Np为传声器阵列中传声器的个数,t为采样时刻点,Sp(n,f)为第p个传声器在中心频率f处的值,n为快拍数,fL为选取的最低频率值,fH为选取的最高频率值;空间波束图生成单元对于经快速傅立叶变换的每段声音信号数据,计算传声器阵列在各个中心频率的自相关矩阵其中,N是计算自相关矩阵所用的快拍总数,f为中心频率,并利用传声器在各个中心频率的自相关矩阵获得与由时间段及频率区间限定的时频片对应的空间波束图J(θ,f)=A(θ,f)Rss(f)A(本文档来自技高网...

【技术保护点】
一种语音声源测向装置(10),其特征在于,所述语音声源测向装置(10),包括:传声器阵列(11),声音预处理模块,声源测向模块(14)和声源信息输出模块(15),其中,所述传声器阵列(11)采集目标环境下的声音信号;所述声音预处理模块对由所述传声器阵列(11)采集的声音信号进行预处理,形成数字化的声音信号数据;所述声源测向模块(14)对所述数字化的声音信号数据进行处理,得到语音声源的声源方向;所述声源信息输出模块(15)输出由所述声源测向模块(14)处理得到的各个语音声源的声源方向数据,其中,所述声源测向模块(14)进一步包括:时频转换单元(141),空间波束图生成单元(142),语音信号角度计算单元(143),聚类处理单元(144),所述时频转换单元(141)将所述数字化的声音数据在时域上分成多段,并且对于每一时间段的声音数据分别进行快速傅立叶变换得到各自的频域信号;所述空间波束图生成单元(142)基于所述频域信号计算所述每个时间段内所述传声器阵列(11)在各个中心频率的自相关矩阵,并利用该自相关矩阵获得每个时频片的空间波束图,所述时频片是由所述时间段及所述中心频率限定的;所述语音信号角度计算单元(143)通过搜索所述空间波束图的极大值来获得在对应时频片内起主要作用的语音信号相对于所述传声器阵列(11) 的入射角度;所述聚类处理单元(144)对各个时频片的所述入射角进行聚类,得到所述语音声源的个数和语音声源的方向。...

【技术特征摘要】
1.一种语音声源测向装置(10),其特征在于,所述语音声源测向装置(10),包括:传声器阵列(11),声音预处理模块,声源测向模块(14)和声源信息输出模块(15),其中,所述传声器阵列(11)采集目标环境下的声音信号;所述声音预处理模块对由所述传声器阵列(11)采集的声音信号进行预处理,形成数字化的声音信号数据;所述声源测向模块(14)对所述数字化的声音信号数据进行处理,得到语音声源的声源方向;所述声源信息输出模块(15)输出由所述声源测向模块(14)处理得到的各个语音声源的声源方向数据,其中,所述声源测向模块(14)进一步包括:时频转换单元(141),空间波束图生成单元(142),语音信号角度计算单元(143),聚类处理单元(144),所述时频转换单元(141)将所述数字化的声音数据在时域上分成多段,并且对于每一时间段的声音数据分别进行快速傅立叶变换得到各自的频域信号;所述空间波束图生成单元(142)基于所述频域信号计算所述每个时间段内所述传声器阵列(11)在各个中心频率的自相关矩阵,并利用该自相关矩阵获得每个时频片的空间波束图,所述时频片是由所述时间段及所述中心频率限定的;所述语音信号角度计算单元(143)通过搜索所述空间波束图的极大值来获得在对应时频片内起主要作用的语音信号相对于所述传声器阵列(11)的入射角度;所述聚类处理单元(144)对各个时频片的所述入射角进行聚类,得到所述语音声源的个数和语音声源的方向。2.根据权利要求1所述的语音声源测向装置(10),其特征在于,所述声音预处理模块包括:模拟滤波放大电路(12),模拟数字转换器(13),其中,所述模拟滤波放大电路(12)对所述采集的模拟声音信号进行滤波以及增益放大处理;所述模拟数字转换器(13)将经过滤波和增益变换处理的信号转换为数字信号。3.根据权利要求1所述的语音声源测向装置(10),其特征在于,所述传声器阵列(11)是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。4.根据权利要求1所述的语音声源测向装置(10),其特征在于,所述时频转换单元(141)将由所述传声器阵列(11)采集的所述声音信号s(t)=[s1(t),s2(t),...,sp(t)]T在时域上分段,并对每段声音信号数据分别进行...

【专利技术属性】
技术研发人员:冯大航陈孝良常乐苏少炜
申请(专利权)人:北京声智科技有限公司
类型:新型
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1