A sound source direction finding device (10), including: microphone array (11), voice processing module, sound source direction finding module (14) and source information output module (15), wherein, the microphone array (11) sound signal acquisition target environment; the voice processing module of by the microphone array (11) of the sound signal acquisition pretreatment, the formation of sound signal of digital data; the direction of the source module (14) of the sound signal of digital data processing, get the direction of the sound source sound source; the sound source information output from the output module (15) the direction of the source module (14) the direction of the sound source data processing of each sound source of. The device can be a sound source problem into the estimation problem of single sound source direction, not only simplifies the computation but also improve the resolution.
【技术实现步骤摘要】
本技术声源定位技术,更具体而言,涉及一种测量语音声源方向的装置。
技术介绍
波达方向(directionofarrival,DOA)估计是阵列信号处理的重要技术,在雷达、声纳、语音等领域中都有着重要的应用。尤其对可用于语音交互的智能硬件而言,更需要稳健的DOA估计来确定说话人的方向,进而才能利用波束形成技术对说话人的语音进行增强等处理。目前语音声源的DOA估计主要利用的是时延估计两步法。第一步先计算传声器对之间的相关函数,相关函数的极值点对应的时间就是声波到达两个传声器之间的延迟。在计算传声器间的相关函数时,在不同的频带上根据加权值的不同又可以分为多种方法,如SCOT、PHAT、Eckart和ML等方法;第二步根据计算出的传声器对之间的时间延迟,可以利用最小二乘法直接获得声源的方向。这种时延估计两步法的优点是计算量小、实时性好、硬件成本低,但是缺点在于,仅针对单个声源的估计较好,针对多个声源时,性能严重下降。也可以通过对代价函数进行搜索的方法获得声源的方向,如SRP-PHAT算法,该算法具有较好的稳健性,即使在有混响的条件下也能得到较好的结果。但是该方法分辨率较差,当两个声源的角度相近时该算法无法区分,因此在传声器个数较少的情况下也更容易受到周围噪声干扰,角度估计偏差变大。还可以通过基于自空间技术的声源定位方法,利用求解麦克风信号之间的相关矩阵来确定声源。其中以MUSIC最具代表性。当有多个声源时,MUSIC算法虽然可以提高分辨率,但它需要对自相关矩阵进行特征值分解,运算复杂度增加。
技术实现思路
根据本技术的实施例的一方面,提供了一种语音声源测向方法,其包括: ...
【技术保护点】
一种语音声源测向装置(10),其特征在于,所述语音声源测向装置(10),包括:传声器阵列(11),声音预处理模块,声源测向模块(14)和声源信息输出模块(15),其中,所述传声器阵列(11)采集目标环境下的声音信号;所述声音预处理模块对由所述传声器阵列(11)采集的声音信号进行预处理,形成数字化的声音信号数据;所述声源测向模块(14)对所述数字化的声音信号数据进行处理,得到语音声源的声源方向;所述声源信息输出模块(15)输出由所述声源测向模块(14)处理得到的各个语音声源的声源方向数据,其中,所述声源测向模块(14)进一步包括:时频转换单元(141),空间波束图生成单元(142),语音信号角度计算单元(143),聚类处理单元(144),所述时频转换单元(141)将所述数字化的声音数据在时域上分成多段,并且对于每一时间段的声音数据分别进行快速傅立叶变换得到各自的频域信号;所述空间波束图生成单元(142)基于所述频域信号计算所述每个时间段内所述传声器阵列(11)在各个中心频率的自相关矩阵,并利用该自相关矩阵获得每个时频片的空间波束图,所述时频片是由所述时间段及所述中心频率限定的;所述语音信 ...
【技术特征摘要】
1.一种语音声源测向装置(10),其特征在于,所述语音声源测向装置(10),包括:传声器阵列(11),声音预处理模块,声源测向模块(14)和声源信息输出模块(15),其中,所述传声器阵列(11)采集目标环境下的声音信号;所述声音预处理模块对由所述传声器阵列(11)采集的声音信号进行预处理,形成数字化的声音信号数据;所述声源测向模块(14)对所述数字化的声音信号数据进行处理,得到语音声源的声源方向;所述声源信息输出模块(15)输出由所述声源测向模块(14)处理得到的各个语音声源的声源方向数据,其中,所述声源测向模块(14)进一步包括:时频转换单元(141),空间波束图生成单元(142),语音信号角度计算单元(143),聚类处理单元(144),所述时频转换单元(141)将所述数字化的声音数据在时域上分成多段,并且对于每一时间段的声音数据分别进行快速傅立叶变换得到各自的频域信号;所述空间波束图生成单元(142)基于所述频域信号计算所述每个时间段内所述传声器阵列(11)在各个中心频率的自相关矩阵,并利用该自相关矩阵获得每个时频片的空间波束图,所述时频片是由所述时间段及所述中心频率限定的;所述语音信号角度计算单元(143)通过搜索所述空间波束图的极大值来获得在对应时频片内起主要作用的语音信号相对于所述传声器阵列(11)的入射角度;所述聚类处理单元(144)对各个时频片的所述入射角进行聚类,得到所述语音声源的个数和语音声源的方向。2.根据权利要求1所述的语音声源测向装置(10),其特征在于,所述声音预处理模块包括:模拟滤波放大电路(12),模拟数字转换器(13),其中,所述模拟滤波放大电路(12)对所述采集的模拟声音信号进行滤波以及增益放大处理;所述模拟数字转换器(13)将经过滤波和增益变换处理的信号转换为数字信号。3.根据权利要求1所述的语音声源测向装置(10),其特征在于,所述传声器阵列(11)是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。4.根据权利要求1所述的语音声源测向装置(10),其特征在于,所述时频转换单元(141)将由所述传声器阵列(11)采集的所述声音信号s(t)=[s1(t),s2(t),...,sp(t)]T在时域上分段,并对每段声音信号数据分别进行...
【专利技术属性】
技术研发人员:冯大航,陈孝良,常乐,苏少炜,
申请(专利权)人:北京声智科技有限公司,
类型:新型
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。