一种语音波达方向估计方法及装置制造方法及图纸

技术编号:26341313 阅读:33 留言:0更新日期:2020-11-13 20:20
一种语音波达方向估计方法,包括如下步骤:S1:将麦克风阵列接收的宽带语音信号拆分为多个窄带语音信号;将空域划分为多个初始空域网格;S2:计算每一窄带语音信号中每个频点的导向矢量以及协方差矩阵,分离信号子空间与噪声子空间,求解各网格方向的空间谱能量;通过空间谱能量峰值对应的网格点判断估计的波达方向;S3:通过步骤S2得到的波达方向,在可能存在目标的网格区间内增加网格点;在增加网格点后的缩小网格上继续重复步骤S2对波达方向进行修正,直至达到网格添加上限。采用本发明专利技术所述语音波达方向估计方法,在估计过程中通过自适应的添加网格点;能够提高语音信号波达方向方法的估计精度与分辨力。

A speech DOA estimation method and device

【技术实现步骤摘要】
一种语音波达方向估计方法及装置
本专利技术属于语音智能识别
,涉及语音前端信号处理,具体涉及一种语音波达方向估计方法及装置。
技术介绍
波达方向估计算法主要用于估计声源目标与麦克风阵列的角度信息,将估计的角度数据输入语音增强系统可以有效的增强该方向的语音信号,并抑制其他方向的噪声信号。目前,语音信号的波达方向估计算法通常采用的是基于到达时间差的方法来进行估计的。然而,当输入信号信噪比降低,混响严重时。此类算法的性能将显著下降。并且,当目标声源数量增多时,该类方法因不能分辨出正确的目标个数,从而导致性能失效。现有技术的缺点在于:1、抗混响能力弱;2、抗噪声能力弱;3、估计分辨率较低;4、估计精度不足。
技术实现思路
为克服现有技术存在的缺陷,本专利技术公开了一种语音波达方向估计方法及装置。本专利技术所述语音波达方向估计方法,包括如下步骤:S1:将麦克风阵列接收的宽带语音信号拆分为多个窄带语音信号;将0-180度空域划分为多个初始空域网格;S2:计算每一窄带语音信号中每个频点的导向矢量以及协方差矩阵,分离信号子空间与噪声子空间,求解空域网格各网格点的空间谱能量;通过空间谱能量峰值对应的网格点判断估计的波达方向;S3:通过步骤S2得到的波达方向,在可能存在目标的网格区间内增加网格点;在增加网格点后的缩小网格上继续重复步骤S2对波达方向进行修正,直至达到网格添加上限。优选的,所述步骤S1中将宽带语音信号拆分为多个窄带语音信号的具体步骤为:将语音信号进行加窗分帧处理,将每帧的时域音频信号转换到频域,并对频域信号的频谱进行分频处理,将宽带语音信号划分为多个窄带语音信号。优选的,所述步骤S2中,对每个窄带,窄带内第个频点的导向矢量表示为:其中,表示单个初始空域网格的网格点角度,下标1,2…k表示不同网格点,表示第i个频点的频率,表示麦克风阵列中两个麦克风之间的距离,为声速,e为自然常数,j表示复数虚部。优选的,所述步骤S2中频点的协方差矩阵Ryy表示为:,其中表示接收音频信号的频域,为阵列流型矩阵,表示噪声方差,为单位矩阵,Ryy表示麦阵接收信号的协方差矩阵,表示语音信号的协方差矩阵,上标H表示共轭转置运算,θ为语音信号的波达方向,f为频点频率,E为期望值计算符号。进一步的,所述步骤S2中分离信号子空间与噪声子空间具体为:将麦克风阵列接收信号协方差矩阵Ryy通过特征值分解方法分解为信号子空间和噪声子空间,表示为:;其中表示信号子空间,表示噪声子空间;ΣX、ΣN分别表示信号子空间与噪声子空间的特征值构成的对角矩阵。进一步的,所述步骤S2中利用导向矢量和噪声子空间的正交特性估计各网格方向的空间谱能量,各网格方向的空间谱能量P(θ,f)表示为:其中,的峰值对应的网格点即为估计的波达方向,表示导向矢量,上标H表示共轭转置运算,表示噪声子空间,θ为语音信号的波达方向,f为频点频率。优选的,所述步骤S3中,在已经估计出的波达方向所处网格点两侧对称添加网格点,添加网格点应位于上一次划分的最小网格内。本专利技术还公开了一种语音波达方向估计装置,包括顺序连接的阵列模块、控制模块、输入模块、估计模块、优化模块和输出模块;所述阵列模块为在水平面上设置的多个麦克风组成的麦克风阵列;控制模块实现语音波达方向估计算法的工作状态由唤醒词识别控制;输入模块将语音信号进行处理并转化为不同频率的频点数据;估计模块选取语音特征明显的频带范围,对该范围内的每个频点数据进行一次波达方向估计;优化模块通过自适应的增加空域网格点的方法优化算法;输出模块将估计的语音波达方向传递给语音增强系统,用于后续系统对语音的增强。采用本专利技术所述语音波达方向估计方法及装置,在估计过程中通过自适应的添加网格点;能够提高语音信号波达方向方法的估计精度与分辨力。附图说明图1为本专利技术所述估计方法的一种具体实施方式示意图;图2为本专利技术所述装置的一种具体实施方式示意图;图3为本专利技术中添加网格点的一种具体实施方式示意图,图3中的坐标轴表示角度。具体实施方式下面对本专利技术的具体实施方式作进一步的详细说明。本专利技术所述语音波达方向估计方法,如图1所示,包括如下步骤:S1:将麦克风阵列接收的宽带语音信号拆分为多个窄带语音信号;将0-180度空域划分为多个初始空域网格;S2:计算每一窄带语音信号中每个频点的导向矢量以及协方差矩阵,分离信号子空间与噪声子空间,求解空域网格各网格点的空间谱能量;通过空间谱能量峰值对应的网格点判断估计的波达方向;S3:通过步骤S2得到的波达方向,在可能存在目标的网格区间内增加网格点;在增加网格点后的缩小网格上继续重复步骤S2对波达方向进行修正,直至达到网格添加上限。具体的,步骤S1中将宽带语音信号拆分为多个窄带语音信号包括:将语音信号进行加窗分帧处理,将每帧的时域音频信号转换到频域,并对频域信号的频谱进行分频处理,将宽带语音信号划分为多个窄带语音信号;一个具体实施方式为,将每帧的时域音频信号做512点的快速傅里叶变换转换到频域,得到多个离散频点,例如对人声通常频率区间1KHZ-3KHZ频带区间的每个频点进行分频处理,在16KHz的采样率下,即可将宽带语音信号分成71个窄带,每一窄带代表一个离散频点。将0-180度空域划分为多个初始空域网格,计算空域网格在每一个频点的导向矢量。例如,以20度为网格大小,将0-180度空域划分为9个初始空域网格区间,得到10个网格点,则θ1为0度,θ2为20度…θ10为180度。步骤S2中,计算每个窄带语音信号中每个频点的导向矢量和协方差矩阵,利用导向矢量与协方差矩阵分离信号子空间与噪声子空间,求解各网格方向的空间谱能量;具体可以为:S21对每个窄带,窄带内第i个频点的导向矢量可以表示为:其中,表示单个初始空域网格的网格点角度,下标1,2…k表示不同网格点,表示第i个频点的频率,表示麦克风阵列中两个麦克风之间的距离,为声速,e为自然常数,j表示复数虚部,E为期望值计算符号。S22估计输入信号每个频点的协方差矩阵RYY,可以表示为:,其中表示接收音频信号的频域,为阵列流型矩阵,表示噪声方差,为单位矩阵,Ryy表示麦阵接收信号的协方差矩阵,表示语音信号的协方差矩阵,上标H表示共轭转置运算,θ为语音信号的波达方向,f为频点频率。将估计的协方差矩阵通过特征值分解方法分解为信号子空间和噪声子空间,可以表示为:,其中表示信号子空间,表示噪声子空间;ΣX、ΣN分别表示信号子空间与噪声子空间的特征值构成的对角矩阵。最后利用导向矢量和噪声子空间的正交特性来估计各网格方向的空间谱能量,各网格方向的空间谱能量P(θ,f)可以表示为:本文档来自技高网...

【技术保护点】
1.一种语音波达方向估计方法,其特征在于,包括如下步骤:/nS1:将麦克风阵列接收的宽带语音信号拆分为多个窄带语音信号;将0-180度空域划分为多个初始空域网格;/nS2:计算每一窄带语音信号中每个频点的导向矢量以及协方差矩阵,分离信号子空间与噪声子空间,求解空域网格各网格点的空间谱能量;通过空间谱能量峰值对应的网格点判断估计的波达方向;/nS3:通过步骤S2 得到的波达方向,在可能存在目标的网格区间内增加网格点;在增加网格点后的缩小网格上继续重复步骤S2对波达方向进行修正,直至达到网格添加上限。/n

【技术特征摘要】
1.一种语音波达方向估计方法,其特征在于,包括如下步骤:
S1:将麦克风阵列接收的宽带语音信号拆分为多个窄带语音信号;将0-180度空域划分为多个初始空域网格;
S2:计算每一窄带语音信号中每个频点的导向矢量以及协方差矩阵,分离信号子空间与噪声子空间,求解空域网格各网格点的空间谱能量;通过空间谱能量峰值对应的网格点判断估计的波达方向;
S3:通过步骤S2得到的波达方向,在可能存在目标的网格区间内增加网格点;在增加网格点后的缩小网格上继续重复步骤S2对波达方向进行修正,直至达到网格添加上限。


2.如权利要求1所述语音波达方向估计方法,其特征在于,所述步骤S1中将宽带语音信号拆分为多个窄带语音信号的具体步骤为:将语音信号进行加窗分帧处理,将每帧的时域音频信号转换到频域,并对频域信号的频谱进行分频处理,将宽带语音信号划分为多个窄带语音信号。


3.如权利要求1所述语音波达方向估计方法,其特征在于,所述步骤S2中,对每个窄带,窄带内第个频点的导向矢量表示为:



其中,表示单个初始空域网格的网格点角度,下标1,2…k表示不同网格点,表示第i个频点的频率,表示麦克风阵列中两个麦克风之间的距离,为声速,e为自然常数,j表示复数虚部,E为期望值计算符号。


4.如权利要求1所述语音波达方向估计方法,其特征在于,所述步骤S2中频点的协方差矩阵Ryy表示为:


其中表示接收音频信号的频域,为阵列流型矩阵,表示噪声方差,为单位矩阵,Ryy表示麦克风阵列接收信号的协方差矩阵,表示语音信号的协方差矩阵,上标H表示共轭转置运算,θ为语音信号的波达方向,f为频点频率...

【专利技术属性】
技术研发人员:谭祚何云鹏许兵
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1