语音声源方向估计方法及装置制造方法及图纸

技术编号:14243853 阅读:107 留言:0更新日期:2016-12-21 23:16
本发明专利技术提供一种语音声源方向估计方法及装置,该方法包括:声源获取步骤,获取麦克风阵列实时收集的音频数据;频带分解步骤,将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号,将所有麦克风通道同一时刻的频带信号组成频带信号向量;频带估计步骤,对频带信号向量进行分析,获得当前帧音频数据相同时刻的频带信号向量的波达方向估计向量;数据关联步骤,根据波达方向估计向量进行数据关联,得到当前帧音频数据的最终备选方向估计向量;波达方向跟踪步骤,对最终备选方向估计向量在时域中进行平滑处理,并获得当前帧音频数据的语音声源波达方向。该装置为该方法提供应用模块。本发明专利技术可增强语音,且语音方向估计更加精确。

【技术实现步骤摘要】

本专利技术涉及语音增强领域,具体的,涉及一种语音声源方向估计方法,以及应用该方法的装置。
技术介绍
在语音通信或者人机交互的应用中,常常存在背景噪声的干扰。为了获得更好的体验,通常需要对麦克风拾取的语音信号进行语音增强处理。在单个麦克风拾取噪声的情形下,通常采用基于功率谱的噪声抑制方法进行语音增强处理。单个麦克风的降噪算法通常在信噪比较好的情况下能够获得一定的信噪比提升,但是单麦克风的噪声抑制算法存在两个问题:1.在信噪比较低(比如远距离拾音)的情形下,单纯提高拾取设备的灵敏度依然是无法获得足够的信噪比用于后续的单麦克风噪声抑制。2.单麦克风用到的基于功率谱的噪声抑制方法在信号重建的过程中利用的相位信息依然是含噪信号的,这种重建方法在基于人工智能的某些应用(如语音识别)中将带来性能的恶化。基于单麦克风噪声抑制的各种限制,麦克风阵列被建议用到上述类似应用中以增加空域信息用于语音增强。麦克风阵列的语音增强方法普遍基于波束形成的方法,以获得在所需语音的方向上的最大响应。然而,在实际的处理过程中,可能无法获得语音信号实际方向的先验信息,比如在会议环境,分布在各个方向的参会者都可能发言,因此其所需语音信号的方向并不是固定的。另外,在麦克风阵列的位置是固定的,说话人的位置并不固定的场景中,比如课堂教学的教师的教授过程中,教师会在一定的空间范围内随机走动。针对这些场景,一般的技术应用中需要将声源方向估计和波束形成联合使用以获得最佳效果。图1图示了一种典型的应用于麦克风阵列语音增强的装置。首先,声源入射的信号被麦克风阵列1采集得到含噪信号6,声源方向估计模块2利用含噪信号6所隐含的空间信息将所需的语音信号的方向估计出来得到参数7,波束形成器3利用一些特定的方法使得输出参数7对于特定方向的含噪信号6的增益最大化,而其他方向的信号则会被衰减。波束形成器3可以采用一些不同的波束形成算法来进行语音增强,由最简单的DSB(延时-相加波束形成)到复杂的MVDR(最小方差无失真响应)等方法。更进一步的,波束形成器3也可以采用GSC(广义旁瓣消除器)结构并采用一些自适应的方法进行噪声抑制,由最简单廉价的LMS(最小均方)到更高级但需更多运算开销的RLS(递归最小二乘方)等方法。波束形成器3处理后得到单通道的信号8,由于波束形成器3对类似于白噪声的空间不相干噪声的抑制性能有限,并且在形如GSC结构中的信号泄露也会导致波束形成器3的性能受到影响,进而导致信号8中仍然存在一些残留的噪声。因此,信号8会进一步输入到后滤波模块4中进行残留的噪声抑制,最后得到处理后的信号9,信号9的信噪比通常会比信号6有明显改善。依赖于不同的应用场景,信号9则会被用来作为比如语音通信的上行信号或者人机对话的输入信号输入到诸如语音识别之类的模块中。图1中声源方向估计模块2估计出来的DOA(波达方向)信息参数7对于波束形成器3的性能具有重要影响。典型地,5°的误差将造成波束形成器3输出的信号8的信噪比下降数分贝。对于设计良好的系统,DOA估计误差需要被限制在一定的范围内。传统的DOA估计方法主要分为两类:1.通过各个麦克风信号之间的相关性得到信号之间的相对延时,通过这些延时信息映射到空域获得方向信息。2.通过对空域各个方位做简单的波束形成,选择最大的功率响应方向为语音声源的方向。这些方法在一定程度上提高了DOA的估计精度,但是也有以下问题:1.实际麦克风拾取的信号往往是含有混响信号的,而这些混响信号容易被估计成与实际信号方向不同的方向信号入射到麦克风阵列。2.所需的语音信号往往是非平稳的,因此对于类似于相关矩阵的统计量的估计并不直接。3.需要对空域大量的搜索网格进行搜索,需要耗费大量的运算资源因此实用价值大大降低。4.语音信号在时频域具有一定的稀疏性,因此对于采用全频带信号来做DOA估计而言,有可能将噪声信号的方向估计称语音信号的方向。由于采用的语音声源方向估计算法的上述缺点限制了其适用场景或范围,例如在较大会议室环境中一般的混响时间T60一般会大于300ms,在这种情况下应用到达时间差的方法来做声源方向估计得到的性能将是无法接受的。
技术实现思路
本专利技术的主要目的是提供一种可增强语音,且语音方向估计更加精确的语音声源方向估计方法。本专利技术的另一目的是提供一种可增强语音,且语音方向估计更加精确的语音声源方向估计装置。为了实现上述主要目的,本专利技术提供的语音声源方向估计方法,包括:声源获取步骤,获取麦克风阵列实时收集的音频数据;频带分解步骤,将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号,将所有麦克风通道同一时刻的频带信号组成频带信号向量;频带估计步骤,对频带信号向量进行分析,获得当前帧音频数据相同时刻的频带信号向量的波达方向估计向量;数据关联步骤,根据波达方向估计向量进行数据关联,得到当前帧音频数据的最终备选方向估计向量;波达方向跟踪步骤,对最终备选方向估计向量在时域中进行平滑处理,并获得当前帧音频数据的语音声源波达方向。由上述方案可见,本专利技术的语音声源方向估计方法将多路的当前帧音频数据分解成多个频带信号,然后针对各路音频数据中相同时刻的频带信号进行估计分析,获得同一时刻频带信号组成的频带信号向量的波达方向估计向量,接着对波达方向估计向量进行数据关联处理,获得当前帧音频数据的最终备选方向估计向量,对最终备选方向估计向量在时域中进行平滑处理,从而获得当前帧音频数据的语音声源波达方向,使得声源方向估计更加精确。一个方案中,频带估计步骤包括:语音存在概率估计步骤,获取同一时刻频带信号组成的频带信号向量,对频带信号向量进行计算,获得频带信号向量的语音存在概率;谱估计步骤,获取频带信号向量以及频带信号向量所对应的语音存在概率,估算出频带信号向量包含的噪声功率谱和语音功率谱;波达方向估计步骤,根据语音功率普对频带信号向量进行窄带的波达方向估计,得到频带信号向量相应的波达方向估计向量。由此可见,语音存在概率估计步骤可获得各频带信号存在语音的概率,可用于谱估计步骤中分离频带信号中的噪声普数据和语音谱数据,然后通过波达方向估计步骤获得频带信号中的空间方位信息。进一步的方案中,频带估计步骤还包括反馈步骤,将噪声功率谱延迟并反馈至语音存在概率估计步骤中,语音存在概率估计步骤根据噪声功率谱进行下一个频带信号向量的语音存在概率估计。由此可见,通过反馈步骤,可将前一时刻的频带信号中所包含的噪声信号用于当前信号的参考,使得语音存在概率的评估更加精确。进一步的方案中,数据关联步骤包括:获取频带信号向量相应的波达方向估计向量;判断当前频带信号向量是否超出当前帧音频数据前半部分频带信号的范围;如当前频带信号向量处于当前帧音频数据前半部分频带信号的范围内,则判断当前频带信号向量的频率是否处于预设频率范围内;如当前频带信号向量的频率处于预设频率范围内,则判断当前频带信号向量的语音存在概率是否大于或等于预设阈值;如当前频带信号向量的语音存在概率大于或等于预设阈值,则将当前频带信号向量的波达方向估计向量加入当前帧音频数据的波达方向观测向量集合中;获取下一频带信号向量相应的波达方向估计向量,并进行下一频带信号向量的判断,直至当前频带信号向量超出当前帧音频数据前半部分频带信号的范围。由上述本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/201610656669.html" title="语音声源方向估计方法及装置原文来自X技术">语音声源方向估计方法及装置</a>

【技术保护点】
语音声源方向估计方法,其特征在于:包括:声源获取步骤,获取麦克风阵列实时收集的音频数据;频带分解步骤,将每一个麦克风通道所收集的当前帧所述音频数据分解成预设数量的频带信号,将所有所述麦克风通道同一时刻的所述频带信号组成频带信号向量;频带估计步骤,对所述频带信号向量进行分析,获得当前帧所述音频数据相同时刻的所述频带信号向量的波达方向估计向量;数据关联步骤,根据所述波达方向估计向量进行数据关联,得到当前帧所述音频数据的最终备选方向估计向量;波达方向跟踪步骤,对所述最终备选方向估计向量在时域中进行平滑处理,并获得当前帧所述音频数据的语音声源波达方向。

【技术特征摘要】
1.语音声源方向估计方法,其特征在于:包括:声源获取步骤,获取麦克风阵列实时收集的音频数据;频带分解步骤,将每一个麦克风通道所收集的当前帧所述音频数据分解成预设数量的频带信号,将所有所述麦克风通道同一时刻的所述频带信号组成频带信号向量;频带估计步骤,对所述频带信号向量进行分析,获得当前帧所述音频数据相同时刻的所述频带信号向量的波达方向估计向量;数据关联步骤,根据所述波达方向估计向量进行数据关联,得到当前帧所述音频数据的最终备选方向估计向量;波达方向跟踪步骤,对所述最终备选方向估计向量在时域中进行平滑处理,并获得当前帧所述音频数据的语音声源波达方向。2.根据权利要求1所述的语音声源方向估计方法,其特征在于:所述频带估计步骤包括:语音存在概率估计步骤,获取同一时刻所述频带信号组成的所述频带信号向量,对所述频带信号向量进行计算,获得所述频带信号向量的语音存在概率;谱估计步骤,获取所述频带信号向量以及所述频带信号向量所对应的所述语音存在概率,估算出所述频带信号向量包含的噪声功率谱和语音功率谱;波达方向估计步骤,根据所述语音功率普对所述频带信号向量进行窄带的波达方向估计,得到所述频带信号向量相应的所述波达方向估计向量。3.根据权利要求2所述的语音声源方向估计方法,其特征在于:所述频带估计步骤还包括:反馈步骤,将所述噪声功率谱延迟并反馈至所述语音存在概率估计步骤中,所述语音存在概率估计步骤根据所述噪声功率谱进行下一个所述频带信号向量的所述语音存在概率估计。4.根据权利要求3所述的语音声源方向估计方法,其特征在于:所述数据关联步骤包括:获取所述频带信号向量相应的所述波达方向估计向量;判断当前所述频带信号向量是否超出当前帧所述音频数据前半部分频带信号的范围;如当前所述频带信号向量处于当前帧所述音频数据前半部分频带信号的范围内,则判断当前所述频带信号向量的频率是否处于预设频率范围内;如当前所述频带信号向量的频率处于所述预设频率范围内,则判断当前所述频带信号向量的语音存在概率是否大于或等于预设阈值;如当前所述频带信号向量的语音存在概率大于或等于所述预设阈值,则将当前所述频带信号向量的所述波达方向估计向量加入当前帧所述音频数据的波达方向观测向量集合中;获取下一所述频带信号向量相应的所述波达方向估计向量,并进行下一所述频带信号向量的判断,直至当前所述频带信号向量超出当前帧所述音频数据前半部分频带信号的范围。5.根据权利要求4所述的语音声源方向估计方法,其特征在于:所述数据关联步骤还包括:若当前所述频带信号向量超出当前帧所述音频数据前半部分频带信号的范围,则根据当前帧所述音频数据所有的所述波达方向观测向量集合构造统计直方图;利用所述统计直方图的局部极值点获取初步备选方向估计向量;根据所述初步备选方向估计向量获取所述当前帧所述音频数据中所...

【专利技术属性】
技术研发人员:谢宜昊
申请(专利权)人:珠海全志科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1