语音声源方向估计方法及装置制造方法及图纸

技术编号：14243853 阅读：107 留言：0更新日期：2016-12-21 23:16

本发明专利技术提供一种语音声源方向估计方法及装置，该方法包括：声源获取步骤，获取麦克风阵列实时收集的音频数据；频带分解步骤，将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号，将所有麦克风通道同一时刻的频带信号组成频带信号向量；频带估计步骤，对频带信号向量进行分析，获得当前帧音频数据相同时刻的频带信号向量的波达方向估计向量；数据关联步骤，根据波达方向估计向量进行数据关联，得到当前帧音频数据的最终备选方向估计向量；波达方向跟踪步骤，对最终备选方向估计向量在时域中进行平滑处理，并获得当前帧音频数据的语音声源波达方向。该装置为该方法提供应用模块。本发明专利技术可增强语音，且语音方向估计更加精确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音增强领域，具体的，涉及一种语音声源方向估计方法，以及应用该方法的装置。
技术介绍
在语音通信或者人机交互的应用中，常常存在背景噪声的干扰。为了获得更好的体验，通常需要对麦克风拾取的语音信号进行语音增强处理。在单个麦克风拾取噪声的情形下，通常采用基于功率谱的噪声抑制方法进行语音增强处理。单个麦克风的降噪算法通常在信噪比较好的情况下能够获得一定的信噪比提升，但是单麦克风的噪声抑制算法存在两个问题：1.在信噪比较低(比如远距离拾音)的情形下，单纯提高拾取设备的灵敏度依然是无法获得足够的信噪比用于后续的单麦克风噪声抑制。2.单麦克风用到的基于功率谱的噪声抑制方法在信号重建的过程中利用的相位信息依然是含噪信号的，这种重建方法在基于人工智能的某些应用(如语音识别)中将带来性能的恶化。基于单麦克风噪声抑制的各种限制，麦克风阵列被建议用到上述类似应用中以增加空域信息用于语音增强。麦克风阵列的语音增强方法普遍基于波束形成的方法，以获得在所需语音的方向上的最大响应。然而，在实际的处理过程中，可能无法获得语音信号实际方向的先验信息，比如在会议环境，分布在各个方向的参会者都可能发言，因此其所需语音信号的方向并不是固定的。另外，在麦克风阵列的位置是固定的，说话人的位置并不固定的场景中，比如课堂教学的教师的教授过程中，教师会在一定的空间范围内随机走动。针对这些场景，一般的技术应用中需要将声源方向估计和波束形成联合使用以获得最佳效果。图1图示了一种典型的应用于麦克风阵列语音增强的装置。首先，声源入射的信号被麦克风阵列1采集得到含噪信号6，声源方向估计模块2利用含噪信...
<a href="http://www.xjishu.com/zhuanli/21/201610656669.html" title="语音声源方向估计方法及装置原文来自X技术">语音声源方向估计方法及装置</a>

【技术保护点】
语音声源方向估计方法，其特征在于：包括：声源获取步骤，获取麦克风阵列实时收集的音频数据；频带分解步骤，将每一个麦克风通道所收集的当前帧所述音频数据分解成预设数量的频带信号，将所有所述麦克风通道同一时刻的所述频带信号组成频带信号向量；频带估计步骤，对所述频带信号向量进行分析，获得当前帧所述音频数据相同时刻的所述频带信号向量的波达方向估计向量；数据关联步骤，根据所述波达方向估计向量进行数据关联，得到当前帧所述音频数据的最终备选方向估计向量；波达方向跟踪步骤，对所述最终备选方向估计向量在时域中进行平滑处理，并获得当前帧所述音频数据的语音声源波达方向。

【技术特征摘要】
1.语音声源方向估计方法，其特征在于：包括：声源获取步骤，获取麦克风阵列实时收集的音频数据；频带分解步骤，将每一个麦克风通道所收集的当前帧所述音频数据分解成预设数量的频带信号，将所有所述麦克风通道同一时刻的所述频带信号组成频带信号向量；频带估计步骤，对所述频带信号向量进行分析，获得当前帧所述音频数据相同时刻的所述频带信号向量的波达方向估计向量；数据关联步骤，根据所述波达方向估计向量进行数据关联，得到当前帧所述音频数据的最终备选方向估计向量；波达方向跟踪步骤，对所述最终备选方向估计向量在时域中进行平滑处理，并获得当前帧所述音频数据的语音声源波达方向。2.根据权利要求1所述的语音声源方向估计方法，其特征在于：所述频带估计步骤包括：语音存在概率估计步骤，获取同一时刻所述频带信号组成的所述频带信号向量，对所述频带信号向量进行计算，获得所述频带信号向量的语音存在概率；谱估计步骤，获取所述频带信号向量以及所述频带信号向量所对应的所述语音存在概率，估算出所述频带信号向量包含的噪声功率谱和语音功率谱；波达方向估计步骤，根据所述语音功率普对所述频带信号向量进行窄带的波达方向估计，得到所述频带信号向量相应的所述波达方向估计向量。3.根据权利要求2所述的语音声源方向估计方法，其特征在于：所述频带估计步骤还包括：反馈步骤，将所述噪声功率谱延迟并反馈至所述语音存在概率估计步骤中，所述语音存在概率估计步骤根据所述噪声功率谱进行下一个所述频带信号向量的所述语音存在概率估计。4.根据权利要求3所述的语音声源方向估计方法，其特征在于：所述数据关联步骤包括：获取所述频带信号向量相应的所述波达方向估计向量；判断当前所述频带信号向量是否超出当前帧所述音频数据前半部分频带信号的范围；如当前所述频带信号向量处于当前帧所述音频数据前半部分频带信号的范围内，则判断当前所述频带信号向量的频率是否处于预设频率范围内；如当前所述频带信号向量的频率处于所述预设频率范围内，则判断当前所述频带信号向量的语音存在概率是否大于或等于预设阈值；如当前所述频带信号向量的语音存在概率大于或等于所述预设阈值，则将当前所述频带信号向量的所述波达方向估计向量加入当前帧所述音频数据的波达方向观测向量集合中；获取下一所述频带信号向量相应的所述波达方向估计向量，并进行下一所述频带信号向量的判断，直至当前所述频带信号向量超出当前帧所述音频数据前半部分频带信号的范围。5.根据权利要求4所述的语音声源方向估计方法，其特征在于：所述数据关联步骤还包括：若当前所述频带信号向量超出当前帧所述音频数据前半部分频带信号的范围，则根据当前帧所述音频数据所有的所述波达方向观测向量集合构造统计直方图；利用所述统计直方图的局部极值点获取初步备选方向估计向量；根据所述初步备选方向估计向量获取所述当前帧所述音频数据中所...

【专利技术属性】
技术研发人员：谢宜昊，
申请(专利权)人：珠海全志科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人