用于远场语音识别的预处理方法和装置制造方法及图纸

技术编号：12912220 阅读：158 留言：0更新日期：2016-02-24 17:15

本发明专利技术提出一种用于远场语音识别的预处理方法和装置，该用于远场语音识别的预处理方法包括：获取由麦克风阵列采集的多路语音信号；根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。该方法能够提高远场语音识别的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别
，尤其涉及一种用于远场语音识别的预处理方法和装置。
技术介绍
为了提高语音识别的准确度，在语音识别之前通常会进行预处理。在远场语音识别场景下，目前采用比较多的一种预处理方案是回声消除（Acoustic echo cancellation， AEC) +声源定位+自适应波束形成技术。大致的思想是：先对每个麦克风采集的语音信号进行回声消除、再基于声源定位技术找到目标说话人的空间方位，进而通过自适应波束形成（Adaptive Beamforming，ABF)技术将主波束指向说话人，实现声音增强的效果。但是，上述处理方案在运算量、准确度、收敛速度和残差等方面都存在一定的问题，进而影响最终的远场语音识别性能。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种用于远场语音识别的预处理方法，该方法可以实现了信号的声源定位和语音增强功能，并且新的波束形成方法还保证了阵列的空间响应与频率无关，从而降低信号的频谱失真程度，保证了后续音频通讯，尤其是语音识别系统的性能。本专利技术的另一个目的在于提出一种用于远场语音识别的预处理装置。为达到上述目的，本专利技术第一方面实施例提出的用于远场语音识别的预处理方法，包括：获取由麦克风阵列采集的多路语音信号；根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。本专利技术第一方面实施例提出的用于远场语音识别的预处...

【技术保护点】
一种用于远场语音识别的预处理方法，其特征在于，包括：获取由麦克风阵列采集的多路语音信号；根据预设的频率点阈值，将所述多路语音信号分为低频分量和中高频分量；对低频分量进行延迟求和波束形成，以及，对中高频分量进行基于滤波器的波束形成。

【技术特征摘要】

【专利技术属性】
技术研发人员：宋辉，魏建强，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人