一种新型双麦克风语音检测和增强方法技术

技术编号：17599352 阅读：109 留言：0更新日期：2018-03-31 11:54

本发明专利技术涉及语音信息处理技术及麦克风阵列信号处理领域，特别是涉及到语音活动检测、语音检测、语音识别与交互等领域，本发明专利技术采用两种动态阈值更新策略，充分考虑噪音环境的多变性，采用可以反映噪音能量占全部能量比率的3组听觉特征，可以有效检测出语音活动的时间帧，又可以根据噪音的变换对阈值进行动态调整；发明专利技术采用对检测结果缓冲的方式，对检测结果进行再次修正，避免了连续活动语音帧之间存在漏检的缺陷；根据语音检测结果，对噪音功率谱密度矩阵进行自适应更新，进一步采用维纳滤波器进行语音增强，可以在最小均方误差准则下抑制噪声。

A new dual microphone speech detection and enhancement method

The present invention relates to the technical field of microphone array signal processing and speech processing, particularly relates to the field of voice activity detection, speech detection, speech recognition and interaction, the invention adopts two kinds of dynamic threshold updating strategy, considering the variability of noise environment, use can reflect the noise energy accounted for 3 of total energy ratio of group auditory features that can effectively detect the time frame of speech activity, but also according to the noise transform to dynamically adjust the threshold; by adopting the buffer on the test results, the test results were again revised, avoids undetected defects between successive activities speech frames; speech according to test results, the noise power spectral density matrix adaptive updates, further using Wiener filter for speech enhancement, can suppress the minimum mean square error criterion Noise\u3002

全部详细技术资料下载

【技术实现步骤摘要】
一种新型双麦克风语音检测和增强方法
本专利技术涉及语音识别和检测领域，特别是涉及到一种基于动态阈值更新策略的双麦克风语音检测和增强的方法。
技术介绍
受推动于深度神经网络等机器学习技术的影响，语音识别准确率得到很大的改善，语音识别已经开始在各个领域广泛应用。目前语音识别技术多应用手机、空调、电视等各类电子设备中，语音识别的人机交互技术相比于传统遥控器而言更加方便，并且是实现无交互界面信息查询、信息推荐等新一代人机交互技术的关键。目前，在没有强烈噪音干扰和近讲的情况下，语音识别的准确率已经达到可以实用的效果。然而，在说话人距离麦克风距离较远的情况下，受制于噪声、混响等因素，语音识别率还需要进一步提高才能达到实用，此外，语音检测的实现是语音识别系统实时实现的重要部分，其目的是在复杂的实际环境中区分语音段与非语音段，避免非语音段信号被语音识别系统解码成错误指令造成误触发，缩短系统处理时间，减少移动端发射功率并节省信道资源。通常来讲，语音增强也需要知道语音的起始信息，以对噪声的功率谱等统计信息进行自适应。因此，语音增强和语音检测技术存在很强的关联性，更准确的语音检测技术也可以提高语音增强、噪声抑制的性能，在实际应用中，语音识别系统性能的优劣在很大程度上取决于语音检测的准确率、实时性和对噪声的抑制性能。因此，稳健、精确、实时和可以对各种非平稳噪声适应性强的语音检测和降噪技术是语音识别前端处理系统必须的。当前自动语音检测的方法有三种，分别是时域中短时能量大小、过零率大小以及频域中频带能量均方，具体方法是求出短时能量、过零率或者频带能量均方差，然后与一个经验阈值进行比较...
一种新型双麦克风语音检测和增强方法

【技术保护点】
一种新型双麦克风语音检测与增强方法，其包括以下步骤：步骤一，载入当前帧数据，所述当前帧数据为时域内语音数据；步二，将所述时域内语音数据通过快速傅立叶变换（FFT）转换为频域内语音数据，对应第n个时间帧，所述时域内语音数据简记为【ym((n‑1)Lw+1), ym((n‑1)Lw+2),…, ym(nLw)】,m=1,2，其中m代表两个麦克风的标号，Lw为一个语音帧周期内数据的采样个数；FFT变换后的所述频域内语音数据简记为Ym(n,k), m=1,2，其中n代表时间帧坐标，k代表频带坐标；步骤三，将所述时域内语音数据的当前时间帧长度与听觉特征缓冲区的长度进行对比，若所述当前时间帧长度小于所述听觉特征缓冲区的长度，则进行步骤四，若所述当前时间帧长度大于等于所述听觉特征缓冲区的长度，则直接进入步骤五；步骤四，初始化参数，所述参数包括观测信号功率谱密度、噪音功率谱密度、语音频谱估计值、先验信噪比特征、谱通量特征、时域特征，若干所述观测信号功率谱密度组成观测信号功率谱密度矩阵，将所述先验信噪比特征初始化为1，如果完成初始化则进行步骤八，如果未完成初始化则进行步骤五；步骤五，更新所述观测信号功率...

【技术特征摘要】
1.一种新型双麦克风语音检测与增强方法，其包括以下步骤：步骤一，载入当前帧数据，所述当前帧数据为时域内语音数据；步二，将所述时域内语音数据通过快速傅立叶变换（FFT）转换为频域内语音数据，对应第n个时间帧，所述时域内语音数据简记为【ym((n-1)Lw+1),ym((n-1)Lw+2),…,ym(nLw)】,m=1,2，其中m代表两个麦克风的标号，Lw为一个语音帧周期内数据的采样个数；FFT变换后的所述频域内语音数据简记为Ym(n,k),m=1,2，其中n代表时间帧坐标，k代表频带坐标；步骤三，将所述时域内语音数据的当前时间帧长度与听觉特征缓冲区的长度进行对比，若所述当前时间帧长度小于所述听觉特征缓冲区的长度，则进行步骤四，若所述当前时间帧长度大于等于所述听觉特征缓冲区的长度，则直接进入步骤五；步骤四，初始化参数，所述参数包括观测信号功率谱密度、噪音功率谱密度、语音频谱估计值、先验信噪比特征、谱通量特征、时域特征，若干所述观测信号功率谱密度组成观测信号功率谱密度矩阵，将所述先验信噪比特征初始化为1，如果完成初始化则进行步骤八，如果未完成初始化则进行步骤五；步骤五，更新所述观测信号功率谱密度组成的观测信号功率谱密度矩阵，采用一阶前向回归系数进行平滑，即结合所述当前帧的所述观测信号功率谱密度对初始所述观测信号功率谱密度矩阵进行更新获得新的所述观测信号功率谱密度矩阵；步骤六，计算所述当前帧数据的所述谱通量特征和时域特征，所述先验信噪比特征、谱通量特征和时域特征组成听觉特征，所述听觉特征用于语音检测判决；步骤七，更新所述听觉特征缓冲区和语音初步检测缓冲区，所述听觉特征缓冲区存储在听觉特征缓冲区矩阵中，所述听觉特征缓冲区矩阵共有LB列，LB为大于1的正整数，每列所述听觉特征缓冲区矩阵记录了一组所述听觉特征，所述当前帧的最新所述听觉特征计算完毕后，即步骤六的计算结果，将步骤六的计算结果存入所述听觉特征缓冲区矩阵的最后一列，并移除所述听觉特征缓冲区矩阵的第一列的所述听觉特征数据，从而形成新的所述听觉特征缓冲区矩阵，所述语音初步检测缓冲区存储在语音初步检测缓冲区矩阵中，所述语音初步检测缓冲区矩阵的列数与所述听觉特征缓冲区矩阵的列数相同，所述语音初步检测缓冲区的更新方法与所述听觉特征缓冲区的更新方法相同，每列所述语音初步检测缓冲区矩阵记录了一组所述初步的语音活动检测结果，所述当前帧的最新所述语音初步检测结果存入所述语音初步检测缓冲区矩阵的最后一列，并移除所述语音初步检测缓冲区矩阵的第一列的所述语音初步检测结果从而形成新的所述语音初步检测缓冲区矩阵；步骤八，更新所述观测信号功率谱密度矩阵，并计算各频带所述先验信噪比特征；步骤九，计算所述当前帧数据的所述听觉特征，即所述先验信噪比特征、谱通量特征和时域特征...

【专利技术属性】
技术研发人员：何云鹏，高君效，张来，许兵，
申请(专利权)人：成都启英泰伦科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人