一种新型双麦克风语音检测和增强方法技术

技术编号:17599352 阅读:109 留言:0更新日期:2018-03-31 11:54
本发明专利技术涉及语音信息处理技术及麦克风阵列信号处理领域,特别是涉及到语音活动检测、语音检测、语音识别与交互等领域,本发明专利技术采用两种动态阈值更新策略,充分考虑噪音环境的多变性,采用可以反映噪音能量占全部能量比率的3组听觉特征,可以有效检测出语音活动的时间帧,又可以根据噪音的变换对阈值进行动态调整;发明专利技术采用对检测结果缓冲的方式,对检测结果进行再次修正,避免了连续活动语音帧之间存在漏检的缺陷;根据语音检测结果,对噪音功率谱密度矩阵进行自适应更新,进一步采用维纳滤波器进行语音增强,可以在最小均方误差准则下抑制噪声。

A new dual microphone speech detection and enhancement method

The present invention relates to the technical field of microphone array signal processing and speech processing, particularly relates to the field of voice activity detection, speech detection, speech recognition and interaction, the invention adopts two kinds of dynamic threshold updating strategy, considering the variability of noise environment, use can reflect the noise energy accounted for 3 of total energy ratio of group auditory features that can effectively detect the time frame of speech activity, but also according to the noise transform to dynamically adjust the threshold; by adopting the buffer on the test results, the test results were again revised, avoids undetected defects between successive activities speech frames; speech according to test results, the noise power spectral density matrix adaptive updates, further using Wiener filter for speech enhancement, can suppress the minimum mean square error criterion Noise\u3002

【技术实现步骤摘要】
一种新型双麦克风语音检测和增强方法
本专利技术涉及语音识别和检测领域,特别是涉及到一种基于动态阈值更新策略的双麦克风语音检测和增强的方法。
技术介绍
受推动于深度神经网络等机器学习技术的影响,语音识别准确率得到很大的改善,语音识别已经开始在各个领域广泛应用。目前语音识别技术多应用手机、空调、电视等各类电子设备中,语音识别的人机交互技术相比于传统遥控器而言更加方便,并且是实现无交互界面信息查询、信息推荐等新一代人机交互技术的关键。目前,在没有强烈噪音干扰和近讲的情况下,语音识别的准确率已经达到可以实用的效果。然而,在说话人距离麦克风距离较远的情况下,受制于噪声、混响等因素,语音识别率还需要进一步提高才能达到实用,此外,语音检测的实现是语音识别系统实时实现的重要部分,其目的是在复杂的实际环境中区分语音段与非语音段,避免非语音段信号被语音识别系统解码成错误指令造成误触发,缩短系统处理时间,减少移动端发射功率并节省信道资源。通常来讲,语音增强也需要知道语音的起始信息,以对噪声的功率谱等统计信息进行自适应。因此,语音增强和语音检测技术存在很强的关联性,更准确的语音检测技术也可以提高语音增强、噪声抑制的性能,在实际应用中,语音识别系统性能的优劣在很大程度上取决于语音检测的准确率、实时性和对噪声的抑制性能。因此,稳健、精确、实时和可以对各种非平稳噪声适应性强的语音检测和降噪技术是语音识别前端处理系统必须的。当前自动语音检测的方法有三种,分别是时域中短时能量大小、过零率大小以及频域中频带能量均方,具体方法是求出短时能量、过零率或者频带能量均方差,然后与一个经验阈值进行比较,实际应用表明,这三种方法存在两个主要的缺点:1.采用固定阈值,无法在噪音环境改变的情况下取得良好的性能,而在实际应用中噪声通常是多变的,很难找到合适的固定阈值适应大多数噪声场景;2.单独比较短时能量大小或过零率大小的方法对于噪声能量较强的情况下,性能不稳定,准确性较低,同时如果语音检测准确率低,会造成噪音功率谱等统计信息不够精确,或者错误地包含了语音信息,进而导致语音扭曲。为解决上述问题,需要专利技术一种对各种噪声鲁棒,并能够根据噪音环境的变化进行自适应调整的语音检测方法,在语音不被错误判断成噪音的情况下,判断出环境噪声时间段,以提高对背景噪声统计特性估计的准确率,从而大幅提高在复杂环境下噪声抑制性能和语音识别的准确率。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种基于双麦克风信号采集系统的语音检测和增强方法,该方法可以根据环境噪声的变化进行阈值自动更新并大幅提高复杂噪声场景下语音识别的准确率。为了达到上述目的,本专利技术提供了如下技术方案。一种新型双麦克风语音检测与增强方法,其包括以下步骤:步骤一,载入当前帧数据,所述当前帧数据为时域内语音数据;步骤二,将所述时域内语音数据通过快速傅立叶变换(FFT)转换为频域内语音数据,对应第n个时间帧,所述时域内语音数据简记为【ym((n-1)Lw+1),ym((n-1)Lw+2),…,ym(nLw)】,m=1,2,其中m代表两个麦克风的标号,Lw为一个语音帧周期内数据的采样个数;FFT变换后的所述频域内语音数据简记为Ym(n,k),m=1,2,其中n代表时间帧坐标,k代表频带坐标;步骤三,将所述时域内语音数据的当前时间帧长度与听觉特征缓冲区的长度进行对比,若所述当前时间帧长度小于所述听觉特征缓冲区的长度,则进行步骤四,若所述当前时间帧长度大于等于所述听觉特征缓冲区的长度,则直接进入步骤五;步骤四,初始化参数,所述参数包括观测信号功率谱密度、噪音功率谱密度、语音频谱估计值、先验信噪比特征、谱通量特征、时域特征,若干所述观测信号功率谱密度组成观测信号功率谱密度矩阵,将所述先验信噪比特征初始化为1,如果完成初始化则进行步骤八,如果未完成初始化则进行步骤五;步骤五,更新所述观测信号功率谱密度组成的观测信号功率谱密度矩阵,采用一阶前向回归系数进行平滑,即结合所述当前帧的所述观测信号功率谱密度对初始所述观测信号功率谱密度矩阵进行更新获得新的所述观测信号功率谱密度矩阵;QUOTE公式一其中,为取值区间为0~1的平滑因子,上标‘*’为共轭算子,QUOTE是所述观测信号功率谱密度矩阵,QUOTE是用于语音检测的噪音功率谱密度矩阵,用以检测语音是否存在,由于初始化阶段假设语音不存在,观测信号就是环境噪声,所以初始化阶段等于QUOTE,QUOTE是用于语音增强的所述噪音功率谱密度矩阵,精度比QUOTE更高,同样在初始化阶段初始为QUOTE,QUOTE是语音频域估计值,在步骤四的初始化参数阶段设置为所述频域内语音数据QUOTE以一个远小于1的正数衰减因子QUOTE;步骤六,计算所述当前帧数据的所述谱通量特征和时域特征,所述先验信噪比特征、谱通量特征和时域特征组成听觉特征,所述听觉特征用于语音检测判决;QUOTE公式二T=(n-1)LWQUOTE公式三所述先验信噪比特征用F1表示,在初始化阶段设置为QUOTE,F2代表所述谱通量特征,代表前后帧语音频谱估计差异的平均值,由于环境噪音通常平稳且变化不大,而语音则变化较大,F2的大小可以用以检测语音是否存在,F3代表所述时域特征,计算所述时域内语音数据在时域相差若干采样点时的平均差异值,差异越大,说明语音出现的概率越大,T代表计算所述时域内语音数据的初始采样点坐标;步骤七,更新所述听觉特征缓冲区和语音初步检测缓冲区,所述听觉特征缓冲区存储在听觉特征缓冲区矩阵中,所述听觉特征缓冲区矩阵共有LB列,LB为大于1的正整数,每列所述听觉特征缓冲区矩阵记录了一组所述听觉特征,所述当前帧的最新所述听觉特征计算完毕后,即步骤六的计算结果,将步骤六的计算结果存入所述听觉特征缓冲区矩阵的最后一列,并移除所述听觉特征缓冲区矩阵的第一列的所述听觉特征数据,从而形成新的所述听觉特征缓冲区矩阵,所述语音初步检测缓冲区存储在语音初步检测缓冲区矩阵中,所述语音初步检测缓冲区矩阵的列数与所述听觉特征缓冲区矩阵的列数相同,所述语音初步检测缓冲区的更新方法与所述听觉特征缓冲区的更新方法相同,每列所述语音初步检测缓冲区矩阵记录了一组所述初步的语音活动检测结果,所述当前帧的最新所述语音初步检测结果存入所述语音初步检测缓冲区矩阵的最后一列,并移除所述语音初步检测缓冲区矩阵的第一列的所述语音初步检测结果从而形成新的所述语音初步检测缓冲区矩阵;QUOTE公式四QUOTE公式五BF代表所述听觉特征缓冲区,所述听觉特征缓冲区存储在所述听觉特征缓冲区矩阵中,所述听觉特征缓冲区矩阵共有LB列,是一个维度为LB×3的二维矩阵,每列记录一组3维所述听觉特征,所述听觉特征缓冲区存储了最新的LB帧听觉特征。当前帧听觉特征计算完毕后,放入该缓冲区矩阵的最后一列,并移除历史最久的即第一列数据。公式四表示,更新后的听觉特征缓冲区由原缓冲区去除第一列并加上最新的听觉特征构成,QUOTE代表所述听觉特征阈值,Max表示取所述听觉特征缓冲区中的最大值;步骤八,更新所述观测信号功率谱密度矩阵,并计算各频带所述先验信噪比特征;QUOTE公式六QUOTE公式七QUOTE公式八其中,平滑系数QUOTE为取值区间为0~1的平滑因子,上标‘*’为共本文档来自技高网
...
一种新型双麦克风语音检测和增强方法

【技术保护点】
一种新型双麦克风语音检测与增强方法,其包括以下步骤:步骤一,载入当前帧数据,所述当前帧数据为时域内语音数据;步二,将所述时域内语音数据通过快速傅立叶变换(FFT)转换为频域内语音数据,对应第n个时间帧,所述时域内语音数据简记为【ym((n‑1)Lw+1), ym((n‑1)Lw+2),…, ym(nLw)】,m=1,2,其中m代表两个麦克风的标号,Lw为一个语音帧周期内数据的采样个数;FFT变换后的所述频域内语音数据简记为Ym(n,k), m=1,2,其中n代表时间帧坐标,k代表频带坐标;步骤三,将所述时域内语音数据的当前时间帧长度与听觉特征缓冲区的长度进行对比,若所述当前时间帧长度小于所述听觉特征缓冲区的长度,则进行步骤四,若所述当前时间帧长度大于等于所述听觉特征缓冲区的长度,则直接进入步骤五;步骤四,初始化参数,所述参数包括观测信号功率谱密度、噪音功率谱密度、语音频谱估计值、先验信噪比特征、谱通量特征、时域特征,若干所述观测信号功率谱密度组成观测信号功率谱密度矩阵,将所述先验信噪比特征初始化为1,如果完成初始化则进行步骤八,如果未完成初始化则进行步骤五;步骤五,更新所述观测信号功率谱密度组成的观测信号功率谱密度矩阵,采用一阶前向回归系数进行平滑,即结合所述当前帧的所述观测信号功率谱密度对初始所述观测信号功率谱密度矩阵进行更新获得新的所述观测信号功率谱密度矩阵;步骤六,计算所述当前帧数据的所述谱通量特征和时域特征,所述先验信噪比特征、谱通量特征和时域特征组成听觉特征,所述听觉特征用于语音检测判决;步骤七,更新所述听觉特征缓冲区和语音初步检测缓冲区,所述听觉特征缓冲区存储在听觉特征缓冲区矩阵中,所述听觉特征缓冲区矩阵共有LB列,LB为大于1的正整数,每列所述听觉特征缓冲区矩阵记录了一组所述听觉特征,所述当前帧的最新所述听觉特征计算完毕后,即步骤六的计算结果,将步骤六的计算结果存入所述听觉特征缓冲区矩阵的最后一列,并移除所述听觉特征缓冲区矩阵的第一列的所述听觉特征数据,从而形成新的所述听觉特征缓冲区矩阵,所述语音初步检测缓冲区存储在语音初步检测缓冲区矩阵中,所述语音初步检测缓冲区矩阵的列数与所述听觉特征缓冲区矩阵的列数相同,所述语音初步检测缓冲区的更新方法与所述听觉特征缓冲区的更新方法相同,每列所述语音初步检测缓冲区矩阵记录了一组所述初步的语音活动检测结果,所述当前帧的最新所述语音初步检测结果存入所述语音初步检测缓冲区矩阵的最后一列,并移除所述语音初步检测缓冲区矩阵的第一列的所述语音初步检测结果从而形成新的所述语音初步检测缓冲区矩阵;步骤八,更新所述观测信号功率谱密度矩阵,并计算各频带所述先验信噪比特征;步骤九,计算所述当前帧数据的所述听觉特征,即所述先验信噪比特征、谱通量特征和时域特征,所述先验信噪比特征不再采用固定值;步骤十,所述先验信噪比特征、谱通量特征和时域特征分别与所述先验信噪比特征、谱通量特征和时域特征的阈值进行比对,得到初步的语音活动检测结果,所述初步的语音活动检测结果形成语音初步检测缓冲区,如果有任一个特征表明出现语音,则暂时把结果标记为检测到语音,否则则标记为未出现语音;步骤十一,更新听觉特征缓冲区和语音初步检测缓冲区,所述听觉特征缓冲区存储在所述听觉特征缓冲区矩阵中,所述听觉特征缓冲区矩阵共有LB列,是一个维度为LB×3的二维矩阵;步骤十二,自适应更新所述听觉特征阈值,如果所述当前帧的所述听觉特征的最小值大于当前帧的所述听觉特征阈值,则把所述最小值设置为新的所述听觉特征阈值,否则所述听觉特征阈值不变;步骤十三,更新噪音功率谱密度矩阵和阈值重设标志,所述阈值重设标志用以记录连续检测不到语音的帧数量,更新所述噪音功率谱密度矩阵的原则是如果检测到所述当前帧有语音信号存在则不进行更新,如果检测到所述当前帧无语音信号则进行更新;步骤十四,更新所述听觉特征阈值,在连续检测不到语音的情况下,选择当前所述听觉特征缓冲区的最大值做为新的所述听觉特征阈值,如果连续检测不到语音信号的所述当前帧数据数量大于所述听觉特征缓冲区的数量,则将所述听觉特征缓冲区所有数据的最大值设定为新的所述听觉特征阈值,如果连续检测不到语音信号的所述当前帧数据数量小于所述听觉特征缓冲区的数量,则不更新所述听觉特征阈值;步骤十五,根据所述语音初步检测缓冲区的结果修正最终语音检测结果,如果所述语音初步检测缓冲区内超过一半的所述当前帧为语音则判定为所述最终语音检测结果,否则将所述语音初步检测结果设置为所述最终语音检测结果;步骤十六,根据所述最终语音检测结果更新所述噪音功率谱密度矩阵同时更新最终的语音增强后频域结果;步骤十七,使用快速傅立叶逆变换将所述最终的增强后语音频域结果转换为最终增强后语音时域结果。...

【技术特征摘要】
1.一种新型双麦克风语音检测与增强方法,其包括以下步骤:步骤一,载入当前帧数据,所述当前帧数据为时域内语音数据;步二,将所述时域内语音数据通过快速傅立叶变换(FFT)转换为频域内语音数据,对应第n个时间帧,所述时域内语音数据简记为【ym((n-1)Lw+1),ym((n-1)Lw+2),…,ym(nLw)】,m=1,2,其中m代表两个麦克风的标号,Lw为一个语音帧周期内数据的采样个数;FFT变换后的所述频域内语音数据简记为Ym(n,k),m=1,2,其中n代表时间帧坐标,k代表频带坐标;步骤三,将所述时域内语音数据的当前时间帧长度与听觉特征缓冲区的长度进行对比,若所述当前时间帧长度小于所述听觉特征缓冲区的长度,则进行步骤四,若所述当前时间帧长度大于等于所述听觉特征缓冲区的长度,则直接进入步骤五;步骤四,初始化参数,所述参数包括观测信号功率谱密度、噪音功率谱密度、语音频谱估计值、先验信噪比特征、谱通量特征、时域特征,若干所述观测信号功率谱密度组成观测信号功率谱密度矩阵,将所述先验信噪比特征初始化为1,如果完成初始化则进行步骤八,如果未完成初始化则进行步骤五;步骤五,更新所述观测信号功率谱密度组成的观测信号功率谱密度矩阵,采用一阶前向回归系数进行平滑,即结合所述当前帧的所述观测信号功率谱密度对初始所述观测信号功率谱密度矩阵进行更新获得新的所述观测信号功率谱密度矩阵;步骤六,计算所述当前帧数据的所述谱通量特征和时域特征,所述先验信噪比特征、谱通量特征和时域特征组成听觉特征,所述听觉特征用于语音检测判决;步骤七,更新所述听觉特征缓冲区和语音初步检测缓冲区,所述听觉特征缓冲区存储在听觉特征缓冲区矩阵中,所述听觉特征缓冲区矩阵共有LB列,LB为大于1的正整数,每列所述听觉特征缓冲区矩阵记录了一组所述听觉特征,所述当前帧的最新所述听觉特征计算完毕后,即步骤六的计算结果,将步骤六的计算结果存入所述听觉特征缓冲区矩阵的最后一列,并移除所述听觉特征缓冲区矩阵的第一列的所述听觉特征数据,从而形成新的所述听觉特征缓冲区矩阵,所述语音初步检测缓冲区存储在语音初步检测缓冲区矩阵中,所述语音初步检测缓冲区矩阵的列数与所述听觉特征缓冲区矩阵的列数相同,所述语音初步检测缓冲区的更新方法与所述听觉特征缓冲区的更新方法相同,每列所述语音初步检测缓冲区矩阵记录了一组所述初步的语音活动检测结果,所述当前帧的最新所述语音初步检测结果存入所述语音初步检测缓冲区矩阵的最后一列,并移除所述语音初步检测缓冲区矩阵的第一列的所述语音初步检测结果从而形成新的所述语音初步检测缓冲区矩阵;步骤八,更新所述观测信号功率谱密度矩阵,并计算各频带所述先验信噪比特征;步骤九,计算所述当前帧数据的所述听觉特征,即所述先验信噪比特征、谱通量特征和时域特征...

【专利技术属性】
技术研发人员:何云鹏高君效张来许兵
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1