当前位置: 首页 > 专利查询>清华大学专利>正文

一种门限自适应的语音检测系统技术方案

技术编号:3046616 阅读:243 留言:0更新日期:2012-04-11 18:40
一种门限自适应的语音检测系统,采用模糊聚类和贝叶斯信息准则,该语音检测系统包括:    一个语音采集装置,用于采集说话者的语音信号;    一个录音缓存装置,用于将从上述语音采集装置中接收的最近录音数据缓存;    一个能量特征提取装置,用于对上述录音缓存装置中存储的输入语音信号进行能量特征提取;    一个模糊聚类装置,用于对上述录音缓存装置中存储的录音数据进行模糊聚类;    一个贝叶斯信息准则装置,用于对经所述模糊聚类装置处理后的数据进行聚类结果后处理;    一个门限估计装置,用于根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新;    一个逐帧比较装置,用于根据能量特征提取装置及门限估计装置的处理结果,对每帧的能量和门限进行比较,得到分帧检测的结果;    一个平滑装置,用于把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种门限自适应的语音检测系统,尤其是涉及一种基于模糊聚类的语音检测系统。
技术介绍
语音是未来用户界面的主流。实用的语音信号处理系统必须能够在千差万别的声学环境中稳健地运行。语音检测是语音信号处理中比较重要的一部分,其稳健性将极大地影响后续的语音识别和语音编码的性能。基于门限的语音检测算法逐帧求取语音检测特征,然后把特征的数值和门限进行比较,最后将得到的帧判决结果平滑。门限对于最后的检测结果是至关重要的,过高或者过低的门限都无法给出正确的检测结果。对于能量特征来说,采用固定门限的方法是不可取的,因为语音识别系统在不同的环境下使用会有不同的背景噪声,用户录音的音量和信噪比也会不一样,因此需要在使用时在线实时的计算语音检测门限。已有的语音检测门限估计算法的研究主要集中在以下的三个方面1.基于无声段的门限估计算法,这种门限估计算法需要在识别的开始阶段录制环境噪声,然后由环境噪声的平均能量加上一个域值估计检测的高低门限。这种方法物理意义明确,能量高于无声段平均能量一定程度的即为语音,实现简单,计算量小,而且在高信噪比环境下可以得到好的检测结果。但是这种方法需要初始化的无声段。对于真正的实用系统,这是一个比较严格的要求。而且这种方法估计的门限值是固定不变的,因此不适合非平稳的背景噪声情况。2.基于能量直方图的门限估计算法,利用能量分布直方图确定语音检测的门限。对于一段录音,计算每帧的能量,然后根据所有的帧能量求取分布直方图,然后由直方图的峰值确定背景噪声和语音的平均能量。基于能量直方图的门限估计算法比基于初始化无声段的门限估计方法要稳健,因为它从直方图的峰值获得门限。没有纯无声段的要求,对包含少量语音的录音段仍然可以正确估计门限。但是准确的估计直方图需要比较多的录音帧,数据量少时统计不充分,得到的直方图不具有代表性。而且估计的直方图和选取的区间个数相关。如果有少量的野点,就会使能量的动态范围增大,从而使区间的精度降低,导致估计粗糙。3.基于一阶自回归的门限估计算法,利用当前门限和新的帧能量的线性组合估计新的门限。当前门限和当前能量的线性组合计算新的门限。这种方法可以动态地更新门限,处理背景噪声能量非平稳的情况,但是更新门限依赖于当前的检测,如果检测错误,可能会导致更新错误,而且更新门限的速度比较慢。从上面的方法来看,这几种门限估计算法都还有需要改进的地方。
技术实现思路
本专利技术的专利技术目的就是克服上述缺陷,提供一种能够对任何的录音段估计检测门限的语音门限估计装置。这样在非平稳背景环境下,可以在检测的过程中每隔一段时间,用最近录制的几秒的数据来估计新的门限用于后续检测。只有对任何录音段都能够正确的估计门限,不需要依赖于上次检测的结果,才不会由于上次的检测错误导致更新门限错误。为达到上述目的,本专利技术是这样实现的本专利技术采用模糊聚类和贝叶斯信息准则,该语音检测系统包括一种门限自适应的语音检测系统,采用模糊聚类和贝叶斯信息准则,该语音检测系统包括一个语音采集装置,用于采集说话者的语音信号;一个录音缓存装置,用于将从上述语音采集装置中接收的最近录音数据缓存;一个能量特征提取装置,用于对上述录音缓存装置中存储的输入语音信号进行能量特征提取;一个模糊聚类装置,用于对上述录音缓存装置中存储的录音数据进行模糊聚类;一个贝叶斯信息准则装置,用于对经所述模糊聚类装置处理后的数据进行聚类结果后处理;一个门限估计装置,用于根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新;一个逐帧比较装置,用于根据能量特征提取装置及门限估计装置的处理结果,对每帧的能量和门限进行比较,得到分帧检测的结果;一个平滑装置,用于把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。作为一种优选方案,其中门限估计装置采用基于模糊聚类和贝叶斯信息准则的稳健门限估计算法。作为一种优选方案,其中对于一段录音,将所有的帧能量通过模糊聚类算法来组织成一类和两类,由贝叶斯信息准则决定最佳的分类数目。其中如果最佳分类数目为一类,说明该段录音只包含无声段,可以用所有帧的平均能量作为无声段平均能量的估计值。其中如果最佳分类数目为二类,说明该段录音既包含无声段又包含语音,可以用这两类的类中心作为无声段平均能量和语音平均能量的估计值。其中这两个所述的估计值可以共同的决定语音检测的门限。从上面的说明可以看出,本专利技术具有很好的稳健性,能够找到合适介于无声段平均能量和语音平均能量中间的检测门限,从而同时取得比较高的语音检测率和背景噪声检测率。此外,专利技术不需要初始化的无声段,而且能够快速的跟踪背景噪声的变化,在平稳和非平稳背景环境下都可以很好的工作,具有很大的推广和应用价值。附图说明图1为本专利技术实施例的总体流程框图;图2为模糊聚类算法的流程图;图3为本专利技术语音检测部分的工作流程图。具体实施例方式以下结合附图和具体实施例对本专利技术做进一步的阐述如图1所示,在该语音检测系统中,采用模糊聚类和贝叶斯信息准则,首先由一个语音采集装置采集说话者的语音信号,接着由一个录音缓存装置将从上述语音采集装置中接收的最近录音数据缓存,然后在一个能量特征提取装置中对上述录音缓存装置中存储的输入语音信号进行能量特征提取,同时由一个模糊聚类装置对上述录音缓存装置中存储的录音数据进行模糊聚类,接着由一个贝叶斯信息准则装置对经所述模糊聚类装置处理后的数据进行聚类结果后处理,并通过一个门限估计装置根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新,还有,通过一个逐帧比较装置,用于根据能量特征提取装置及门限估计装置的处理结果,对每帧的能量和门限进行比较,得到分帧检测的结果,接着由一个平滑装置把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。作为一种优选方案,其中门限估计装置采用基于模糊聚类和贝叶斯信息准则的稳健门限估计算法。具体来说,对于一段录音,将所有的帧能量通过模糊聚类算法来组织成一类和两类,由贝叶斯信息准则决定最佳的分类数目。其中如果最佳分类数目为一类,说明该段录音只包含无声段,可以用所有帧的平均能量作为无声段平均能量的估计值。其中如果最佳分类数目为二类,说明该段录音既包含无声段又包含语音,可以用这两类的类中心作为无声段平均能量和语音平均能量的估计值。其中这两个所述的估计值可以共同的决定语音检测的门限。门限的估计和更新是由模糊聚类装置,贝叶斯信息准则装置,门限估计装置共同完成的。模糊聚类装置用于对最近的录音数据进行模糊聚类,贝叶斯信息准则装置进行聚类结果的后处理,门限估计装置根据模糊聚类和贝叶斯信息准则的结果进行在线的检测门限更新。我们详细的介绍这部分的工作。如图2所示,整个算法的原理是利用聚类算法得到语音的平均能量和背景噪声的平均能量,在二者都有的时候用它们共同确定门限,对没有语音的录音段利用无声段的平均能量估计门限。其结构是对于一段录音,将所有的帧能量通过模糊聚类算法来组织成一类(C=1)和两类(C=1),由贝叶斯信息值BIC(1)和BIC(2)决定最佳的分类数目Cbest。如果最佳分类数目Cbest为一类,说明该段录音只包含无声段,可以用m1,1作为无声段平均能量的估计。如果最佳分类数目为二类,说明该段录音既包含无声段又包含语音,可以用这两类的类中心Msilen本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种门限自适应的语音检测系统,采用模糊聚类和贝叶斯信息准则,该语音检测系统包括一个语音采集装置,用于采集说话者的语音信号;一个录音缓存装置,用于将从上述语音采集装置中接收的最近录音数据缓存;一个能量特征提取装置,用于对上述录音缓存装置中存储的输入语音信号进行能量特征提取;一个模糊聚类装置,用于对上述录音缓存装置中存储的录音数据进行模糊聚类;一个贝叶斯信息准则装置,用于对经所述模糊聚类装置处理后的数据进行聚类结果后处理;一个门限估计装置,用于根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新;一个逐帧比较装置,用于根据能量特征提取装置及门限估计装置的处理结果,对每帧的能量和门限进行比较,得到分帧检测的结果;一个平滑装置,用于把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测...

【专利技术属性】
技术研发人员:吴及王作英田野
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1