语音端点的检测方法和装置制造方法及图纸

技术编号:10145388 阅读:110 留言:0更新日期:2014-06-30 15:30
本发明专利技术提供了一种语音端点的检测方法和装置,所述方法包括:对待检测信号进行分帧处理得到信号帧序列;对于每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值;根据所有信号帧的起始点判断特征值设定起始点判决门限后确定语音起始帧;根据语音起始帧之前的噪音帧建立噪音模型,计算语音起始帧之后的每个信号帧与语音起始帧之前的噪音帧的差异度;对于每个语音起始帧之后的信号帧,根据其低频能量、中频能量以及计算获取的差异度,计算终止点判断特征值;根据语音起始帧之后信号帧的终止点判断特征值设定终止点判决门限后确定语音终止帧。使用本发明专利技术能提高语音端点检测的准确率。

【技术实现步骤摘要】
语音端点的检测方法和装置
本专利技术涉及语音识别
,尤其涉及一种语音端点的检测方法和装置。
技术介绍
语音端点检测(VoiceActivityDetection,VAD),其目的是从包含语音的信号中,分辨出语音信号和非语音信号,并准确地确定语音段的起始点和终止点。语音端点检测技术常用在语音识别系统中,用来排除非语音段对语音识别的干扰,提高识别效率和识别准确率。如果端点检测不准确,比如将非语音段判断为语音段,会造成语音识别系统将一些非语音段作为语音段进行处理,生成错误的识别结果;而另外一种情况,如果将某些语音段判断为非语音段,则会造成识别出的文字遗漏。现有的语音端点检测方法中,首先将要检测的信号进行分帧处理,比如每30ms作为一帧,从而得到帧序列;然后对每帧信号提取特征值,该特征值可以是短时能量、即该帧信号的波形幅值大小,也可以是短时过零率、即该帧信号的波形穿过零电平的次数;根据该特征值计算出一个阈值,将每一帧的特征值与阈值进行比较,将其特征值超过阈值的帧标定为语音帧,而其特征值低于阈值的帧标定为非语音帧;根据所有帧的标定状态确定语音端点,例如,将帧序列中第一个标记为语音帧的信号帧确定为语音起始帧,最后一个标记为语音帧的信号帧确定为语音终止帧。但是现有技术中,以短时能量或者短时过零率为特征值并设置阈值的方式,存在语音端点检测精确率低的问题。
技术实现思路
本专利技术的实施例提供的语音端点的检测方法和装置,能够解决现有技术中语音端点检测精确率低的问题。第一方面,本专利技术实施例提供了语音端点的检测装置,所述装置包括:分帧单元,用于对接收到的待检测信号进行分帧处理,得到信号帧序列;计算单元,用于对所述分帧单元得到的所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;确定单元,用于根据计算单元计算得到的所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;噪音模型建立单元,用于根据所述信号帧序列中在所述确定单元确定的所述语音起始帧之前的所有噪音帧建立噪音模型;所述计算单元,还用于根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;所述计算单元,还用于对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算单元计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量中的较大值成正比;所述确定单元,还用于根据所述计算单元计算得到的所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。在第一方面的第一种可能的实现方式中,所述确定单元包括:第一计算模块,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;第一确定模块,用于在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;所述第一确定模块,还用于在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;所述第一计算模块,还用于根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值计算起始点判决门限;所述第一确定模块,还用于在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。结合第一方面或第一方面的第一可能的实现方式,在第二种可能的实现方式中,所述噪音模型建立单元包括:获取模块,用于获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;构造模块,用于构造噪音模型描述函数;计算模块,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定单元包括:第二计算模块,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;第二确定模块,用于在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;所述第二确定模块,还用于在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;所述第二计算模块,还用于根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值计算终止点判决门限;所述第二确定模块,还用于在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。第二方面,本专利技术实施例提供了语音端点的检测方法,所述方法包括:对接收到的待检测信号进行分帧处理,得到信号帧序列;对于所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;根据所述信号帧序列中在所述语音起始帧之前的所有噪音帧建立噪音模型,并根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量的较大值成正比;根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。在第二方面的第一种可能的实现方式中,所述根据所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧具体为:根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;在所述信号帧序列中确定第本文档来自技高网...
语音端点的检测方法和装置

【技术保护点】
一种语音端点的检测装置,其特征在于,所述装置包括:分帧单元,用于对接收到的待检测信号进行分帧处理,得到信号帧序列;计算单元,用于对所述分帧单元得到的所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;确定单元,用于根据计算单元计算得到的所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;噪音模型建立单元,用于根据所述信号帧序列中在所述确定单元确定的所述语音起始帧之前的所有噪音帧建立噪音模型;所述计算单元,还用于根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;所述计算单元,还用于对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算单元计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量中的较大值成正比;所述确定单元,还用于根据所述计算单元计算得到的所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。...

【技术特征摘要】
1.一种语音端点的检测装置,其特征在于,所述装置包括:分帧单元,用于对接收到的待检测信号进行分帧处理,得到信号帧序列;计算单元,用于对所述分帧单元得到的所述信号帧序列中的每个信号帧,获取其低频能量、中频能量以及全频能量后计算起始点判断特征值,所述起始点判断特征值与所述低频能量和所述中频能量的比值成正比、与所述全频能量成正比;确定单元,用于根据计算单元计算得到的所述信号帧序列中的所有信号帧的起始点判断特征值设定起始点判决门限,并根据所述信号帧序列中的所有信号帧的起始点判断特征值以及所述起始点判决门限确定语音起始帧;噪音模型建立单元,用于根据所述信号帧序列中在所述确定单元确定的所述语音起始帧之前的所有噪音帧建立噪音模型;所述计算单元,还用于根据所述噪音模型,计算所述信号帧序列中在所述语音起始帧之后的每个信号帧与所述语音起始帧之前的噪音帧的差异度;所述计算单元,还用于对于所述信号帧序列中在所述语音起始帧之后的每个信号帧,根据其低频能量、中频能量以及所述计算单元计算得到的差异度,计算终止点判断特征值,所述终止点判断特征值与所述差异度成正比、与所述低频能量和中频能量中的较大值成正比;所述确定单元,还用于根据所述计算单元计算得到的所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值设定终止点判决门限,并根据所述信号帧序列中在所述语音起始帧之后所有信号帧的终止点判断特征值以及所述终止点判决门限确定语音终止帧。2.根据权利要求1所述的装置,其特征在于,所述确定单元包括:第一计算模块,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值;第一确定模块,用于在所述信号帧序列中确定第一个陡峭上升帧,所述第一个陡峭上升帧是其起始点判断特征值与其前一帧的起始点判断特征值的差值大于所述陡峭上升沿判断阈值且距离所述信号帧序列中的第一个信号帧最近的信号帧;所述第一确定模块,还用于在所述信号帧序列中确定第一坡底帧,所述第一坡底帧是所述第一个陡峭上升帧之前其起始点判断特征值小于其前一帧和后一帧的起始点判断特征值且距离所述第一个陡峭上升帧最近的信号帧;所述第一计算模块,还用于根据所述信号帧序列中在所述第一坡底帧之前的信号帧的起始点判断特征值计算起始点判决门限;所述第一确定模块,还用于在所述信号帧序列中确定语音起始帧,所述语音起始帧是所述第一坡底帧之后第一个其起始点判断特征值大于所述起始点判决门限的信号帧。3.根据权利要求2所述的装置,其特征在于,所述第一计算模块,用于根据所述信号帧序列中所有信号帧的起始点判断特征值计算陡峭上升沿判断阈值具体包括:所述第一计算模块,用于根据公式计算陡峭上升沿判断阈值,其中,ai为所述信号帧序列中第i个信号帧的起始点判断特征值,ai+1为所述信号帧序列中第i+1个信号帧的起始点判断特征值,n为所述信号帧序列包含的信号帧的个数,β为预设定的放大系数。4.根据权利要求2所述的装置,其特征在于,所述第一计算模块,用于根据所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值计算起始点判决门限具体包括:所述第一计算模块,用于计算所述信号帧序列中在所述第一坡底帧之前信号帧的起始点判断特征值的平均值st后,根据公式c×st计算起始点判决门限,其中,c为预设定的放大系数。5.根据权利要求1-4任一所述的装置,其特征在于,所述噪音模型建立单元包括:获取模块,用于获取头部噪音帧的倒谱特征系数值,所述头部噪音帧为所述信号帧序列中在所述语音起始帧之前的所有噪音帧;构造模块,用于构造噪音模型描述函数;计算模块,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数。6.根据权利要求5所述的装置,其特征在于,所述构造模块,用于构造噪音模型描述函数具体包括:所述构造模块,用于构造噪音模型描述函数其中,所述噪音模型描述函数的输入参数bi为第i个待计算信号帧的倒谱特征系数值,输出px(i)为所述第i个待计算信号帧与所述头部噪音帧的差异度,常量参数为单高斯模型均值,常量参数为单高斯模型方差;所述计算模块,用于根据所述头部噪音帧的倒谱特征系数值计算所述噪音模型描述函数的参数具体包括:所述计算模块,用于根据公式计算常量参数和其中,aj为第j个头部噪音帧的倒谱特征系数值,m为所述头部噪音帧的个数。7.根据权利要求1所述的装置,其特征在于,所述确定单元包括:第二计算模块,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值;第二确定模块,用于在所述信号帧序列中确定备选语音终止帧,所述备选语音终止帧是其终止点判断特征值大于所述语音终止帧判断阈值且距离所述信号帧序列中的最后一个信号帧最近的信号帧;所述第二确定模块,还用于在所述信号帧序列中确定第二坡底帧,所述第二坡底帧是所述备选语音终止帧之后第一个其终止点判断特征值小于其前一帧和后一帧的终止点判断特征值的信号帧;所述第二计算模块,还用于根据所述信号帧序列中在所述第二坡底帧之后信号帧的终止点判断特征值计算终止点判决门限;所述第二确定模块,还用于在所述信号帧序列中确定语音终止帧,所述语音终止帧是所述第二坡底帧之前其终止点判断特征值大于所述终止点判决门限且距离所述第二坡底帧最近的信号帧。8.根据权利要求7所述的装置,其特征在于,所述第二计算模块,用于根据所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值计算语音终止帧判断阈值具体包括:所述第二计算模块,用于获得所述信号帧序列中在所述语音起始帧之后的所有信号帧的终止点判断特征值的平均值vt后,计算语音终止帧判断阈值k×vt,其中k为指定的放大系数。9.根据权利要求7所述的装置,其特征在于,所述第二计算模块,用于根据所述信号帧序列中在所述第二坡底帧...

【专利技术属性】
技术研发人员:吴丽丽
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1