一种应用于语音识别的信号增益方法和装置制造方法及图纸

技术编号:13601583 阅读:51 留言:0更新日期:2016-08-27 17:18
本发明专利技术提供一种应用于语音识别的信号增益方法和装置,以在对语音信号放大时防止过载失真,提高语音识别的准确率。所述方法包括:删除经过预处理后的语音信号中的无话段,得到第一语音信号;求取第一语音信号中每帧信号存在语音的概率PRatio;修正第一语音信号的增益,使概率PRatio小于第一判决门限的信号的增益减小并且概率PRatio大于第一判决门限的信号的增益增大,得到增益修正后的第二语音信号;限制第二语音信号的增益,使其小于系统设定的增益极值。本发明专利技术提供的技术方案可防止后期语音识别时语音识别引擎工作的中止,提高语音识别的有效性,有效提高后期语音识别的准确率,并防止语音识别过程中过载失真情况的发生。

【技术实现步骤摘要】

本专利技术属于语音识别领域,尤其涉及一种应用于语音识别的信号增益方法和装置
技术介绍
自动增益控制是数字接收端重要的组成部分,其功能是针对输入信号的强弱自动调整增益,得到符合期望的信号强度输出结果,使得对不同强度的信号,输出信号的差距缩小。在语音识别前处理阶段,远程拾音的过程中,自动增益控制的目标是从接收到的语音中提取出感兴趣的信号,尽可能地对语音信号进行增强,同时削弱噪声对识别结果的影响。与一般的对话系统不同,针对语音识别的自动增益控制系统,其输出结果并不以获得满意的听觉效果为目标,而是要针对语音识别的特性,尽可能地保证目标语音无失真地放大。然而,在语音识别领域,现有的增益控制方法无法达到上述效果,主要原因在于没有对语音信号进行差别化处理。
技术实现思路
本专利技术的目的在于提供一种应用于语音识别的信号增益方法和装置,以在对语音信号放大时防止过载失真,提高语音识别的准确率。本专利技术第一方面提供一种应用于语音识别的信号增益方法,所述方法包括:删除经过预处理后的语音信号中的无话段,得到第一语音信号;求取所述第一语音信号中每帧信号存在语音的概率PRatio;修正所述第一语音信号的增益,使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大,得到增益修正后的第二语音信号;限制所述第二语音信号的增益,使其小于系统设定的增益极值。本专利技术第二方面提供一种应用于语音识别的信号增益装置,所述装置包括:话段处理模块,用于删除经过预处理后的语音信号中的无话段,得到第一语音信号;语音存在概率求取模块,用于求取所述第一语音信号中每帧信号存在语音的概率PRatio;增益修正模块,用于修正所述第一语音信号的增益,使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大,得到增益修正后的第二语音信号;增益控制模块,用于限制所述第二语音信号的增益,使其小于系统设定的增益极值。从上述本专利技术技术方案可知,一方面,由于在控制增益的前期首先对经过预处理后的语音信号中的无话段进行了删除,后期的处理只针对有话段的语音信号,如此,可防止后期语音识别时语音识别引擎工作的中止,提高语音识别的有效性;另一方面,对语音存在概率较高的信号和语音存在概率较低的信号分别进行增益增强和增益抑制,如此,可以进一步有效提高后期语音识别的准确率;第三方面,对增益增强和抑制的信号的增益进行一定程度的限制,可以防止语音识别过程中过载失真情况的发生。附图说明图1是本专利技术实施例一提供的应用于语音识别的信号增益方法的实现流程示意图;图2是本专利技术实施例二提供的应用于语音识别的信号增益装置的结构示意图;图3是本专利技术实施例三提供的应用于语音识别的信号增益装置的结构示意图;图4是本专利技术实施例四提供的应用于语音识别的信号增益装置的结构示意图;图5-a是本专利技术实施例五提供的应用于语音识别的信号增益装置的结构示意图;图5-b是本专利技术实施例六提供的应用于语音识别的信号增益装置的结构示意图;图5-c是本专利技术实施例七提供的应用于语音识别的信号增益装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供一种应用于语音识别的信号增益方法和装置,所述方法包括:删除经过预处理后的语音信号中的无话段,得到第一语音信号;求取所述第一语音信号中每帧信号存在语音的概率PRatio;修正所述第一语音信号的增益,使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大,得到增益修正后的第二语音
信号;限制所述第二语音信号的增益,使其小于系统设定的增益极值。本专利技术实施例还提供相应的应用于语音识别的信号增益装置。以下分别进行详细说明。请参阅附图1,是本专利技术实施例一提供的应用于语音识别的信号增益方法的实现流程示意图,主要包括以下步骤S101至步骤S104,详细说明如下:S101,删除经过预处理后的语音信号中的无话段,得到第一语音信号。语音信号包含有话段和无话段,有话段和无话段的检测对语音识别的意义重大;当将有话段和无话段检测出来之后,删除无话段的部分,对剩下的有话段语音部分进行增益等处理,可以提高语音识别的准确率。在本专利技术实施例中,对语音信号的预处理主要是包括对语音信号进行回声抑制和噪声的消除。作为本专利技术一个实施例,删除经过预处理后的语音信号中的无话段,得到第一语音信号可以通过如下步骤S1011和步骤S1012实现:S1011,采用倒谱双门限端点检测算法检测经过预处理后的语音信号中的无话段和有话段。在采用倒谱双门限端点检测算法检测之前,可以对经过预处理后的语音信号进行预加重、分帧、加窗处理,并进行快速傅里叶变换和计算语音信号的能量谱。具体地,采用倒谱双门限端点检测算法检测经过预处理后的语音信号中的无话段和有话段可以包括如下步骤S1至S3:S1,计算预处理后的语音信号中每帧信号的倒谱系数与噪声倒谱系数估计值的倒谱距离公式中,p为Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)的阶,mci(n)为第i帧信号的离散余弦变换(Discrete Cosine Transform,DCT)倒谱系数,可通过计算通过Mel滤波器的能量得到,而mcns(n)为噪声的DCT倒谱系数初始估计值。在本专利技术实施例
中,对于第i帧信号,可通过取第i帧信号之前的5帧信号的MFCC的均值作为噪声的DCT倒谱系数初始估计值mcns(n)。S2,采用第二判决门限,将倒谱距离大于第二判决门限所对应的信号帧确定为基本语音段的粗略起始端点和结束端点。S3,采用第三判决门限,将所述基本语音段中倒谱距离大于所述第三判决门限的信号帧确定为语音段的起始端点和结束端点。需要说明的是,在本专利技术实施例中,由于步骤S2是粗略判决,S3是精确判决,因此,第三判决门限小于第二判决门限。例如,若以σ2表示第二判决门限,以σ3表示第三判决门限,则两者的关系可以是σ3=0.2σ2。步骤S3之后,基本上可以确定语音信号中语音段的起始端点和结束端点。S1012,对预处理后的语音信号中的无话段进行截除或置零。在经过步骤S3之后,也就是确定了语音信号中语音段的起始端点和结束端点,语音信号的其余部分就是无话段部分了,对这些无话段部分,可以进行截除或置零,剩下的部分就是语音信号的语音段部分。S102,求取第一语音信号中每帧信号存在语音的概率PRatio。虽然经过步骤S101,已经删除了无话段,但是并不意味着每帧信号都存在语音。因此,在本专利技术实施例中,可以通过求取第一语音信号中每帧信号存在语音的概率PRatio,然后,对存在语音概率较高的部分和存在语音概率较低的部分差别化处理。作为本专利技术一个实施例,求取第一语音信号中每帧信号存在语音的概率PRatio可通过如下步骤S1021和步骤S1022实现:S1021,通过对第一语音信号中每帧信号的均值进行标准化处理,计算得到每帧信号的均值mS、所述第一语音信本文档来自技高网
...

【技术保护点】
一种应用于语音识别的信号增益方法,其特征在于,所述方法包括:删除经过预处理后的语音信号中的无话段,得到第一语音信号;求取所述第一语音信号中每帧信号存在语音的概率PRatio;修正所述第一语音信号的增益,使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大,得到增益修正后的第二语音信号;限制所述第二语音信号的增益,使其小于系统设定的增益极值。

【技术特征摘要】
1.一种应用于语音识别的信号增益方法,其特征在于,所述方法包括:删除经过预处理后的语音信号中的无话段,得到第一语音信号;求取所述第一语音信号中每帧信号存在语音的概率PRatio;修正所述第一语音信号的增益,使所述概率PRatio小于第一判决门限的信号的增益减小并且所述概率PRatio大于所述第一判决门限的信号的增益增大,得到增益修正后的第二语音信号;限制所述第二语音信号的增益,使其小于系统设定的增益极值。2.如权利要求1所述的方法,其特征在于,所述删除经过预处理后的语音信号中的无话段,得到第一语音信号,包括:采用倒谱双门限端点检测算法检测所述预处理后的语音信号中的无话段和有话段;对所述预处理后的语音信号中的无话段进行截除或置零。3.如权利要求2所述的方法,其特征在于,所述采用倒谱双门限端点检测算法检测所述预处理后的语音信号中的无话段和有话段,包括:计算所述预处理后的语音信号中每帧信号的倒谱系数与噪声倒谱系数估计值的倒谱距离所述mci(n)为第i帧信号的离散余弦变换DCT倒谱系数,所述mcns(n)为噪声的DCT倒谱系数初始估计值,所述p为Mel频率倒谱系数的阶;采用第二判决门限,将所述倒谱距离大于所述第二判决门限所对应的信号帧确定为基本语音段的粗略起始端点和结束端点;采用第三判决门限,将所述基本语音段中倒谱距离大于所述第三判决门限的信号帧确定为语音段的起始端点和结束端点,所述第三判决门限小于所述第
\t二判决门限。4.如权利要求1所述的方法,其特征在于,所述求取所述第一语音信号中每帧信号存在语音的概率PRatio,包括:通过对所述第一语音信号中每帧信号的均值进行标准化处理,计算得到每帧信号的均值mS、所述第一语音信号的总均值mL和每帧信号的标准差stL;按照公式PRatio=(mS-mL)/stL计算得到所述第一语音信号中每帧信号存在语音的概率PRatio。5.如权利要求1至4任意一项所述的方法,其特征在于,所述限制所述第二语音信号的增益,包括:将所述第二语音信号的幅度标准值与所述修正后的增益相乘;若相乘后的语音信号发生过载失真,则微调所述相乘后的语音信号的增益直至小于系统设定的所述增益极值。6.一种应用于语音识别的信号增益装置,其特征...

【专利技术属性】
技术研发人员:李敬源
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1